Hadoop gana competición de ordenación
jueves, julio 3, 2008 at 10:35AM El equipo de Yahoo! ha ganado la competencia anual de ordenación (sorting) de terabyte llamada Daytona. Lo relevante de este resultado es que lo han logrado usando Hadoop, la librería opensource java que implementa MapReduce.
Esta competición que se celebra desde 1998 (en la categoría Terabyte) nunca había sido ganada por un proyecto opensource ni por uno java. Vamos que con eso de que java es lento, seguro que hubo un error en el benchmark ;-) .
Este bechmark fue creado en 1998 por Jim Gray y especifica los datos de entrada (1 Terabyte) que deben ser correctamente ordenados y escritos a disco. Yahoo! ganó la competición completando la tarea en 209 segundos, para ponerlo en perspectiva el ganador del año pasado lo logró en 297 segundos,
El clúster usado por el equipo de Yahoo! constó de:
- 910 nodos
- 4 dual core Xeons @ 2.0ghz por nodo
- 4 discos SATA por nodo
- 8G RAM por nodo
- 1 gigabit ethernet en cada nodo
- 40 nodos por rack
- 8 gigabit ethernet uplinks desde cada rack al core
- Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18)
- Sun Java JDK 1.6.0_05-b13
Se usó Hadoop pre-0.18 optimizado para evitar escrituras intermedias al disco y la ordenación tomó 1800 maps y 1800 reducciones. Hadoop es una librería opensource cuyo principal contribuidor es Yahoo (debido a que la adoptaron hace ya unos años y contrataron a sus creadores), pero también es usada internamente por otros grandes jugadores como Amazon y Facebook. Este tipo de resultados en competiciones, es una muestra de la madurez de la librería y a los desarrolladores nos da la confianza de tener una herramienta poderosa totalmente opensource para realizar tareas que manejen grandes volúmenes de datos y procesamiento.
j2se 