Apache Hadoop: El sistema operativo de datos moderno

Hoy, en el marco de la última conferencia magistral del AMD Fusion 2012, el doctor Amr Awadallahm de Cloudera, habló de Apache Hadoop, que es un marco de trabajo que soporta aplicaciones para manejo intenso de datos, que funciona bajo la licencia de software libre. Hadoop permite que las aplicaciones trabajen con miles de computadoras independientes, manejando petabytes de datos (un petabyte son 1000 terabytes).

El sistema se derivó de los documentos que Google ha publicado de MapReduce y de su sistema de archivos (GFS). Hadoop es un proyecto de Apache que es sustentado por una comunidad global de programadores, escrito en Java. Yahoo! ha sido uno de sus mayores contribuyente al proyecto y lo usa extensivamente en sus servidores de datos.

Hadoop fue creado por Doug Cutting, quien bautizó así el proyecto por el nombre del elefante de juguete de su hijo. Se desarrolló originalmente para apoyar el proyecto de la distribución del motor de búsquedas Nutch.

Hadoop consiste en Hadoop Common, que da acceso a los sistemas de archivos soportados por Hadoop. Este paquete común consiste en los archivos JAR y los scripts necesarios para que corra Hadoop. El paquete contiene código fuente, documentación y una sección para contribuir que incluye los proyectos comunitarios de Hadoop.

Hadoop tiene definido un sistema distribuido de archivos (HDFS), que es escalable y portable, escrito en Java para dar soporte a todo el proyecto Hadoop. Cada nodo es una instancia que contiene un nodo de datos. Un clúster de nodos de datos forman un clúster HDFS. No todos los nodos tienen que estar presentes.

Cada nodo de datos sirve como un bloque de datos que se puede manejar por la red a través de un protocolo específico de HDFS. El sistema de archivos usa la capa TCP/IP para la comunicación. Los clientes usan RPC para comunicarse unos con otros. Esto permite la replicación de datos entre muchas máquinas porlo que no se requiere un RAID, por ejemplo. Lo importante es que HDFS fue diseñado para manejar literalmente petabytes de información, es decir, archivos muy pero muy grandes.

La plática del doctor Awadallahm prácticamente se enfocó en enseñarnos por qué Hadoop es el manejador de datos distribuidos que debe ser usado en la industria. Yahoo, Facebook y Amazon lo utilizan, amén de muchas otras empresas. De acuerdo con el conferenciante, la palabra que hay que asociar a Hadoop es ‘ágil’, que es lo que lo hace muy poderoso.

Lo que es muy interesante es que el software sea gratuito y libre. Cloudera, como otras empresas que trabajan en este nicho viven de dar soporte a quienes decidan usar Hadoop. Así, el modelo de negocios permite que la plataforma crezca sin traicionar los principios del software libre.

Referencias: Cloudera y Blog AMD