¿Cómo usa Twitter el código abierto?

Es muy probable que la mayoría de los usuarios de Twitter no tengan ni idea de lo que pasa tras bambalinas. Baste decir que nos parece natural que al entrar a esa red social sólo veamos los mensajes (tuits) de quienes tienen contacto con uno. Vaya, que cada usuario ve una página diferente de Twitter y eso es parte de la magia dse este sitio, quizás. Pero… ¿cómo funciona Twitter? He aquí algunos pormenores de acuerdo a Chris Aniszcyk, que dio una plática en CloudOpen. Sus comentarios dan una idea de cómo la tecnología de código abierto puede ser usada en medios ambientes empresariales para una infraestructura escalable. Esto sin duda será del interés del mundo empresarial.

Aniszcyk comenzó revisando las tecnologías de código abierto que usa Twitter para funcionar:

MySQL se usa intensivamente para guardar los mensajes, los tuits. La compañía desarrolló algunas partes para una versión propia de MySQL en colaboración con esta comunidad de usuarios. MySQL es un manejador de bases de datos relacionales abierta.
Cassandra, Hadoop, Lucene, Pig y una variedad de proyectos Apache son usados dentro de Twitter para proveer los servicios de análisis y búsquedas. La compañía también ha contribuido a estos proyectos. Twitter es patrocinador de la Apache Software Foundation. Cassandra es un manejador de bases de datos NoSQL. Hadoop es un sistema distribuido de archivos usado frecuentemente para bases de datos enormes y Pig es una plataforma para analizar grandes volúmenes de datos. Lucene es una tecnología de búsquedas de código abierto.
Memcached se usa de manera intensiva para el cotidiano incremento del tráfico que Twitter experimenta. La compañía acaba de poner en código abierto Twemcache, el cual se desarrolló inspirado en el código fuente base de Memcached. Este sistema ayuda a hacer más rápidas las aplicaciones web dinámicas, lo que en alguna medida alivia las dificultades de carga en la base de datos.

Twitter también desarrolla software para sus propios intereses que están disponibles a través del código abierto:

Iago en un generador de carga que fue creado para ayudar a probar los servicios que encontrarían cierta carga de tráfico
Zipkin es un sistema de monitoreo que la compañía creó para ayudar a que Twitter funcione más rápidamente
Scalding es una biblioteca de Scala que hace posible escribir tareas MapReduce en Hadoop. Scalding fue desarrollado para Cascading, un marco de trabajo diseñado para desarrolladores de Java para construir aplicaciones para grandes volúmenes de datos sobre Hadoop. Se le conoce por su habilidad de abstraer las complejidades de MapReduce y de hacer que los clusters de Hadoop sean más fáciles de manejar. MapReduce fue escrito originalmente por Google para procesar búsquedas. Scala es un lenguaje de propósito general. Expresa los patrones comunes de programación.

Facebook y Google también han abierto sus tecnologías de software. Los resultados son evidentes en las empresas. Hadoop, por ejemplo, fue desarrollado originalmente para Yahoo!. Ahora es medular en el mercado de las grandes, muy grandes bases de datos.

Referencia: Techcrunch