Twitter ya indexa cada uno de los tuits públicos

En esta era de la información, parte importante no es sólo la generación de la misma, sino la manera de poder buscar lo que necesitamos de forma rápida. Por ello, no es de sorprenderse la iniciativa de Twitter, la de indexar cada tuit público, con la intención que las búsquedas sean rápidas y nos lleven a los tuits más relevantes.

Este trabajo se está haciendo usando Mesos, de Apache, un manejador de código abierto de clusters que da un aislamiento eficiente de los recursos a lo largo de las aplicaciones distribuidas o de entornos de trabajo. Hasta ahora, las búsquedas de tuits estaban limitadas a la semana anterior porque el buscador se basaba en los tuits que estuviesen en el servidor RAM. Twitter, a través de su blog de ingeniería, ha anunciado que tiene planea indexar todos los tuits desde el 2006. Y aunque el tamaño del archivo es de medio billón de documentos, las búsquedas tienen una latencia máxima de unos 100 ms, lo cual es sorprendente.

El código fuente y las pruebas han sido compartidas entre los índices de una sola semana y con el nuevo índice cuando esto es posible. La escabilidad del problema sin duda no es cosa sencilla pues el índice completo ha crecido 100 veces más que el índice de tiempo real, y sigue creciendo vaios millardos de veces en tuits por semana. Los desarrolladores dicen que no pueden impedir el particionar ya a esta escala de información, pero la interfaz esconde estas particiones de manera que los clientes internos pueden tratar el cluster completo como si fuese un solo punto.

El sistema consiste en cuiatro grandes partes y sin duda la cantidad de información que quiere indexarse puede resultar un interesante problema de cómputo. De hecho, Twitter está pidiendo ayuda al respecto. Así, si usted tiene alguna buens idea para manejar este problema, contacte con ellos.

Referencias:

i-programmer