Yahoo pone accesibles 13 terabytes de datos para el aprendizaje de máquinas

Trece terabytes de datos anónimos interactivos han sido puestos disponibles por Yahoo para los desarrolladores que trabajan en aplicaciones correspondientes a aprendizaje de las máquinas. Esta es probablemente la cantidad más grande de datos que se han puesto a disposición pública para uso general. Todo empezó con datos interactivos de los usuarios, recolectados, grabando la interacción de unos 20 millones de usuarios de Yahoo, desde febrero a mayo del 2015. El conjunto de datos contiene cerca de unos 100 mil millones de eventos. Los datos salieron de la página principal de Yahoo, Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Movies, y Yahoo Real Estate.

Suju Rajan, de Yahoo Labs dice: “Nuestras metas son promover la investigación independiente en el campo del aprendizaje de máquinas a gran escala, y ayudar a aumentar el nivel de interacción entre la investigación académica y la industria. El conjunto de datos está disponible como parte del programa Yahoo Labs Webscope data-sharing, el cual es la biblioteca de referencia de conjuntos de datos útiles científicamente, los cuales están anonimizados (valga la palabra) para usos no comerciales”.

Además de los datos interactivos, Yahoo da un rango de información demográfica categorizada para un subconjunto de usuarios anónimos. La información demográfica incluye edad, rango, género y datos geográficos generales. En lo que se refiere al conjunto de datos, se da el título, un pequeño sumario, y palabras claves de los artículos de noticias. Los datos interactivos tienen además la fecha y la hora (locales), así como la información (parcial) sobre los dispositivos usados en las interacciones. Sobre esto Rajan dice: “esto no permite hacer trabajo interesente con recomendaciones contextuales así como minería de datos temporal”. Yahoo Research ha usado esta información ya para investigar las áreas en el modelaje del comportamiento, sistemas recomendados, aprendizaje de máquinas distribuidos, algoritmos en línea, modelaje de contenidos y minería de series de tiempo.

Se espera que estos datos sean usados por investigadores, científicos de datos y entusiastas del aprendizaje de máquinas en la academia quienes necesitan normalmente conjuntos de datos del “mundo real”. Los investigadores creen que estos datos se convertirán en un “benchmark” para sistemas recomendades y aprendizaje de las máquinas.
Referencias:

i-programmer

Yahoo Newsfeed Dataset