Amazon ha anunciado nueve nuevas bases de datos en su nube AWS para los investigadores y desarrolladores interesados en aprendizaje de máquina, ciencias del medio ambiente, ciencia geoespacial, astronomía y seguridad, entre otras.

Convocan a expertos tecnológicos para hackaton de innovación en turismo

El programas AWS Public Dataset cubre el costo del almacenamiento para estas bases de datos optimizadas, las cuales pueden ser usadas para análisis sobre AWS, con lo que se busca también es desarrollar nuevas técnicas nativas en la nube, nuevos formatos y herramientas que permitan bajar los costos de trabajar con datos.

El conjunto de datos para aprendizaje de máquinas es un conjunto masivo de imágenes en diversos idiomas, de la Universidad de Pennsylvania. El conjunto contiene imágenes con las palabras que representa en 100 idiomas y para cada idioma, las palabras están guardadas en paralelo a las imágenes que representan, así como su traducción al inglés.

Hay tres bases de datos del medio ambiente. La primera es un conjunto determinístico y probabilístico de predicción del tiempo atmosférico, el cual se conjuntó con datos de la Oficina de Meteorología del Reino Unido. Esto es en realidad una actualización de datos que ya se tenían antes, pero ahora se actualizan diariamente.

El segundo conjunto de datos ambientales es una colección de información científica de los propietarios de la tierra del gobierno de Queensland. La base de datos está construida a partir del clima en Australia, desde 1889 hasta el presente.

La tercera colección de datos ambientales es sobre la calidad del aire y de los datos de radiación de Safecast. Esta institución empezó después de que ocurriera el desastre en la planta nuclear de Fukushima, cuando los voluntarios empezaron a monitorear los niveles de radiación. La calidad del aire se agregó después y el proyecto ya es global.

Hay dos conjuntos de datos geoespaciales, el USG 3D, que son datos de elevación en la forma de detección de luz y rango (LiDAR), con datos de todo Estados Unidos, Hawaii y sus territorios, con datos adquiridos en un periodo de 8 años, así como un conjunto de imágenes recolectadas del satélite brasileño-chino de recursos, del ASM Kepler.

En lo que se refiere a la astronomía, hay datos de TESS (Transiting Exoplanet Survey Satellite), un trabajo de dos años en busca de exoplanetas que orbitan alrededor de estrellas brillantes.

También se encuentran los datos de Open City Model. Esta es una iniciativa para dar los datos cityGML para todos los edificios construidos en los Estados Unidos. Usando otros conjuntos de datos abiertos, en conjunto con el propio código de los investigadores, la intención es dar una geometría 3D para todas las construcciones en la Unión Americana.

La última colección añadida es QIIME 2, la investigación sobre microbios con conjuntos de datos tutoriales que contienen los documentos del usuario y los conjuntos de datos para QIIME 2. QIIME es un paquete extensible y descentralizado de análisis microbiómetrico, enfocado a los datos y a la transparencia en el análisis. Permite a los investigadores empezar un análisis con datos de las secuencias del ADN, para finalizar con publicaciones de alta calidad en imágenes y resultados estadísticos.

Como puede verse, hay conjuntos de datos masivos para una serie de tareas que bien pueden ser atacadas por el aprendizaje de máquinas. Es muy probable que pronto volvamos a hablar del tema cuando empiecen a salir aplicaciones del mismo.