Un nuevo estudio de Google describe cómo podría usarse la IA para leer los dígitos que aparezcan en fotografías, por ejemplo, las fotos de la calle de google maps. Es claro que el gigante de las búsquedas tiene una enorme base de datos de fotografías urbanas (y también no tan urbanas). Por ello, podrían utilizar sistemas que usen IA parece ser -aparte de una curiosidad- una manera de hacerse de todo un cuerpo de nueva información.

Un equipo de Google/Stanford explica cómo se hacen de los números que aparecen en las imágenes, en el artículo “Reading Digits in Natural Images with Unsupervised Feature Learning“. Es claro que usando la tecnología de reconocimiento de caracters (OCR) el problema puede ser resuelto, pero evidentemente el problema de leer números que aparezcan en cualquier imagen es aún un problema no resuelto. Si se pudiese solucionar, esto permitiría a Google crear mapas mucho más precisos, así como nuevos sistemas de navegación.

Las técnicas existentes tienden a basarse en características que se construyen ” a mano” dentro del contexto de  donde son capturadas. Este método, ya en términos generales no trabaja muy bien. En lugar de esto, el enfoque de Google es primero localizar una imagen que contenga el número de la casa, por ejemplo y entonces detectar áreas que son objeto de ser analizadas por los algoritmos de reconocimiento. Para probar este método, primero crearon los investigadores de Google un subconjuntoque constaba de unas 600 mil imágenes. Entonces primero intentaron caracterizar la imagen, como ocurre cuando se trabaja con documwentos y OCR y descubrieron que este método no fue nada acertado. El porcentaje de éxito varió de entre 63 y 85 por ciento, comparado con los dos clasificadores que aprenden de las características, lo cual podría calificarse como con una precisión humana del 98 por ciento.

Sin duda el enorme conjunto de fotos es muy importante porque se pueden medir mejor los resultados y reforzar una vez más la idea de que muchas técnicas de la IA, que antes no podían ser usadas porque simplemente no existían conjuntos para medir el desempeño de tales técnicas, podrían servir ahora.

Fuente: Google

Enlaces Patrocinados
Comentarios