Una red neuronal de Google que reconoce imágenes

Se dice que Marvin Minsky le pidió a un alumno de maestría que hiciese hace muchos años, para el verano, un programa que pudiese reconocer lo que había en una foto, cosa que los seres humanos podemos hacer sin dificultades. El pobre alumno debe haberla pasado mal pues la tarea encomendada no sólo es muy difícil, sino que es mucho más difícil de lo que podríamos imaginar. Parte de la dificultad reside en que los humanos tenemos un conocimiento del mundo exterior que de alguna manera le tenemos que dar a la máquina. Pero ¿qué conocimiento es el que hay que alimentar? porque lo que sabemos del mundo exterior es gigantesco.

Por esto mismo, los avances en este campo son siempre interesantes. Ahora el equipo de redes neuronales de Google ha puesto una demostración de su sistema que puede reconocer múltiples objetos en una sola foto. Los resultados los presentaron en el reto anual de reconocimiento visual a gran escala ImageNet (ILSRVC, por sus siglas en inglés), que es una especie de laboratorio para probar las ideas en un tema que ha sido literalmente copado por las redes neuronales, las cuales han sido entrenadas para reconocer objetos simples mostrando muchos ejemplos en fotografías. La competencia de este año fue diferente pues se permitieron inscripciones con “cajas negras”, es decir, los participantes no tenían que mostrar su código fuente.

En el 2012 hubo un gran salto en la precisión de estas redes neuronales llamadas convolucionales, que no son otra cosa que programas que sacan de alguna manera promedios. Una red, diseñada por Alex Krizhevsky, Ilya Sutskever y Geoffrey E. Hinton probaron por primera vez que las redes neuronales pueden hacer el trabajo si se les da suficiente información y suficiente poder de cómputo. Esta es la red neuronal que usó Google en su algoritmo de búsqueda de fotos y por supuesto, dicho equipo fue contratado para implementarlo.

Los avances este año han sobrepasado las expectativas. GoogLeNet, nombrado así en honor de LeNet, creada por Yan Lecun, ganó el reto de clasificación y detección doblando la cifra en la calidad sobre los resultados del año pasado. Este año GoogLeNet logró 44% de precisión en promedio comparado con el 23% del año pasado. Lo mejor es que el código de GooLeNet es abierto y libre para quien quiera tenerlo y estudiarlo.

La tarea de clasificación requería simplemente que el software etiquetara las fotos correctamente. GoogLeNet obtuvo un 6.65% de error, lo cual es parecido al error humano. El segundo paso es el de detección, que requiere se localicen objetos diferentes dentro de una foto, lo cual ha sido un largo sueño en la comunidad de los que hacen visión por computadora.

De acuerdo a los investigadores de Google: “Estos avances tecnológicos nos permitirán entender mejor las imágenes y transferir esto a los productos de Google como la búsqueda de fotos, youtube, autos que se manejan solos y muchoas situaciones donde es útil entender qué hay en una imagen.

Referencias:

Building a deeper understanding of images https://googleresearch.blogspot.co.uk/2014/09/building-deeper-understanding-of-images.html
Large Scale Visual Recognition Challenge 2014 https://www.image-net.org/challenges/LSVRC/2014/
i-programmer https://i-programmer.info/news/105-artificial-intelligence/7734-googles-neural-networks-see-even-better.html