Ahora las computadoras aprenden a ver ilusiones ópticas

Investigadores de la Universidad de Brown, expertos en visión por computadora, están enseñando a sus redes neuronales a ver ilusiones ópticas dependientes del contexto, con la esperanza de ayudar a los algoritmos de visión artificial a tomar en cuenta precisamente esos contextos y ser a la postre sistemas más robustos.

Las ilusiones ópticas son siempre curiosas y los seres humanos nos asombramos de como engañan a nuestro sistema visual. Pero entender cómo los humanos perciben estos fenómenos es un área activa en la investigación científica. Para una clase de ilusiones ópticas, llamadas fenómenos contextuales, las percepciones dependen del contexto. Por ejemplo, el color que uno aparentemente ve en un círculo central depende de los colores de círculos circundantes. A veces, los colores de los círculos de fuera hacen que el color del círculo interno se vea más similar. Por ello se denomina ilusiones basadas en el contexto.

“Hay un consenso en que las ilusiones ópticas no son un error, sino una ventaja”, dice Thomas Serre, un profesor asociado de ciencias cognitivas, lingüísticas y psicológicas en Brown, y es el autor senior del artículo presentado en septiembre pasado en Psychological Review. “Pienso que es una ventaja. Puede representar casos en la frontera de nuestro sistema visual, pero nuestra visión es poderosa en el día a día y en reconocer objetos”, comenta.

Para el estudio, el equipo liderado por Serre, quien está afiliado al Instituto Carney para las ciencias del cerebro, en Brown, todo empezó con un modelo computacional limitado por los datos anatómicos y neurofisiológicos de la corteza visual. El modelo buscaba capturar cómo las neuronas corticales vecinas se mandan mensajes unas con otras para así ajustar otras respuestas cuando se presentan con estímulos complejos como son las ilusiones ópticas en contexto.

Una innovación que el equipo incluyó en su modelo fue un patrón específico de conexiones, las cuales parecía que retroalimentaban las conexiones entre neuronas, dijo Serre. Estas conexiones retroalimentadas son capaces de incrementar o decrementar, (excitar o inhibir), la respuesta de una neurona central, dependiendo del contexto visual.

Cabe señalar que de acuerdo a Serre, estas conexiones de retroalimentación no están presentes en la mayoría de los algoritmos de aprendizaje profundo. Esta técnica es muy poderosa pues es capaz de aprender patrones complejos en datos, como el reconocer imágenes, texto hablado y depender de muchas capas de redes neuronales que pueden trabajar en conjunto. No obstante esto, la mayoría de los algoritmos de aprendizaje profundo solamente incluyen conexiones de alimentación hacia adelante entre capas, y no la idea de las capas retroalimentadas de lasque habla Serre.

Una vez que el modelo quedo construido, el equipo le presentó al sistema una variedad de ilusiones dependientes del contexto. Los investigadores refinaron la fuerza de las conexiones de retroalimentación de excitación o inhibición, de manera que las neuronas del modelo respondieran con lo que es consistente con los datos que se tienen de la corteza visual en particularmente los primates. Probaron entonces el modelo en una variedad de ilusiones ópticas, y encontraron de nuevo que el modelo percibía la ilusión como los seres humanos.

Para probar si las pruebas hechas por su modelo eran innecesariamente complejas, hicieron algo muy curioso, lesionaron el modelo, quitando selectivamente algunas de las conexiones. Cuando el modelo perdía alguna de esas conexiones, los datos no eran compatibles con los que se tenían ya de la percepción visual humana.

“Nuestro modelo es el más simple y explica el comportamiento de la corteza visual en lo que se refiere a ilusiones contextuales”, comenta Serre y añade: “Esto fue realmente el trabajo computacional en neurociencia basado en los libros de texto. Empezamos con un modelo que explica los datos y terminamos con predicciones para los datos psicofísicos de los seres humanos”, concluye.

Hay que decir que este trabajo puede ayudar a unificar las explicaciones sobre cómo los humanos ven una clase de ilusiones ópticas. Serre ha construido su sistema con una meta: mejorar la visión artificial. De hecho, de acuerdo a Serre, los algoritmos más modernos de visión, que son aquellos que reconocen letreros y rostros, tienen problemas para ver contextos. Incluyendo sus ideas él espera que estas debilidades de los sistemas mencionados desaparezcan.