bayesian00

Un nuevo avance en la inteligencia artificial, producto de las investigaciones de las universidades de Nueva York, Toronto y el MIT, parece estar mostrando una increíble capacidad para aprender conceptos visuales y manipularlos como lo hacen los seres humanos. este avance podría llevar a nuevas tecnologías aplicables en teléfonos celulares, a mejoras en el reconocimiento de la voz por parte de los programas y a computadoras que pudiesen entender mejor el entorno a su alrededor.

Sabemos que los seres humanos son muy buenos para aprender cosas casi al vuelo. Los niños, por ejemplo, necesitan muchas veces mostrarles un nuevo objeto como un perro, o un autobús, para poder identificar otras instancias de lo que les han mostrado. Una de las razones para esta habilidad, piensan los investigadores, es que frecuentemente entendemos nuevos conceptos en términos de cómo las partes familiares trabajan juntas como un todo. Por ejemplo, cuando vemos por vez primera un Segway (ese transporte de dos ruedas que parece que se mantiene en equilibrio por arte de magia), reconocemos inmediatamente las ruedas entre otros objetos, logrando un grado razonable de certidumbre que viene a convertirse en lo que llamamos eventualmente una forma de transporte personal.

La misma funcionalidad ocurre cuando llegamos a hablar del lenguaje. Cuando vemos símbolos escritos en una hoja de papel, incluso los que no nos sean familiares, no vemos solamente tinta en el papel, sino una serie de trazos de la pluma que los dibujó, por lo que podemos reproducir fácilmente estos símbolos nosotros. Y cuando escuchamos un término que no nos es familiar, podemos repetirlo aunque no entendamos el significado, porque analizamos los sonidos en términos de los movimientos musculares que los podrían producir.

Desafrotunadamente, traducir estas capacidades al dominio de la Inteligencia Artificial (IA), es un trabajo monumental. Los algoritmos de moda, los de “aprendizaje profundo”, se preocupan más con el reconocimiento de patrones, los cuales solamente pueden desarrollarse después de que fueron entrenados cuidadosamente en miles de ejemplos. Incluso entonces, aún así, podemos entender el objeto de un modo pasivo, como un patrón de pixeles en la pantalla má que usando el concepto de crear algo nuevo.

El campo de la IA no tiene muchos años, pero el problema de cómo el ser humano aprende lleva siglos intentando entenderse. Es en alguna medida un problema de inducción, o cómo la mente humana es capaz de generalizar y abstraer efectivamente, inclusive con conceptos que vienen de un limitado número de muestras.

Los investigadores, Joshua Tenenbaum, Brendan Lake y Ruslan Salakhutdinov, han dado quizás un paso importante en replicar este tipo de aprendizaje pero para las computadoras. Su sistema probabilístico, llamado Bayesian program learning (BPL), promete ser un importante paso en el campo de reconocimiento y síntesis de la voz, en el reconocimiento de imágenes y en el procesamiento del lenguaje natural. Pero más generalmente, el avance podría llevar a las computadoras a entender el mundo a su alrededor y construir en la medida que vayan aprendiendo, la forma de ejecutar cada vez tareas más complejas.

El software está construido alrededor de tres principios de: composicionalidad (la idea que abstrae la representación que se construye a partir de partes más primitivas), la causalidad (que usa las primitivas para construir estructuras más complejas) y aprender a aprender (el principio de que el conocimiento de conceptos previos pueden ayudarnos a aprender nuevos conceptos de forma más fácil). En el nivel práctico, la técnica de la probabilidad bayesiana, que es una manera de inferir, en el corazón de un algoritmo y usado para llegar a conclusiones basadas en datos limitados en donde las partes más simples hacen que se pueda visualizar un objeto más complejo.

“Nuestro trabajo está basado en capturar los modelos mentales de los humanos con un tipo de programas simples de computadora, con los que pensamos construimos y manipulamos en nuestras mentes”, dice Lake. “Por vez primera pensamos que tenemos un sistema de computadora que pueda aprender una enorme clase de conceptos visuales de formas que son difíciles de discernir con respecto a lo que hacen los seres humanos cuando aprenden”.

El software del equipo se entrenó con una lista de 1,600 símbolos poco familiares, tomados de idiomas alrededor del mundo, tanto reales como imaginarios. Después de haber sido alimentados a través de una mano que dibujó cada símbolo, el algoritmo fue capaz de reconocer con éxito los símbolos, partiéndolos (por decirlo de alguna manera), en una serie de trazos y así dibujarlos e incluso re-dibujarlos con pequeñas variaciones, pero manteniendo los símbolos reconocibles a los ojos humanos.

Este enfoque único de despedazar una imagen compleja e intentar entender cómo funcionan sus partes permiten al software el desempeñar tareas creativas que simplemente no se pueden realizar usando algoritmos de reconocimiento de patrones. Cuando se le presenta un alfabeto desconocido al software de los investigadores, éste extraé las propiedades generales hechos con los trazos de cada caracter y así poder producir incluso un nuevo símbolo con algunas propiedades comunes a los anteriores.

El software lo hace tan bien que su desempeño es indistinguible del desempeño de los seres humanos como se confirmó con una prueba del tipo Turing. En la misma, 147 jueces presentaron 49 intentos, cada uno siendo una serie de símbolos de una alfabeto que era seguido de dos símbolos inspirados por estos alfabetos, pero inventados, uno por un ser humano y otro por la máquina. Los jueces, colectivamente, fueron capaces de acertar qué símbolo había hecho la máquina en un 52%, lo cual es casi el azar puro.

“El algoritmo solamente trabaja para símbolos escritos a mano, por el momento, pero creemos que podemos ampliar el enfoque que nos permita progresos en reconocimiento de objetos y del habla”, dice Lake. Está claro que por el momento, los dominios elegidos para experimentar con el software dependen de cómo se eligen las partes elementales (trazos de una pluma, fonemas, etcétera), en donde se pueden construir ideas más complejas a partir del dominio dado.

Un artículo en Science muestra el trabajo realizado.

Referencias:

GizMag