De imágenes y emociones

Hoy en día, cuando recibimos un correo o cuando nos conectamos a las redes sociales, vemos que los mensajes que recibimos son siempre más que texto puro. Probablemente vienen imágenes e incluso videos adjuntados. Y esto simplemente habla de la complejidad con la que lidiamos ahora: tenemos mucha más información, muchos más datos que manejar. Y así como una carta (en modo texto) puede evocar emociones diversas, las imágenes y videos que ahora son comunes hallar en nuestras comunicaciones también tienen su efecto.

Jiebo Luo, profesor de ciencias de la computación en la Universidad de Rochester, en colaboración con investigadores de la empresa Adobe, han llegado a una manera mucho más precisa de entrenar a las computadoras para asimilar datos que vienen en forma de imágenes. En un artículo presentado en la Conferencia AAAI de Inteligencia Artificial, que se llevó a cabo en Austin, Texas, describen lo que ellos denominan una red neuronal profunda convolucional progresiva de entrenamiento, abreviada como CNN.

La computadora entrenada puede ser usada para determinar los sentimientos que las imágenes tratan de decir. Luo indica que esta información puede ser útil para muchas cosas, por ejemplo, para predecir las elecciones o medir los indicadores económicos. De hecho, el analizar los sentimientos que evoca un texto a través de una computadora parece un reto muy complejo para las máquinas y en las redes sociales, el análisis de sentimientos parece ser incluso más complicado, pues las personas lo expresan a través de imágenes y videos, lo cual es mucho más difícil para que las computadoras lo entiendan.

Por ejemplo, durante una campaña política, los votantes frecuentemente comparten sus puntos de vista a través de imágenes. Dos fotos diferentes pueden mostrar al mismo candidato pero con diversas posturas políticas. Un humano puede reconocer esto fácilmente. Para que una máquina entienda estas imágenes (un candidato sonriendo y abriendo los brazos o bien, el mismo candidato cabizbajo), se requiere entrenarla de manera que pueda hacer una predicción informada sobre la popularidad del personaje. Esto es precisamente lo que hace Luo y su equipo de colaboradores, lo cual parece ser mucho más preciso de lo que se podía hacer hasta ahora.

Los investigadores tratan la tarea de extraer los sentimientos de las imágenes como un problema de clasificación de imágenes. Esto significa que, de alguna manera, la imagen necesita ser analizada y a partir de ahí, etiquetar la misma de diversas maneras. Para empezar el proceso de entrenamiento, Luo y sus colaboradores, usaron un gran número de imágenes de Flickr que de alguna manera sugerían algún sentimiento, aunque fuese vagamente, además de usar una base de datos conocida como SentiBank (desarrollada por el profesor Shih-Fu Chang en la Universidad de Columbia), fue el punto de partida para tratar de entrenar al sistema sobre los sentimientos que generan las imágenes.

Más aún, usando imágenes de Twitter, los investigadores usaron lo que llamaron “inteligencia de las masas”, para que muchas personas ayudaran a etiquetar, a categorizar las imágenes utilizando la plataforma “Amazon Mechanical Turk”. Usando un pequeño número de imágenes refinaron sus propias etiquetas. Cabe decir que la categorización de imágenes en términos de sentimientos, vía Twitter, fue mucho más precisa que la misma clasificación de mensajes de texto.

Así, aunque hay mucho trabajo por hacer, es claro que en diferentes y muchos frentes se trabaja para dotar a las máquinas de atributos que hace unos pocos años hubiésemos pensado que eran privativos sólo de los seres humanos.

Referencias:

Science Daily