Un grupo de investigadores de la Universidad de Yonsei y de la Escuela Politécnica Federal de Lausane (EPFL), recientemente desarrollaron una nueva técnica que puede reconocer emociones analizando el rostro de las personas en imágenes junto con ciertas características contextuales.

Los científicos han presentado y bosquejado una arquitectura de aprendizaje profundo, llamada CAER-Net, que puede leerse aquí.

Otros lo han intentado

Por muchos años, los investigadores en todo el mundo han tratado de
desarrollar herramientas para detectar automáticamente las emociones humanas, ya sea analizando imágenes, videos y clips de audio.

Estas herramientas podrían tener numerosas aplicaciones, por ejemplo, mejorar la interacción entre hombres y robots, o ayudar a los doctores a identificar los signos de desórdenes o enfermedades neuronales, basados, por ejemplo, en patrones del habla atípicos, características faciales, etcétera.

Hasta ahora, la mayoría de estas técnicas para reconocer emociones en imágenes se basaban en el análisis de las expresiones del rostro, asumiendo que estas expresiones eran las que llevaban la mayor carga emocional.

Como resultado, la mayoría de los conjuntos de datos para el entrenamiento de las emociones en el rostro, tienen imágenes cortadas de las caras que se analizan.

Una limitación clave de estas herramientas convencionales es que fallan al tratar de lograr un desempeño satisfactorio cuando las señales emocionales en los rostros de las personas son ambiguos o indistinguibles.

En contraste con estos enfoques, los seres humanos podemos reconocer las emociones en otros no solamente por el rostro, sino por pistas contextuales, es decir, las acciones que desarrollan, la interacción con otros, etcétera.

Un nuevo acercamiento

Estudios anteriores que analizan las expresiones faciales y las características contextuales pueden mejorar significativamente el desempeño de las herramientas para reconocer emociones.

Inspirados en esto, los investigadores de Yonsei y EPFL desarrollaron una arquitectura de aprendizaje profundo que puede reconocer las emociones en personas que están en imágenes, tanto por lo que dicen los rostros como por la información contextual.

«Presentamos estas redes profundas para reconocimiento de emociones que toman en cuenta el contexto, llamada CAER-Net, que explota no solamente las expresiones humanas, sino la información contextual, en una manera que hace que el sistema mejore significativamente», escribieron los investigadores en su artículo.

«La idea clave es esconder los rostros humanos de la escena visual y
buscar los contextos en donde ocurren los hechos».

Arquitectura CAER-Net

La arquitectura de CAER-Net se compone de dos sub-redes claves y codificadores que pueden de forma separada extraer las características faciales y las regiones contextuales en una imagen. Estos dos tipos de características se combinan para usar una red adaptable de fusión y así analizar de forma conjunta las cosas para predecir las emociones de las personas en las imágenes dadas.

Además a la red CAER-Net, los investigadores introducen un nuevo conjunto de datos para el reconocimiento de emociones. Las imágenes en este conjunto de datos muestra los rostros de las personas y el contexto alrededor de ellas, en donde por ende, se puede tener un «benchmark» más efectivo para evaluar estas técnicas de reconocimiento.

Los investigadores evaluaron su técnica de reconocimiento de emociones en una serie de experimentos, usando tanto los conjuntos de datos anteriores como los nuevos definidos por ellos. Sus hallazgos sugieren que el analizar las expresiones faciales y el contexto puede ser mucho mejor y disparar así el desempeño de la herramienta.

«Esperamos que el resultado de este estudio facilitará avances futuros en el reconocimiento de emociones basadas en contexto y en tareas relacionadas», concluyeron los investigadores.