La Inteligencia Artificial (IA) se ha puesto de moda de nuevo, probablemente a los nuevos desarrollos, particularmente en lo que se refiere a redes neuronales profundas. Esta tecnología trabaja bajo los conceptos de aprendizaje a partir de ejemplos.

Tenemos que AlphaGo, la máquina de IA de Google que juega al juego oriental Go, aprendió simplemente viendo millones de encuentros. Un programa llamado Giraffe, tesis de maestría, usa el aprendizaje profundo para enseñarle a un programa a jugar al ajedrez sin necesidad de enseñarle cómo se mueven las piezas.

Ahora la división de Google de IA, DeepMind, y la Universidad de Oxford están usando la Inteligencia Artificial para crear un programa que pueda leer los labios con mayor precisión que cualquier ser humano.

Usando miles de horas de grabaciones de TV de la BBC, los científicos entrenaron una red neuronal para poder anotar lo que se dice con un 46.8% de precisión. Puede no parecer un gran porcentaje pero probando estos mismos videos con expertos humanos en lectura de labios, estos sólo lograron 12.4%.

La investigación siguió el camino ya recorrido por un grupo independiente de la Universidad de Oxford. Usando técnicas relacionadas, estos científicos fueron capaces de crear el software -al que llamaron LipNet- que logra 93.4% de precisión en las pruebas, contra el 52.3% de lo que el ser humano puede reconocer.

Sin embargo, LipNet solamente fue probado en videos grabados diciendo estos oraciones de fórmulas. Comparando con el software DeepMind, conocido como “Watch, Listen, Attend and Spell”, se probó en videos que significaban un mayor reto, en donde el sistema transcribía las conversaciones que aparecían en estos shows públicos de la BBC.

El programa DeepMind fue entrenado usando unas 5000 horas de videos de programas como Newsnight, Question Time y World Today. Los videos incluyen unas 118 mil oraciones diferentes y unas 17,500 palabras únicas, comparadas contra la prueba hecha con LipNet, que su base de videos tenía solamente unas 51 palabras únicas.

Los investigadores de DeepMind piensan que el programa podría servir para una serie de aplicaciones, por ejemplo, para ayudar a la gente con discapacidad audible para entender así las conversaciones. También podría ser usado para anotar películas mudas o permitir controlar los asistentes electrónicos como Siri o Alexa para que entiendan videos en donde solamente se mueven los labios. Esto podría ser útil en algunos sitios públicos.

Hay quien piensa que este programa podría ser usado para cuestiones de vigilancia, pero claramente los videos de las cámaras de seguridad en general no tienen la resolución necesaria para que la lectura de labios funcionara, pero podría ser este un primer paso para ir cerrando la brecha al respecto.

Referencias: The Verge 

Enlaces Patrocinados
Comentarios