El centro de investigación de Moscú de Samsung ha desarrollado una nueva técnica de Inteligencia Artificial que puede crear imágenes que hablan, avatares, usando una sola foto, así como producir imágenes 3D sin necesidad de modelos tridimensionales.

Un artículo del equipo de investigación sugiere que mientras los investigadores tradicionales usan muchas imágenes para crear el modelo de una cabeza que habla, con su técnica se puede lograr lo mismo usando muy pocas fotos, incluso una sola.

Egor Zakharov explica en un video que es posible crear un modelo con una sola imagen. El entrenamiento de la red neuronal usada utilizó muchas imágenes, pues esto permite «mayor realismo y una preservación mejor de la identidad».

Samsung dijo que el modelo crea tres redes neuronales durante el proceso de aprendizaje. Primero, crea una red embebida que liga los marcos de cada fotograma con las marcas del rostro, todo esto usando vectores. Entonces se usan los datos, y el sistema usa una red generadora que se mapea a los videos sintetizados. Finalmente, la red de discriminación valora el realismo de los fotogramas generados.

Hay un video interesante, donde se puede ver animaciones de personajes emblemáticos como Leonardo Da Vinci, la Mona Lisa, Albert Einstein y Marilyn Monroe. Para lograr esto, el modelo se refirió a miles de videos de Youube de celebridades hablando (del conjunto VoxCeleb2) en la etapa de meta-aprendizaje. Esto ayuda a entender las marcas del rostro y los movimientos.

Desarrollan IA que puede escribir textos realistas.

El artículo dice que tal habilidad tiene aplicaciones prácticas para la tele-presencia, incluyendo conferencias en video y juegos con multi-jugadores, así como efectos especiales.

El problema es que hay una gran posibilidad que se use este modelo para crear «deep fakes», es decir videos de personalidades en situaciones sexuales privadas, que desde luego, son armadas por computadora. Pero es parte de los riesgos de la tecnología y no hay más que resignarse a esta posibilidad.