Vivimos en un mundo donde hay pantallas por doquier. Imágenes en 2 dimensiones aparecen en monitores de centros comerciales, pantallas gigantes para anuncios espectaculares, etcétera.

Pero de ahí a pasar a las 3 dimensiones parece que estamos atorados. Sí, se han hecho avances notables en imágenes tridimensionales, aunque nunca se ha podido eliminar los lentes para verlas, sobre todo para hacer productos comerciales.

De dos a tres dimensiones… un duro camino

En cualquier caso el paso de dos a tres dimensiones, en lo que se refiere a imágenes y fotogramas, es algo en lo que se trabaja continuamente. Un ejemplo muy interesante es la reconstrucción de rostros en 3D a partir de imágenes en 2 dimensiones.

Un proceso de la Universidad de Carnegie Mellon permite, usando videos incluso tomados con el celular, analizar el rostro de las personas y generar una imagen tridimensional de las mismas. En este caso el algoritmo combina técnicas de visión por computadora tradicional con aprendizaje profundo, para así completar la reconstrucción de manera adecuada

Es común que este tipo de procesos requieran de equipo muy costoso y de expertos en el tema, pues la creación de rostros en 3D a partir de imágenes 2D requiere de asumir muchas cosas con respecto a las caras que vemos.

En general muchos esfuerzos termina mostrando rostros poco creíbles o incluso deformados. Los investigadores de Carnegie Mellon han logrado un estupendo avance usando incluso videos tomados con un teléfono celular.

Cada vez que se graba algo en video, se crea una nube densa de datos, pues cada segundo se toman 30 cuadros. En un proceso de dos pasos, desarrollado por el Instituto Robótico de CMU, y con ayuda de algoritmos de aprendizaje profundo, se pudieron reconstruir los rostros de las personas que aparecen en dichos videos.

Los experimentos del equipo muestran que sus métodos pueden dar una precisión de menos de milímetros, lo que sobrepasa otros procesos que utilizan cámaras.

Redes neuronales contra el COVID-19

Entre las aplicaciones más simples de estas caras digitales, está las de usarlas como avatares en los juegos o en la realidad aumentada, y puede ser usada para animación identificación biométrica e incluso procedimientos médicos.

Un «render» 3D preciso del rostro puede ser útil para construir incluso máscarillas médicas especificas para cada persona, ahora en est tiempo de covid-19.

«La reconstrucción de rostros en 3D ha sido un problema abierto en la visión por computadora y en gráficas, porque las personas son muy sensibles sobre las características que se ven en los rostros», comenta Simon Lucey, profesor asociado del mencionado instituto.

«Incluso ligeras anomalías en la reconstrucción pueden hacer que el resultado se vea poco realista».

Usando escáners de láser, luz estructurada y muchas cámaras en un arreglo específico de las mismas, se pueden producir escaneos de rostros, pero estos sensores tienen un costo prohibitivo para la mayoría de las aplicaciones. El nuevo esquema desarrollado por la CMU requiere solamente un teléfono inteligente.

El método desarrollado por Lucey y sus estudiantes de maestría, Shubham Agrawal y Anuj Pahuja, se presentó en la conferencia IEEE Winter Conference on Applications of Computer Vision (WACV) en Snowmass, Colorado.

Mostraron un video de 15 a 20 segundos y usaron un iPhone X en su modo de cámara lenta. De acuerdo con Lucey: «el usar la cámara lenta es el elemento clave para nuestro método, pues genera una nube densa de puntos».

Un método ingenioso y barato, usando los teléfonos inteligentes

Los investigadores entonces usan una técnica común llamada localización visual simultánea y mapeo (SLAM por sus siglas en inglés). Visual SLAM triangula los puntos de una superficie para calcular su forma, mientras que al mismo tiempo, usan información para determinar la posición de la cámara. Esto crea una geometría inicial del rostro, pero quedan puntos sin resolver en el modelo.

El segundo paso entonces, sirve para resolver esta parte, usando algoritmos de aprendizaje profundo, aunque de manera limitada. Sin embargo, identifica el perfil de las personas y las claves e oídos, ojos y nariz. Las técnicas clásicas de visión por computadora se usan entonces para solucionar los puntos no resueltos.

«El aprendizaje profundo es una poderosa herramienta que usamos todos los días», comenta Lucey y agrega, «pero el aprendizaje profundo tiende a memorizar soluciones».

«Si usas estos algoritmos para encontrar los puntos claves en los rostros, se puede entonces usar métodos clásicos para resolver la problemática final de forma mucho más sencilla».

Los investigadores indican que es necesario entre 30 y 40 minutos de tiempo de procesamiento, aunque todo esto se puede realizar en un teléfono inteligente. Considerando lo que debe hacer, es muy poco tiempo. Es un trabajo notable.