Un equipo de científicos asegura que existe una relación entre la voz de una persona y su apariencia física.

Para comprobarlo, desarrollaron un sistema llamado Speech2Face, que permite reconstruye el físico de las personas, a grandes rasgos, simplemente escuchando audios cortos su voz.

En el artículo que describe su trabajo, los autores Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William Freemany, Michael Rubinstein y Wojciech Matusiky indican:

«Nuestra meta es estudiar hasta dónde se puede inferir cómo se ve una persona por la manera en como habla».

Indican ademas, que el modelo produce como salida rostros promedio. Los datos para el entrenamiento de la red neuronal surgieron a partir de videos de Internet en donde las personas hablan y el modelo «aprende a asociar los atributos de la voz con las características faciales de los videos».

El software evalúa y cuantifica numéricamente cómo y en qué forma se puede reconstruir las imágenes verdaderas de los hablantes a partir de la voz en sus clips de audio.

Los autores querían asegurarse de que la gente supiera que sus intenciones son claras, pues no habría ningún intento de ligar voces con imágenes de personas específicas.

«No es predecir una imagen reconocible de la cara exacta, sino capturar las características dominantes del rostro para correlacionarlos con la voz de los clips de audio», destaca la publicación.

Los autores han puesto su software en GitHub y dicen que consideran además importante discutir las consideraciones éticas del proyecto debido al potencial sensible de la información facial.

«El modelo usado y entrenado para esto captura las características visuales (relativas a género, edad, por ejemplo, entre otras posibilidades), que son comunes a muchos individuos y que, solamente en los casos donde hay una fuerte evidencia que conecta las características visuales con la voz, se hace el enlace en los datos», explicaron los científicos.

Así, cuando el sistema escucha un nuevo clip (con la red neuronal entrenada), se puede suponer qué rostro debería corresponderle.

¿En qué podría aplicarse esto? Los investigadores piensan que predecir el rostro de las personas solamente a través de la voz podía servir para poner un rostro representativo en las llamadas de teléfono o video, basadas simplemente en la voz de la persona, lo que supondría una interacción más humanizada, aunque esto es aún tema de especulación.