sintesis-voz

Muchas veces hemos escuchado instrucciones vía voz, por ejemplo, en los menús de los portales telefónicos de los bancos, pero aquí es una mera grabación de una persona que nos indica qué opciones hay disponibles. La idea de la síntesis de voz es hacer que las máquinas se comuniquen con los seres humanos hablando, mediante una voz, aunque sea computarizada.

Y los avances se han dado sistemáticamente en este campo. Las primeras tarjetas de hardware que hacían síntesis de voz eran francamente demasiado robotizadas, pero con el tiempo, esto ha ido mejorando poco a poco. Por ejemplo, Google ha estado trabajando sobre algoritmos de síntesis de voz y a través de su empresa DeepMind, de donde salió AlphaGo, el programa vencedor de un encuentro a cinco partida del antiguo juego oriental del Go.

La idea es que la conversación entre una máquina y un ser humano sea más parecida a cuando nos comunicamos entre nosotros. Por ejemplo, el sonido de ciertas voces e importante para confiar o desconfiar de las personas.

Google DeepMind ha anunciado un nuevo método de generación de voz llamado WaveNet, el cual puede acercar a la Inteligencia Artificial a hacer que la síntesis de voz de un programa sea indistinguible de una conversación entre seres humanos. El nuevo algoritmo puede aprender diferentes voces e incluso generar pausas (como cuando se respira), según el blog de Google.

DeepMind es una empresa con sede en Londres, que fue adquirida por Google en el 2014. Sus proyectos se enfocan a la inteligencia artificial y atacar el asunto de la voz sintética no es trivial. Cada segundo de voz equivale a unos 16 mil bits diferentes de datos, que son los valores muestrados de lo que se ha dicho por ejemplo, a un micrófono.

La manipulación de esta información no es un asunto trivial y hoy Google anuncia que está usando redes neuronales para trabajar en este problema de la síntesis de voz.

Este es un ejemplo de voz sintetizada:

Pero WaveNet trabaja usando redes neuronales convolucionadas, que son redes neuronales cuyo modelo usa promedios de datos para poder llegar a la conclusión de cuál es el siguiente dato esperado. Esto ha permitido una generación contínua de la voz y en pruebas ciegas, la mitad de los individuos a los que se les preguntó, no pudieron saber si se trataba de una máquina o de una persona hablando.

Este es un ejemplo de la misma frase anterior, pero dicha vía WaveNet:

Para que el algoritmo funcione, WaveNet primero tiene que entender cómo suena la voz humana, por lo tanto, primero escucha. Los investigadores alimentaron al algoritmo con 44 horas de voz, de 109 hablantes nativos en inglés. El resultado hallado mostró que el algoritmo podría modelar la voz de cualquier usuario y aprender de éste, incluso añadiendo las indiosincracias específicas del hablante, las pausas que hace, el movimiento de su boca, etcétera.

El problema con este enfoque es que requiere de enorme capacidad de procesamiento, pero probablemente con el tiempo se encuentren algunos atajos para hacer el algoritmo más práctico. Este tipo de avances aparecerá pronto, probablemente, en los sistemas de síntesis de voz y significa un avance interesante en hacer de la síntesis de voz lo más humana posible.

Referencias: QZ 

Participa en nuestra encuesta:
Enlaces Patrocinados
Comentarios