AT&T lanza API para reconocimiento de voz

No hay duda que finalmente las interfaces con voz empiezan a despegar. Después de años de trabajos e investigaciones en este tema, por fin parece ser que, gracias a los dispositivos móviles, la gente está decidida a usar esta tecnología y no solamente mostrarla como una curiosidad científica. Siri y los programas equivalentes en Android muestran claramente que es un nicho de mercado que será atacado con mucho énfasis. Ahora, AT&T ha anunciado que dará a los desarrolladores las herramientas para construir aplicaciones y servicios que usen voz humana para comunicarse con teléfonos inteligentes, televisiones e incluso, con otros dispositivos digitales.

Más de un millón de horas de investigación y desarrollo (unos 114 años en la vida de una persona) se han invertido en la tecnología de reconocimiento de voz Watson, por parte de AT&T, que ya tiene muchos servicios que actúan con la voz. Por ejemplo, esta tecnología es la responsable de las búsquedas en los directorios móviles y en los correos de voz a servicios de texto.

AT&T ha tomado la decisión de poner un API de Watson disponible para los desarrolladores. Presumiblemente, el nombre relacionado con esto es ‘el asistente Edison’, porque cuenta la anécdota que la primera llamada que hiciese Edison a Watson decía: “Sr. Watson, venga, lo necesito”. Cabe decir que todo este desarrollo no tiene nada que ver con el programa de contestar preguntas Watson, quien venciera en el concurso Jeopardy! a los mejores participantes humanos.

Además del API, se planea poner disponible un kit de voz para capturar las palabras dichas por el usuario para ser mandadas por la red para ser transcritas por otros desarrolladores para incorporar reconocimiento de voz y capacidades de transcripción en sus propias aplicaciones.

De acuerdo con lo que ha dicho AT&T, el primer API estará disponible en junio de este año, y se enfocará en las siguientes áreas:

Búsquedas web.
Búsquedas en negocios locales.
Preguntas y respuestas.
Correo de voz a texto.
SMS.
Guía de programación electrónica U-verse.
Dictados.

Se espera además que el API pueda ser usado en juegos, redes sociales y otras áreas. La tecnología de reconocimiento de voz usa los temas mencionados para mejorar su precisión usando conjuntos restringidos de palabras.

Un video sobre este tema puede verse aquí:

Fuente: AT&T innovation space