Google ofrece sus servicios de reconocimiento de voz en su API en la nube

El reconocimiento del habla es algo que siempre parece intrigante, y no por su parte técnica, que de por sí es compleja, sino porque no pareciera que el hacer que los dispositivos hablen o entiendan lo que uno dice de forma oral, fuese realmente importante. Por ejemplo, tenemos un software muy popular, “Dragon Naturally Speaking“, que permite dictarle a la computadora, por ejemplo, a Word, y que éste actúe como una secretaria, escribiendo directamente lo que decimos. Este sistema hace unos años había que entrenarlo para que el usuario fuese reconocido y entendiera el tono de voz, pero me parece que esa restricción ya no existe.

Y hay nuevas herramientas, como Siri, Cortana o Google Now, que permiten preguntarle al asistente del teléfono lo que nos interese y quizás ahí esté el nicho de mercado al reconocimiento de voz, aunque es claro que hay muchísimas aplicaciones como podrían ser el leer textos a invidentes, con entonación, con voces más realistas que voces de síntesis por computadora, por mencionar una de tantas.

Por ello, es buena noticia saber que Google ha decidido abrir sus sistemas de reconocimiento de voz. Por muchos años, si uno quería hacer una aplicación que requiriera capacidades de entender la voz del usuario, Nuance era la opción casi obligada, la cual está en Siri, en el S-Voice de Samsung o en la interfaz de voz de la BMW, Chrysler y Ford, entre otras. Y sí, Google tiene su propia tecnología de reconocimiento de voz pero ésta sólo estaba disponible en los productos de la empresa: Google App, Google Keyboard o Google.com. Ahora, la compañía líder en las búsquedas por Internet ha abierto su tecnología de reconocimiento de voz a los desarrolladores, la cual incluso funciona en la nube. Tenemos pues ahora, para los programadores, Cloud Speech API.

El nuevo API que podrá desde ahora llevar la tecnología de reconocimiento de voz a las masas funciona de manera parecida a como lo hacen los propios productos de Google. Las indicaciones orales que uno le dé a sistemas usando la tecnología de Google, pasan como un stream a la nube y regresan en tiempo real, incluyendo resultados parciales de “type-as-you-speak”. El texto transcrito puede pasarse al campo de entrada para la transcripción de la voz o usado para dar comandos y controlar dispositivos, por ejemplo, en el caso de un robot (vea el video, es asombroso).

Google Speech API puede manejar hasta 80 idiomas y variantes, mientras que su rival, Nuance, solamente soporta 38. Como esto es parte de la plataformas de la nube de Google, parece claro pensar que Internet debe estar habilitado todo el tiempo para que el sistema funcione.

Por ahora, el costo del Cloud Speech API, el cual está en una versión llamada “limited review”, es gratuito. Google ha indicado que introducirá una tabla de precios para las fases futuras. Como han hecho en muchas ocasiones, para poder entrar en este programa y ver esta tecnología, solamente puede hacerse por invitación de alguien que ya esté en dicho programa, pero los programadores interesados podrían llenar una forma en la correspondiente página (ver referencias) y esperar que Google los acepte, lo cual no creo que sea problema.

Referencias:

Ars Technica
Google Cloud Speech API