Explorando los diferentes api texto a habla (TTS) en la nube

TTS ¿Qué es y para que sirve?

Alguna vez, seguramente has usado algún asistente en su teléfono celular, por ejemplo en android, al decir "OK Google", tu teléfono responderá con una voz sintética las solicitudes que usted hace de forma hablada. Esta voz sintética es TTS, acrónimo de las palabras inglesas "Text to Speech", en español "Texto a habla", y es una técnica que convierte letras a una voz similar o muy igual a la humana.

Se usa principalmente para interactuar con la computadora, sin usar una pantalla, el programador da ordenes para que la computadora lea cadenas de texto, y las convierta en sonido similar a una voz humana.

Actualmente TTS se encuentra en los asistentes de los teléfonos inteligentes, lectores de libros electrónicos, plantas telefónicas inteligentes, etc

¿Por que usar un proveedor en la nube?

Los proveedores en la nube usan apis muy sencillas para usar tts, por lo general dan cuotas mínimas, gratuitas, que permiten experimentar y desarrollar, y una vez en producción, uno se beneficia de poder tener la ultima tecnología en algoritmos de TTS, por ejemplo en Google uno tiene acceso a algoritmos de inteligencia artificial, que permiten una calidad muy parecida a la humana, y que constantemente están mejorando.

Proveedores en la nube con TTS. ventajas y desventajas

Diferentes proveedores tts en el mercado los principales son:

Evaluemos Google cloud text api:

Google Cloud

Google Cloud

Entramos a la pagina donde esta el demo en https://cloud.google.com/text-to-speech/

aconsejo dejar el idioma ingles para la prueba, pues el algoritmo wavenet solo esta disponible para este idioma. Luego en voice type escogemos basic, y luego presionamos el botón speak it, podemos escuchar una voz de buena calidad, casi que no se nota que es una maquina a comparación del basic, que es una voz un poco mas robotizada.

 

 

 

Evaluemos Azure TTS api:

Azure Logo

Azure

Podemos entrar a la pagina con demos aqui: https://azure.microsoft.com/es-es/services/cognitive-services/text-to-speech/

Tenemos dos secciones, la primera que es neural text y la segunda sección que es standard text. La primera es creada por algoritmos tipo machine learning donde la calidad es mejor que la standard.

La calidad del algoritmo mas avanzado es similar a google.

Evaluemos IBM Watson TTS api:

IBM Watson logo

IBM Watson

Ahora, !IBM sacó el balón del estadio!, la calidad TTS del algoritmo mas avanzado es impresionante, casi no se nota que es una maquina la que genero el audio.

Podemos entrar a la pagina de los demos aqui: https://text-to-speech-demo.ng.bluemix.net/

Las voces generadas por algoritmos mas avanzados son las V3 (enhanced dnn), pruebenlo, y se daran cuenta la diferencia con las voces de Azure y Google Cloud, ademas que en la opcion de voces generadas por algoritmos de inteligencia artificial, hay opciones en idioma español, opción que no esta disponible con Azure y Google Cloud.

Leave a Comment

Your email address will not be published.