Desde hace tiempo los sistemas de conversión de texto a voz son de tan alta calidad que resulta difícil distinguirlos de las voces auténticas. Si no fuera porque conocemos casi de memoria las voces de Iratxe Gómez (Siri) o Nikki García (asistente de voz de Google) esos algoritmos podrían pasar perfectamente por personas reales hablándonos. De hecho, en sus últimas versiones, emplean tantas técnicas procedentes de la inteligencia artificial que su realismo, la forma en que unen las palabras y entonan las frases es cada vez más humana.
Ahora una compañía llamada Sonantic busca ir un paso más allá recreando con total fidelidad voces con expresividad y sentimiento para utilizar en doblajes de cine, series y videojuegos, por no hablar de otros sistemas como automatismos, asistentes de voz o traductores. Con esta tecnología la sensación que se percibe es más realista y, en caso de que se trate de robots o automatismos quienes hablan –como en el caso de los sistemas de navegación de un coche– pueden resultar más tranquilizadoras y humanas, mejorando la comunicación y por ende la seguridad.
En la industria de los videojuegos hay básicamente dos situaciones que salen ganando con el uso de esta tecnología. Están los juegos que requieren horas y horas de locución, algunos con más de diez mil líneas de texto, donde simplemente es imposible trabajar con actores tanto tiempo. La alternativa es «enchufar» el algoritmo y obtener voces altamente creíbles a partir de un muestreo general grabado previamente, evitando así esos cientos de horas de doblaje, que a veces son las definitivas. Y luego están los juegos donde se pretende una calidad máxima, y donde todavía se da el último paso con actores, pero donde se usan esas voces sintéticas durante el desarrollo para ir haciendo pruebas de voz e imágenes… ¿Encaja ese tono con esa escena? ¿Son demasiado largas las frases? ¿Coinciden la forma de expresar la frase y los gestos de los personajes?
Lo del «sentimiento» no lo dicen por decir: las versiones más avanzadas del software de Sonantic incluyen filtros de modo que una misma frase puede pronunciarse en modo «normal» o bien gritando, susurrando o sollozando. Como el objetivo es conseguir realismo y que cada escena transmita algo más que una mera imagen, que sea algo más que oír el texto leído por un robot, esa es la forma en que lo consiguen.
Un ejemplo espectacular y muy útil de esta tecnología es el caso de la voz del actor Val Kilmer. Tras sufrir un cáncer de garganta y ser operado en 2015, básicamente perdió su voz. Incluso quienes estaban cerca de él en persona tenían dificultades para entenderle. Pero ha seguido trabajando en películas como El muñeco de nieve (2017) y la próxima Top Gun (2022), haciendo uso de técnicas de doblaje.
Ahora, gracias a las grabaciones que existían en su larga filmografía, películas de animación y videojuegos, los técnicos de Sonantic han podido recrear fielmente todos los matices de su voz. Primero limpiaron el audio, extrajeron los fragmentos más adecuados por calidad y los hicieron coincidir con un gran número de palabras, anotando también la entonación y expresiones. Con todo esto se alimentó el motor de la inteligencia artificial que recrea otras palabras y frases, pero con su voz. En total obtuvieron 40 «versiones» ligeramente diferentes y eligieron la que sonaba más humana. El resultado es que el algoritmo ahora puede recrear la voz de Val Kilmer leyendo cualquier texto, en una especie de deep fake de voz totalmente realista, como se puede oír en las demostraciones.
Las posibilidades de esta tecnología son inmensas, dado que sabemos que la relación entre máquinas y humanos hace uso de esa expresividad, que nos llega aunque sea de forma inconsciente. El navegador de nuestro coche quizá podría usar en el futuro una voz más relajada dependiendo de la situación durante la conducción, o elevar un poco el tono de voz para llamarnos la atención si nos ve despistados o nos nota con sueño. Tal vez incluso pueda pegar un grito de alegría cuando lleguemos al destino o reírse (o llorar) si nos equivocamos tres veces al salir de la rotonda. Y como lo percibimos como más real, humano y cercano, tenderemos a hacerle más caso. Un curioso uso del «realismo» procedente de la inteligencia artificial para mejorar la realidad misma.