Innovación

Inteligencia artificial para crear voces más realistas y con sentimiento para comunicarse mejor con las personas

Desde hace tiempo los sistemas de conversión de texto a voz son de tan alta calidad que resulta difícil distinguirlos de las voces auténticas. Si no fuera porque conocemos casi de memoria las voces de Iratxe Gómez (Siri) o Nikki García (asistente de voz de Google) esos algoritmos podrían pasar perfectamente por personas reales hablándonos. De hecho, en sus últimas versiones, emplean tantas técnicas procedentes de la inteligencia artificial que su realismo, la forma en que unen las palabras y entonan las frases es cada vez más humana.

Ahora una compañía llamada Sonantic busca ir un paso más allá recreando con total fidelidad voces con expresividad y sentimiento para utilizar en doblajes de cine, series y videojuegos, por no hablar de otros sistemas como automatismos, asistentes de voz o traductores. Con esta tecnología la sensación que se percibe es más realista y, en caso de que se trate de robots o automatismos quienes hablan –como en el caso de los sistemas de navegación de un coche– pueden resultar más tranquilizadoras y humanas, mejorando la comunicación y por ende la seguridad.

Inteligencia artificial para crear voces más realistasEn la industria de los videojuegos hay básicamente dos situaciones que salen ganando con el uso de esta tecnología. Están los juegos que requieren horas y horas de locución, algunos con más de diez mil líneas de texto, donde simplemente es imposible trabajar con actores tanto tiempo. La alternativa es «enchufar» el algoritmo y obtener voces altamente creíbles a partir de un muestreo general grabado previamente, evitando así esos cientos de horas de doblaje, que a veces son las definitivas. Y luego están los juegos donde se pretende una calidad máxima, y donde todavía se da el último paso con actores, pero donde se usan esas voces sintéticas durante el desarrollo para ir haciendo pruebas de voz e imágenes… ¿Encaja ese tono con esa escena? ¿Son demasiado largas las frases? ¿Coinciden la forma de expresar la frase y los gestos de los personajes?

Lo del «sentimiento» no lo dicen por decir: las versiones más avanzadas del software de Sonantic incluyen filtros de modo que una misma frase puede pronunciarse en modo «normal» o bien gritando, susurrando o sollozando. Como el objetivo es conseguir realismo y que cada escena transmita algo más que una mera imagen, que sea algo más que oír el texto leído por un robot, esa es la forma en que lo consiguen.

Inteligencia artificial para crear voces más realistas

Un ejemplo espectacular y muy útil de esta tecnología es el caso de la voz del actor Val Kilmer. Tras sufrir un cáncer de garganta y ser operado en 2015, básicamente perdió su voz. Incluso quienes estaban cerca de él en persona tenían dificultades para entenderle. Pero ha seguido trabajando en películas como El muñeco de nieve (2017) y la próxima Top Gun (2022), haciendo uso de técnicas de doblaje.

Ahora, gracias a las grabaciones que existían en su larga filmografía, películas de animación y videojuegos, los técnicos de Sonantic han podido recrear fielmente todos los matices de su voz. Primero limpiaron el audio, extrajeron los fragmentos más adecuados por calidad y los hicieron coincidir con un gran número de palabras, anotando también la entonación y expresiones. Con todo esto se alimentó el motor de la inteligencia artificial que recrea otras palabras y frases, pero con su voz. En total obtuvieron 40 «versiones» ligeramente diferentes y eligieron la que sonaba más humana. El resultado es que el algoritmo ahora puede recrear la voz de Val Kilmer leyendo cualquier texto, en una especie de deep fake de voz totalmente realista, como se puede oír en las demostraciones.

Las posibilidades de esta tecnología son inmensas, dado que sabemos que la relación entre máquinas y humanos hace uso de esa expresividad, que nos llega aunque sea de forma inconsciente. El navegador de nuestro coche quizá podría usar en el futuro una voz más relajada dependiendo de la situación durante la conducción, o elevar un poco el tono de voz para llamarnos la atención si nos ve despistados o nos nota con sueño. Tal vez incluso pueda pegar un grito de alegría cuando lleguemos al destino o reírse (o llorar) si nos equivocamos tres veces al salir de la rotonda. Y como lo percibimos como más real, humano y cercano, tenderemos a hacerle más caso. Un curioso uso del «realismo» procedente de la inteligencia artificial para mejorar la realidad misma.

Últimas entradas de Microsiervos

SUV Volvo Recharge

Volvo Recharge, nuestra línea de SUV híbridos enchufables y eléctricos puros. Diseñados para ofrecer una mejor manera de moverse por el mundo.

¡Pruébalos!
 

Deja un comentario sobre "Inteligencia artificial para crear voces más realistas y con sentimiento para comunicarse mejor con las personas"

Nos encantará conocer vuestra opinión, pero indicaros que los comentarios están moderados, y no aparecerán inmediatamente en la página al ser enviados. Evitemos las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, y procuremos que las opiniones estén relacionadas con lo que se comenta en esta entrada.

Volvo Car España, S.L.U. almacenaremos y procesaremos tus datos personales de acuerdo a nuestro aviso legal y política de privacidad. En Volvo Car España, S.L.U. también compartiremos tus datos personales con nuestra Red de Concesionarios y Talleres Oficiales, quien los procesará y hará seguimiento de tu solicitud. Enviando esta solicitud, aceptas este proceso.

Nuestros clientes y amigos reciben la mejor información, campañas y promociones de Volvo Cars, a través de medios electrónicos. Al seleccionar una o varias de las casillas de abajo, consiento recibir futuras comunicaciones de Volvo Car España y/o nuestra Red de Concesionarios por el canal seleccionado.

Email

Enviado esta solicitud, consientes el procesamiento de tus datos.