Nuevas técnicas de Inteligencia Artificial para el reconocimiento del habla sin supervisión

En el campo del reconocimiento del habla mediante inteligencia artificial –algo que usamos en los smartphones al dar instrucciones a los sistemas de navegación al conducir o con los asistentes digitales como el de Google, Siri o Alexa– se utilizan diversas técnicas de entrenamiento para conseguir que hagan su «magia». Una de las más habituales requiere contar con inmensas fuentes de datos: horas y horas de conversaciones, textos leídos en voz alta o grabaciones de radio y televisión, de las cuales se cuenta con una transcripción en texto, de modo que se puedan hacer coincidir las palabras, frases y fonemas con lo que se está oyendo.

Ahora en los laboratorios de Facebook han revelado que llevan años trabajando en una nueva técnica que han llamado «Reconocimiento de habla sin supervisión (Wav2vec-U)», que es capaz de hacer lo mismo, pero sin tantos requerimientos. Entre otras cosas, no requiere convertir el habla en texto transcrito, sino que puede pasarse directamente de texto hablado a fonemas.

Esto ofrece las siguientes ventajas:

Normalmente estos modelos requieren unas 1.000 horas de audio para que un entrenamiento resulte eficiente. La forma en que funcionan consiste en escuchar el audio original y usar un método de verificación para irlo marcando como válido o inválido. Este algoritmo utiliza, en concreto, una red generativa antagónica y un discriminador, dos componentes que son parte del algoritmo y que actuando juntos van convirtiendo los diversos «intentos de reconocimiento» de algo ininteligible a algo con sentido y fonemas válidos.

El resultado final es un algoritmo con un ratio de errores razonablemente bueno, comparable con el de los mejores sistemas de hace un par de años, pero que no necesita ni un minuto de audio transcrito para su entrenamiento, por lo que puede funcionar con todos los idiomas y acentos.

Facebook ya ha liberado el código de Wave2vec-U, de modo que otros equipos de investigación puedan examinarlo, probarlo y mejorarlo, un proceso habitual en este campo y en muchos otros de la tecnología. La idea última es que no sólo existan mejores sistemas para el reconocimiento del habla, sino que estos sistemas lleguen a más personas, a cualquier parte del mundo, hablen el idioma que hablen. Si además se consigue que sean más eficientes energéticamente y, por ende, generen menos emisiones contaminantes, mejor que mejor para el planeta.

Últimas entradas de Microsiervos

SUV Volvo Recharge

Volvo Recharge, nuestra línea de SUV híbridos enchufables y eléctricos puros. Diseñados para ofrecer una mejor manera de moverse por el mundo.

¡Descúbrelos!