Las traducciones automáticas, cada vez mejores gracias a los avances en inteligencia artificial

Traducir de un idioma a otro de forma automática no sólo es cada vez más fácil, también es más preciso. Los sistemas automáticos, como el conocido traductor de Google o DeepL, utilizan diversas técnicas surgidas de la inteligencia artificial para realizar su tarea con increíble precisión. Y aunque no siempre acierten y sea todavía difícil que compitan a nivel profesional con las sutilezas que captan los traductores humanos, son cada vez más útiles para un altísimo porcentaje de tareas. El hecho cierto es que ya no quedan en ridículo como les sucedía a las primeras versiones, que fallaban más que una escopeta de feria (una “shotgun of fair“, que dirían las máquinas a principios de los 2000).

Google ha anunciado recientemente algunos avances en su traductor que se pueden comprobar con solo ir a su página y pegar algo de texto para traducir, ya sea de inglés a español o a cualquier otra combinación. Esto se nota no sólo entre los idiomas principales, donde la tarea resulta más fácil a las máquinas; también entre los minoritarios.

La magia de la traducción automática

El traductor de Google traduce entre cientos de idiomas, que diferencia en dos grupos: los que están disponibles con más recursos, como copiosos conjuntos de textos para examinar (como el inglés, alemán o el español) y los que disponen de menos recursos, los idiomas menos hablados o con menos textos publicados. Hasta 2016 se utilizaba un sistema llamado Google Neural Machine Translation (GNMT) que traduce frases completas, aunque tiene en cuenta la traducción de las palabras individuales y de algunas que pueden ser especiales como los nombres propios, las palabras “raras”, con construcciones extrañas o integradas de otros idiomas.

En cierto modo, todo esto es como un gran truco matemático de estadística y probabilidad. Tras el entrenamiento previo, a cada palabra y cada frase se le asigna una “probabilidad de ser correcta” cuando se intenta emparejar con otra similar en el idioma destino; la probabilidad de que los grupos de varias palabras sean correctos aumenta si han aparecido juntos alguna otra vez en textos en ese idioma. De esta forma se minimizan los errores y aumenta la calidad de traducción. Naturalmente esto es una explicación demasiado simplificada, pero esa es básicamente la idea.

El nuevo sistema es una mejora sobre el GNMT tradicional porque parte de una base de textos de mayor calidad: para los idiomas que disponen de muchos recursos (incluyendo el español) se utilizan gigantescos archivos de documentos y sus traducciones conocidas u “oficiales” recogidas de la web pública. Gracias a esto se han podido mejorar hasta 14 pares de idiomas. Además de eso se han refinado las técnicas que se usan para eliminar el “ruido” de las traducciones, que pueden afinar mejor con los términos correctos aunque partan de frases presentes en menos documentos (pero que se sabe son más precisos). Con todo esto es con lo que se alimenta el motor principal de aprendizaje automático del traductor.

En el caso de los idiomas con recursos más limitados (como el malayo del sudeste asiático o el yoruba africano) se utiliza un entrenamiento en paralelo con frases y términos relevantes seleccionados por traductores humanos; esto forma una base mejor de la que partir para la traducción automática. También se utiliza un método llamado M4 que es un modelo gigantesco que utiliza el inglés como idioma intermedio y que permite a los idiomas poco comunes utilizar ciertas raíces según sus orígenes, para conseguir, por ejemplo, traducciones del yoruba al español (pasando por el inglés) aunque la combinación original apenas exista en la literatura.

Cómo evaluar la calidad de las traducciones

¿Es una traducción objetivamente buena o mala? Para los traductores profesionales, depende; para los ingenieros por desgracia no puede ser algo subjetivo, sino que debe convertirse en números de cara a que los algoritmos puedan saber qué traducciones son consideradas mejores y cuáles peores.

En el caso del traductor de Google para medir esa calidad se emplea un método de evaluación llamado BLEU (Estudio Bilingüe de Evaluación) que asigna valores a la precisión y secuencia de palabras traducidas: puntúan mejor las que tienen un número de términos similares, distintos y considerados correctos, penalizaciones aparte. En cierto modo es como una evaluación humana, pero al ser matemática la pueden llevar a cabo los ordenadores sin que intervenga una persona, a toda velocidad. Como se sabe que la evaluación BLEU se parece bastante a lo que se obtendría en una evaluación humana de la misma tarea de traducción, se considera suficiente por lo general (aunque a veces falle). En las gráficas puede verse cómo entre 2006 y 2020 el número de idiomas que traduce Google ha aumentado de unos diez a más de cien. Durante ese tiempo la calidad puntuada por el método BLEU ha mejorado más o menos un 5% con la última versión que está ya en la red.

La ventaja de estos sistemas de traducción automática es que son ya tan fiables que son útiles no sólo para traducir texto y documentos de diversa complejidad, sino también para otras tareas. Google, Microsoft, Apple y otros están utilizándolos prácticamente en tiempo real junto con los sistemas de voz-a-texto para proporcionar transcripciones y traducciones de voz en tiempo real, por ejemplo en videoconferencias. También para traducir los subtítulos de los vídeos con una calidad notable (YouTube es un buen ejemplo) o en los asistentes de voz de los smartphones (Oye, Siri, ¿cómo se dice “Qué hora es” en inglés?). Hace unos años cuando todo el mundo se reía de las primeras traducciones, un tanto torpes a veces, pocos pensaban que hoy utilizaríamos tan a menudo, prácticamente sin darnos cuenta y sin saber si la traducción la ha hecho una máquina o una persona.

Foto | Libros (CC) Jess Bailey @ Unsplash

Últimas entradas de Microsiervos:

SUV Volvo Recharge

Volvo Recharge, nuestra nueva línea de SUV híbridos enchufables y eléctricos puros. Diseñados para ofrecer una mejor manera de moverse por el mundo.

¡Descúbrelos!