Cada vez es más habitual que se incorporen sistemas para el control por voz en los automóviles. El teléfono, la radio, el GPS y otros sistemas son susceptibles de resultar más cómodos y más seguros cuando se manejan mediante la voz que cuando requieren que el conductor dirija a ellos su atención y también las manos y la vista.

La incorporación en los coches de asistentes personales como Siri o Google, o Alexa de Amazon, posibilitan al conductor una comunicación por voz mediante el lenguaje natural, sin tener que hacer nada más que hablar. “Lenguaje natural” significa que en lugar de pedir al GPS que busque un restaurante cercano basta con decir algo como “tengo hambre” o “quiero comer”. El vehículo responderá ofreciendo una selección de restaurantes y de sitios de comidas próximos o en la ruta, e indicaciones para llegar a ellos.

En un futuro próximo, para comunicarse por voz con el vehículo, no será necesario que el coche esté en silencio para que se puedan escuchar las indicaciones del conductor, como sucede actualmente. En cambio, una cámara situada frente al conductor será capaz de leer los labios y saber qué estamos diciendo, aunque no nos oiga o los micrófonos del habitáculo estén captando sonido ambiente y ruido porque haya personas conversando o porque esté puesta la música, por ejemplo.

LipNet es la tecnología de lectura de labios que están desarrollando investigadores de la universidad de Oxford, en el Reino Unido. Leer los labios consiste en descodificar los movimientos de la boca y convertirlos a texto que sí pueden entender los ordenadores del coche o del asistente personal. Se trata de una técnica que requiere mucha práctica para su aprendizaje, y aun así una persona bien entrenada es capaz de descifrar el movimiento de los labios con un 52% de precisión en el mejor de los casos. Esto significa que una persona con experiencia leyendo los labios es capaz de entender más o menos la mitad de una frase.

En cambio el sistema LipNet, que funciona por aprendizaje automático y redes neuronales (aprende cuanto más se utiliza), es capaz de reconocer una frase completa con el 95% de precisión de promedio. Aunque LipNet únicamente requiere una señal de vídeo del rostro para funcionar, los investigadores lo consideran como un elemento complementario a los sistemas de reconocimiento de voz, para ampliar sus aplicaciones y mejorar los sistemas por voz ya existentes, por ejemplo, en los coches.

Últimas entradas de Microsiervos:

Volvo V40

Mejor maniobrabilidad en las curvas, conducción más dinámica y mayores dosis de par, potencia... y de emoción.

Conoce su carácter