Los avances en análisis de imágenes y poses corporales abren nuevas posibilidades tecnológicas

La tecnología del análisis de imágenes cuenta con el aprendizaje automático (machine learning) como un gran aliado. Especialmente al existir soluciones completas para quienes desarrollan software, que pueden contar con ellas sin tener que entrar en las complicaciones de los detalles. Este es el caso de MediaPipe, que ofrece en un mismo paquete de código herramientas para detectar rostros, gestos, manos, poses y diversos objetos (señales de tráfico, muebles o pelo).

Algunas de las utilidades más evidentes de estas herramientas las usamos cada día: el software que reconoce los rostros en nuestras cámaras de foto para enfocar, los filtros de algunas aplicaciones de vídeo que añaden efectos especiales sobre las caras o los sistemas que reconocen las señales de tráfico y avisan de los Stop o los límites en carretera.

El departamento de inteligencia artificial de Google ha estado trabajando también en una extensión llamada BlazePose, que refina aún más lo que una máquina puede analizar de una pose corporal. La idea es que a partir de un vídeo se marquen hasta 33 puntos clave del cuerpo: nariz, ojos, hombros, caderas, rodillas, codos, dedos índice, etc… y eso permita utilizarlo en las aplicaciones.

Los usos pueden ser muy variados y van desde el software de entrenamiento deportivo, que es capaz de «ver» si los ejercicios de una tabla se están realizando correctamente, a la interpretación de gestos y lenguaje corporal o incluso del lenguaje de signos. Dado que MediaPipe puede distinguir claramente las manos con todos sus dedos y articulaciones, se puede utilizar para comprobar la posición de brazos y manos al volante. La detección del iris de los ojos permite saber cuándo se parpadea y la posición de la cabeza si quien conduce un coche muestra signos de cansancio.

Algunas de las demostraciones más sencillas, como esta de Madeline Gannon, una desarrolladora que utiliza esta tecnología, permiten hacerse una idea. Quien desarrolla las aplicaciones no tiene que preocuparse de entrenar ni refinar el sistema de análisis de imágenes, tan solo de lidiar con la geometría de una mano definida de una forma que es siempre la misma, como la de los «muñecos de palo».

Una curiosidad que explica Google acerca de BlazePose: reconocer 33 puntos en vez de los 17 habituales de este tipo de sistemas marca toda una diferencia. En sus investigaciones dicen haberse inspirado en el Hombre de Vitruvio de Leonardo da Vinci para calcular las relaciones y proporciones. El sistema que captura los datos lo hace en menos de un milisegundo y tiene tal precisión que, gracias al dato del tamaño del iris, puede calcular con menos de un centímetro la distancia de un rostro a la cámara.

Últimas entradas de Microsiervos

SUV Volvo Recharge

Volvo Recharge, nuestra línea de SUV híbridos enchufables y eléctricos puros. Diseñados para ofrecer una mejor manera de moverse por el mundo.

¡Pruébalos!