Los avances en análisis de imágenes y poses corporales abren nuevas posibilidades tecnológicas
La tecnología del análisis de imágenes cuenta con el aprendizaje automático (machine learning) como un gran aliado. Especialmente al existir soluciones completas para quienes desarrollan software, que pueden contar con ellas sin tener que entrar en las complicaciones de los detalles. Este es el caso de MediaPipe, que ofrece en un mismo paquete de código herramientas para detectar rostros, gestos, manos, poses y diversos objetos (señales de tráfico, muebles o pelo).
El departamento de inteligencia artificial de Google ha estado trabajando también en una extensión llamada BlazePose, que refina aún más lo que una máquina puede analizar de una pose corporal. La idea es que a partir de un vídeo se marquen hasta 33 puntos clave del cuerpo: nariz, ojos, hombros, caderas, rodillas, codos, dedos índice, etc… y eso permita utilizarlo en las aplicaciones.
Algunas de las demostraciones más sencillas, como esta de Madeline Gannon, una desarrolladora que utiliza esta tecnología, permiten hacerse una idea. Quien desarrolla las aplicaciones no tiene que preocuparse de entrenar ni refinar el sistema de análisis de imágenes, tan solo de lidiar con la geometría de una mano definida de una forma que es siempre la misma, como la de los «muñecos de palo».
Una curiosidad que explica Google acerca de BlazePose: reconocer 33 puntos en vez de los 17 habituales de este tipo de sistemas marca toda una diferencia. En sus investigaciones dicen haberse inspirado en el Hombre de Vitruvio de Leonardo da Vinci para calcular las relaciones y proporciones. El sistema que captura los datos lo hace en menos de un milisegundo y tiene tal precisión que, gracias al dato del tamaño del iris, puede calcular con menos de un centímetro la distancia de un rostro a la cámara.