Inteligencia artificial para predecir los movimientos de los peatones
Investigadores de la Universidad de Michigan (Estados Unidos) trabajan en dotar a los sistemas de visión artificial de nuevos métodos basados en redes neuronales e inteligencia artificial para predecir los movimientos de los peatones. Este tipo de algoritmos son fórmulas que luego pueden aprovechar diversos tipos de vehículos para mejorar su capacidad de “entendimiento” del entorno y especialmente la seguridad de las personas.
Los seres humanos somos especialmente buenos en el reconocimiento de personas en una escena y en anticiparnos a sus movimientos e intenciones. Lo hacemos totalmente sin pensar: es algo innato y podríamos decir automático, grabado a fuego en nuestro cerebro más primitivo. En cambio, para un ordenador las imágenes que captan las cámaras son solamente datos: píxeles con valores numéricos a los que hay que aplicar muchas matemáticas para extraer un “significado”. Por no hablar de lo complicado de distinguir a las personas de otros objetos, de entender la física de sus movimientos o de anticipar las intenciones.
El sistema propuesto se llama Bio-LSTM y emplea la inteligencia artificial de una red neuronal alimentada por un modelo 3-D de la escena, obtenido a partir de cámaras estéreo y sensores como el LiDAR (radar láser), con un frame rate (fotogramas por segundo) determinado. Con las técnicas más básicas de reconocimiento de imagen se pueden separar las siluetas de las personas y calcular las distancias, así como estimar las “posturas”. Lo más interesante es que el sistema funciona hasta unos 45 metros y con múltiples personas a la vez, lo que permite cubrir toda una escena típica como puede ser una intersección de calles con varios carriles y pasos de peatones.
Las fórmulas que se utilizan para realizar las predicciones tienen en cuenta muchos factores: uno de ellos es la periodicidad de las posturas humanas, lo que viene a significar que si una persona aparece en la misma postura en dos momentos separados por una fracción de tiempo es porque se ha movido de forma regular y repetitiva (por ejemplo dando dos pasos). Esto permite calcular la distancia de los pasos y la velocidad al caminar. Otros dos factores son la simetría del cuerpo humano y la necesidad de contacto con el suelo (no se puede pasar mucho tiempo “en el aire”, por rápido que se ande o corra).
En base a todos estos datos, se utiliza una red neuronal que analiza cómo se mueven los peatones y cuál será su posición en el futuro, comparando las predicciones con escenas reales grabadas en la calle. Con esta retroalimentación y muchas grabaciones, las fórmulas pueden afinarse poco a poco, hasta hacer buenas predicciones. El sistema incluso aprende a hacer predicciones para grupos de personas con diferente “densidad” o cercanía entre ellas, porque es algo útil en la vida real. Los resultados usando esta red neuronal son prometedores y por lo general se parecen más a lo que sucede en la realidad que a cálculos realizados por otros métodos.
Algo que ha surgido en el estudio y que resulta interesante es que estos sistemas funcionan especialmente bien ante las pequeñas complicaciones cotidianas. Por ejemplo, el sistema aprende a hacer predicciones si una persona va paseando tranquilamente, caminando lento sujetando un vaso en la mano o despistada y hablando por el teléfono móvil. Esto es porque puede extrapolar el “movimiento básico” a partir de unos pocos fotogramas e inferir qué sucederá a continuación. Del mismo modo, resulta capaz de interpretar situaciones un tanto “especiales”, como una persona que camina empujando una bicicleta.
Hay que tener en cuenta que se está investigando en sistemas de asistencia que además deben funcionar “en las calles” en entornos muy cambiantes: los análisis deben ser en 3-D y desde diferentes “puntos de vista” (ángulos, alturas de cámara y distancias). Es precisamente esta variedad y el factor humano impredecible el que hace que este tipo de sistemas sea interesante. Es tristemente cierto que no siempre se puede confiar en que los peatones velen por su propia seguridad, así que mejor más pares de ojos velando por ellos.