En un minidocumental titulado ‘The Making of Gran Turismo Sophy‘ el equipo de inteligencia artificial de Sony AI explica, con todo lujo de detalles, cómo han logrado que una inteligencia artificial haya batido a los mejores pilotos del popular videojuego Gran Turismo, un simulador de carreras de coches que desde 1997 viene haciendo las delicias de los aficionados en la PlayStation.
Lo más interesante es la dificultad que entraña dominar el juego, que utiliza una simulación física sumamente realista. Esto ha llevado a que actualmente haya millones de jugadores, y entre ellos auténticos profesionales de la «conducción virtual». Pero esto no ha impedido que esta IA, llamada cariñosamente Sophy, los haya superado a todos sobre los circuitos.
El trabajo ha sido publicado incluso en la revista Nature (Outracing champion Gran Turismo drivers with deep reinforcement learning), donde se detalla todo el proceso. El reto para el equipo de IA era integrar los controles no-lineales de los vehículos (volante, freno, acelerador, etcétera) en un entorno en el que los circuitos son cambiantes y, sobre todo, hay muchos competidores con comportamientos en cierto modo impredecibles.
La técnica utilizada es bien conocida en el mundo de la IA y se basa en los llamados algoritmos de aprendizaje por refuerzo profundo, que combinan aprendizaje por refuerzo + aprendizaje profundo. En otras palabras, es como una especie de aprendizaje a base de prueba-y-error de forma masiva, en el que la IA al principio no sabe nada, está completamente en blanco y va probando, probando, en base a los pequeños cambios en los controles, cuánto se aproxima al objetivo (definido como «ganar la carrera»). Por esto, la inteligencia de Sophy pasaba por «darle rienda suelta» en los circuitos de carreras simulados, en varias versiones reforzando las que mejor se comportan. Y repetir y repetir y repetir el proceso, infinidad de veces.
Los ingenieros lo explican bien con algunos ejemplos: al principio, al dejar sola a Sophy, la IA apenas era capaz de circular sin salirse de la carretera, e incluso chocaba torpemente contra los laterales, saliéndose de la vía. Llegó un momento en que conseguía circular correctamente, aunque despacio. Luego surgió otra versión que podía ir más rápido, pero era incapaz de ir en línea recta: movía continuamente el volante, produciendo un peculiar traqueteo, lo cual distaba de ser óptimo. Finalmente, apareció una versión de Sophy que podía circular rápido, conducir recto y no salirse del circuito. Primer paso logrado. Aun así, cualquier humano era capaz de batirla 100 de cada 100 veces.
Pero las IA aprenden muy rápido –literalmente– y en las diversos encuentros que los jugadores tenían con los ingenieros de software cada dos semanas podían ver versiones más capaces y, sobre todo, más rápidas. Sophy aprendió a pisar a fondo y circular más deprisa, a optimizar la forma de tomar las curvas –después de mucho ensayo y error– e incluso a evitar a otros vehículos durante las carreras, para no colisionar.
Como se suele hacer en este tipo de desarrollos, los ingenieros decidieron que era más rápido poner a muchas versiones de Sophy a circular a la vez y las nombraron con colores: Sophy Blanche, Sophy Lavande, Sophy Noir… En los gigantescos servidores de Sony Interactive Entertainment se simulaban millones de carreras a ritmo acelerado, con decenas de Sophies compitiendo contra versiones parecidas de sí mismas en cada carrera, perfeccionando su técnica. Aquí surgió la primera revelación: en cierto modo, una IA se convierte en una «experta conductora» del mismo modo que los conductores humanos se convierten en «expertos conductores»… practicando mucho.
Finalmente, consiguieron una versión de Sophy capaz de vencer a algunos pilotos humanos, aunque ahí comenzaron otro tipo de dificultades. Los humanos seguían ganando aunque por poco, sobre todo, en las carreras contra muchos otros coches. Ahí se vio la importancia del estilo de conducción –otro factor además del reloj– que podía ser agresivo o tímido, arriesgado o seguro. Los pilotos humanos sabían que competían contra una IA y flotaba en el ambiente el asunto de la «deportividad»: cómo ser agresivo sin llegar a chocar y producir accidentes, porque al final los coches podrían quedar eliminados. Dicen que lo más difícil fue conseguir que el estilo de Sophy fuera «agresivamente competitivo», pero no tímido, sino algo a medio camino; también resultó complejo encontrar la fórmula para puntuar algorítmicamente los premios / castigos asociados con según qué tipo de incidentes: colisiones, salidas de pista y descalificaciones.
Finalmente Sophy consiguió salir victoriosa en todas las pruebas, tanto en las series de calificación como en las carreras multijugador, y tanto en la categoría individual como de equipo. La conclusión tanto para los ingenieros como para los pilotos fue similar: el objetivo al crear este tipo de inteligencias artificiales no es que tanto que «ganen a los humanos» como que sirvan para mejorar su conducción, y en el caso de los videojuegos, para que sean más divertidos.
En los videojuegos muchas veces se compite contra el ordenador y hacerlo más capaz en su comportamiento es divertido; es como encontrar ese punto mágico de equilibro entre lo «difícil, pero no imposible» y lo «fácil, pero no obvio». Pero tanto en la conducción como en otros juegos (desde el ajedrez al go o los juegos de estrategia) las IA también pueden enseñar mucho a los jugadores humanos. Son una especie de entidad capaz de cumplir mejor con el objetivo final del juego, pero al mismo tiempo un entrenador eficaz que enseña nuevas técnicas, trucos e ideas, lo cual desde el mundo de la conducción al de los videojuegos del futuro multiverso puede resultar cuando menos sumamente interesante.
Últimas entradas de Microsiervos
- La competición en el mundo de los visores para adentrarse en el metaverso está servida
- La tecnología de una mochila que hace más seguro pasear por la calle a las personas con dificultades de visión
- Los avances tecnológicos de los aviones eléctricos y sus aplicaciones en otros campos de la ingeniería