En el campo de la inteligencia artificial, el que no corre vuela. Tanto OpenAI como Google han anunciado recientemente nuevas versiones de sus modelos, algunas de cuyas características ya se pueden probar. Quedan por llegar novedades de Apple, Amazon, Microsoft y otras empresas que están apostando fuerte por este campo. Pero lo que estamos viendo hasta ahora permite hacerse una idea de lo brillante que será el futuro, especialmente en el entendimiento del mundo que nos rodea a través de imágenes y voz que las IAs pueden interpretar.
Un ChatGPT más rápido, capaz y multimodal
La nueva versión que presentó OpenAI se llama ChatGPT-4o, donde el 4 es el número de modelo y la «o» representa «omni» («para todo» o «varios modos/canales»). Las demostraciones, no exentas de pequeños truquis, permiten ver cómo ChatGPT contesta con mayor precisión, ve el mundo a través de la cámara y es capaz de analizar situaciones complejas con gran pericia. La comparación más habitual que se ha hecho es con Samantha, la inteligencia artificial de la película Her (Spike Jonze, 2013), cuya voz interpretó Scarlett Johansson y de la que se enamoraba perdidamente a Joaquin Phoenix (y otros 8.000 usuarios del futurista sistema operativo OS1 de la ficción, todo sea dicho).
Las principales mejoras que incorpora son:
- Un modelo de lenguaje más avanzado, rápido y con más idiomas.
- Mayor capacidad de análisis y memoria.
- Tiempo de respuesta muy bajo, de 320 ms, conversacional.
- Modo voz para interactuar de forma más natural.
- Modo vídeo para analizar lo que se ve a través de la cámara.
- Mayor seguridad y autolimitaciones en las respuestas.
Las demostraciones son realmente llamativas e impresionantes, con conversaciones totalmente fluidas en las que ChatGPT no tiene problema en reconocer varias voces, ser interrumpido y donde contesta en un tiempo muy cercano al que los humanos consideramos natural al hablar (aunque parte del truco es que siempre arranca con términos genéricos como «Vale», «Hmmm…», «Entiendo» antes de dar su respuesta real). Al admitir consultas de mayor tamaño y guardar más texto en su «ventana de memoria» puede analizar mejor las consultas (prompts) y es menos propensa a fallos, tanto sobre consultas textuales como de código de programación, una de sus especialidades.
En cuanto a su capacidad visual, es algo que también se incorporará en la versión para dispositivos móviles. Además de poder subirle fotos para que las analice o lea, algo que ya hacía estupendamente, se puede activar la cámara y mostrar un vídeo para hacer consultas: «¿En qué calle de la ciudad estoy?» «¿Qué indica esta luz roja del panel del coche?» «¿Dónde he dejado las llaves?» Algunas son realmente curiosas y se puede ver cómo ChatGPT-4o razona sobre lo que está viendo, una auténtica maravilla, al menos según las demostraciones. Otro ejemplo visto en una demostración: la detección facial de emociones en tiempo real gracias a la cámara de vídeo. Esto puede tener utilidades claras, por ejemplo, en la seguridad de la conducción, pues puede analizar si un conductor está somnoliento, despistado con el móvil o agresivo.
Las novedades de Google: Gemini, Astra y más allá
Google, por su parte, aprovechó el evento Google I/O 2024 para presentar sus novedades, muchas de las cuales giraban en torno a la IA, encarnadas en Gemini y otros proyectos. En total han enumerado 100 novedades a cual más interesante, entre ellas:
- Gemini 1.5 Pro, la versión mejorada de su modelo de lenguaje general, junto con Gemini 1.5 Flash y Nano como «versiones ligeras» para ciertas tareas.
- Project Astra, el equivalente del modo vídeo de OpenAI, capaz de analizar el entorno de manera visual, descriptiva e inteligente mediante la cámara.
- ImageFX, una versión mejorada del sistema de generación de imágenes fotorrealistas.
- Music AI Sandbox, herramientas generativas musicales mediante AI.
- VideoFX, una muy espectacular forma de generar videoclips y películas de forma artificial.
- Búsquedas Google con IA, que hacen que la búsqueda de Google «de toda la vida» ofrezca respuestas rápidas y resumidas para búsquedas comunes, algo que permite ahorrar tiempo (y no tener que visitar las páginas de otras webs).
Todas estas mejoras de la IA de Google tienen una gran ventaja: la compañía las puede integrar fácilmente con otras herramientas: sus mapas, la búsqueda, sus aplicaciones de fotos, hojas de cálculo y escritura… En el terreno de aplicaciones que suelen usarse para los viajes en coche, como los navegadores, planificadores de rutas o las búsquedas y consultas en las ciudades, supone una potencia difícil de igualar. La conclusión es que casi cualquier función o resultado generado por Gemini puede exportarse, por ejemplo a una hoja de cálculo, o el examen de unas fotos en busca de una persona o situación puede llevarse a los mapas… Una ventaja competitiva realmente grande.
Cuando lo imposible es posible
Es curioso leer las reacciones de quienes han visto todas estas demostraciones de las tecnologías de OpenAI y Google. Entre las más llamativas hay una en que dos móviles con ChatGPT hablan el uno con el otro sobre lo que uno de ellos está viendo. En otra, un padre observa cómo su hijo recibe una clase interactiva de geometría en una tableta. No obstante, los expertos ya han avisado: muchas de estas demos tienen sus truquis y pueden estar reeditadas, «reintentadas» hasta que funcionan y como no se trata de productos que ya se puedan probar es difícil decir si llegan hasta donde prometen.
En cuanto a la disponibilidad y tarifas, ya está disponible a día de hoy es ChatGPT-4o en versión texto para los actuales usuarios de ChatGPT Plus, la versión de pago. Funciona ya tanto en la página web de escritorio como en las apps. Pero todo lo demás, especialmente las nuevas versiones que los usuarios finales más ansían –los nuevos modos de audio, cámara y generación de vídeo– no llegarán hasta los próximos meses, y por regiones. Los precios de estas nuevas versiones comienzan en los 20 dólares mensuales para las versiones más avanzadas (GPT-4o y Gemini 1.5 Pro). No obstante, los usuarios van a poder seguir usando siempre una versión razonablemente potente de forma gratuita, como ChatGPT 3.5. Aprovechando todo esto tanto OpenAI como Google han aprovechado para ampliar de forma gratuita la capacidad de consultas y memoria, tanto en el modo texto como en la API (versión para desarrolladores).
¿Qué anunciarán Apple, Amazon, Microsoft, X (Twitter) y otros contendientes en este campo? Todavía tienen tiempo de mostrar en sus asistentes (Siri, Alexa, Copilot, Grok…) por no olvidarnos de otros contendientes como Claude, Perplexity, Midjourney y demás que andan a la zaga. Desde luego lo que está claro es que van a ser tiempos interesantes con tantas novedades y resultados tan espectaculares como los que se han visto recientemente.