ChatGPT-4o, Gemini Pro y todo lo que está por venir en el campo de la inteligencia artificial
En el campo de la inteligencia artificial, el que no corre vuela. Tanto OpenAI como Google han anunciado recientemente nuevas versiones de sus modelos, algunas de cuyas características ya se pueden probar. Quedan por llegar novedades de Apple, Amazon, Microsoft y otras empresas que están apostando fuerte por este campo. Pero lo que estamos viendo hasta ahora permite hacerse una idea de lo brillante que será el futuro, especialmente en el entendimiento del mundo que nos rodea a través de imágenes y voz que las IAs pueden interpretar.
Un ChatGPT más rápido, capaz y multimodal
Las principales mejoras que incorpora son:
- Un modelo de lenguaje más avanzado, rápido y con más idiomas.
- Mayor capacidad de análisis y memoria.
- Tiempo de respuesta muy bajo, de 320 ms, conversacional.
- Modo voz para interactuar de forma más natural.
- Modo vídeo para analizar lo que se ve a través de la cámara.
- Mayor seguridad y autolimitaciones en las respuestas.
Las demostraciones son realmente llamativas e impresionantes, con conversaciones totalmente fluidas en las que ChatGPT no tiene problema en reconocer varias voces, ser interrumpido y donde contesta en un tiempo muy cercano al que los humanos consideramos natural al hablar (aunque parte del truco es que siempre arranca con términos genéricos como «Vale», «Hmmm…», «Entiendo» antes de dar su respuesta real). Al admitir consultas de mayor tamaño y guardar más texto en su «ventana de memoria» puede analizar mejor las consultas (prompts) y es menos propensa a fallos, tanto sobre consultas textuales como de código de programación, una de sus especialidades.
En cuanto a su capacidad visual, es algo que también se incorporará en la versión para dispositivos móviles. Además de poder subirle fotos para que las analice o lea, algo que ya hacía estupendamente, se puede activar la cámara y mostrar un vídeo para hacer consultas: «¿En qué calle de la ciudad estoy?» «¿Qué indica esta luz roja del panel del coche?» «¿Dónde he dejado las llaves?» Algunas son realmente curiosas y se puede ver cómo ChatGPT-4o razona sobre lo que está viendo, una auténtica maravilla, al menos según las demostraciones. Otro ejemplo visto en una demostración: la detección facial de emociones en tiempo real gracias a la cámara de vídeo. Esto puede tener utilidades claras, por ejemplo, en la seguridad de la conducción, pues puede analizar si un conductor está somnoliento, despistado con el móvil o agresivo.
Las novedades de Google: Gemini, Astra y más allá
- Gemini 1.5 Pro, la versión mejorada de su modelo de lenguaje general, junto con Gemini 1.5 Flash y Nano como «versiones ligeras» para ciertas tareas.
- Project Astra, el equivalente del modo vídeo de OpenAI, capaz de analizar el entorno de manera visual, descriptiva e inteligente mediante la cámara.
- ImageFX, una versión mejorada del sistema de generación de imágenes fotorrealistas.
- Music AI Sandbox, herramientas generativas musicales mediante AI.
- VideoFX, una muy espectacular forma de generar videoclips y películas de forma artificial.
- Búsquedas Google con IA, que hacen que la búsqueda de Google «de toda la vida» ofrezca respuestas rápidas y resumidas para búsquedas comunes, algo que permite ahorrar tiempo (y no tener que visitar las páginas de otras webs).
Cuando lo imposible es posible
Es curioso leer las reacciones de quienes han visto todas estas demostraciones de las tecnologías de OpenAI y Google. Entre las más llamativas hay una en que dos móviles con ChatGPT hablan el uno con el otro sobre lo que uno de ellos está viendo. En otra, un padre observa cómo su hijo recibe una clase interactiva de geometría en una tableta. No obstante, los expertos ya han avisado: muchas de estas demos tienen sus truquis y pueden estar reeditadas, «reintentadas» hasta que funcionan y como no se trata de productos que ya se puedan probar es difícil decir si llegan hasta donde prometen.
¿Qué anunciarán Apple, Amazon, Microsoft, X (Twitter) y otros contendientes en este campo? Todavía tienen tiempo de mostrar en sus asistentes (Siri, Alexa, Copilot, Grok…) por no olvidarnos de otros contendientes como Claude, Perplexity, Midjourney y demás que andan a la zaga. Desde luego lo que está claro es que van a ser tiempos interesantes con tantas novedades y resultados tan espectaculares como los que se han visto recientemente.