Astra es la respuesta «multimodal» de Google al nuevo ChatGPT que se integrará en unas gafas de realidad aumentada

«Astra Is Google’s ‘Multimodal’ Answer to the New ChatGPT | WIRED». Accedido 15 de mayo de 2024. https://www.wired.com/story/google-io-astra-multimodal-answer-chatgpt/.


El nuevo asistente de IA de Google, llamado Project Astra, puede interpretar lo que ve la cámara del teléfono y responder a comandos de voz. Presentado por Demis Hassabis en la conferencia I/O de Google, Astra utiliza Gemini Ultra, un modelo de IA multimodal que maneja audio, imágenes, video y texto. Similar al reciente ChatGPT de OpenAI, Astra puede analizar escenas, reconocer objetos y mantener conversaciones naturales. Aunque ambas tecnologías son impresionantes, aún no está claro cómo se integrarán en el ámbito laboral o personal.

En el panorama actual de la inteligencia artificial (IA), dos destacados avances han sido presentados por OpenAI y Google. OpenAI dio a conocer una nueva interfaz para ChatGPT, llamada GPT-4o, que permite conversaciones fluidas a través de voz y la capacidad de analizar imágenes en tiempo real. Esta versión de ChatGPT utiliza un tono más humano y expresivo, simulando incluso emociones como la sorpresa y el coqueteo. Por otro lado, Google ha desarrollado Project Astra, basado en el avanzado modelo Gemini Ultra, que compite con ChatGPT. Gemini, al igual que GPT-4o, es «multimodal», lo que significa que puede procesar audio, imágenes y video, además de texto. Ambos avances representan una nueva era en la IA generativa, ya que anteriormente los modelos de IA se centraban únicamente en el texto y necesitaban ser combinados con otros sistemas para añadir capacidades de imagen o audio.


Project Astra es la apuesta de Google para el futuro de los asistentes de inteligencia artificial, similar a la presentada por OpenAI, pero con una innovación llamativa: Google planea integrarlo en unas gafas de realidad aumentada. Este proyecto busca desarrollar agentes de IA universales que puedan entender y responder como lo haría un humano, además de recordar el contexto en el que se encuentran.

Estos desarrollos son el resultado de un enfoque hacia asistentes de IA más sofisticados, como lo señala Demis Hassabis de Google. Hassabis considera que los chatbots basados solo en texto son una etapa transitoria hacia sistemas más avanzados que comprenden y responden a diversas modalidades de información. Sin embargo, aunque las demostraciones de estos sistemas son impresionantes, su utilidad concreta en entornos laborales o personales aún no está clara. Google planea lanzar Project Astra a través de una nueva interfaz llamada Gemini Live. La apuesta es similar a la de OpenAI, pero con una novedad llamativa: Google plantea integrarla en unas gafas