El nuevo sistema de IA Gemini de Google entenderá tus fotos y videos, no solo texto

Google Gemini Tries Outsmarting ChatGPT With Photo and Video AI. (2023.). CNET. Recuperado 7 de diciembre de 2023, de https://www.cnet.com/tech/computing/google-gemini-tries-outsmarting-chatgpt-with-photo-video-ai/

Google ha comenzado a dotar a su chatbot Bard AI de una comprensión nativa de video, audio y fotos con un nuevo modelo llamado Gemini. Los propietarios de teléfonos Google Pixel 8 serán algunos de los primeros en aprovechar sus nuevas capacidades de inteligencia artificial.

Las primeras versiones de la nueva tecnología llegaron el miércoles a docenas de países a través de la actualización Gemini de Google Bard, pero solo en inglés. Puede proporcionar habilidades de chat basadas en texto que Google afirma mejoran las habilidades de inteligencia artificial en tareas complejas como resumir documentos, razonar y escribir código de programación. El cambio más importante con las capacidades multimedia, como comprender gestos con las manos en un video o descifrar el resultado de un rompecabezas de puntos a puntos dibujado por un niño, llegará «pronto», según Google.

Gemini representa un cambio dramático para la inteligencia artificial. El chat basado en texto es importante, pero los humanos deben procesar información mucho más rica a medida que habitamos nuestro mundo tridimensional y en constante cambio. Y respondemos con habilidades de comunicación complejas, como el habla y las imágenes, no solo palabras escritas. Gemini es un intento de acercarse a nuestra comprensión más completa del mundo.

Gemini viene en tres versiones adaptadas para diferentes niveles de potencia informática, según Google:

Gemini Nano funciona en teléfonos móviles, con dos variedades disponibles construidas para diferentes niveles de memoria disponible. Impulsará nuevas funciones en los teléfonos Pixel 8 de Google, como resumir conversaciones en su aplicación Recorder o sugerir respuestas de mensajes en WhatsApp escritos con el teclado Gboard de Google.
Gemini Pro, ajustado para respuestas rápidas, se ejecuta en los centros de datos de Google y alimentará una nueva versión de Bard, a partir del miércoles.
Gemini Ultra, limitado a un grupo de prueba por ahora, estará disponible en un nuevo chatbot Bard Advanced que se lanzará a principios de 2024. Google se negó a revelar detalles de precios, pero se espera pagar un precio premium por esta capacidad superior.

La nueva versión destaca el vertiginoso ritmo de avance en el nuevo campo de la inteligencia artificial generativa, donde los chatbots crean sus propias respuestas a indicaciones que escribimos en lenguaje claro en lugar de instrucciones de programación arcanas. El principal competidor de Google, OpenAI, tomó la delantera con el lanzamiento de ChatGPT hace un año, pero ya Google se encuentra en su tercera revisión importante de modelos de inteligencia artificial y espera ofrecer esa tecnología a través de productos que utilizan miles de millones de personas, como búsqueda, Chrome, Google Docs y Gmail.

«Durante mucho tiempo quisimos construir una nueva generación de modelos de inteligencia artificial inspirados en la forma en que las personas comprenden e interactúan con el mundo, una inteligencia artificial que se sienta más como un colaborador útil y menos como un software inteligente», dijo Eli Collins, vicepresidente de producto de la división DeepMind de Google. «Gemini nos acerca un paso más a esa visión».

OpenAI también suministra la inteligencia detrás de la tecnología de inteligencia artificial Copilot de Microsoft, incluido el nuevo modelo de inteligencia artificial GPT-4 Turbo que OpenAI lanzó en noviembre. Microsoft, al igual que Google, tiene productos importantes como Office y Windows a los que está agregando funciones de inteligencia artificial.

Gemini es la siguiente generación del modelo de lenguaje grande de Google, una secuela de PaLM y PaLM 2, que han sido la base de Bard hasta ahora. Pero al entrenar a Gemini simultáneamente en texto, código de programación, imágenes, audio y video, puede manejar de manera más eficiente la entrada multimedia que con modelos de inteligencia artificial separados pero interconectados para cada modo de entrada.

Ejemplos de las habilidades de Gemini, según un documento de investigación de Google (PDF), son diversos.

Al mirar una serie de formas que consisten en un triángulo, un cuadrado y un pentágono, puede adivinar correctamente que la siguiente forma en la serie es un hexágono. Al presentar fotos de la luna y una mano sosteniendo una pelota de golf y preguntar por la conexión, señala correctamente que los astronautas del Apolo golpearon dos pelotas de golf en la luna en 1971. Convirtió cuatro gráficos de barras que mostraban técnicas de eliminación de residuos país por país en una tabla etiquetada y señaló un punto de datos atípico, a saber, que Estados Unidos arroja mucho más plástico en el vertedero que otras regiones.

La compañía también mostró a Gemini procesando un problema de física escrito a mano que involucraba un dibujo simple, descubriendo dónde estaba el error de un estudiante y explicando una corrección. Un video de demostración más complejo mostró a Gemini reconociendo un pato azul, títeres de mano, trucos de prestidigitación y otros videos. Sin embargo, ninguna de las demostraciones fue en vivo y no está claro con qué frecuencia Gemini tiene dificultades con tales desafíos.

	Estrategias innovado… en Comparación de gestores de ref…
	¿Quieres autopublica… en El 49% de los libros editados…
	Cuando la IA cruza l… en Confianza, actitudes y uso de…
	Cuando la IA cruza l… en Confianza, actitudes y uso de…
	Cuando la IA cruza l… en Confianza, actitudes y uso de…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca

El nuevo sistema de IA Gemini de Google entenderá tus fotos y videos, no solo texto

Comparte esto: