OpenAI lleva el vídeo al modo de voz avanzado de ChatGPT

Mauran, Cecily. «OpenAI Brings Video to ChatGPT Advanced Voice ModeMashable, December 12, 2024. https://mashable.com/article/openai-brings-video-to-chatgpt-advanced-voice-mode.

A partir del 12 de diciembre de 2024, OpenAI ha incorporado nuevas capacidades visuales al Modo de Voz Avanzado (AVM) de ChatGPT, que ahora incluye funciones de video y compartición de pantalla. Ahora, los usuarios pueden interactuar con ChatGPT utilizando la cámara de su teléfono, permitiendo que el modelo «vea» lo que ellos ven en tiempo real.

la actualización de Advanced Voice Mode (AVM) se había anticipado en mayo con el lanzamiento de GPT-4o, pero hasta ahora solo estaba disponible la modalidad de audio.Durante una demostración en vivo, el equipo de OpenAI, encabezado por el CPO Kevin Weil, mostró cómo ChatGPT puede asistir en tareas como preparar café con un filtro de goteo. Al apuntar la cámara hacia el proceso, ChatGPT comprendió el principio de la máquina y guió al equipo paso a paso en la preparación del café. También se mostró cómo la función de compartición de pantalla permite que ChatGPT entienda lo que aparece en la pantalla de un teléfono, como un mensaje abierto.

Este anuncio se produjo justo después de que Google presentara la próxima generación de su modelo insignia Gemini 2.0, que también tiene la capacidad de procesar entradas visuales y auditivas, con mayores capacidades de agente, permitiendo realizar tareas complejas en nombre del usuario.

En cuanto a la demostración de OpenAI, se destacó cómo ChatGPT, con su modalidad visual, pudo identificar objetos con precisión e incluso ser interrumpido en medio de la interacción. Además, se añadió una opción de voz de Santa Claus en el Modo de Voz, con una voz profunda y alegre que decía «ho-ho-ho». Esta función se activa tocando el ícono de copo de nieve en la aplicación de ChatGPT, aunque los usuarios son advertidos de que está destinada solo a mayores de 13 años. Aún no se ha confirmado si la voz de Santa Claus fue proporcionada por el propio Santa o si OpenAI la utilizó sin su consentimiento previo.

A partir de hoy, las funciones de video y compartición de pantalla están disponibles para los usuarios de ChatGPT Plus y Pro, y se espera que estén disponibles para Enterprise y Edu en enero de 2025.