
Con la incorporación reciente de visión (Advanced Voice Mode con visión), ahora también puede interpretar lo que ve a través de la cámara del dispositivo o lo que aparece en la pantalla mediante el uso compartido de pantalla.
OpenAI ha lanzado una nueva función para ChatGPT llamada Advanced Voice Mode con visión, que permite usar la cámara del móvil para que la IA analice lo que ve y responda en tiempo real. Por ejemplo, puedes apuntar a un objeto y ChatGPT te dirá qué es. Además, ahora puede entender lo que aparece en la pantalla de tu dispositivo mediante el uso compartido de pantalla, ayudándote con configuraciones o incluso con problemas matemáticos.
Esta función está disponible para los usuarios de las suscripciones Plus, Team y Pro de ChatGPT. Para usarla, solo hay que tocar el icono de video en la app o activar la opción de «compartir pantalla» desde el menú. Sin embargo, no todos tendrán acceso inmediato: los usuarios de la UE, Suiza, Islandia, Noruega y Liechtenstein tendrán que esperar, al igual que los suscriptores de ChatGPT Enterprise y Edu, que lo recibirán en enero.
Durante las pruebas, ChatGPT mostró habilidades interesantes, como interpretar dibujos anatómicos en tiempo real, aunque también cometió errores en problemas de geometría. Esto demuestra que la función aún puede fallar, pero marca un gran avance en el uso de inteligencia artificial para interactuar con el mundo real.
¿Qué es Advanced Voice Mode de OpenAI?
Advanced Voice Mode es una función de ChatGPT que permite interactuar de manera más natural con la inteligencia artificial utilizando la voz. Esta tecnología hace que ChatGPT sea capaz de responder en tiempo real con una voz humanizada y mantener conversaciones más fluidas, como si estuvieras hablando con otra persona.
Con la incorporación reciente de visión (Advanced Voice Mode con visión), ahora también puede interpretar lo que ve a través de la cámara del dispositivo o lo que aparece en la pantalla mediante el uso compartido de pantalla.
¿Qué se puede hacer con Advanced Voice Mode?
- Conversaciones por voz:
Habla con ChatGPT en lugar de escribir, y recibe respuestas habladas de forma natural. Ideal para cuando necesitas manos libres o quieres una interacción más directa. - Reconocimiento visual en tiempo real:
Apunta la cámara del móvil hacia un objeto y ChatGPT puede identificarlo o describirlo. Por ejemplo, podría reconocer un utensilio de cocina, una planta o un dispositivo tecnológico. - Interacción con la pantalla del dispositivo:
Al compartir la pantalla, ChatGPT puede interpretar menús, configuraciones o aplicaciones, y ayudarte a navegar por ellas o resolver problemas. Por ejemplo:- Explicar opciones en la configuración del teléfono.
- Dar sugerencias para resolver problemas matemáticos que se muestran en la pantalla.
- Asistencia en tareas visuales:
ChatGPT puede analizar dibujos o imágenes en tiempo real. Por ejemplo, puede evaluar un boceto, identificar formas o sugerir mejoras. - Experiencia personalizada:
Gracias a su capacidad de comprensión multimodal, combina texto, voz y visión para ofrecer respuestas adaptadas y ricas en contexto.
OpenAI también lanzó una función adicional llamada “Santa Mode,”, que permite cambiar la voz de ChatGPT a la de Santa Claus, agregando un toque festivo para esta temporada navideña. Mientras tanto, otras empresas como Google y Meta trabajan en funciones similares para sus propios asistentes de IA.