
«ChatGPT Can Now See, Hear, and Speak». Accedido 29 de septiembre de 2023. https://openai.com/blog/chatgpt-can-now-see-hear-and-speak.
Hasta ahora ChatGPT ha estado limitado por su ámbito de accesibilidad. Con la introducción de voz a texto, respuestas vocales, funcionalidad de imágenes y mucho más, los usuarios tienen ahora acceso a un modelo de IA mucho más intuitivo.
ChatGPT dio a conocer una serie de actualizaciones que incluyen el reconocimiento de voz e imágenes, marcando un paso significativo hacia la creación de una experiencia de usuario más interactiva e intuitiva (similar a cómo interactuamos actualmente con Siri & Google Assistant).
Puntos clave:
- Ahora los usuarios pueden hacer fotos y hablar de ellas en directo con ChatGPT, una función especialmente útil para viajar, planificar comidas o resolver problemas académicos.
- Las interacciones de voz se basan en un novedoso modelo de conversión de texto a voz que, en colaboración con actores de doblaje profesionales, genera un sonido similar al humano. También podrá transcribir su propio audio a texto para agilizar las interacciones.
- La comprensión de imágenes se apoya en BeMyEyes, ampliando las capacidades de razonamiento de GPT-4 a una amplia gama de imágenes, incluyendo fotos, capturas de pantalla y documentos mixtos de texto-imagen; haciendo más fácil que nunca mantener una discusión con GPT-4.
- La nueva funcionalidad se lanzará inicialmente para los usuarios Plus y Enterprise, con un despliegue más amplio previsto en un futuro próximo. Las funciones de voz sólo estarán disponibles en iOS y Android, mientras que las funciones de imagen estarán disponibles en todas las plataformas.