«Navigating the Challenges and Opportunities of Synthetic Voices». Accedido 30 de marzo de 2024. https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices.
OpenAI ha compartido resultados preliminares de una prueba para una función que puede leer palabras en voz alta con una voz humana convincente, resaltando una nueva frontera para la inteligencia artificial y planteando el espectro de los riesgos de deepfake.
La compañía está compartiendo demos y casos de uso tempranos de una vista previa a pequeña escala del modelo de texto a voz, llamado Voice Engine, que ha compartido con aproximadamente 10 desarrolladores hasta ahora, según un portavoz. OpenAI decidió no ampliar el lanzamiento de la función, sobre la cual informó a los periodistas a principios de este mes.
Voice Engine de OpenAI tiene la capacidad de crear una réplica sintética de una voz después de escucharla durante solo 15 segundos, ya sea en tiempo real o a través de una grabación. Esta reproducción sintética imita el tono y las características distintivas de la voz original, permitiendo que cualquier frase se pueda «hablar» con una imitación fiel de la voz original.
Un portavoz de OpenAI dijo que la compañía decidió no hacer el lanzamiento después de recibir comentarios de partes interesadas como legisladores, expertos de la industria, educadores y creativos. Según la presentación de prensa anterior, la compañía había planeado inicialmente lanzar la herramienta a hasta 100 desarrolladores a través de un proceso de solicitud.
«Reconocemos que generar voz que se asemeje a las voces de las personas tiene riesgos serios, que están especialmente en primer plano en un año electoral», escribió la compañía en una publicación de blog el viernes. «Estamos interactuando con socios de EE. UU. e internacionales de todo el gobierno, medios de comunicación, entretenimiento, educación, sociedad civil y más allá para asegurarnos de que estamos incorporando sus comentarios mientras construimos».
Otra tecnología de IA ya se ha utilizado para falsificar voces en algunos contextos. En enero, una llamada telefónica falsa pero realista que pretendía ser del presidente Joe Biden alentó a las personas en New Hampshire a no votar en las primarias, un evento que avivó los temores de IA antes de elecciones globales críticas.
A diferencia de los esfuerzos anteriores de OpenAI para generar contenido de audio, Voice Engine puede crear voz que suena como personas individuales, completa con su cadencia e inflexiones específicas. Todo lo que necesita el software es 15 segundos de audio grabado de una persona hablando para recrear su voz.
Durante una demostración de la herramienta, Bloomberg escuchó un clip del CEO de OpenAI, Sam Altman, explicando brevemente la tecnología con una voz que sonaba indistinguible de su habla real, pero fue completamente generada por IA.
«Si tienes la configuración de audio correcta, es básicamente una voz de calidad humana», dijo Jeff Harris, líder de producto en OpenAI. «Es una calidad técnica bastante impresionante». Sin embargo, Harris dijo: «Obviamente, hay mucha delicadeza de seguridad en torno a la capacidad de imitar con precisión el habla humana».
Uno de los actuales socios desarrolladores de OpenAI que usa la herramienta, el Instituto de Neurociencias Norman Prince en el sistema de salud sin fines de lucro Lifespan, está utilizando la tecnología para ayudar a los pacientes a recuperar su voz. Por ejemplo, la herramienta se usó para restaurar la voz de una joven paciente que perdió su capacidad para hablar claramente debido a un tumor cerebral replicando su habla de una grabación anterior para un proyecto escolar, dijo la publicación del blog de la compañía.
El modelo de voz personalizado de OpenAI también puede traducir el audio que genera a diferentes idiomas. Eso lo hace útil para empresas en el negocio de audio, como Spotify Technology SA. Spotify ya ha utilizado la tecnología en su propio programa piloto para traducir los podcasts de presentadores populares como Lex Fridman. OpenAI también destacó otras aplicaciones beneficiosas de la tecnología, como crear una gama más amplia de voces para contenido educativo para niños.
En el programa de pruebas, OpenAI está exigiendo a sus socios que acepten sus políticas de uso, obtengan el consentimiento del hablante original antes de usar su voz y divulguen a los oyentes que las voces que están escuchando son generadas por IA. La compañía también está instalando una marca de agua de audio inaudible para permitirle distinguir si una pieza de audio fue creada por su herramienta.
Antes de decidir si lanzar más ampliamente la función, OpenAI dijo que está solicitando comentarios de expertos externos. «Es importante que las personas de todo el mundo entiendan hacia dónde se dirige esta tecnología, ya sea que finalmente la despleguemos ampliamente nosotros mismos o no», dijo la compañía en la publicación del blog.
OpenAI también expresó su esperanza de que la presentación preliminar de su software impulse la necesidad de fortalecer la resiliencia social frente a los desafíos planteados por las tecnologías de IA más avanzadas. Como ejemplo, la empresa instó a los bancos a eliminar la autenticación de voz como medida de seguridad para acceder a cuentas bancarias e información sensible. Además, está abogando por una mayor educación pública sobre el contenido engañoso generado por IA y el desarrollo de técnicas adicionales para detectar si el contenido de audio es auténtico o generado por IA.