
Edwards, Benj. «Microsoft’s New AI Can Simulate Anyone’s Voice with 3 Seconds of Audio». Ars Technica, 9 de enero de 2023. https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/.
El jueves, investigadores de Microsoft anunciaron un nuevo modelo de inteligencia artificial de texto a voz llamado VALL-E que puede simular fielmente la voz de una persona cuando se le da una muestra de audio de tres segundos. Una vez que aprende una voz específica, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa y hacerlo de una manera que intenta preservar el tono emocional del hablante.
Sus creadores especulan con que VALL-E podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, edición de voz en las que una grabación de una persona podría editarse y cambiarse a partir de una transcripción de texto (haciéndole decir algo que originalmente no dijo), y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3.
Microsoft llama a VALL-E un «modelo de lenguaje de códec neural», y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de conversión de texto en voz que suelen sintetizar el habla manipulando formas de onda, VALL-E genera códigos de códec de audio a partir de texto e indicaciones acústicas. Básicamente, analiza cómo suena una persona, descompone esa información en componentes (llamados «tokens») gracias a EnCodec, y utiliza datos de entrenamiento para hacer coincidir lo que «sabe» sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos. O, como dice Microsoft en el artículo sobre VALL-E
Microsoft entrenó las capacidades de síntesis de voz de VALL-E con una biblioteca de audio, reunida por Meta, llamada LibriLight. Contiene 60.000 horas de habla inglesa de más de 7.000 hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox. Para que VALL-E genere un buen resultado, la voz de la muestra de tres segundos debe ser muy parecida a la de los datos de entrenamiento.