
Łajszczak, Mateusz, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, et al. «BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data». arXiv, 15 de febrero de 2024. https://doi.org/10.48550/arXiv.2402.08093.
Un equipo de investigadores de inteligencia artificial en Amazon AGI anunció el desarrollo de lo que describen como el modelo de texto a voz más grande jamás creado. Por «más grande», se refieren a tener la mayor cantidad de parámetros y utilizar el conjunto de datos de entrenamiento más grande. Han publicado un artículo en el servidor de preimpresión arXiv describiendo cómo se desarrolló y entrenó el modelo.
Los LLMs (modelos de lenguaje de largo alcance) como ChatGPT han llamado la atención por su capacidad parecida a la humana para responder preguntas inteligentemente y crear documentos de alto nivel. Pero la IA todavía está abriéndose paso en otras aplicaciones convencionales también. En este nuevo esfuerzo, los investigadores intentaron mejorar la capacidad de una aplicación de texto a voz aumentando su número de parámetros y agregando a su base de entrenamiento.
El nuevo modelo, llamado Big Adaptive Streamable TTS with Emergent abilities (BASE TTS para abreviar), tiene 980 millones de parámetros y fue entrenado utilizando 100.000 horas de voz grabada (encontrada en sitios públicos), la mayoría de las cuales estaba en inglés. El equipo también le dio ejemplos de palabras y frases habladas en otros idiomas para permitir que el modelo pronunciara correctamente frases conocidas cuando las encuentre, como «au contraire», por ejemplo, o «adiós, amigo».
El equipo en Amazon también probó el modelo en conjuntos de datos más pequeños, con la esperanza de aprender dónde desarrolla lo que se ha conocido en el campo de la IA como una calidad emergente, en la que una aplicación de IA, ya sea un LLM o una aplicación de texto a voz, parece repentinamente alcanzar un nivel más alto de inteligencia. Descubrieron que para su aplicación, un conjunto de datos de tamaño mediano fue donde ocurrió el salto a un nivel más alto, a 150 millones de parámetros.
También señalaron que el salto involucraba una serie de atributos lingüísticos, como la capacidad de usar sustantivos compuestos, expresar emociones, usar palabras extranjeras, aplicar paralingüística y puntuación, y hacer preguntas con énfasis en la palabra correcta en una oración.
El equipo dice que BASE TTS no será lanzado al público, temen que pueda ser utilizado de manera poco ética, en cambio, planean usarlo como una aplicación de aprendizaje. Esperan aplicar lo que han aprendido hasta ahora para mejorar la calidad de sonido humano de las aplicaciones de texto a voz en general.


