MusicLM de Google un avanzado generador de música basado en inteligencia artificial (IA) que puede convertir un fragmento de texto en una canción

MusicLM

MusicLM es un modelo que genera música de alta fidelidad a partir de descripciones textuales como «una relajante melodía de violín acompañada de un riff de guitarra distorsionado». MusicLM plantea el proceso de generación de música condicional como una tarea de modelado jerárquico secuencia a secuencia, y genera música a 24 kHz que se mantiene constante durante varios minutos.

La revolución de la IA: En 2022, ChatGPT, DALL-E 2 y otras IA avanzadas capaces de generar texto o imágenes impresionantes en respuesta a comandos de usuario ganaron popularidad. Sin embargo, no fueron las primeras IA generativas ni los únicos ejemplos de lo que las redes neuronales pueden hacer.

¿Qué hay de nuevo? La novedad es MusicLM, un generador de música basado en IA presentado por Google en enero de 2023. Esta tecnología representa uno de los ejemplos más impresionantes, ya que puede generar clips de hasta 5 minutos de duración basados en descripciones de texto, logrando que la música suene más parecida a algo que podría grabar un humano que otros generadores de IA.

MusicLM supera a los sistemas anteriores tanto en calidad de audio como en adherencia a la descripción textual. Además, demostramos que MusicLM puede condicionarse tanto al texto como a una melodía, ya que puede transformar melodías silbadas y tarareadas según el estilo descrito en un pie de texto.

¿Cómo funciona? Google entrenó MusicLM con más de 280.000 horas de música proveniente de MuLan, un modelo entrenado para vincular la música con descripciones escritas en lenguaje natural. Luego, crearon MusicCaps, un conjunto de datos públicamente accesible con más de 5.500 clips de música para evaluar el generador de música de IA.

En comparación con otros generadores de música basados en texto, como Mubert y Riffusion, Google enfrentó a MusicLM a través de varias métricas cuantitativas para evaluar la calidad auditiva y la adherencia a una descripción de texto. Según un documento compartido por Google en el servidor de preimpresión arXiv, MusicLM superó a las otras IA en todos los aspectos evaluados.

Mirando hacia el futuro: Aunque MusicLM puede producir audio que suena más cercano a la música escrita por humanos, aún no puede replicar estructuras de canciones tradicionales y la calidad vocal es deficiente. Google destaca la necesidad de trabajos futuros para abordar estos problemas y mejorar la calidad general del audio. Además, aproximadamente el 1% de la producción de MusicLM se puede emparejar aproximadamente con el audio en sus datos de entrenamiento, un problema que debe abordarse antes de su lanzamiento público.