
Wiggers, Kyle. «It Sure Looks Like OpenAI Trained Sora on Game Content — and Legal Experts Say That Could Be a Problem.» TechCrunch, December 11, 2024. https://techcrunch.com/2024/12/11/it-sure-looks-like-openai-trained-sora-on-game-content-and-legal-experts-say-that-could-be-a-problem/.
OpenAI ha lanzado Sora, una IA generadora de videos que parece haber sido entrenada con contenido de videojuegos, incluidos streamings de Twitch y videojuegos populares. Esto podría generar problemas legales debido al uso no autorizado de material con derechos de autor. Expertos en propiedad intelectual advierten sobre los riesgos de infringir derechos de autor y marcas al entrenar modelos generativos con estos datos.
OpenAI nunca ha revelado completamente los datos específicos utilizados para entrenar a Sora, su IA generadora de videos, pero parece probable que al menos parte de su material de entrenamiento provenga de transmisiones de Twitch y guías de juegos. Sora, que fue lanzada el lunes, puede generar videos de hasta 20 segundos de duración en varios formatos y resoluciones a partir de indicaciones de texto o imagen. Aunque OpenAI insinuó anteriormente que el modelo fue entrenado usando videos de Minecraft, parece que otro contenido de videojuegos también pudo haber sido incluido en el conjunto de entrenamiento. En algunas pruebas, Sora fue capaz de generar metraje de un juego similar a Super Mario Bros., un shooter en primera persona inspirado en juegos como Call of Duty y Counter-Strike, y un luchador estilo arcade de los años 90, semejante a los juegos de Teenage Mutant Ninja Turtles.
Una característica destacada de Sora es su aparente comprensión de las transmisiones en Twitch, ya que generó un video que imita la apariencia y el estilo de una plataforma de streaming popular. Esto incluyó un personaje que se parecía a Auronplay, un conocido streamer de Twitch, e incluso una figura similar a Pokimane, otra streamer prominente. Aunque OpenAI ha implementado medidas para evitar la generación de clips que involucren personajes con derechos de autor, mis pruebas sugieren que el contenido de videojuegos, posiblemente de Twitch y otras fuentes, pudo haber contribuido al entrenamiento de Sora.
OpenAI ha sido ambigua respecto a sus fuentes de datos, y en una entrevista anterior, la entonces CTO de la compañía, Mira Murati, no negó que el modelo pudiera haber sido entrenado utilizando contenido de plataformas como YouTube, Instagram y Facebook. OpenAI también ha reconocido el uso de datos disponibles públicamente y materiales con licencia de bibliotecas de medios de stock como Shutterstock en el desarrollo de Sora. Sin embargo, si el contenido de videojuegos forma parte del conjunto de entrenamiento, podría haber consecuencias legales, especialmente si OpenAI desarrolla aplicaciones interactivas sobre Sora.
Los expertos legales han expresado preocupaciones sobre los posibles riesgos de usar contenido de videojuegos no autorizado para entrenar modelos de IA. Joshua Weigensberg, un abogado de propiedad intelectual, señaló que el uso de material con derechos de autor de videojuegos sin las licencias adecuadas podría llevar a infracciones, especialmente si dichos datos se utilizan en modelos generativos de IA que producen nuevas obras. Los propios juegos suelen contener elementos protegidos, como texturas propietarias, y si estos se incluyen en los datos de entrenamiento de un modelo, podrían surgir problemas legales.
Además del riesgo de infracción de derechos de autor, existen preocupaciones sobre otros derechos de propiedad intelectual, como los derechos de marca registrada y los derechos sobre el contenido generado por los usuarios. Evan Everist, abogado especializado en derechos de autor, explicó que los videos de las partidas de juegos pueden implicar múltiples capas de protección de derechos de autor, como los derechos sobre el contenido del juego en sí, el video único creado por el jugador y el contenido generado por los usuarios. Esto crea una red compleja de titulares de derechos de autor que podrían reclamar infracción si las empresas de IA usan tales materiales en sus datos de entrenamiento.
Si bien algunos casos legales contra las empresas de IA se han centrado en si la IA generativa puede considerarse transformativa y, por lo tanto, no infringe los derechos de autor, los tribunales aún no han resuelto cuestiones clave sobre el uso de materiales con derechos de autor para entrenar la IA. Incluso si las empresas de IA ganan estos litigios, los usuarios individuales aún podrían ser responsables de infracción de derechos de autor si usan contenido generado por IA que copie obras protegidas. Además, existe el riesgo adicional de violación de derechos de marca registrada, especialmente si los videos generados por IA presentan personajes de juegos reconocibles u otros elementos protegidos. El creciente uso de modelos de mundo, que implican generar videojuegos sintéticos o experiencias interactivas en tiempo real, podría complicar aún más el panorama legal.






