Meta utilizó libros protegidos por derechos de autor para entrenar inteligencia artificial pese a las advertencias de sus propios abogados, según los autores

Paul, Katie. 2023. «Meta Used Copyrighted Books for AI Training despite Its Own Lawyers’ Warnings, Authors Allege». Reuters, 12 de diciembre de 2023, sec. Technology. https://www.reuters.com/technology/meta-used-copyrighted-books-ai-training-despite-its-own-lawyers-warnings-authors-2023-12-12/.

Los abogados habían advertido a Meta sobre los peligros legales de utilizar miles de libros pirateados para entrenar sus modelos de inteligencia artificial, pero la compañía lo hizo de todos modos, según un nuevo documento presentado en una demanda por infracción de derechos de autor iniciada este verano.

La nueva presentación, realizada el lunes por la noche, consolida dos demandas presentadas contra el propietario de Facebook e Instagram por la comediante Sarah Silverman, el ganador del Premio Pulitzer Michael Chabon y otros autores destacados. Estos alegan que Meta ha utilizado sus obras sin permiso para entrenar su modelo de lenguaje de inteligencia artificial, llamado Llama.

Un juez de California desestimó el mes pasado parte de la demanda de Silverman e indicó que daría a los autores el permiso para modificar sus reclamaciones.

Meta no respondió de inmediato a una solicitud de comentarios sobre las acusaciones.

La nueva demanda, presentada el lunes, incluye registros de chat de un investigador afiliado a Meta discutiendo la obtención del conjunto de datos en un servidor de Discord, una pieza de evidencia potencialmente significativa que indica que Meta sabía que el uso de los libros podría no estar protegido por la ley de derechos de autor de EE. UU.

En los registros de chat citados en la demanda, el investigador Tim Dettmers describe su intercambio con el departamento legal de Meta sobre si el uso de los archivos de libros como datos de entrenamiento sería «legalmente aceptable».

«En Facebook, hay muchas personas interesadas en trabajar con (The Pile), incluyéndome a mí, pero en su forma actual, no podemos usarlo por razones legales», escribió Dettmers en 2021, refiriéndose a un conjunto de datos que Meta ha admitido haber utilizado para entrenar su primera versión de Llama, según la demanda.

Un mes antes, Dettmers escribió que los abogados de Meta le habían dicho que «los datos no se pueden usar ni los modelos se pueden publicar si están entrenados con esos datos», según la demanda.

Aunque Dettmers no describe las preocupaciones de los abogados, sus colegas en el chat identifican a «los libros con derechos de autor activos» como la mayor fuente probable de preocupación. Afirman que el entrenamiento con esos datos debería «encajar dentro del uso legítimo», una doctrina legal en EE. UU. que protege ciertos usos no autorizados de obras con derechos de autor.

Dettmers, estudiante de doctorado en la Universidad de Washington, dijo a Reuters que no podía comentar de inmediato sobre las afirmaciones.

Las empresas tecnológicas han enfrentado una serie de demandas este año de creadores de contenido que los acusan de copiar obras protegidas por derechos de autor para construir modelos de inteligencia artificial generativos que han causado sensación a nivel mundial y han generado una frenética inversión.

Si estas demandas tienen éxito, podrían disminuir la fiebre de la inteligencia artificial generativa, ya que podrían aumentar el costo de construir modelos hambrientos de datos al obligar a las empresas de inteligencia artificial a compensar a artistas, autores y otros creadores de contenido por el uso de sus obras.

Al mismo tiempo, las nuevas normas provisionales en Europa que regulan la inteligencia artificial podrían obligar a las empresas a revelar los datos que utilizan para entrenar sus modelos, exponiéndolas a un mayor riesgo legal.

Meta lanzó la primera versión de su modelo de lenguaje grande Llama en febrero y publicó una lista de conjuntos de datos utilizados para el entrenamiento, incluyendo «la sección de libros Books3 de ThePile». Según la demanda, la persona que ensambló ese conjunto de datos ha dicho en otro lugar que contiene 196,640 libros.

La compañía no reveló datos de entrenamiento para su última versión del modelo, Llama 2, que puso a disposición para uso comercial este verano.

Llama 2 es gratuito para empresas con menos de 700 millones de usuarios activos al mes. Su lanzamiento se percibió en el sector tecnológico como un posible cambio de juego en el mercado de software de inteligencia artificial generativa, amenazando con trastocar la dominación de jugadores como OpenAI y Google, que cobran por el uso de sus modelos.