Archivo de la etiqueta: Derechos de autor

Un juez avala como ‘uso justo’ el entrenamiento de IA con millones de libros

MIT Technology Review. “AI Giants Win Big in the Copyright Fight. Here’s What Happens Now.” MIT Technology Review, July 1, 2025. https://www.technologyreview.com/2025/07/01/1119486/ai-copyright-meta-anthropic/

Un juez federal de Estados Unidos dictaminó que el uso de millones de libros por parte de Anthropic para entrenar su modelo Claude constituye «uso justo» (fair use), ya que se trató de un uso altamente transformativo. En un caso paralelo, un tribunal también falló a favor de Meta, al considerar que los autores no demostraron perjuicio económico suficiente por el entrenamiento de su modelo Llama

Estas decisiones judiciales proporcionan un respaldo legal significativo a grandes empresas tecnológicas —como Anthropic, Meta, Google, OpenAI y Microsoft— al determinar que pueden usar contenido accesible en línea para entrenar sus modelos sin tener que pagar a los creadores originales

No obstante, se advierte sobre límites importantes: en el caso de Anthropic, el juez Alsup señaló que conservar millones de libros pirateados en una “biblioteca central” no es uso justo, por lo que esa parte del litigio sigue en curso.

Este giro refuerza la doctrina del fair use en los EE.UU., estableciendo que el entrenamiento de IA puede estar protegido legalmente si no causa daño al mercado original. Sin embargo, los fallos se basan en detalles concretos de cada caso, y no suponen una carta blanca general. En especial, los tribunales dejaron abierta la posibilidad de futuras demandas si se demuestra el uso de material pirateado o un impacto negativo en los mercados creativos .

Como reacción, surgen iniciativas empresariales como el servicio «pay per crawl» de Cloudflare, diseñado para que los creadores de contenido puedan exigir compensación a las compañías de IA por acceder a sus sitios web. Además, algunos medios, como Microsoft, optan por formatos menos expuestos al scraping web, como la publicación impresa de su revista Signal

Finalmente decir que estos hitos legales representan una victoria para la industria de la IA, al legitimar el uso transformativo de contenido protegido, pero también mantienen vivo el debate sobre la compensación justa, la procedencia ética de los datos y la sostenibilidad del ecosistema creativo en línea.

Ver además: Re:Create sostiene que el entrenamiento de modelos de IA constituye un uso transformador y un posible uso justo

CC Signals: licencia Creative Commons con la que los autores puedan determinar los uso de lA para sus contenidos

Creative Commons. 2025. “Introducing CC Signals: A New Social Contract for the Age of AI.Creative Commons, 25 de junio de 2025. https://creativecommons.org/ai-and-the-commons/cc-signals/

En un momento en el que la IA está transformando radicalmente la creación, el acceso y la difusión del conocimiento, CC Signals representa una apuesta ética y colaborativa por una inteligencia artificial al servicio de todos, basada en principios de apertura, respeto y responsabilidad compartida.

Creative Commons ha presentado CC Signals, una iniciativa pionera que propone un nuevo «contrato social» para la era de la inteligencia artificial. Este marco surge como respuesta a la creciente preocupación por el uso masivo e indiscriminado de datos por parte de los modelos de IA. En lugar de aceptar una dicotomía entre un entorno de extracción sin restricciones o uno cerrado por muros de pago, CC Signals apuesta por una tercera vía: un ecosistema abierto y basado en la reciprocidad, en el que los creadores y titulares de contenido puedan expresar claramente sus preferencias sobre cómo debe usarse su información por parte de sistemas automatizados.

El objetivo principal de CC Signals es permitir que los datos sean utilizados en procesos de entrenamiento de IA de manera ética y transparente, reconociendo los intereses de quienes aportan contenido. Para ello, introduce un sistema de «señales» legibles tanto por humanos como por máquinas, que indican el nivel de apertura o condiciones de reutilización que cada creador desea establecer. Estas señales no son legalmente vinculantes, pero sí actúan como una guía de buenas prácticas, similar a como las licencias Creative Commons revolucionaron el panorama del derecho de autor hace dos décadas.

Uno de los principios clave del proyecto es fomentar un ciclo de «dar, tomar y volver a dar»: quienes utilizan datos para entrenar modelos deben contribuir también al bien común, ya sea compartiendo sus resultados, reconociendo el origen de los datos o respetando las preferencias expresadas. Si bien una señal individual puede pasar desapercibida, el uso generalizado de CC Signals por parte de comunidades de práctica, instituciones culturales o desarrolladores de IA puede establecer una norma ética reconocida globalmente.

La iniciativa se encuentra actualmente en fase de desarrollo beta y se ha abierto a la participación pública a través de GitHub. Se prevé que una versión alpha esté disponible en noviembre de 2025. Durante los meses de julio y agosto, Creative Commons organizará una serie de encuentros virtuales para debatir el marco propuesto y recoger aportaciones. Estos espacios permitirán a creadores, tecnólogos, académicos y activistas colaborar en la construcción colectiva de esta nueva herramienta de gobernanza digital.

Entrenar modelos de lenguaje de Inteligencia Artificial utilizando libros adquiridos legalmente constituye un uso legítimo

Hansen, Dave. 2025. “Anthropic Wins on Fair Use for Training Its LLMs, Loses on Building a ‘Central Library’ of Pirated Books.” Authors Alliance, 24 de junio de 2025. https://www.authorsalliance.org/2025/06/24/anthropic-wins-on-fair-use-for-training-its-llms-loses-on-building-a-central-library-of-pirated-books/

El 24 de junio de 2025, el juez William Alsup del Tribunal del Distrito Norte de California emitió una resolución clave en el juicio colectivo contra Anthropic, empresa creadora de los modelos de lenguaje Claude. La demanda, presentada por los autores Andrea Bartz, Charles Graeber y Kirk Wallace Johnson en representación de millones de escritores, cuestiona el uso de libros protegidos por derechos de autor para entrenar sistemas de inteligencia artificial.

El fallo representa una victoria parcial para Anthropic. Por un lado, el tribunal determinó que entrenar modelos de lenguaje utilizando libros adquiridos legalmente constituye un uso legítimo bajo la doctrina de fair use del derecho estadounidense. Según el juez Alsup, este tipo de uso es “transformador”, ya que no busca replicar ni sustituir las obras originales, sino generar contenido nuevo, lo que encaja dentro del espíritu de la ley de derechos de autor que pretende fomentar la creatividad y el avance científico.

Sin embargo, la empresa perdió en un punto crítico: el uso sistemático de libros pirateados para construir una “biblioteca central” con fines de entrenamiento de IA. La evidencia demuestra que en 2021 y 2022, miembros de Anthropic descargaron millones de obras de sitios como Books3, Library Genesis (LibGen) y Pirate Library Mirror (PiLiMi). Estas plataformas contienen copias no autorizadas de libros protegidos, y Anthropic era plenamente consciente de ello. El propio CEO, Dario Amodei, reconoció internamente que optar por este camino era una manera de evitar el “trabajo legal, comercial y de gestión” que implicaría adquirir licencias.

En particular, el cofundador Ben Mann descargó en 2021 el conjunto de datos Books3 (compuesto por cerca de 196.000 libros pirateados), seguido de cinco millones de títulos desde LibGen y otros dos millones desde PiLiMi. Estas acciones fueron calificadas por el juez como violaciones deliberadas del derecho de autor, y aunque todavía no se ha determinado la magnitud de los daños, el tribunal ha decidido celebrar un juicio separado para abordar esta cuestión y valorar posibles indemnizaciones.

Desde Anthropic, una portavoz declaró a The Verge que celebran que el tribunal haya validado el uso transformador de las obras con fines de entrenamiento. La empresa sostiene que su objetivo no era imitar o reemplazar los libros originales, sino crear algo nuevo con base en ellos. No obstante, este argumento no exime de responsabilidad cuando se utilizan materiales obtenidos de forma ilegal, incluso si el uso posterior pudiera ser considerado transformador.

Este caso se enmarca dentro de un creciente número de demandas contra empresas de inteligencia artificial por el uso indebido de contenido protegido. La resolución de Alsup podría sentar un precedente clave: valida el entrenamiento de IA sobre obras adquiridas legalmente como fair use, pero marca una línea roja cuando se trata de contenidos pirateados. Las próximas fases del proceso judicial determinarán las consecuencias económicas y legales para Anthropic, y el caso podría influir significativamente en las prácticas de entrenamiento de modelos de IA en la industria.

El auge de la censura de libros en EE. UU.: análisis de tendencias y su impacto en la libertad intelectual y la educación pública (2020-2025)

Forrest, Marianne Wood. 2025. The Censorship Acceleration: An Analysis of Book Ban Trends After 2020. EveryLibrary Institute. https://www.everylibraryinstitute.org/censorship_acceleration_report.

El informe The Censorship Acceleration (2025), elaborado por la investigadora Marianne Wood Forrest para el EveryLibrary Institute, analiza el auge de la censura de libros en escuelas y bibliotecas públicas de EE. UU. desde 2020. A diferencia de incidentes aislados impulsados por preocupaciones locales, las prohibiciones de libros se han convertido en una estrategia política nacional orquestada por grupos conservadores bien financiados, como Moms for Liberty y Citizens Defending Freedom. Estos grupos han transformado la censura en una táctica central de una guerra cultural más amplia, orientada a desestabilizar la educación pública, suprimir voces históricamente marginadas y promover la privatización escolar.

Hallazgos clave del informe

  • Motivaciones políticas y religiosas: Las prohibiciones de libros ya no responden a quejas individuales de padres, sino a campañas organizadas por grupos políticos y religiosos con agendas ideológicas claras.
  • Conexión con la privatización educativa: Las campañas de censura están estrechamente vinculadas a esfuerzos para promover la privatización de las escuelas y desmantelar iniciativas de diversidad, equidad e inclusión (DEI).
  • Nacionalización de conflictos locales: Lo que antes eran disputas locales en juntas escolares ahora se han convertido en campañas coordinadas a nivel nacional, con estrategias y recursos compartidos.
  • Impacto del Project 2025: Las políticas propuestas en el Project 2025, como la eliminación de fondos federales para bibliotecas y la criminalización de bibliotecarios, agravan la erosión de la libertad intelectual y la democracia.
  • Resistencia emergente: Se observa un crecimiento en la resistencia, especialmente desde movimientos estudiantiles y estados que han promulgado leyes que protegen el derecho a leer.

Barreras y facilitadores para la Ciencia Abierta en la legislación sobre derechos de autor

Bogataj Jančič, Maja, Lucie Guibault, João Pedro Quintais, y Thomas Margoni. 2024. Barriers and Enablers for Open Science in Copyright Law. Knowledge Rights 21. https://www.knowledgerights21.org/news-story/odipi-kr21-openscience-report/

Se analiza cómo el marco actual del derecho de autor dificulta el desarrollo pleno de la Ciencia Abierta. A pesar de las estrategias y políticas impulsadas por la Unión Europea y sus Estados miembros para fomentar este modelo científico más colaborativo y accesible, persisten importantes barreras legales, especialmente derivadas del derecho de autor.

Uno de los principales obstáculos identificados es la necesidad de una gestión consensuada del derecho de autor. En obras colectivas o con múltiples autores, se requiere el consentimiento unánime de todos los titulares para su uso, lo que dificulta considerablemente la difusión abierta del conocimiento. Además, la irrenunciabilidad del derecho a la remuneración representa otra barrera importante: aunque los autores deseen compartir libremente sus trabajos, las entidades de gestión colectiva pueden seguir reclamando pagos en su nombre, imponiendo cargas económicas y administrativas a repositorios y plataformas de acceso abierto.

El estudio también señala que el derecho de autor obliga a realizar transferencias separadas de los distintos derechos económicos, lo que fragmenta aún más la gestión de los permisos y desincentiva a los investigadores a optar por la publicación en acceso abierto. Del mismo modo, los requisitos formales que exigen contratos por escrito para la cesión de derechos generan ambigüedades legales cuando no se cumplen, dificultando la implementación de acuerdos abiertos. A esto se suma la presunción de prioridad del editor, que otorga derechos preferentes sobre las publicaciones electrónicas, limitando el depósito inmediato de trabajos en repositorios abiertos.

Otro punto crítico es la transferencia automática de derechos económicos desde los empleados a sus empleadores en el ámbito laboral. Aunque esta norma puede facilitar la Ciencia Abierta si la institución apoya el acceso abierto, también puede actuar como freno si no existe tal compromiso institucional. Por otro lado, leyes externas al derecho de autor, como las de protección del patrimonio cultural, pueden imponer restricciones similares al copyright incluso sobre obras del dominio público, lo que afecta negativamente a disciplinas que dependen de materiales culturales digitalizados.

En cuanto a los facilitadores legales, el estudio destaca que son escasos y que su impacto depende en gran medida de cómo se apliquen en la práctica. Existen mecanismos que podrían habilitar la Ciencia Abierta, como el derecho de publicación secundaria o la obligación de retención de derechos en investigaciones financiadas con fondos públicos, pero su implementación es limitada y desigual. Algunas medidas legislativas fuera del ámbito del derecho de autor —como los requisitos de las agencias financiadoras— pueden actuar como incentivos si condicionan los fondos al cumplimiento de prácticas de acceso abierto.

En conclusión, el estudio revela una importante desconexión entre las estrategias políticas a favor de la Ciencia Abierta y la realidad jurídica que enfrentan los investigadores. Las diferencias en las leyes de derechos de autor entre países también dificultan la cooperación científica internacional, creando un entorno fragmentado e incierto. Para que la Ciencia Abierta pueda desarrollarse plenamente, es necesario reformar el derecho de autor, armonizar excepciones legales para la investigación y establecer un marco claro, equilibrado y favorable a la difusión abierta del conocimiento.

Este análisis sienta las bases para un debate urgente sobre cómo actualizar los marcos legales existentes y alinear el derecho de autor con los principios de la Ciencia Abierta. Mientras no se aborden estas barreras estructurales, incluso los esfuerzos más decididos por parte de investigadores e instituciones seguirán viéndose limitados por un sistema jurídico que no ha evolucionado al ritmo de la ciencia ni de las necesidades de la sociedad.

Conclusiones:

  • Existe un desajuste entre los compromisos estratégicos con la Ciencia Abierta y la realidad jurídica, lo que dificulta que estas políticas se materialicen.
  • Las diferencias nacionales en el derecho de autor complican la cooperación internacional, creando un panorama desigual para la difusión del conocimiento científico.
  • Es necesario reformar el derecho de autor para que esté alineado con los objetivos de la Ciencia Abierta, garantizando excepciones claras, armonizadas y amplias para la investigación.

En definitiva, el estudio propone abrir un debate urgente sobre cómo adaptar los marcos legales para que dejen de obstaculizar la Ciencia Abierta y comiencen a impulsarla de manera decidida.

Re:Create sostiene que el entrenamiento de modelos de IA constituye un uso transformador y un posible uso justo

Re:Create. 2025. «Breaking Down the USCO Report on Generative AI Training and Re:Create’s ‘Non-Takeaways‘.» Re:Create Coalition, 28 de mayo de 2025. https://www.recreatecoalition.org/breaking-down-the-usco-report-on-generative-ai-training-and-recreates-non-takeaways/

El 28 de mayo de 2025, la organización Re:Create publicó un análisis crítico del informe final de la Oficina de Derechos de Autor de EE. UU. (USCO) sobre la inteligencia artificial generativa y el uso justo (fair use). Aunque Re:Create valora que el informe no proponga cambios legislativos inmediatos, expresa preocupación por ciertas interpretaciones que podrían restringir el desarrollo y uso de herramientas de IA.

Re:Create es una coalición compuesta por una amplia membresía de centros de investigación, organizaciones de defensa, bibliotecas y empresas tecnológicas —grandes y pequeñas— que actúa como la coalición líder unida en la lucha por un sistema de derechos de autor equilibrado que promueva la innovación, los creadores y los consumidores.

Re:Create sostiene que el entrenamiento de modelos de IA, al utilizar obras protegidas para generar nuevas creaciones, constituye un uso transformador, elemento central del uso justo. Critica que el informe de la USCO minimice esta perspectiva, especialmente al desestimar el concepto de «uso no expresivo», que se refiere a la utilización de obras sin replicar su contenido expresivo. Además, Re:Create argumenta que comparar el aprendizaje de IA con el humano es válido, ya que ambos procesos implican la internalización de información sin reproducirla directamente

El informe de la USCO sugiere que el uso de obras obtenidas sin autorización podría pesar en contra del uso justo. Re:Create refuta esta idea, señalando que el uso justo se centra en cómo se utiliza una obra, no en cómo se obtuvo. Además, enfatiza que el derecho de autor no otorga control absoluto sobre el acceso a las obras, y que prácticas como la venta de libros usados o el préstamo bibliotecario son ejemplos legales de acceso sin autorización directa del titular de derechos.

El informe plantea que el entrenamiento de IA podría afectar negativamente al mercado de las obras originales. Re:Create argumenta que las pérdidas derivadas de la competencia con obras nuevas y no infractoras no deben considerarse en el análisis del uso justo. Además, advierte que priorizar las licencias sobre el uso justo podría crear barreras económicas significativas, especialmente para desarrolladores con recursos limitados, lo que obstaculizaría la innovación y el acceso equitativo a la tecnología.

Por ello, Re:Create insta a los tribunales a no adoptar ciertas interpretaciones del informe de la USCO que podrían restringir el uso justo en el contexto de la IA. Subraya la importancia de mantener un equilibrio en el sistema de derechos de autor que fomente la creatividad, la innovación y el acceso a la información, elementos esenciales para el progreso cultural y tecnológico.

Estudio de la EUIPO sobre Inteligencia Artificial Generativa y Derecho de Autor

«European Union Intellectual Property Office (EUIPO) Releases Study on Generative Artificial Intelligence and Copyright.» EUIPO News, May 13, 2025.

Texto completo

Este estudio proporciona un marco integral para comprender y gestionar los desafíos legales y técnicos que la inteligencia artificial generativa plantea en el ámbito del derecho de autor en la Unión Europea, buscando un equilibrio entre la innovación tecnológica y la protección de los creadores.

La Oficina de Propiedad Intelectual de la Unión Europea (EUIPO) publicó un estudio detallado sobre la Inteligencia Artificial Generativa (GenAI) y su relación con el derecho de autor. La IA generativa es una tecnología que crea nuevo contenido utilizando contenido preexistente, lo que representa un cambio fundamental en la creación de contenido, ya que no todo es generado exclusivamente por humanos.

Las instituciones como las autoridades nacionales de propiedad intelectual y la EUIPO pueden desempeñar un papel crucial, ofreciendo soporte técnico para que los titulares ejerzan sus derechos y los desarrolladores respeten esas reservas, y soporte no técnico, como campañas de sensibilización, foros de intercambio de información técnica y difusión de información sobre soluciones, tendencias y avances en la materia

Este nuevo paradigma plantea interrogantes urgentes sobre el uso legal de obras protegidas por derechos de autor como datos de entrenamiento para sistemas de IA, y sobre cómo distinguir entre contenido protegido y no protegido por copyright.

El estudio busca profundizar en la comprensión técnica de cómo funciona la IA generativa, además de analizar las soluciones existentes y en desarrollo para aplicar la legislación europea sobre derechos de autor y tecnologías de inteligencia artificial. El análisis abarca aspectos técnicos, legales y económicos, con el fin de apoyar la toma de decisiones informadas por parte de legisladores, desarrolladores y creadores.

La investigación se basó en revisión documental, entrevistas con expertos y análisis exhaustivo de soluciones técnicas y prácticas en el ámbito de la IA generativa, realizado en colaboración con servicios de la Comisión Europea.

Áreas centrales del estudio

  1. Uso de obras protegidas por derechos de autor como datos de entrenamiento para modelos de GenAI:
    La IA generativa necesita grandes cantidades de contenido para entrenarse, lo que implica utilizar obras protegidas por copyright.
  2. Generación de nuevo contenido por sistemas GenAI y las cuestiones legales que esto plantea:
    La creación automática de contenido genera dudas sobre la autoría, la propiedad intelectual y la protección legal.
  3. Implicaciones para creadores, desarrolladores de IA y el ecosistema del derecho de autor:
    El estudio aborda cómo proteger los derechos de los autores, cómo pueden operar los desarrolladores de IA dentro del marco legal, y cómo estas dinámicas afectan al mercado y la innovación.

Principales conclusiones

  • Acceso a contenido de alta calidad: Es fundamental para el desarrollo de servicios de IA generativa. Los modelos de IA necesitan contenido actualizado y especializado para funcionar adecuadamente, lo que ha impulsado la aparición de un mercado directo de licencias donde los desarrolladores de IA obtienen permisos para usar contenido protegido.
  • Desarrollo de soluciones diversas: No existe una solución única para que los titulares de derechos protejan sus obras frente a la IA generativa. Por eso, se están creando diferentes mecanismos:
    • Fase de entrada (INPUT): Mecanismos para que los titulares puedan reservar sus derechos y optar por no permitir el uso de sus obras en técnicas de “text and data mining” (minería de datos y textos).
    • Fase de salida (OUTPUT): Medidas de transparencia para identificar y reconocer el contenido generado por IA.

Wiley defiende los derechos de autor frente al uso no autorizado de contenidos en la inteligencia artificial

Wiley. 2025. Wiley Position Statement on Illegal Scraping of Copyrighted Content by AI Developers. May 7, 2025. https://www.wiley.com/en-us/position-statement-ai-scraping

En su declaración oficial, Wiley —una de las editoriales académicas más antiguas y reconocidas del mundo— reafirma su postura firme en defensa de los derechos de propiedad intelectual ante el creciente uso de contenidos protegidos en el entrenamiento de modelos de inteligencia artificial. Subraya que la innovación tecnológica debe avanzar de la mano de prácticas éticas y legales, especialmente en lo que respecta al uso de obras creadas por autores, investigadores y comunidades académicas.

Wiley comienza recordando su compromiso histórico con la creación y difusión del conocimiento, destacando que este progreso solo es posible si se respeta el trabajo intelectual de quienes generan contenidos. Reconoce el valor transformador de la inteligencia artificial para la investigación y el descubrimiento, pero advierte que dicho avance debe asentarse sobre una base de respeto a los derechos de autor, atribución adecuada y compensación justa.

En este sentido, la editorial exige que los desarrolladores de IA soliciten autorización expresa antes de utilizar materiales de su propiedad o publicados en colaboración con sus socios. Wiley deja claro que no existe ningún tipo de permiso implícito, y que todos los derechos están reservados, salvo que se obtenga una licencia formal.

Además, se insiste en que la atribución transparente y la trazabilidad del origen de los datos son principios clave del desarrollo ético de IA. Wiley ha desarrollado marcos de licenciamiento flexibles y adaptables, que permiten a los desarrolladores acceder de forma legal a contenidos protegidos, en función de sus necesidades específicas.

El comunicado también subraya que ya existen numerosos acuerdos exitosos entre editoriales científicas (STM y comerciales) y empresas de IA, incluidos acuerdos firmados por la propia Wiley. Estos pactos demuestran que el mercado de licencias de contenidos para IA no solo es viable, sino que ya está en funcionamiento.

Más allá del aspecto legal, Wiley resalta el valor de establecer colaboraciones activas con la comunidad de desarrolladores de IA para promover estándares compartidos que incluyan transparencia, citación adecuada, atribución y procedencia de los datos. Esto no solo garantiza el respeto por los creadores, sino que también contribuye a generar confianza entre los usuarios de sistemas de IA.

En conclusión, Wiley aboga por un ecosistema sostenible donde la tecnología y la creatividad humana coexistan armónicamente. La editorial invita a autores, investigadores, desarrolladores éticos de IA y otras editoriales a participar activamente en la construcción de un marco de innovación responsable, donde los derechos de los creadores sean preservados y reconocidos como base de cualquier avance significativo en el campo de la inteligencia artificial.

El impacto de la inteligencia artificial generativa en el periodismo: relaciones entre plataformas y editores según el informe Journalism Zero

Brown, Peter, y Klaudia Jaźwińska. 2025. Journalism Zero: How Platforms and Publishers Are Navigating AI. Tow Center for Digital Journalism, Columbia Journalism School. https://towcenter.columbia.edu/sites/towcenter.columbia.edu/files/content/Journalism%20Zero_%20How%20Platforms%20and%20Publishers%20are%20Navigating%20AI.pdf.

Texto completo

La inteligencia artificial generativa está reconfigurando las relaciones entre las plataformas tecnológicas y los medios de comunicación.

Este documento se enmarca dentro de una línea de investigación que el Tow Center lleva desarrollando desde 2015, la cual ya había señalado en 2019, en su informe “The End of an Era”, que la estrategia dominante en la era de las redes sociales —la de depender de plataformas como Facebook, Twitter o Google para llegar a las audiencias— había sido errónea para el periodismo.

Con la llegada de ChatGPT y otras herramientas de IA generativa, se marca un nuevo punto de inflexión en esta relación. El informe destaca que estas tecnologías se están integrando en el periodismo de múltiples maneras. Por un lado, están siendo usadas en tareas internas y de apoyo, como el análisis de grandes volúmenes de datos, la generación de titulares y resúmenes, la traducción de contenidos, la adaptación de formatos o la redacción de informes y publicaciones para redes sociales. Este uso, aunque significativo, no es el foco principal del estudio.

El núcleo del informe se centra más bien en una cuestión polémica y estructural: el uso de contenido periodístico ya publicado —sin autorización— para entrenar los modelos de lenguaje que dan vida a estas herramientas. Un ejemplo destacado es el del periódico The New York Times, cuyo contenido representó un 1,2 % de una versión recreada del conjunto de datos que entrenó ChatGPT-2. Los modelos generativos como Perplexity prometen ofrecer respuestas instantáneas con fuentes citadas, sin necesidad de que el usuario acceda a las páginas originales, lo que mina los modelos de negocio de los medios al reducir el tráfico hacia sus sitios web.

Esta dinámica representa un giro sustancial respecto a la era de las redes sociales. Si bien en esa etapa las plataformas dependían del contenido de los medios para atraer usuarios —y los medios esperaban obtener a cambio visitas y visibilidad—, en esta nueva era las plataformas usan los contenidos periodísticos directamente como materia prima para entrenar sus modelos y, posteriormente, los integran en productos que muchas veces sustituyen la visita directa a los medios.

El informe señala que las compañías tecnológicas necesitan datos verificados y confiables para entrenar sus modelos, y que el periodismo profesional cumple perfectamente con ese requisito. Jessica Lessin, fundadora de The Information, lo resume con contundencia: “Resulta que las noticias precisas y bien escritas son una de las fuentes más valiosas para estos modelos, que han estado absorbiendo la producción intelectual humana sin permiso”.

IA y derechos de autor: El entrenamiento de la IA de propósito general

European Parliamentary Research Service. 2025. AI and Copyright: The Training of General-Purpose AI. Brussels: European Parliament. https://www.europarl.europa.eu/RegData/etudes/ATAG/2025/769585/EPRS_ATA(2025)769585_EN.pdf

El informe analiza los desafíos legales que plantea el uso de obras protegidas por derechos de autor en el entrenamiento de modelos de inteligencia artificial de propósito general (GPAI, por sus siglas en inglés), como los de OpenAI o DeepSeek. A pesar de que existen normas como la Directiva de Derechos de Autor de la UE (2019/790) y la Ley de Inteligencia Artificial (IA) europea, persisten importantes limitaciones y ambigüedades legales que preocupan tanto a los investigadores como a los titulares de derechos.

IA y derechos de autor: la formación de la inteligencia artificial de propósito general

Para entrenar sus modelos, los proveedores de inteligencia artificial de propósito general (IAPG) necesitan grandes conjuntos de datos, que pueden incluir materiales protegidos por derechos de autor. A pesar de la Directiva de la UE 2019/790 sobre derechos de autor y la Ley de Inteligencia Artificial (IA) de la UE, los investigadores han identificado limitaciones legales e incertidumbre en el uso de materiales con derechos de autor para el entrenamiento de IAPG.

Entrenamiento de IAPG

Los modelos de IA capaces de realizar una amplia gama de tareas distintas, como los modelos GPT de OpenAI, se conocen como inteligencia artificial de propósito general (IAPG) y se entrenan con una gran cantidad de datos. La Ley de IA europea define legalmente la IAPG utilizando factores como sus capacidades, características y número de usuarios finales. Esta definición abarca lo que también se conoce como modelos generativos o modelos fundacionales. Los modelos más recientes de IAPG son multimodales, lo que significa que pueden trabajar con diferentes tipos de contenido. Además, las IAPG más avanzadas se denominan «modelos de razonamiento», ya que son capaces de «razonar» paso a paso. Los modelos o3-mini de OpenAI y R1 de DeepSeek son ejemplos de modelos de razonamiento lanzados recientemente.

Los modelos IAPG se basan en técnicas de aprendizaje profundo, que implican el entrenamiento de los parámetros internos del modelo utilizando datos. La construcción de conjuntos de datos para el entrenamiento comienza con la fase de recopilación. En la práctica, esto suele depender de materiales disponibles gratuitamente en línea. El modelo GPT-4o de OpenAI se entrenó utilizando datos, incluidos los de acceso público. El modelo 7b de Mistral también se entrenó con datos extraídos de la web. Los proveedores, en general, han mantenido la confidencialidad sobre los datos exactos utilizados para entrenar sus modelos, considerándolos una parte clave de su ventaja competitiva. Por otro lado, los titulares de derechos temen perder el control sobre su contenido. Existen diversas demandas pendientes fuera de la UE, señaladas por los investigadores, que afirman que los datos utilizados en el entrenamiento de IAPG contienen materiales con derechos de autor.

La legislación de derechos de autor en la UE y la Ley de IA

Para encontrar datos públicos en la web con los que entrenar IAPG, los proveedores utilizan rastreadores web (web crawlers): programas que navegan automáticamente por la web para realizar un conjunto definido de acciones. Los rastreadores de OpenAI se conocen como GPTBot. Los rastreadores se han usado durante años por empresas como Google, cuyos Googlebots rastrean la web para indexar contenido en su buscador. Como señalan los investigadores, el surgimiento de la web «creó desafíos y oportunidades sin precedentes para los titulares de derechos de autor», aunque el derecho internacional de autor se ha modificado en cierta medida para adaptarse a la era digital.

La legislación de derechos de autor otorga derechos económicos y morales exclusivos a los autores, como el derecho a reproducir, distribuir, comunicar al público y poner a disposición del público sus obras. Con la Directiva sobre la Sociedad de la Información (Directiva 2001/29), la UE creó una excepción para los actos temporales de reproducción como parte de un proceso tecnológico (artículo 5.1). La Directiva sobre derechos de autor de la UE (Directiva 2019/790) añadió dos nuevas excepciones para fines de “minería de textos y datos” (TDM, por sus siglas en inglés) (artículos 3 y 4). TDM se define como “cualquier técnica analítica automatizada destinada a analizar textos y datos en formato digital para generar información que incluye, entre otras cosas, patrones, tendencias y correlaciones”. Las excepciones permiten, bajo condiciones específicas, la reproducción y extracción de obras protegidas con fines de TDM. Realizar tales actos, de otro modo, constituiría una infracción de ciertos derechos bajo la legislación sobre derechos de autor y bases de datos.

La Ley de IA europea contiene dos disposiciones relacionadas con los derechos de autor (artículo 53.1(c) y (d)). La primera exige a los proveedores de IAPG que cumplan con la legislación sobre derechos de autor y con la excepción de exclusión voluntaria de la Directiva de derechos de autor, que autoriza la TDM siempre que los titulares de derechos no hayan expresado su negativa. Afecta a cualquier proveedor que comercialice una IAPG en el mercado de la UE, “independientemente de la jurisdicción en la que tengan lugar los actos relevantes en materia de derechos de autor que sustentan el entrenamiento de esos modelos de IA de propósito general” (considerando 106). La segunda disposición exige que los proveedores de IAPG hagan público un resumen suficientemente detallado explicando el contenido utilizado para el entrenamiento. Estos requisitos se aplican a los proveedores de IAPG con o sin riesgos sistémicos. Para facilitar el cumplimiento de la normativa, la Comisión tiene previsto publicar un Código de Buenas Prácticas para la IAPG en mayo de 2025.

Problema del uso de materiales con derechos de autor en el entrenamiento de IAPG

Según los investigadores, la legislación de la UE aún no aborda completamente los problemas relacionados con los modelos de IA y el derecho de propiedad intelectual. El problema principal es la posible presencia de materiales protegidos por derechos de autor en los conjuntos de datos utilizados para entrenar IAPG. Por ello, los investigadores han intentado determinar en qué medida las excepciones al derecho de autor permiten la reproducción de obras con fines de entrenamiento de IAPG. Consideran que las excepciones para TDM de la Directiva actual sobre derechos de autor no son lo suficientemente claras, por lo que las limitaciones legales y la incertidumbre siguen siendo problemáticas.

Incertidumbre y limitaciones del marco legal

Las dos excepciones de TDM solo cubren ciertos derechos protegidos por la ley de propiedad intelectual. Sin embargo, podrían necesitarse excepciones adicionales para otros derechos, como el de comunicación al público. De hecho, los investigadores argumentan que el derecho de comunicación al público podría activarse al permitir el acceso público a modelos de IAPG que generen contenidos que incluyan partes sustanciales de obras protegidas.

En cuanto a las dos excepciones en sí, los investigadores han identificado incertidumbres legales en su aplicación al entrenamiento de IAPG con materiales protegidos. La primera excepción, que autoriza la reproducción y extracción de obras, permite a organizaciones de investigación e instituciones de patrimonio cultural realizar TDM con fines de investigación científica y bajo acceso legal (artículo 3 de la Directiva). Hay dos problemas para invocar esta excepción en el entrenamiento de IAPG. Primero, los investigadores han expresado dudas sobre su aplicabilidad técnica. De hecho, los titulares de derechos pueden aplicar medidas tecnológicas de protección (TPM), como interfaces de programación restrictivas, para controlar la TDM, lo que impediría a los investigadores ejercer plenamente su derecho. Segundo, la ambigüedad del requisito de “acceso legal” complica aún más la aplicación práctica de la excepción. En este contexto, los interesados podrían optar por acuerdos de licencia en lugar de confiar en la excepción. Como han señalado varios agentes, algunos Estados miembros han ampliado el marco legal para la investigación científica en su transposición de la Directiva, incluyendo también el derecho de comunicación al público, además de la reproducción y extracción.

La segunda excepción permite la TDM siempre que “no haya sido expresamente reservada por sus titulares de derechos de forma adecuada, como mediante medios legibles por máquina…” (artículo 4 de la Directiva). Esto se conoce como la excepción de exclusión voluntaria (“opt-out”). Los interesados han debatido la definición de “legible por máquina” y la duración durante la cual pueden conservarse las reproducciones de obras. En cuanto a “legible por máquina”, los proveedores de IAPG apoyan la adopción de un archivo estandarizado de fácil acceso, como robots.txt. Un tribunal alemán dictaminó recientemente que incluir el opt-out en lenguaje natural (por ejemplo, en los términos de uso) cuenta como exclusión legible por máquina. Los expertos señalaron que esta decisión podría ser apelada “dado los problemas jurídicos fundamentales involucrados y la ambigüedad de la ley…”. Los investigadores añadieron que el mecanismo de opt-out probablemente falle cuando los titulares de derechos no tengan derechos administrativos sobre la página web que muestra sus obras, ya que no pueden añadir ellos mismos la exclusión. En cuanto a la duración durante la que se pueden conservar las reproducciones, la excepción lo permite mientras sea necesario para la TDM. Sin embargo, los proveedores de IAPG pueden necesitarlas para procesos posteriores como la evaluación de modelos.

Posibles próximos pasos

Varios Estados miembros crearon un Grupo de Trabajo sobre Infraestructura de Derechos de Autor en 2023 para ayudar a la Comisión a encontrar soluciones. Mientras tanto, el Consejo de la UE publicó un resumen en diciembre de 2024 con las opiniones de los Estados miembros sobre el asunto. Varios de ellos afirman que “los usos de contenidos protegidos por derechos de autor para el entrenamiento de IA van más allá del alcance de la excepción de TDM”. La mayoría considera que no es necesario introducir un nuevo instrumento legislativo en esta etapa, y prioriza la implementación y el seguimiento del marco legal existente.

La comisaria Henna Virkkunen sugirió en octubre de 2024 que la Comisión debería investigar si mecanismos de licenciamiento específicos facilitarían la firma de licencias entre las industrias creativas y las empresas de IA. A diferencia de los requisitos de la Directiva de derechos de autor para ciertos usos de contenidos protegidos por servicios en línea, la Ley de IA no menciona los acuerdos de licencia en el contexto del entrenamiento de IAPG.

Si bien el Código de Buenas Prácticas para la IAPG no tendrá el mandato de cambiar el marco jurídico de los derechos de autor de la UE, esta guía podría ser un paso intermedio antes de la revisión de la Directiva de derechos de autor, prevista legalmente para junio de 2026. Una versión revisada de la Directiva podría abordar las limitaciones e incertidumbres identificadas en el entrenamiento de IAPG con obras protegidas por derechos de autor.