Bibliotecas piratas y plataformas de acceso ilegal a contenidos en la era de la Inteligencia Artificial

Swartz, Mark. 2026. “What’s an Author to Do? Shadow Libraries in the Age of AI.” Slaw (blog), May 8, 2026. https://www.slaw.ca/2026/05/08/whats-an-author-to-do-shadow-libraries-in-the-age-of-ai/

La emergencia de la inteligencia artificial generativa está reconfigurando de forma profunda el ecosistema del acceso al conocimiento, especialmente en relación con las llamadas shadow libraries (bibliotecas sombra) como Anna’s Archive, LibGen o Sci-Hub. El autor parte del contexto de una nueva oleada de litigios impulsados por grandes editoriales internacionales contra estas plataformas, que históricamente han sido vistas como espacios de acceso no autorizado a libros y artículos académicos. Sin embargo, el debate actual no se limita a la infracción de derechos de autor, sino que incorpora un elemento decisivo: su uso como fuentes de entrenamiento para modelos de lenguaje de gran escala (LLM).

El 6 de marzo, un importante grupo de editoriales, incluidas las cinco más grandes del mundo (Hachette, Penguin Random House, HarperCollins, Macmillan y Simon & Schuster), presentó una demanda ante un tribunal federal de Nueva York para intentar cerrar la biblioteca clandestina «Anna’s Archive». Décadas atrás, John Willinsky describió la publicación académica como su «momento Napster» con la aparición de sitios piratas como LibGen y Sci-Hub. La carrera por entrenar grandes modelos de lenguaje utilizando sitios como Anna’s Archive (sucesor de LibGen/Sci-Hub) se asemeja a una segunda etapa, donde estos sitios no solo sirven como canales para libros y artículos pirateados, sino también como fuentes de datos de entrenamiento para grandes modelos de lenguaje (LLM). Esto también se limita a las editoriales comerciales; HathiTrust informó recientemente que una gran parte de su colección fue obtenida y redistribuida en Anna’s Archive.

Las demandas contra bibliotecas clandestinas no son nuevas: editores y creadores llevan intentando eliminar obras creativas pirateadas de internet desde sus inicios, como lo demuestra la interminable lista de demandas publicadas en el blog Torrentfreak. En los últimos años, estas demandas han puesto de relieve el papel que desempeñan sitios como Anna’s Archive en el entrenamiento de grandes modelos de lenguaje (LLM), ya que «la actuación de los editores es ahora especialmente crucial a la luz de los informes que indican que Anna’s Archive anuncia activamente que proporcionará acceso de alta velocidad —y de hecho ya ha proporcionado— obras de autores robadas a desarrolladores de grandes sistemas de IA de modelos de lenguaje (LLM) y a intermediarios de datos»

El rápido ritmo del progreso tecnológico, sumado a la feroz competencia entre las empresas que desarrollan modelos de IA, ha generado un vacío ético, y países de todo el mundo se apresuran a desarrollar políticas para ponerse al día. Una de las muchas víctimas de este vacío son los autores y creadores, cuyas obras publicadas se han convertido en el principal material de entrenamiento para modelos de IA, frecuentemente sin recibir compensación alguna. Y dado que las grandes empresas tecnológicas detrás del desarrollo de la IA han adoptado un enfoque de entrenamiento similar al de Trump, han recurrido al pirateo de sitios web y bibliotecas clandestinas como Anna’s Archive para obtener datos de entrenamiento.

Esto, naturalmente, ha dado lugar a un sinfín de demandas y acusaciones. Por ejemplo, en el caso Kadrey contra Meta, se alegó que Meta entrenó su modelo de aprendizaje automático (LLM) con Books3, un conjunto de datos que incluía el texto completo de casi 200.000 libros pirateados. En esta decisión, Meta obtuvo una ajustada victoria, al determinarse que el uso de este conjunto de datos constituía un uso legítimo. Por otro lado, el caso Bartz et al. contra Anthropic PBC culminó en el mayor acuerdo de demanda colectiva por derechos de autor en la historia de Estados Unidos (1.500 millones de dólares). Los documentos judiciales de este caso ofrecen el ejemplo más claro del insaciable apetito de la IA por los datos de entrenamiento: además de contenido de bibliotecas clandestinas, Anthropic contrató a Tom Turvey, exdirector de alianzas del proyecto de digitalización de libros de Google, y le encargó obtener «todos los libros del mundo». Anthropic compró, digitalizó y destruyó millones de los libros impresos más utilizados y creó un gigantesco corpus electrónico que se planeaba que continuara indefinidamente. La liquidación de Anthropic se debió en gran medida al uso de una «biblioteca central» de obras pirateadas, a pesar de la sentencia del juez Alsup que dictaminó que el entrenamiento con libros adquiridos legalmente constituía un uso legítimo. Además, muchas otras empresas tecnológicas líderes, como Nvidia, Salesforce y Apple, han estado utilizando una estrategia similar para la formación de másteres en derecho (LLM).

Por supuesto, no son solo las grandes tecnológicas las que se benefician de esta situación. Grandes editoriales, incluidas algunas de las editoriales académicas más destacadas como Taylor & Francis y Wiley, han firmado importantes acuerdos de licencia para que grandes empresas tecnológicas utilicen sus publicaciones en el entrenamiento de IA. Los autores solo se enteran de estos acuerdos a través de artículos o comunicados de prensa. Cambridge University Press adoptó un modelo más progresista que permite a los autores optar por no permitir que su trabajo se utilice para entrenamiento, pagando además regalías. Estos son solo algunos ejemplos; para una lista más extensa, consulte el rastreador de acuerdos de licencia de IA generativa de Ithaka S+R. Esto refleja un cambio de perspectiva: las grandes editoriales se están convirtiendo menos en proveedoras de información y más en intermediarias de datos, al tiempo que investigan el desarrollo de sus propias herramientas y plataformas de IA que utilizan el contenido que poseen y licencian.

¿Qué implica esto para los autores y creadores? En este punto, es probable que muchas publicaciones en inglés, entradas de blog o publicaciones en internet se hayan utilizado como datos de entrenamiento para múltiples másteres en Derecho (LLM). Los autores que no desean que su contenido se utilice para entrenamiento tienen pocas opciones. Pueden publicar en plataformas que permiten a los autores optar por no participar, aunque esta opción no tiene mucho sentido si los datos de entrenamiento se obtienen de bibliotecas no oficiales. También pueden analizar los modelos de licenciamiento emergentes.

En este escenario, el artículo subraya que las bibliotecas piratas han pasado de ser únicamente mecanismos de distribución paralela de contenidos a convertirse en infraestructuras invisibles dentro de la economía de datos de la IA. Esta transformación intensifica el conflicto entre acceso abierto y propiedad intelectual, ya que las obras de autores y académicos no solo se consumen por lectores humanos, sino que también son absorbidas masivamente por sistemas automatizados sin compensación ni control efectivo. El texto destaca cómo esta dinámica ha generado una “zona gris ética y legal”, donde las fronteras entre uso legítimo, reutilización y explotación se vuelven cada vez más difusas.

Finalmente, el artículo plantea un problema de fondo para los autores contemporáneos: la pérdida de capacidad de control sobre sus obras en un entorno donde prácticamente todo contenido publicado puede haber sido ya incorporado a múltiples sistemas de IA. Frente a ello, se mencionan respuestas emergentes como nuevos modelos de licencia, mecanismos de “opt-out” y proyectos como Creative Commons Signals, aunque el autor se muestra escéptico respecto a su efectividad real frente a la escala y opacidad del entrenamiento de modelos de IA por parte de grandes empresas tecnológicas.