
Reisner, Alex. “Meta Used Pirated Books to Train Its AI.” The Atlantic, March 20, 2025. https://www.theatlantic.com/technology/archive/2025/03/libgen-meta-openai/682093/?gift=iWa_iB9lkw4UuiWbIbrWGYDRoX8kfg3ZQZL6J-W0kQE.
La decisión de emplear estos materiales surge de la necesidad de contar con grandes volúmenes de texto de alta calidad para mejorar sus productos de IA y competir con modelos como ChatGPT. Sin embargo, en lugar de optar por acuerdos de licencia con editoriales y autores, lo cual implicaba costos elevados y plazos largos, la empresa decidió recurrir a LibGen, una de las mayores bibliotecas piratas de Internet, que alberga más de 7.5 millones de libros y 81 millones de artículos académicos.
Las revelaciones provienen de documentos judiciales recientemente desclasificados en el marco de una demanda por infracción de derechos de autor presentada por autores como Sarah Silverman y Junot Díaz. Entre los hallazgos más significativos se encuentra la confirmación de que Meta obtuvo permiso explícito de su CEO, Mark Zuckerberg, para descargar y utilizar la base de datos de LibGen en el entrenamiento de su modelo de IA. Este hecho subraya que la empresa no solo era consciente de la ilegalidad de sus acciones, sino que las respaldó desde los niveles más altos de la compañía.
Meta, al igual que OpenAI, ha defendido su uso de contenido protegido argumentando que los modelos de IA generan obras «transformadoras» a partir del material entrenado y, por lo tanto, están amparados bajo el principio de «fair use» (uso justo). No obstante, este argumento es altamente controvertido y todavía está lejos de una resolución definitiva en los tribunales. Más allá de la cuestión de si entrenar IA con libros pirateados constituye un uso legítimo de los materiales protegidos por derechos de autor, el artículo plantea un problema adicional: la forma en que Meta accedió a estos contenidos. Según los registros internos, la empresa utilizó BitTorrent para descargar los archivos, un método que generalmente implica no solo la descarga, sino también la distribución de los mismos, lo que agravaría aún más su situación legal.
Los documentos internos de Meta también revelan que sus empleados eran plenamente conscientes del riesgo legal que implicaba usar LibGen, calificándolo de «riesgo medio-alto». Para mitigar posibles repercusiones, sugirieron estrategias para ocultar la procedencia de los datos, como eliminar metadatos que indicaran que los textos estaban protegidos por derechos de autor y evitar cualquier mención pública del uso de LibGen. Además, se discutió la posibilidad de ajustar Llama 3 para que se negara a responder solicitudes que pudieran revelar la reproducción de contenido protegido, como pedirle que generara las primeras páginas de un libro específico.
El artículo también aborda el papel de LibGen en el acceso al conocimiento. Esta biblioteca pirata surgió en Rusia en 2008 con el propósito de ofrecer acceso gratuito a libros y artículos académicos, particularmente para estudiantes y profesionales de países con dificultades para costear estos materiales, como India, Pakistán e Irán. Sin embargo, su crecimiento exponencial ha facilitado su uso más allá de estos contextos, permitiendo que grandes corporaciones tecnológicas como Meta se beneficien del contenido sin retribuir a los autores originales.
Finalmente, Reisner plantea una reflexión sobre el impacto de esta práctica en el ecosistema del conocimiento y la creación intelectual. Si bien bibliotecas piratas como LibGen han democratizado el acceso a la información, el uso que hacen las empresas de IA de estos materiales plantea preocupaciones éticas y económicas. Al desarrollar chatbots y modelos generativos que sintetizan el conocimiento sin citar sus fuentes, estas compañías descontextualizan la información, limitan la colaboración intelectual y dificultan que escritores e investigadores reciban reconocimiento por su trabajo. La cuestión de fondo es si este tipo de apropiación tecnológica realmente beneficia a la sociedad en su conjunto o simplemente maximiza los beneficios de las grandes corporaciones, desplazando a los creadores originales en el proceso.






