
“Libraries Open Their Archives to Train AI Chatbots With Books Spanning Centuries of Human Knowledge.” Milwaukee Independent, November 8, 2025. https://www.milwaukeeindependent.com/newswire/libraries-open-archives-train-ai-chatbots-books-spanning-centuries-human-knowledge/
Varias bibliotecas y universidades están abriendo sus archivos históricos para entrenar chatbots de inteligencia artificial con libros que abarcan siglos de conocimiento humano.
Esta iniciativa responde a la necesidad de proporcionar datos más ricos y culturalmente diversos a los modelos de IA, que tradicionalmente han aprendido sobre la base de contenido generado en internet, como publicaciones en redes sociales y Wikipedia, y que muchas veces carece de profundidad histórica o lingüística. Como parte de esta tendencia, la Universidad de Harvard liberó una colección de casi un millón de libros publicados desde el siglo XV en adelante, en más de 250 idiomas, que ahora están disponibles para investigadores y desarrolladores de IA.
El propósito de abrir estos archivos es ofrecer una alternativa de datos de entrenamiento que sea legal y menos polémica que el uso de textos con derechos de autor sin permiso, un tema que ha generado múltiples demandas contra grandes empresas tecnológicas por el uso no autorizado de obras protegidas. Expertos citados en el artículo explican que el dominio público constituye un recurso “prudente” para construir conjuntos de datos sin conflictos legales, al tiempo que aporta una riqueza de información cultural, histórica y lingüística que las fuentes digitales modernas no siempre proporcionan. Además, iniciativas como la “Institutional Books 1.0” —el conjunto de datos publicado por Harvard que contiene cientos de millones de páginas escaneadas de obras históricas— están siendo compartidas en plataformas abiertas como Hugging Face para ampliar su accesibilidad.
Este enfoque colaborativo entre bibliotecas, universidades y empresas de tecnología también está siendo respaldado financieramente por grandes actores como Microsoft y OpenAI, que han financiado proyectos de digitalización y preparación de archivos para uso en IA. La Biblioteca Pública de Boston, por ejemplo, ha puesto énfasis en que cualquier material digitalizado en el marco de estas colaboraciones debe permanecer accesible al público, contribuyendo así a la misión tradicional de las bibliotecas de servir a sus comunidades. A pesar de las ventajas, los especialistas advierten sobre posibles desafíos, como la presencia de contenido desactualizado o incluso dañino en textos antiguos, que exige decisiones informadas sobre cómo utilizar estos datos de manera responsable para entrenar sistemas de inteligencia artificial sin reproducir prejuicios históricos o errores científicos.