Las empresas tecnológicas están recurriendo a bibliotecas y archivos históricos para enriquecer los datos de entrenamiento de inteligencia artificial

O’Brien, Matt. “AI Chatbots Need More Books to Learn From. These Libraries Are Opening Their Stacks.” Associated Press, 12 junio 2025.

Las empresas tecnológicas están recurriendo ahora a bibliotecas y archivos históricos para enriquecer los datos de entrenamiento de inteligencia artificial (IA). La riqueza histórica, lingüística y cultural de estos textos —que abarcan desde literatura y derecho hasta ciencias— ofrece a los chatbots una base más sólida y precisa, en contraste con los datos actuales, a menudo superficiales o generados artificialmente

Con el apoyo de «donaciones sin restricciones» de Microsoft y del fabricante de ChatGPT OpenAI, Institutional Data Initiative con sede en Harvard está trabajando con bibliotecas y museos de todo el mundo sobre cómo hacer que sus colecciones históricas estén preparadas para la IA de una manera que también beneficie a las comunidades a las que sirven.

Harvard ha puesto a disposición casi un millón de libros digitalizados (desde el siglo XV en adelante, en más de 250 idiomas), sumando 394  millones de páginas —aproximadamente 242 000 millones de “tokens”— para desarrolladores de IA. El nuevo conjunto de datos de Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas de papel escaneadas. Una de las primeras obras es del siglo XIV: las reflexiones manuscritas de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras es del siglo XIX, sobre temas como literatura, filosofía, derecho y agricultura, todo ello meticulosamente conservado y organizado por generaciones de bibliotecarios.

Bibliotecas como la Pública de Boston y la Bodleian de Oxford también digitalizan periódicos antiguos y manuscritos, con fondos de Microsoft y OpenAI, integrándose en la Iniciativa de Datos Institucionales (IDI). El objetivo es utilizar principalmente obras en dominio público, evitando problemas legales por derechos de autor.

Se espera que este enfoque democratice el acceso a datos de calidad para investigación en IA, fomentando una ética en el uso de información histórica. No obstante, también plantea desafíos: el contenido puede incluir teorías anticuadas o prejuicios racistas, por lo que se requieren filtros y guías para su uso responsable

OpenAI, que también está luchando contra una serie de demandas por derechos de autor, donó este año 50 millones de dólares a un grupo de instituciones de investigación, entre ellas la Biblioteca Bodleian de la Universidad de Oxford, de 400 años de antigüedad, que está digitalizando textos raros y utilizando IA para ayudar a transcribirlos. Los fondos también ayudan a las propias bibliotecas a financiar proyectos de digitalización, beneficiando estudios culturales y lingüísticos. La colección ya está disponible en plataformas como Hugging Face, potenciando modelos más diversos en idiomas (menos de la mitad están en inglés)

Este movimiento impulsa el acceso equitativo a datos históricos, mejora la fiabilidad de la IA y promueve el rol activo de las bibliotecas como custodias del conocimiento.