
Weinberg, Michael. 2025. “Are AI Bots Knocking Cultural Heritage Offline?” GLAM‑E Lab, abril 2025. https://www.glamelab.org/products/are-ai-bots-knocking-cultural-heritage-offline/.
El informe “Are AI Bots Knocking Cultural Heritage Offline?”, publicado en abril de 2025 por GLAM‑E Lab y escrito por Michael Weinberg, documenta el creciente problema que enfrentan colecciones culturales digitales (museos, bibliotecas, archivos y galerías) frente a bots de IA que rastrean y copian masivamente sus contenidos. En muchas instituciones, una oleada inesperada de tráfico automatizado ha generado sobrecarga en los servidores, ralentizaciones o incluso caídas temporales del servicio.
A finales de 2024, empezaron a surgir relatos aislados de colecciones individuales de patrimonio cultural en línea. Estos relatos describían servidores y colecciones que se agotaban -y a veces se rompían- bajo la carga de un enjambre de bots. Al parecer, los bots extraían todos los datos de las colecciones para crear conjuntos de datos con los que entrenar modelos de inteligencia artificial.
El laboratorio GLAM-E encuestó a docenas de instituciones GLAM (galerías, bibliotecas, archivos y museos) para empezar a responder a estas preguntas. Este informe, publicado en junio de 2025, documenta cómo las instituciones se ven sometidas a la presión de los bots y cómo las cosas pueden empeorar antes de mejorar.
Estas son algunas de las cuestiones más relevantes del informe:
- Los bots están muy extendidos, aunque no son universales. De los 43 encuestados, 39 experimentaron un aumento reciente en el tráfico. Veintisiete de esos 39 atribuyeron el aumento al tráfico de bots que recolectan datos para entrenamiento de IA, y otros siete sospechan que los bots podrían estar contribuyendo al incremento.
- Este aumento de tráfico ha sido difícil de anticipar, ya que pocos encuestados estaban monitorizando activamente el tráfico de bots antes de que estos provocaran una crisis en sus colecciones. Muchos no se dieron cuenta de que estaban recibiendo tráfico de bots hasta que dicho tráfico saturó el servicio y dejó las colecciones digitales fuera de línea.
- Algunos encuestados comenzaron a notar un incremento en el tráfico de bots desde 2021, mientras que otros no lo experimentaron hasta 2025.
- Algunos bots se identifican claramente, mientras que otros emplean diversas estrategias para ocultar su origen.
- Cuando los bots aparecen, tienden a hacerlo en enjambres durante períodos relativamente breves. La frecuencia de estos enjambres podría estar aumentando.
- El archivo robots.txt no es actualmente un método eficaz para impedir que los bots saturen las colecciones.
- Los encuestados están implementando una variedad de contramedidas, tanto propias como de terceros, basadas en cortafuegos, para intentar filtrar los bots según la dirección IP, la geografía, el dominio o el agente de usuario. Algunas de estas medidas parecen funcionar, aunque pocos tienen confianza en que sean sostenibles a largo plazo.
- Los encuestados se muestran reacios a adoptar medidas más agresivas, como colocar las colecciones detrás de pantallas de inicio de sesión, por diversas razones: dudas sobre su eficacia a medio plazo, preocupaciones por los efectos negativos en los usuarios legítimos, y el temor de que tales restricciones contradigan su objetivo principal de mantener las colecciones libremente accesibles en línea.
- Los encuestados temen que los enjambres de bots de entrenamiento de IA generen un entorno de costos crecientes insostenibles para ofrecer acceso en línea a las colecciones.
Los hallazgos exponen que muchas colecciones no detectaron la actividad de los bots hasta que los sistemas dejaron de responder, lo que obligó a implementar contramedidas rápidas, como cortafuegos específicos (e.g., Cloudflare, AWS), o considerar el uso de restricciones por IP, regiones geográficas, o agentes de usuario. Aunque algunas medidas temporales han funcionado, la mayoría de entrevistados reconoce que no son fiables a largo plazo .
El informe concluye que el problema es extensible y creciente, dada la expansión de los bots de IA desde 2021. Advierte que, sin una estrategia concertada que combine soluciones tecnológicas y nuevos estándares comunitarios, la capacidad de mantener colecciones digitales abiertas y accesibles podría verse comprometida por los costos de infraestructura y la presión técnica insostenible .