Algunos repositorios de acceso abierto han empezado a bloquear a los robots de inteligencia artificial

«Open Repositories Are Being Profoundly Impacted by AI Bots and Other Crawlers: Results of a COAR SurveyCOAR (blog), April 30, 2025. https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

Cada vez hay más bots de inteligencia artificial rastreando repositorios. Estos bots son lo suficientemente agresivos como para provocar interrupciones y cortes de servicio en los repositorios. Como consecuencia, algunos repositorios han empezado a bloquear el acceso de las máquinas a sus colecciones, lo que también está bloqueando inadvertidamente otros servicios de red deseados, como los agregadores académicos, los servicios de indexación y los directorios.

El impacto de los bots de inteligencia artificial (IA) y otros rastreadores en los repositorios de acceso abierto ha crecido considerablemente, lo que está afectando la estabilidad de los servicios y provocando interrupciones en las plataformas. En respuesta a esta situación, algunos repositorios han comenzado a bloquear el acceso de estas máquinas, lo que, de forma no intencionada, también bloquea otros servicios útiles como agregadores académicos, servicios de indexación y directorios.

Esta problemática no es exclusiva de los repositorios académicos. Según un informe de Axios, casi el 20% de los 1000 sitios web más visitados del mundo están bloqueando crawlers de IA debido a la falta de directrices legales claras sobre el uso de material con derechos de autor por parte de la IA. Por ejemplo, el bot GPTBot de OpenAI ha sido bloqueado por varios sitios, lo que refleja una creciente preocupación por el acceso automatizado a contenidos en línea.

Además, desarrolladores de software de código abierto han implementado medidas ingeniosas para combatir los bots de IA que no respetan las directrices de robots.txt. Herramientas como Anubis y Nepenthes han sido creadas para frustrar a los crawlers mediante pruebas de trabajo y contenido falso, respectivamente. Estas acciones subrayan la necesidad de proteger la infraestructura digital frente a accesos no deseados.

En respuesta a estos desafíos, COAR planea lanzar un grupo de trabajo para desarrollar acciones recomendadas que permitan a los repositorios mantener su acceso abierto mientras se protegen contra procesos disruptivos de máquinas.

Para comprender mejor el impacto de los bots y rastreadores en los repositorios, COAR (Confederation of Open Access Repositories) realizó una encuesta en abril de 2025, recibiendo 66 respuestas de miembros de diversas regiones del mundo. Los resultados muestran que más del 90% de los encuestados experimentan la presencia de bots de IA, generalmente más de una vez a la semana, lo que causa frecuentes interrupciones en los servicios. Para mitigar estos efectos, los repositorios emplean diversas estrategias, como la limitación de tasa, reglas de firewall, reglas de robots.txt y listas blancas compartidas.

COAR planea realizar un informe más detallado sobre los resultados de la encuesta en su sitio web y, posteriormente, formará un grupo de trabajo para desarrollar recomendaciones que permitan a los repositorios mantener su acceso abierto, protegiéndolos al mismo tiempo contra procesos disruptivos de máquinas.