Archivo de la etiqueta: Repositorios

Potencialidades de la inteligencia artificial en la difusión de la ciencia a través de repositorios institucionales

Caldera Serrano, Jorge. “Potencialidades de la inteligencia artificial en la difusión de la ciencia a través de repositorios institucionales.” Métodos de Información 16, no. 31 (2025): 26–46. https://doi.org/10.5557/IIMEI16-N31-026046

El artículo analiza en profundidad el papel emergente de la inteligencia artificial (IA) en la transformación de los procesos de difusión del conocimiento científico, poniendo el foco en los repositorios institucionales como infraestructuras clave del acceso abierto.

El autor parte de la premisa de que, en el contexto actual de sobreabundancia informativa, los sistemas tradicionales de organización, recuperación y visibilidad de la producción científica resultan insuficientes, lo que abre la puerta a la incorporación de tecnologías inteligentes capaces de optimizar estos procesos. En este sentido, la IA se presenta como una herramienta estratégica que permite no solo gestionar grandes volúmenes de información, sino también mejorar la accesibilidad, la relevancia y la personalización de los contenidos científicos.

A lo largo del trabajo se describen diversas aplicaciones concretas de la inteligencia artificial en los repositorios institucionales. Entre ellas destacan los algoritmos de recomendación, que facilitan la localización de documentos relevantes para los usuarios; las técnicas de procesamiento del lenguaje natural, que permiten enriquecer los metadatos y mejorar la indexación; y los sistemas de análisis automatizado que contribuyen a identificar tendencias, patrones de uso y áreas emergentes de investigación. Estas funcionalidades no solo incrementan la visibilidad de la producción científica, sino que también favorecen una circulación más eficiente del conocimiento dentro de la comunidad académica y hacia la sociedad en general.

El autor también reflexiona sobre el impacto que estas tecnologías pueden tener en la democratización del acceso a la ciencia. La IA, aplicada de manera adecuada, puede reducir barreras de acceso, facilitar la reutilización de la información y contribuir a una mayor equidad en la difusión del conocimiento. Sin embargo, el artículo no adopta una postura exclusivamente optimista, sino que incorpora una mirada crítica sobre los desafíos que conlleva la implementación de estas herramientas. Entre los principales riesgos se mencionan la opacidad de los algoritmos, los posibles sesgos en la selección y recomendación de contenidos, así como las implicaciones éticas relacionadas con la privacidad de los datos y la gobernanza de la información.

Asimismo, se subraya la necesidad de que los profesionales de la información —bibliotecarios, documentalistas y gestores de repositorios— adquieran nuevas competencias tecnológicas que les permitan integrar y supervisar estos sistemas de inteligencia artificial. La formación continua y la colaboración interdisciplinar se presentan como elementos esenciales para garantizar una implementación responsable y eficaz de la IA en el ámbito de la comunicación científica. En este contexto, los repositorios institucionales no solo evolucionan como herramientas técnicas, sino como espacios estratégicos donde se redefine el papel de la mediación informativa.

En conclusión, el artículo plantea que la inteligencia artificial tiene un enorme potencial para revolucionar la difusión de la ciencia, siempre que su desarrollo e implementación se realicen desde una perspectiva ética, transparente y centrada en el usuario. Lejos de sustituir a los profesionales de la información, la IA se configura como un complemento que amplifica sus capacidades, permitiendo avanzar hacia un ecosistema científico más accesible, eficiente e inclusivo.

arXiv se independiza de Cornell

Brainard, Jeffrey. “ArXiv, the Pioneering Preprint Server, Declares Independence from Cornell.” Science, marzo de 2026.

Texto completo

El artículo analiza un cambio histórico en la evolución de arXiv, el repositorio de preprints fundado en 1991 que ha sido clave en la consolidación de la ciencia abierta. Tras décadas bajo la gestión de la Universidad de Cornell, la plataforma ha decidido transformarse en una organización independiente sin ánimo de lucro, con el objetivo de adaptarse a los retos derivados de su enorme crecimiento y del nuevo ecosistema científico digital.

La decisión responde, en primer lugar, a una necesidad estructural: el volumen de envíos ha crecido de forma exponencial, con previsiones que superan los 300.000 artículos anuales. Este aumento ha generado tensiones económicas y operativas, incluyendo déficits recientes en su presupuesto, lo que ha obligado a replantear su modelo de financiación. La independencia permitirá a arXiv diversificar sus fuentes de ingresos, captar donaciones globales y establecer alianzas más amplias con instituciones científicas, fundaciones y gobiernos.

Otro aspecto central es la transformación tecnológica. El artículo subraya que la estructura universitaria limitaba la capacidad de innovación del repositorio. Como entidad independiente, arXiv podrá modernizar su infraestructura, mejorar sus sistemas de gestión de contenidos y responder con mayor agilidad a los cambios en la comunicación científica. Este punto es especialmente relevante en un contexto marcado por la digitalización intensiva y la presión por acelerar la difusión del conocimiento.

El texto también pone énfasis en los nuevos desafíos que enfrenta la plataforma. Entre ellos destaca el aumento de envíos de baja calidad o generados mediante inteligencia artificial —denominados en el artículo como “AI slop”—, que ponen en cuestión los mecanismos de control y moderación del repositorio. Aunque arXiv no realiza revisión por pares, su sistema de filtrado ha sido históricamente clave para mantener la credibilidad del contenido, por lo que este crecimiento plantea tensiones entre apertura y calidad.

Desde una perspectiva institucional, la independencia implica también cambios en la gobernanza. Se prevé la creación de un consejo de administración internacional y la contratación de un director ejecutivo (CEO), lo que refleja una profesionalización creciente de la gestión. Este giro marca la transición de un proyecto académico gestionado por una universidad a una organización global con ambiciones estratégicas más amplias.

arXiv ha sido un actor clave en el movimiento de acceso abierto, permitiendo la difusión rápida y gratuita de resultados de investigación antes de su publicación formal. Su evolución hacia un modelo independiente plantea interrogantes sobre el futuro de los repositorios, su sostenibilidad económica y su papel frente a las editoriales tradicionales y las nuevas dinámicas impulsadas por la inteligencia artificial.

SocArXiv establece una política para regular el uso de inteligencia artificial en su repositorio

Cohen, Philip N. “SocArXiv Releases AI Policy.” SocOpen: Home of SocArXiv, 9 de marzo de 2026. https://socopen.org/2026/03/09/socarxiv-releases-ai-policy/

SocArXiv releases AI policy

El repositorio abierto SocArXiv, dedicado a la difusión de preprints en ciencias sociales, ha publicado una nueva política sobre el uso de inteligencia artificial (IA) con el objetivo de preservar la calidad del conocimiento académico y garantizar la fiabilidad del ecosistema de investigación. La iniciativa surge en un contexto marcado por el rápido crecimiento de herramientas generativas y por el aumento de envíos de artículos que incorporan contenido producido por modelos de lenguaje. La política pretende establecer criterios claros que permitan diferenciar entre el uso legítimo de herramientas de asistencia automatizada y la producción de trabajos generados mayoritariamente por IA que no cumplen estándares académicos.

El documento parte de una preocupación central: proteger lo que sus responsables denominan el “bien común epistémico” de la investigación científica. Según el repositorio, la proliferación de textos generados automáticamente —muchos de ellos de baja calidad o incluso fraudulentos— amenaza con diluir el valor de las publicaciones académicas. En un entorno como el de los servidores de preprints, donde los artículos se difunden sin revisión por pares formal, el riesgo es mayor, ya que estos documentos pueden adquirir apariencia de legitimidad académica al recibir identificadores persistentes o integrarse en sistemas de citación. Por ello, SocArXiv considera necesario introducir reglas que ayuden a filtrar contenidos problemáticos sin comprometer el carácter abierto de la plataforma.

La política también responde a problemas operativos derivados del aumento de envíos. El repositorio experimentó un crecimiento significativo en el número de artículos depositados, acompañado de un incremento de trabajos generados parcial o totalmente mediante sistemas de inteligencia artificial. Esta situación provocó un aumento de la carga de trabajo para los moderadores voluntarios encargados de revisar las propuestas antes de su publicación. Como medida previa a la política definitiva, en noviembre de 2025 se decidió suspender temporalmente la recepción de artículos centrados en modelos de IA o en el desarrollo técnico de estas tecnologías, con el fin de aliviar la presión sobre el sistema y elaborar una normativa clara.

El nuevo marco normativo establece que el uso de herramientas de inteligencia artificial puede ser aceptable en determinadas circunstancias, siempre que se declare de forma transparente y exista supervisión humana. Entre los usos considerados legítimos se encuentran tareas como la traducción automática, la ayuda en búsquedas bibliográficas, la organización de ideas, la corrección lingüística, el formateo de textos o ciertos procesos de análisis asistido por máquinas. En estos casos, los autores deben documentar claramente cómo se ha utilizado la herramienta y garantizar que el contenido final ha sido revisado críticamente por investigadores humanos. La transparencia en la declaración del uso de IA se convierte así en un requisito fundamental para la aceptación de los trabajos.

En contraste, la política define también usos explícitamente prohibidos. Entre ellos se incluye la generación automática de párrafos completos o secciones enteras del artículo sin supervisión adecuada, la creación de datos ficticios mediante modelos generativos, la invención de fuentes o referencias inexistentes, y la presentación de sistemas de IA como si fueran coautores humanos o interlocutores en procesos de investigación. Igualmente se rechazan los trabajos producidos íntegramente por sistemas generativos sin aportación sustancial de investigación humana. Estas prácticas son consideradas incompatibles con los estándares de integridad académica y constituyen motivo de rechazo inmediato.

Otro aspecto relevante de la política es que no pretende prohibir la inteligencia artificial en la investigación, sino establecer límites razonables para su uso. Los responsables del repositorio reconocen que los modelos de lenguaje y otras herramientas automatizadas están cada vez más integrados en los procesos de investigación, desde la traducción hasta el análisis de datos. Por ello, el objetivo no es iniciar una “carrera armamentística” para detectar automáticamente contenidos generados por IA, algo que consideran difícil de sostener técnicamente, sino crear normas simples y aplicables que fomenten comportamientos responsables por parte de los investigadores.

La política también pretende ofrecer orientación a los autores sobre dónde publicar determinados tipos de trabajos. SocArXiv se concibe principalmente como un repositorio para investigación en ciencias sociales, no como un espacio dedicado al desarrollo técnico de sistemas de inteligencia artificial. Por ello, algunos trabajos centrados en la creación o experimentación con modelos de IA pueden encontrar un encaje más adecuado en otros repositorios especializados. Esta delimitación temática busca mantener la coherencia disciplinar del repositorio y evitar que se convierta

Análisis estratégico 2025 del ecosistema de la comunicación científica y el rol de los repositorios

Shearer, Kathleen. COAR Strategic Analysis of the
Scholarly Communications Environment . COAR, 27 de noviembre de 2025.

Texto completo

El informe presenta una visión panorámica del entorno sociopolítico que rodea actualmente a la comunicación científica y analiza las fuerzas que influirán en el ecosistema de repositorios en los próximos años.

Elaborado por COAR mediante encuestas, revisión bibliográfica y consultas a expertos, el documento busca orientar la estrategia de la organización para 2026–2028. El análisis identifica cinco fuerzas clave: la soberanía digital, los recortes en financiación de la investigación, el creciente descontento con el sistema editorial, el ascenso de la inteligencia artificial y la pérdida de confianza pública en la ciencia.

En primer lugar, el texto subraya que los cambios geopolíticos y las tensiones internacionales están modificando las colaboraciones científicas globales. La noción de “soberanía digital” impulsa a algunos países a reforzar infraestructuras de investigación propias, lo que podría repercutir en los sistemas de evaluación y en la dependencia de revistas internacionales. En paralelo, varios países experimentan fuertes recortes en la financiación científica, generando presiones sobre bibliotecas e infraestructuras de acceso abierto. Esta situación representa tanto un riesgo para la sostenibilidad del open science como una oportunidad para reorientar recursos hacia alternativas comunitarias y menos costosas.

El informe también aborda el creciente malestar ante un sistema editorial dominado por un puñado de grandes empresas, basado en métricas de prestigio y en modelos económicos poco sostenibles. A pesar de años de reformas, el acceso abierto sigue condicionado por acuerdos transformativos y revistas híbridas de elevado coste. La producción científica se ha disparado, tensionando los procesos de revisión y comprometiendo la calidad percibida. Como respuesta, muchas políticas nacionales empiezan a priorizar el depósito en repositorios, mientras surgen nuevos modelos como el Publish, Review, Curate (PRC) y se fortalecen iniciativas de evaluación responsable.

La irrupción de la inteligencia artificial constituye otro eje crítico. Los modelos generativos cambian los modos de búsqueda, resumen y gestión de la literatura científica, creando nuevas expectativas entre los usuarios. Al mismo tiempo, plantean desafíos éticos relacionados con la trazabilidad, la fiabilidad y el sesgo, especialmente cuando actúan como intermediarios opacos entre la literatura y el lector. El documento alerta también sobre el aumento de bots que extraen masivamente contenido de repositorios para entrenar modelos, provocando bloqueos y afectando incluso a servicios legítimos.

Finalmente, el informe señala la erosión de la confianza pública en la ciencia, alimentada por la complejidad de los mensajes científicos, la politización, la difusión de desinformación y los escándalos de fraude o malas prácticas. En este contexto, los repositorios, como infraestructuras abiertas y no comerciales, pueden contribuir a reconstruir credibilidad mediante prácticas de autenticidad, transparencia, preservación y trazabilidad reforzada.

A partir de este diagnóstico, COAR identifica cuatro líneas prioritarias de acción para los repositorios: navegar los cambios tecnológicos y garantizar un equilibrio entre acceso humano y automatizado; construir un entorno de información confiable mediante prácticas de validación y marcadores de confianza; mejorar la coherencia digital global a través de estándares e interoperabilidad; y aumentar la visibilidad del valor estratégico de los repositorios, especialmente en un contexto donde las herramientas de IA pueden ocultar el origen de los contenidos que consumen y reutilizan. El informe concluye afirmando que los repositorios seguirán siendo infraestructuras esenciales para la ciencia abierta, siempre que el sector actúe de manera coordinada para afrontar los riesgos y aprovechar las oportunidades de un ecosistema cada vez más complejo y volátil.

La avalancha de bots de inteligencia artificial desafía la sostenibilidad de los repositorios académicos

Washington, Jamie. “AI bots swarm UDSpace for information.” Library, Museums and Press, University of Delaware, 29 de septiembre de 2025. https://library.udel.edu/news/2025/09/29/ai-bots-swarm-udspace/

La Universidad de Delaware ha detectado un fenómeno inesperado en su repositorio institucional, UDSpace: una avalancha de bots de inteligencia artificial que acceden masivamente a su contenido.

Estos bots, diseñados para recopilar información y entrenar modelos de lenguaje, realizan miles de consultas automatizadas que han llegado a ralentizar el sistema y, en algunos casos, a dejarlo temporalmente inaccesible.

El atractivo de UDSpace radica en la gran cantidad de materiales académicos de alta calidad que alberga —tesis, artículos científicos, informes y otros documentos de investigación—, lo que lo convierte en una fuente muy valiosa para las empresas que desarrollan inteligencia artificial. Sin embargo, el patrón de comportamiento de los bots ha resultado extremadamente agresivo: generan peticiones a una velocidad imposible para los usuarios humanos y saturan el servidor, desbordando las capacidades de respuesta del repositorio.

Ante esta situación, el equipo técnico de la biblioteca probó inicialmente medidas básicas como bloquear direcciones IP o responder a los bots fingiendo que los documentos no existían. Pero estas estrategias solo sirvieron para que los ataques se intensificaran. En mayo de 2025, se optó por una solución más avanzada: un sistema que identifica las solicitudes automatizadas y las bloquea en la capa de entrada, antes de que lleguen al servidor. De esta forma, los usuarios legítimos pueden seguir accediendo sin problema mientras los bots reciben un mensaje de acceso prohibido.

Aunque esta estrategia ha logrado reducir la presión sobre UDSpace, el problema refleja una tendencia global. Cada vez más repositorios académicos y bibliotecas digitales se enfrentan a un dilema entre mantener el acceso abierto al conocimiento y proteger sus sistemas de un uso automatizado que amenaza con colapsar sus infraestructuras. El caso de la Universidad de Delaware muestra hasta qué punto el auge de la inteligencia artificial está obligando a las instituciones académicas a repensar la gestión y defensa de sus recursos digitales.

Repositorios de Datos Abiertos: guía para la selección y depósito

F1000Research. «Open Data Repositories.» Think F1000Research, febrero de 2021. PDF. https://think.f1000research.com/wp-content/uploads/2021/02/F1000Research-Open-Data-Repositories.pdf.

Los repositorios de datos abiertos constituyen un componente esencial del ecosistema de investigación científica contemporánea. El depósito de datos en repositorios públicamente accesibles y reconocidos que asignan identificadores globalmente persistentes garantiza que los conjuntos de datos permanezcan disponibles tanto para humanos como para máquinas en un formato utilizable en el futuro.

1. Repositorios de Acceso Controlado

En casos donde el intercambio abierto de datos no es factible debido a consideraciones éticas o de confidencialidad, los repositorios de acceso controlado proporcionan una solución viable. Estos permiten el acceso a datos sensibles a través de usuarios autenticados, dependiendo de los permisos otorgados por los participantes del estudio y las aprobaciones del comité ético.

2. Repositorios Específicos por Disciplina

Los repositorios específicos por disciplina ofrecen conocimiento especializado del dominio y experiencia en curación para tipos particulares de datos. Dado que los datos de investigación varían considerablemente entre disciplinas, estos repositorios proporcionan ventajas significativas al hacer que los datos sean más visibles para otros miembros de la comunidad de investigación específica.

3. Repositorios Institucionales

Muchas instituciones ofrecen apoyo a sus empleados para la gestión y depósito de datos. Los repositorios institucionales que aceptan conjuntos de datos proporcionan administración y custodia, ayudando a asegurar que los conjuntos de datos se preserven y sean accesibles a largo plazo.

4. Repositorios Generales de Datos

Los repositorios generales de datos aceptan conjuntos de datos independientemente de la disciplina o institución. Estos repositorios admiten una amplia variedad de tipos de archivos y son particularmente útiles cuando no existe un repositorio específico por disciplina.

Tipos de Repositorios de Datos

1. Repositorios de Acceso Controlado

2. Repositorios Específicos por Disciplina

3. Repositorios Institucionales

4. Repositorios Generales de Datos

Características Importantes de los Repositorios

Versionado

Algunos repositorios permiten cambios en los conjuntos de datos depositados a través del versionado. La selección de un repositorio que incluya esta característica proporciona flexibilidad para agregar nuevos datos, reestructurar y realizar mejoras al conjunto de datos. Cada versión del conjunto de datos es identificable de manera única y se mantiene, lo que permite a otros encontrar, acceder, reutilizar y citar cualquier versión específica que requieran.

Metadatos

Para facilitar la descubribilidad, los datos deben describirse utilizando metadatos apropiados. El contenido y formato de los metadatos a menudo está guiado por una disciplina específica y/o repositorio a través del uso de un estándar de metadatos. Independientemente del repositorio elegido, al depositar datos es importante completar tantos campos como sea posible, ya que esta información generalmente contribuye a los registros de metadatos.

Software y Código

El software y el código constituyen productos de investigación importantes. Además de utilizar un sistema de control de versiones como GitHub, se debe depositar el código fuente en un repositorio de datos donde se le asigne un identificador único. El uso de tal repositorio garantiza que el código esté abierta y permanentemente disponible.

Consideraciones Especiales

Plataformas de Reproducibilidad

Cuando se tienen tanto datos como código, se debe considerar el uso de una plataforma de reproducibilidad como Code Ocean. Depositar datos y código en tal plataforma significa que otros pueden ejecutar fácilmente los análisis, promoviendo así la reproducibilidad computacional.

Advertencias Importantes

El alojamiento de datos únicamente en un sitio web de laboratorio o como parte del material suplementario de una publicación dificulta la capacidad de encontrar y reutilizar los datos. Además, el lugar donde se depositan los datos dependerá de los factores legales y éticos aplicables, quién financió el trabajo y dónde se espera publicar.

Proceso de Selección de Repositorio

El documento proporciona un flujo de trabajo para la selección de repositorios basado en las siguientes preguntas clave:

¿Contienen los datos información personal o sensible que no puede ser completamente anonimizada?
¿Existe un repositorio específico por disciplina para el conjunto de datos?
¿El repositorio institucional acepta datos?

Este proceso de decisión guía hacia el tipo de repositorio más apropiado para cada situación específica.

Recursos Adicionales

El documento hace referencia a herramientas útiles para la identificación de repositorios apropiados, incluyendo Re3Data, FAIRsharing, FAIR Repository Finder, y recursos para hacer el código citable, así como cajas de herramientas para datos y código.

COAR lanza el Directorio Internacional de Repositorios (IRD)

International Repository Directory, IRD

https://ird.coar-repositories.org/browser?lang=en

La Confederación de Repositorios de Acceso Abierto (COAR) ha lanzado el Directorio Internacional de Repositorios (International Repository Directory, IRD), una herramienta global que proporciona información actualizada y fiable sobre los repositorios académicos de acceso abierto de todo el mundo. El objetivo del IRD es ofrecer una fuente autorizada que permita conocer de forma estandarizada las características de cada repositorio, tales como su plataforma tecnológica, alcance temático, ubicación geográfica, institución afiliada y funcionalidades disponibles.

El directorio cuenta actualmente con más de 7.500 registros, de los cuales aproximadamente 700 han sido verificados. La información se obtiene y actualiza mediante un modelo de curaduría distribuida, en el que organizaciones nacionales o regionales —denominadas “Responsables”— se encargan de supervisar y mantener la calidad de los datos de los repositorios de sus respectivos países o regiones. Estas organizaciones pueden designar curadores que actualicen la información manualmente o de manera automatizada.

La plataforma tecnológica del IRD ha sido desarrollada por Antleaf y funciona como una infraestructura centralizada, pero gestionada colaborativamente. Todo el software es de código abierto con licencia MIT, y los datos están disponibles bajo la licencia CC0, lo que permite su reutilización sin restricciones. Esta iniciativa refuerza el compromiso de COAR con el desarrollo de una red global de repositorios más interconectada, transparente y sostenible.

Importancia de los podcast en la potencialización y ampliación del impacto académico de los investigadores

Allison Symulevich, Matt Torrence, Jason Boczar, y Jessica Szempruch, «Podcasting as Open Access: A Review and Discussion of Potential Impact on Scholarly Communication and Promotion» Journal of Librarianship and Scholarly Communication 13, no. 1 (2025): eP18241, https://doi.org/10.31274/jlsc.18241

Los podcasts académicos constituyen una forma informal mediante la cual el profesorado puede compartir su experiencia investigadora con una audiencia más amplia e internacional. En el artículo, los autores sostienen que los podcasts representan un tipo de comunicación académica informal y destacan el papel que pueden desempeñar las bibliotecas en el éxito de su difusión y accesibilidad.

En los últimos años, los podcasts académicos han emergido como una valiosa herramienta de comunicación científica informal, permitiendo a docentes, investigadores y especialistas compartir su conocimiento y experiencia más allá de los canales tradicionales de divulgación, como los artículos académicos o las conferencias. Este tipo de contenido, al ser accesible y narrativo, facilita la conexión con audiencias más amplias y diversas, incluyendo estudiantes, colegas de otras disciplinas, profesionales del sector y el público general.

Uno de los aportes más significativos del podcasting en el entorno académico es su naturaleza abierta. Cuando estos materiales se publican en repositorios institucionales de acceso abierto, como se ha hecho en la Universidad del Sur de Florida, se garantiza su disponibilidad permanente y gratuita, lo que contribuye directamente a mejorar la visibilidad, el alcance internacional y la trazabilidad del trabajo académico. Este enfoque no solo amplía la audiencia potencial del contenido, sino que también complementa la evaluación del impacto de la producción científica a través de nuevas métricas de uso, como descargas, escuchas, alcance geográfico y nivel de interacción en plataformas digitales.

A nivel institucional, las bibliotecas universitarias pueden desempeñar un papel clave al apoyar la creación, el alojamiento, la preservación y la difusión de podcasts académicos, ayudando a los investigadores a optimizar el impacto de su producción intelectual. Asimismo, estos formatos pueden integrarse como evidencias de transferencia de conocimiento en procesos de evaluación y promoción académica, dado que reflejan habilidades de comunicación científica, compromiso con la sociedad y capacidad de innovación.

El estudio también plantea la necesidad de avanzar hacia una estandarización de los sistemas de medición del impacto de los podcasts académicos, así como la generación de guías que permitan a otras instituciones replicar buenas prácticas en este campo emergente de la ciencia abierta.

Algunos repositorios de acceso abierto han empezado a bloquear a los robots de inteligencia artificial

«Open Repositories Are Being Profoundly Impacted by AI Bots and Other Crawlers: Results of a COAR Survey.» COAR (blog), April 30, 2025. https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

Cada vez hay más bots de inteligencia artificial rastreando repositorios. Estos bots son lo suficientemente agresivos como para provocar interrupciones y cortes de servicio en los repositorios. Como consecuencia, algunos repositorios han empezado a bloquear el acceso de las máquinas a sus colecciones, lo que también está bloqueando inadvertidamente otros servicios de red deseados, como los agregadores académicos, los servicios de indexación y los directorios.

El impacto de los bots de inteligencia artificial (IA) y otros rastreadores en los repositorios de acceso abierto ha crecido considerablemente, lo que está afectando la estabilidad de los servicios y provocando interrupciones en las plataformas. En respuesta a esta situación, algunos repositorios han comenzado a bloquear el acceso de estas máquinas, lo que, de forma no intencionada, también bloquea otros servicios útiles como agregadores académicos, servicios de indexación y directorios.

Esta problemática no es exclusiva de los repositorios académicos. Según un informe de Axios, casi el 20% de los 1000 sitios web más visitados del mundo están bloqueando crawlers de IA debido a la falta de directrices legales claras sobre el uso de material con derechos de autor por parte de la IA. Por ejemplo, el bot GPTBot de OpenAI ha sido bloqueado por varios sitios, lo que refleja una creciente preocupación por el acceso automatizado a contenidos en línea.

Además, desarrolladores de software de código abierto han implementado medidas ingeniosas para combatir los bots de IA que no respetan las directrices de robots.txt. Herramientas como Anubis y Nepenthes han sido creadas para frustrar a los crawlers mediante pruebas de trabajo y contenido falso, respectivamente. Estas acciones subrayan la necesidad de proteger la infraestructura digital frente a accesos no deseados.

En respuesta a estos desafíos, COAR planea lanzar un grupo de trabajo para desarrollar acciones recomendadas que permitan a los repositorios mantener su acceso abierto mientras se protegen contra procesos disruptivos de máquinas.

Para comprender mejor el impacto de los bots y rastreadores en los repositorios, COAR (Confederation of Open Access Repositories) realizó una encuesta en abril de 2025, recibiendo 66 respuestas de miembros de diversas regiones del mundo. Los resultados muestran que más del 90% de los encuestados experimentan la presencia de bots de IA, generalmente más de una vez a la semana, lo que causa frecuentes interrupciones en los servicios. Para mitigar estos efectos, los repositorios emplean diversas estrategias, como la limitación de tasa, reglas de firewall, reglas de robots.txt y listas blancas compartidas.

COAR planea realizar un informe más detallado sobre los resultados de la encuesta en su sitio web y, posteriormente, formará un grupo de trabajo para desarrollar recomendaciones que permitan a los repositorios mantener su acceso abierto, protegiéndolos al mismo tiempo contra procesos disruptivos de máquinas.

arXiv lanza un proyecto piloto para incorporar resúmenes en audio generados por inteligencia artificial en su plataforma

Boboris, Kat. 2025. “arXiv Pilots Audio Summaries in Partnership with ScienceCast.” arXiv Blog, April 8, 2025. https://blog.arxiv.org/2025/04/08/arxiv-pilots-audio-summaries-in-partnership-with-sciencecast/

arXiv ha lanzado un proyecto piloto en colaboración con ScienceCast para incorporar resúmenes en audio de 60 segundos generados por inteligencia artificial en su plataforma Esta iniciativa busca ampliar el acceso al contenido científico más allá del formato PDF, continuando la línea iniciada en 2024 con la introducción de versiones en HTML de los artículos.

arXiv, uno de los repositorios científicos de acceso abierto más importantes del mundo, ha iniciado un proyecto piloto en colaboración con la plataforma ScienceCast para ofrecer resúmenes en audio de 60 segundos generados por inteligencia artificial. Esta iniciativa se enmarca en los esfuerzos de arXiv por hacer la ciencia más accesible a un público más amplio, diversificando los formatos disponibles más allá del tradicional PDF. Ya en 2024, arXiv había comenzado a ofrecer versiones en HTML de los artículos recientes, lo cual mejoraba la legibilidad y accesibilidad en dispositivos móviles y navegadores.

En esta nueva fase, los resúmenes en audio están disponibles, por el momento, solo para artículos nuevos de la categoría astro-ph.HE (astrofísica de alta energía) publicados a partir del 1 de diciembre de 2024. Estos audios se generan automáticamente a partir de los archivos TeX durante el proceso de envío del artículo, lo que permite una rápida publicación del contenido sintetizado. Para acceder a ellos, los lectores pueden dirigirse al menú lateral derecho de la página de resumen del artículo en arxiv.org, donde encontrarán una nueva sección llamada “Additional Features” (Funciones adicionales). Allí, el enlace “Audio Summaries” conduce a una página de destino donde se puede escuchar el resumen directamente en la plataforma de ScienceCast.

ScienceCast, que desde 2022 forma parte de arXivLabs —una incubadora de innovación abierta que conecta arXiv con herramientas externas— ya había implementado con éxito un programa similar con el repositorio bioRxiv en el campo de las ciencias biológicas. Su plataforma emplea inteligencia artificial para generar contenido audiovisual breve que resume los principales aportes de un artículo científico, lo que facilita el acceso al conocimiento tanto para investigadores como para estudiantes, divulgadores y entusiastas de la ciencia.

Ramin Zabih, director académico de arXiv y profesor de informática en Cornell Tech, destacó que esta colaboración representa un paso más en el cumplimiento de la misión de arXiv: garantizar que la ciencia esté abierta y disponible para todos. Con más de 2.6 millones de artículos en su repositorio, arXiv representa una fuente esencial para investigadores de múltiples disciplinas. En este contexto, los resúmenes en audio constituyen una herramienta útil para mantenerse al día con los avances, incluso en campos fuera del área de especialización de cada lector.

Por su parte, Erin Sharoni, directora ejecutiva de ScienceCast, subrayó que el objetivo de su empresa es eliminar barreras en los flujos de trabajo de investigación, promoviendo el acceso abierto y la participación activa de cualquier persona interesada en el conocimiento científico, desde expertos hasta el público general.

Aunque el proyecto se encuentra en una fase inicial y limitada a una categoría temática, se prevé su ampliación a otras áreas del conocimiento, así como la incorporación de más funcionalidades de audio y visualización. Desde arXiv y ScienceCast se anima a los usuarios a compartir sus comentarios, sugerencias o inquietudes, tanto a través del blog oficial como directamente en www.sciencecast.org.

Los autores que ya tengan un resumen en audio generado para su artículo también pueden contactar a ScienceCast para ofrecer retroalimentación o plantear preocupaciones específicas a través del correo electrónico: vacheh.joakim@sciencecast.ai.

Este proyecto representa un nuevo paso hacia una ciencia más inclusiva, comprensible y accesible, adaptada a las nuevas formas de consumo de contenido en la era digital.

	¿Es el artículo cien… en OpenEval: la inteligencia arti…
	¿Es el artículo cien… en PaperOrchestra: cuando la inte…
	ATHENEA EGEA AHIJADO en Supuestos prácticos de oposici…
	Noticias IA y Educac… en Aprender para el futuro: educa…
	IA en bibliotecas: d… en Implementación de un chatbot d…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca