Archivo de la etiqueta: Bases de datos

Los tres grandes de la información científica: una revisión bibliométrica comparativa de Web of Science, Scopus y OpenAlex

Torres-Salinas, Daniel & Arroyo-Machado, Wenceslao (2026). The ‘Big Three’ of Scientific Information: A Comparative Bibliometric Review of Web of Science, Scopus, and OpenAlex (preprint). arXiv:2601.21908. doi:10.48550/arXiv.2601.21908. https://arxiv.org/abs/2601.21908

Se ofrece un análisis comparativo exhaustivo de las tres principales bases de datos bibliográficas multidisciplinares utilizadas globalmente para la evaluación de la investigación científica: Web of Science Core Collection (WoS), Scopus y OpenAlex.

El estudio está motivado por la necesidad de evidencia actualizada que permita a bibliotecarios, gestores de investigación, evaluadores académicos y responsables de políticas comprender las fortalezas y limitaciones de cada fuente en cuanto a cobertura documental, calidad y riqueza de metadatos, diversidad lingüística y funcionalidades disponibles para análisis evaluativos.

La investigación se estructura en dos grandes secciones metodológicas. La primera consiste en una revisión sistemática de la literatura reciente, donde se sintetizan estudios previos sobre volumen de registros, cobertura de acceso abierto, diversidad lingüística, cobertura de referencias y calidad de metadatos en cada uno de los tres sistemas. Se detallan características clave: WoS y Scopus funcionan como bases de datos comerciales con criterios editoriales rigurosos y herramientas analíticas integradas, mientras que OpenAlex, de acceso completamente abierto, destaca por su enorme volumen de registros y su mayor inclusión de fuentes de países del Sur global, aunque también presenta mayores tasas de errores o inconsistencias en metadatos.

La segunda parte del trabajo es un análisis bibliométrico original basado en datos empíricos del período 2015-2024. Este análisis abarca la distribución longitudinal de publicaciones, los tipos documentales, perfiles temáticos, diferencias por idioma y el grado de solapamiento entre bases de datos usando DOI como llave de correspondencia. Este contraste evidencia que WoS y Scopus tienen un alto grado de superposición entre sí, ofreciendo consistencia en sus coberturas, mientras que OpenAlex amplía significativamente la representatividad total, especialmente en idiomas distintos del inglés y en revistas de acceso abierto, aunque con menor precisión en ciertos metadatos básicos (por ejemplo, afiliaciones institucionales, clasificaciones temáticas y años de publicación).

la tabla muestra que OpenAlex contiene un volumen de publicaciones considerablemente mayor en total (36,150,302) que Web of Science (23,508,100) y Scopus (26,645,058), aunque el porcentaje total de cobertura (clasificación completa) es menor —67 % frente a ~98 % en las otras dos bases— lo que indica que en OpenAlex no todas las publicaciones tienen asignada un área temática.

En detalle por áreas temáticas:

  • Ciencias sociales y humanidades:
    Web of Science muestra 2,121,562 publicaciones (9 % del total de su contenido clasificado), Scopus 3,229,265 (12.1 %) y OpenAlex 7,390,532 (20.4 %). Esto indica que OpenAlex tiene una mayor proporción de publicaciones en ciencias sociales y humanidades que las bases comerciales, sugiriendo una cobertura más amplia de este campo.
  • Ciencias biomédicas y de la salud:
    Las tres bases reflejan que esta es el área con más publicaciones. Web of Science tiene 10,178,006 (43.3 %), Scopus 9,932,031 (37.3 %) y OpenAlex 12,473,349 (34.5 %). Aunque OpenAlex tiene más publicaciones absolutas, su porcentaje es menor, lo que puede deberse a su mayor diversidad temática.
  • Ciencias físicas e ingeniería:
    En este campo Web of Science registra 5,429,077 (23.1 %), Scopus 5,984,787 (22.5 %) y OpenAlex 6,435,849 (17.8 %). Aquí también se observa que OpenAlex tiene la menor proporción relativa, probablemente porque su enorme volumen de registros incluye muchos trabajos de otras áreas.
  • Ciencias de la vida y de la tierra:
    Las cifras son: Web of Science con 3,480,765 (14.8 %), Scopus con 4,714,799 (17.7 %) y OpenAlex con 5,556,612 (15.4 %). La proporción de OpenAlex es similar a la de WoS, mientras que Scopus muestra un porcentaje relativamente mayor en esta área.
  • Matemáticas y ciencias de la computación:
    Web of Science tiene 2,298,690 (9.8 %), Scopus 2,784,176 (10.4 %) y OpenAlex 4,293,960 (11.9 %). Aquí también OpenAlex muestra una participación proporcional ligeramente mayor que las otras bases, aunque las cifras absolutas reflejan la amplitud de su cobertura general.

Los resultados globales ponen de manifiesto que ninguna base de datos por sí sola ofrece un panorama completo de la actividad científica mundial: WoS y Scopus destacan por su fiabilidad y calidad editorial, pero son más limitadas en cobertura no anglófona y en contenidos abiertos; OpenAlex, por su parte, proporciona una biodiversidad documental más amplia, aunque requiere ajustes metodológicos adicionales para asegurar la calidad de los datos a nivel evaluativo. El estudio concluye con un resumen de diez puntos principales y propone cinco recomendaciones prácticas, destacando la necesidad de combinar fuentes en evaluaciones estratégicas, adaptar protocolos según objetivos (por ejemplo, evaluación formal vs. estudios exploratorios) e integrar enfoques críticos que mitiguen sesgos geográficos y lingüísticos en el análisis de la literatura científica global.

Una Nación, Una Suscripción: Un Marco Transformador para una Ciencia Abierta Equitativa y Sostenible en el Sur Global

Kumari, Rakhi; Kushwaha, Ashwin Kumar (2026). One Nation One Subscription: A Transformative Framework for Equitable and Sustainable Open Science in the Global South [Presentación]. International Federation of Library Associations and Institutions (IFLA). Disponible en: https://repository.ifla.org/handle/20.500.14598/6981

Texto completo

Este trabajo presenta la iniciativa india “One Nation One Subscription” (ONOS) como un modelo innovador para superar las desigualdades de acceso al conocimiento académico en naciones del Sur Global. ONOS se basa en la negociación de licencias centralizadas de revistas y bases de datos científicas a nivel nacional, con el objetivo de garantizar que todas las instituciones educativas y de investigación, independientemente de su tamaño o ubicación geográfica, puedan acceder al mismo conjunto de recursos científicos sin restricciones económicas desiguales.

Lejos de considerarse únicamente una estrategia de compra, el documento concibe ONOS como un componente esencial de un ecosistema más amplio de Ciencia Abierta. Se propone un modelo híbrido que combina la licencia nacional con políticas de acceso abierto, apoyo a publicaciones locales en lenguas diversas y la construcción sostenida de infraestructuras digitales gestionadas por la comunidad (como repositorios institucionales o revistas lideradas por académicos).

El estudio también aborda las barreras sistémicas del modelo actual del conocimiento —como los altos costos de suscripción, las brechas regionales de acceso y la exclusión de instituciones no élite— y discute posibles trayectorias de política pública que permitan integrar ONOS en marcos más amplios de gobernanza de la Ciencia Abierta. Asimismo, explora mecanismos de financiación sostenible, licencias colaborativas y plataformas digitales escalables.

Finalmente, al presentar ONOS como un caso de inversión pública orientada hacia la equidad del conocimiento, los autores resaltan el potencial de India no solo como beneficiario de los movimientos globales de acceso abierto, sino como actor proactivo en la construcción de un futuro de ciencia más equitativo, sostenible e interoperable internacionalmente.

Una base de datos pública para conocer qué herramientas de IA se usan en los procesos de selección de personal

The talent acquisition & recruiting ai index (TARAI)

https://www.tarai.org/

La University of Virginia School of Data Science ha lanzado una base de datos pública e interactiva que permite conocer de forma clara qué herramientas de inteligencia artificial se utilizan actualmente en los procesos de selección de personal.

El proyecto surge ante la creciente preocupación por el uso opaco de sistemas automatizados que filtran, clasifican o evalúan a los candidatos sin que estos —ni muchas veces los propios reclutadores— comprendan realmente cómo funcionan.

La base de datos recoge más de un centenar de tecnologías de recursos humanos que incorporan IA y ofrece descripciones detalladas sobre su propósito, el tipo de tareas que automatizan y el grado de transparencia que presentan. Para ello, combina la información proporcionada por las propias empresas con datos obtenidos en entrevistas a profesionales del sector, lo que permite identificar diferencias significativas entre lo que los proveedores prometen y lo que realmente realiza cada sistema.

Además, la plataforma está diseñada para dos tipos de públicos: por un lado, los profesionales de recursos humanos que necesitan comparar herramientas antes de adquirirlas o utilizarlas; por otro, los investigadores y responsables de políticas públicas interesados en entender el impacto de la IA en la contratación laboral. La iniciativa también revela que, a pesar de que la regulación en muchos países considera estas tecnologías de “alto riesgo”, aún existe una supervisión limitada sobre su funcionamiento real, lo que hace especialmente valioso un recurso que facilite su análisis crítico y su escrutinio social.

PAPR: un registro colaborativo para preservar colecciones impresas de revistas y otras publicaciones seriadas en bibliotecas

PAPR (Print Archives Preservation Registry) 

https://papr.crl.edu/

PAPR  es un registro que reúne información sobre qué bibliotecas conservan colecciones impresas de revistas y otras publicaciones seriadas. Su función principal es ayudar a que estas instituciones coordinen la preservación del papel, evitando duplicidades innecesarias y garantizando que siempre exista un número suficiente de copias para proteger el patrimonio documental.

Gracias a este sistema, las bibliotecas pueden saber qué títulos conserva cada institución, qué años o volúmenes exactos poseen y qué compromisos de preservación han asumido a largo plazo.

Este registro actúa como un repositorio colectivo de datos, permitiendo que las bibliotecas compartan sus datos de tenencia y compromisos de preservación. Gracias a esto, los miembros pueden analizar solapamientos entre colecciones, planear políticas de retención o descarte, y tomar decisiones informadas para gestionar sus colecciones impresas.

El sistema se ha renovado recientemente con la plataforma TIND ILS, que permite gestionar grandes volúmenes de datos de forma más rápida, clara y eficiente. Con esta actualización, PAPR ofrece mejores herramientas de búsqueda, análisis y comparación entre colecciones, lo que facilita la toma de decisiones sobre qué conservar, qué retirar y cómo colaborar entre bibliotecas. En conjunto, PAPR se convierte en una herramienta esencial para investigadores, profesionales de la información y gestores de preservación que necesitan localizar material impreso o planificar su conservación futura.

Base de datos de Prompts de Rebiun

base de datos de Prompts

La página «Prompts» del Observatorio de Inteligencia Artificial de REBIUN (Red de Bibliotecas Universitarias) ofrece una recopilación estructurada de ejemplos de Prompts —instrucciones o preguntas— que permiten interactuar eficazmente con herramientas de inteligencia artificial generativa, como ChatGPT o Copilot. Estos recursos están pensados especialmente para su aplicación en el ámbito bibliotecario y educativo, con el fin de fomentar el uso ético, eficiente y estratégico de la IA en el entorno universitario.

El contenido se organiza en distintas categorías temáticas: desde tareas de apoyo a la docencia e investigación, pasando por la creación de contenidos, la búsqueda y análisis de información, hasta la automatización de procesos administrativos. Cada prompt incluye una descripción breve de su finalidad y una sugerencia de redacción para que el usuario pueda adaptarla a sus propias necesidades.

Además, se destacan recomendaciones para formular prompts de manera efectiva, como ser claro, proporcionar contexto y definir el formato de la respuesta esperada. En conjunto, esta herramienta busca empoderar a los profesionales de las bibliotecas universitarias para que aprovechen el potencial de la IA generativa como un aliado en sus funciones clave. La iniciativa se enmarca dentro del compromiso de REBIUN con la innovación responsable en el ámbito académico.

Búsqueda de información asistida por IA (RAG) en bibliotecas universitarias

Bevara, R. V. K., Lund, B. D., Mannuru, N. R., Karedla, S. P., Mohammed, Y., Kolapudi, S. T., & Mannuru, A. (2025). Prospects of Retrieval Augmented Generation (RAG) for Academic Library Search and Retrieval. Information Technology and Libraries44(2). https://doi.org/10.5860/ital.v44i2.17361

Retrieval Augmented Generation (RAG) es una tecnología que combina dos cosas: por un lado, sistemas que saben buscar información en bases de datos o documentos (esto es el “retrieval” o recuperación), y por otro lado, modelos de inteligencia artificial que pueden entender y generar texto en lenguaje natural (como los chatbots o asistentes virtuales). De manera que cuando Entonces, cuando se hace una pregunta, RAG primero busca la información relevante en fuentes confiables y después usa esa información para crear una respuesta clara y completa, como si estuvieras hablando con un experto que tiene acceso a mucha información precisa.

Se examina el potencial de los sistemas basados en RAG para transformar los métodos tradicionales de búsqueda y recuperación de información en bibliotecas universitarias. RAG combina las capacidades de comprensión del lenguaje natural de los grandes modelos de lenguaje (LLM) con sistemas estructurados de recuperación de información basados en bases de datos verificadas, creando así un enfoque innovador para la búsqueda académica que mejora la precisión y relevancia de los resultados.

El estudio detalla los requerimientos técnicos necesarios para integrar RAG en los sistemas bibliotecarios actuales, destacando la importancia de las arquitecturas middleware que conectan las bases de datos académicas con los procesos de generación y recuperación. Se profundiza en elementos como las canalizaciones de embedding (representaciones vectoriales de datos), las bases de datos vectoriales y la arquitectura técnica que permite que RAG procese consultas en tiempo real, utilizando el contexto y el significado semántico para refinar los resultados de búsqueda.

Además, el artículo resalta cómo los sistemas RAG pueden mejorar significativamente la experiencia del usuario en las bibliotecas académicas, gracias a funcionalidades como la asistencia personalizada en la investigación, interfaces conversacionales para interactuar de forma más natural y la integración multimodal de contenido (texto, imágenes, datos). Sin embargo, también enfatiza la necesidad de cumplir con regulaciones de privacidad de datos y derechos de autor para asegurar un uso responsable y ético de estas tecnologías.

Entre las consideraciones críticas, el estudio aborda aspectos éticos, la transparencia del sistema y la confianza del usuario, indicando que, aunque RAG ofrece grandes oportunidades para modernizar los servicios bibliotecarios, su implementación exitosa depende de un equilibrio cuidadoso entre innovación técnica y responsabilidad social. Finalmente, los autores concluyen que la integración de RAG en bibliotecas académicas tiene un gran potencial para revolucionar la forma en que se accede y se gestiona el conocimiento, pero que aún se requiere investigación continua en áreas como la escalabilidad del sistema, el cumplimiento ético y la optimización de costos para su adopción masiva.

Clarivate lanza un nuevo índice gratuito de investigación educativa y refuerza su compromiso con ERIC

ProQuest Education Research Index

El 13 de junio de 2025, Clarivate, una de las principales compañías globales de análisis e información académica, anunció oficialmente el lanzamiento del ProQuest Education Research Index, un recurso gratuito destinado a facilitar el acceso a literatura científica en el campo de la educación. Este nuevo índice es parte de su estrategia para fortalecer su compromiso con ERIC (Education Resources Information Center), el índice de literatura educativa más consultado a nivel mundial, gestionado por el Departamento de Educación de los Estados Unidos.

ProQuest Education Research Index servirá como una herramienta abierta y de fácil acceso para investigadores, docentes, estudiantes y formuladores de políticas, al integrar miles de registros bibliográficos vinculados con publicaciones académicas, actas de congresos, informes técnicos y otros documentos relacionados con la investigación educativa. Esta base de datos está diseñada para mejorar la visibilidad y el descubrimiento de la literatura educativa más relevante, aprovechando las capacidades de búsqueda avanzadas y las tecnologías de indexación de Clarivate.

Clarivate destaca que este nuevo índice no solo apoya la misión de ERIC, sino que también democratiza el acceso al conocimiento, al permitir que cualquier persona —sin importar su afiliación institucional— pueda acceder a una fuente curada y estructurada de literatura científica en educación. La compañía también subraya la importancia de apoyar la educación basada en evidencias y el valor que tiene la investigación abierta en la mejora de sistemas educativos en todo el mundo.

Esta iniciativa se enmarca dentro de los esfuerzos más amplios de Clarivate y ProQuest por ofrecer soluciones basadas en datos para impulsar el conocimiento académico, reforzar la equidad en el acceso a la información y fomentar una educación de calidad para todos, en línea con los Objetivos de Desarrollo Sostenible (ODS) de la ONU.

Base de datos de alucinaciones de la Inteligencia Artificial generativa

AI Hallucination Cases

https://www.damiencharlotin.com/hallucinations/

Esta base de datos recopila decisiones judiciales relacionadas con casos en los que una inteligencia artificial generativa produjo contenido alucinado —es decir, contenido falso o erróneo generado por el sistema. El ejemplo más común son las citas legales falsas (fake citations), aunque también se incluyen otros tipos de errores, como argumentos jurídicos inventados o distorsionados.

Es importante destacar que esta base no abarca todos los casos en que se han utilizado citas falsas o IA en procedimientos judiciales, sino que se centra únicamente en los casos en los que ha habido una decisión legal vinculada a la utilización de contenido alucinado por IA.

El fenómeno de las alucinaciones en IA se refiere a la generación de información falsa pero con apariencia convincente. En el ámbito jurídico, esto representa un riesgo serio para la integridad del proceso judicial, ya que puede conducir a decisiones basadas en datos erróneos o incluso a la desinformación intencionada. Por ello, esta base de datos funciona también como una advertencia práctica sobre los límites actuales de la tecnología y la necesidad de usarla con criterio, supervisión humana y sentido ético.

Hasta el momento, la base de datos ha identificado 121 casos, y sigue en expansión conforme surgen nuevos ejemplos. Su objetivo es ofrecer un registro sistemático y riguroso que permita entender el impacto real del uso de estas herramientas tecnológicas en entornos legales, donde la precisión y la veracidad son esenciales. Es un recurso de gran valor tanto para juristas como para investigadores, medios de comunicación y responsables de políticas públicas.

El uso de contenido generado por IA en documentos judiciales ha provocado en algunos casos consecuencias graves, como sanciones disciplinarias a abogados que incluyeron citas falsas producidas por sistemas como ChatGPT sin verificarlas. Estos incidentes han sido objeto de cobertura mediática y han despertado un amplio debate sobre la responsabilidad profesional y la fiabilidad de las herramientas de IA en contextos de alta exigencia ética.

Un caso destacado es el de Mata v. Avianca, Inc., donde los abogados del demandante utilizaron ChatGPT para generar una moción legal que contenía múltiples casos jurídicos ficticios. El tribunal descubrió que las citas eran inexistentes y sancionó a los abogados con una multa de 5.000$, subrayando la responsabilidad profesional de verificar la exactitud de las referencias legales, independientemente de las herramientas utilizadas.

Otro ejemplo relevante es el caso en Israel de Mahala Association v. Clalit Health Services, donde se presentaron múltiples citas falsas generadas por una herramienta de IA llamada Takdin.AI. El tribunal no solo desestimó la petición de certificación de acción colectiva, sino que también impuso sanciones monetarias y determinó que el abogado no era apto para actuar en el caso.

En definitiva, este archivo documental se ha convertido en un instrumento de seguimiento y análisis de un fenómeno emergente que afecta a la práctica del derecho y que requiere atención tanto desde el ámbito jurídico como desde la innovación tecnológica y la regulación.

ERIC en peligro: la mas importante base de datos de investigación educativa podría dejar de actualizarse esta semana

​Barshay, Jill. «Proof Points: A Treasure Trove of Education Reports and Studies Is Under Threat.» The Hechinger Report, April 21, 2025. https://hechingerreport.org/proof-points-eric-under-threat/

El centro de recursos educativos ERIC (Education Resources Information Center), una biblioteca pública digital con 2,1 millones de documentos educativos, podría dejar de actualizarse esta semana por falta de financiación. A pesar de tener un contrato vigente hasta 2028 y fondos ya autorizados por el Congreso, el Departamento de Eficiencia Gubernamental (DOGE) se ha negado a liberar el dinero necesario para su operación. ERIC, gestionado por el Departamento de Educación de EE.UU., es una herramienta esencial para investigadores, docentes y responsables de políticas educativas, comparable a PubMed en el campo de la salud.

Erin Pollard Young, la única empleada del Departamento de Educación dedicada a ERIC, fue despedida en marzo junto con otros 1.300 trabajadores. Antes de su salida, intentó recortar el presupuesto de ERIC a la mitad, como exigía DOGE, pero incluso esa propuesta fue rechazada. El contrato podría expirar el 23 de abril, lo que significaría que ya no se añadirían nuevos documentos al repositorio.

ERIC contiene artículos de revistas académicas, libros, informes gubernamentales y tesis doctorales, incluyendo una gran cantidad de «literatura gris» (estudios no publicados ni catalogados en bases privadas como EBSCO), lo que lo hace insustituible por herramientas como Google o IA.

Desde el Departamento de Educación han justificado los recortes con la necesidad de reestructurar el Instituto de Ciencias de la Educación (IES), del cual depende ERIC, acusándolo de ineficacia en la mejora de resultados educativos.

Pollard Young ha decidido hablar públicamente sobre la situación, a pesar del riesgo de represalias, para intentar salvar un recurso que ha sido clave para la investigación educativa durante más de 60 años.

RetractBase: base de datos de las publicaciones que han sido retractadas o retiradas

https://retractbase.csic.es

RetractBase es una base de datos abierta que tiene como objetivo recopilar el listado más completo posible de publicaciones científicas que han sido retractadas o retiradas desde el año 2000.

En el contexto de la ciencia y las publicaciones, una «retractación» (o «retractación de artículo científico») se refiere a la retirada oficial de un artículo científico publicado debido a errores graves, mala conducta científica o violaciones éticas.

Esta herramienta está dirigida a la comunidad académica y científica, con la intención de promover la investigación sobre la integridad científica y la detección de posibles casos de mala conducta. Con más de 60.000 registros disponibles, RetractBase se alinea con los principios de la Ciencia Abierta al ofrecer un recurso transparente que permite advertir sobre el uso y la citación inapropiada de trabajos científicos que ya no son válidos.

La base de datos se apoya en fuentes bibliográficas abiertas, como Crossref y OpenAlex, utilizando las interfaces públicas (APIs) de estas plataformas para obtener los registros de publicaciones retractadas, así como sus correspondientes avisos de retractación o retirada. Una de las principales innovaciones de RetractBase es que conecta directamente las publicaciones con los documentos que explican su retractación, permitiendo así conocer las razones que motivaron dicha acción.

Cada registro dentro de RetractBase proporciona enlaces web tanto a la publicación original como al aviso de retractación, además de incluir identificadores provenientes de otras fuentes externas como PubMed, OpenAlex y Crossref. Esto facilita el acceso a información adicional y contrastada sobre cada publicación. Asimismo, RetractBase enlaza las publicaciones con los comentarios que han recibido en PubPeer, una plataforma donde otros investigadores pueden señalar posibles fallos o irregularidades. Estos comentarios han sido clasificados en función del tipo de problema que presentan las publicaciones.

Finalmente, se han diseñado varios indicadores que permiten medir el impacto de las retractaciones desde diferentes perspectivas, como el autor, la revista científica, la institución u organización de afiliación y el país. De este modo, RetractBase no solo permite identificar qué trabajos han sido retractados, sino también analizar patrones y tendencias relacionadas con la producción científica y su control de calidad. Puedes consultar la base de datos en el siguiente enlace: https://retractbase.csic.es/intro.