Análisis comparativo y evaluación de la cobertura y estructura de las bases de datos científicas en la investigación académica

De-Moya-Anegón, Félix; Sánchez-Jiménez, Rodrigo; Halevi, Gali; Guerrero-Bote, Vicente P.; Guerrero-Castillo, Pablo; Rivadeneyra, Federico (2026). A Comparative Analysis of Open and Commercial Bibliographic Infrastructures: Scale, Metadata Standardization, and Implications for Bibliometric Evaluation. Granada: Ediciones Profesionales de la Información, 48 pp. ISBN: 978-84-125757-8-1

Texto completo

El informe analiza la viabilidad estructural de las infraestructuras bibliográficas abiertas para su uso en evaluación de la investigación, comparándolas con bases de datos comerciales como Scopus en aspectos clave como cobertura, calidad de metadatos, interoperabilidad y utilidad en flujos de trabajo bibliométricos. El contexto está marcado por el impulso de marcos políticos recientes como CoARA y la Declaración de Barcelona, que promueven una transición hacia datos de investigación abiertos. Sin embargo, el estudio muestra que esta transición no es lineal, ya que existe una tensión estructural entre la enorme escala de las plataformas abiertas y la estandarización de sus metadatos, lo que genera un dilema entre cobertura masiva y consistencia analítica.

Las plataformas abiertas como OpenAIRE, OpenAlex y The Lens superan ampliamente a Scopus en volumen de registros, pero este crecimiento se produce a costa de una menor calidad y completitud de los metadatos. Problemas como la ausencia de afiliaciones en más del 55% de los registros, la baja normalización de identificadores como ISSN y DOI, y una clasificación documental excesivamente algorítmica afectan directamente a su aplicabilidad en evaluación institucional. Esta situación limita su uso directo en bibliometría, especialmente en análisis comparativos entre instituciones o países.

El informe también destaca una dinámica asimétrica en los flujos de citación: el “long tail” de las bases abiertas no redistribuye de forma equilibrada el impacto científico, sino que tiende a reforzar la centralidad de la literatura ya indexada en bases comerciales. En otras palabras, la ampliación del corpus abierto no se traduce automáticamente en una democratización del impacto científico, sino que en muchos casos consolida estructuras previas de visibilidad. A ello se suman desigualdades geográficas persistentes, con mejoras en regiones como América Latina y África, pero con importantes vacíos en Asia y Oriente Medio, además de déficits en tipologías documentales complejas como monografías de humanidades o actas de congresos.

Por otro lado, las plataformas abiertas enfrentan importantes compromisos estructurales: The Lens presenta dificultades en la estandarización global de metadatos, registrando las tasas más bajas de presencia de ISSN y DOI y un déficit del 71,67% en la captura de actas de congresos. OpenAlex depende en gran medida de datos de origen no estructurados, con un 41,5% de sus registros (con fuente) sin ISSN, y presenta un posible sesgo analítico debido a la sobre-etiquetación algorítmica de documentos como «artículos». Finalmente, OpenAIRE presenta anomalías técnicas relevantes, incluyendo más de un millón de DOI duplicados y la tasa más alta de documentos no clasificados (23,1%) dentro del núcleo curado, lo que resulta en el menor ratio global de impacto de citación del grupo.

Finalmente, el estudio subraya que cada plataforma abierta presenta fortalezas y debilidades específicas: The Lens destaca por su integración con patentes y su utilidad en análisis de transferencia tecnológica; OpenAlex por su alta alineación con registros de Scopus y su densidad de citación en el núcleo coincidente; y OpenAIRE por su mayor cobertura de identificadores persistentes y menor ausencia de afiliaciones. Sin embargo, todas comparten limitaciones estructurales cuando se utilizan sin procesos rigurosos de normalización y depuración. La conclusión central es que el acceso abierto a grandes volúmenes de datos no equivale automáticamente a su validez evaluativa, y que el futuro de la evaluación científica abierta depende de pasar de la mera disponibilidad de datos a su validación activa y metodológicamente controlada.