
van Eck, Nees Jan, Ludo Waltman, y Thed N. van Leeuwen. 2024. “Evaluating the Linguistic Coverage of OpenAlex: An Assessment of Metadata Accuracy and Completeness.” Journal of the Association for Information Science and Technology. https://doi.org/10.1002/asi.24979
El artículo analiza en profundidad la cobertura lingüística de OpenAlex, una base de datos de acceso abierto que busca convertirse en una alternativa transparente y gratuita a plataformas comerciales de referencia como Web of Science (WoS) y Scopus. Uno de los objetivos centrales del estudio es evaluar la precisión y completitud de los metadatos relativos al idioma de publicación que ofrece OpenAlex, un aspecto clave para investigaciones bibliométricas, estudios de comunicación científica y análisis de la diversidad lingüística en la producción académica.
Para llevar a cabo esta evaluación, los autores diseñaron una metodología basada en la validación manual de una muestra significativa de 6,836 artículos. Esta muestra fue seleccionada para representar diversas disciplinas y procedencias geográficas, lo cual permite examinar no solo la precisión de los datos de idioma en OpenAlex, sino también su comparabilidad frente a otras fuentes como WoS. A través de este análisis, se busca determinar en qué medida OpenAlex refleja adecuadamente la diversidad lingüística real de las publicaciones académicas.
Uno de los principales hallazgos del estudio es que OpenAlex ofrece una cobertura lingüística más amplia y equilibrada que Web of Science, particularmente en lo que se refiere a publicaciones en idiomas distintos del inglés. Mientras que WoS tiende a priorizar y sobrerrepresentar publicaciones en inglés —lo cual ha sido señalado como una limitación en muchos estudios— OpenAlex incorpora un número relativamente mayor de trabajos en lenguas como el español, portugués, francés, alemán o chino. Esto representa una ventaja significativa en términos de inclusión y representatividad de comunidades científicas no angloparlantes.
Sin embargo, este avance no está exento de problemas. El estudio identifica que, pese a su cobertura más inclusiva, OpenAlex presenta notables inexactitudes en los metadatos relacionados con el idioma. En muchos casos, el idioma asignado por el sistema no coincide con el idioma real del texto, lo que lleva a una sobreestimación de publicaciones en inglés y una subestimación de otros idiomas. Además, se detectan casos de entradas sin especificación del idioma, o con asignaciones erróneas derivadas de errores de extracción automatizada o de la falta de estandarización en los metadatos originales.
Los autores subrayan que estos errores no son triviales: afectan directamente la calidad de los análisis bibliométricos que utilizan estos datos, y perpetúan sesgos que podrían comprometer estudios sobre la diversidad lingüística, las dinámicas de publicación regional, o las políticas de ciencia abierta. Por ello, se destaca que para que OpenAlex pueda ser una fuente confiable para estudios multilingües, es urgente mejorar la infraestructura técnica subyacente y los algoritmos de detección y normalización del idioma.
En conclusión, el artículo reconoce el enorme potencial de OpenAlex como herramienta abierta, accesible y más equitativa en la representación de la producción científica global. No obstante, también advierte que dicho potencial solo podrá materializarse plenamente si se abordan las deficiencias actuales en la calidad de sus metadatos lingüísticos. Mejorar estos aspectos permitiría realizar análisis más rigurosos y completos sobre las lenguas utilizadas en la ciencia, contribuyendo así a una comprensión más justa y realista del ecosistema de conocimiento global.