Archivo de la etiqueta: Análisis de citas

Evaluación de la cobertura lingüística de OpenAlex

van Eck, Nees Jan, Ludo Waltman, y Thed N. van Leeuwen. 2024. “Evaluating the Linguistic Coverage of OpenAlex: An Assessment of Metadata Accuracy and Completeness.” Journal of the Association for Information Science and Technology. https://doi.org/10.1002/asi.24979

Más sobre Open Alex

El artículo analiza en profundidad la cobertura lingüística de OpenAlex, una base de datos de acceso abierto que busca convertirse en una alternativa transparente y gratuita a plataformas comerciales de referencia como Web of Science (WoS) y Scopus. Uno de los objetivos centrales del estudio es evaluar la precisión y completitud de los metadatos relativos al idioma de publicación que ofrece OpenAlex, un aspecto clave para investigaciones bibliométricas, estudios de comunicación científica y análisis de la diversidad lingüística en la producción académica.

Para llevar a cabo esta evaluación, los autores diseñaron una metodología basada en la validación manual de una muestra significativa de 6,836 artículos. Esta muestra fue seleccionada para representar diversas disciplinas y procedencias geográficas, lo cual permite examinar no solo la precisión de los datos de idioma en OpenAlex, sino también su comparabilidad frente a otras fuentes como WoS. A través de este análisis, se busca determinar en qué medida OpenAlex refleja adecuadamente la diversidad lingüística real de las publicaciones académicas.

Uno de los principales hallazgos del estudio es que OpenAlex ofrece una cobertura lingüística más amplia y equilibrada que Web of Science, particularmente en lo que se refiere a publicaciones en idiomas distintos del inglés. Mientras que WoS tiende a priorizar y sobrerrepresentar publicaciones en inglés —lo cual ha sido señalado como una limitación en muchos estudios— OpenAlex incorpora un número relativamente mayor de trabajos en lenguas como el español, portugués, francés, alemán o chino. Esto representa una ventaja significativa en términos de inclusión y representatividad de comunidades científicas no angloparlantes.

Sin embargo, este avance no está exento de problemas. El estudio identifica que, pese a su cobertura más inclusiva, OpenAlex presenta notables inexactitudes en los metadatos relacionados con el idioma. En muchos casos, el idioma asignado por el sistema no coincide con el idioma real del texto, lo que lleva a una sobreestimación de publicaciones en inglés y una subestimación de otros idiomas. Además, se detectan casos de entradas sin especificación del idioma, o con asignaciones erróneas derivadas de errores de extracción automatizada o de la falta de estandarización en los metadatos originales.

Los autores subrayan que estos errores no son triviales: afectan directamente la calidad de los análisis bibliométricos que utilizan estos datos, y perpetúan sesgos que podrían comprometer estudios sobre la diversidad lingüística, las dinámicas de publicación regional, o las políticas de ciencia abierta. Por ello, se destaca que para que OpenAlex pueda ser una fuente confiable para estudios multilingües, es urgente mejorar la infraestructura técnica subyacente y los algoritmos de detección y normalización del idioma.

En conclusión, el artículo reconoce el enorme potencial de OpenAlex como herramienta abierta, accesible y más equitativa en la representación de la producción científica global. No obstante, también advierte que dicho potencial solo podrá materializarse plenamente si se abordan las deficiencias actuales en la calidad de sus metadatos lingüísticos. Mejorar estos aspectos permitiría realizar análisis más rigurosos y completos sobre las lenguas utilizadas en la ciencia, contribuyendo así a una comprensión más justa y realista del ecosistema de conocimiento global.

Aprovechar las citas de datos para responder a las necesidades de evaluación de datos de las bibliotecas.

Dean, Clare. 2025. Leveraging Data Citations to Respond to Libraries’ Data Evaluation Needs. Zenodo. https://doi.org/10.60804/yxna-f837

Se presenta un estudio sobre cómo la automatización de citas de datos puede mejorar las métricas de datos abiertos y ayudar a las bibliotecas a evaluar el uso y el impacto de los conjuntos de datos generados por sus instituciones.

Las bibliotecas desempeñan un papel clave en la promoción de los datos abiertos y necesitan evaluar el uso e impacto de los conjuntos de datos para apoyar la gestión de datos de investigación y reconocer el trabajo de sus investigadores. Sin embargo, medir este impacto es complejo debido a la dispersión y falta de visibilidad de la información.

Una solución prometedora es el uso de citas de datos como indicadores de utilización. Para demostrar su valor, se analizó el uso de datos en la Universidad Northwestern y la Universidad de Colorado Boulder mediante el Data Citation Corpus y Europe PMC. Se observó un aumento significativo de citas entre 2020 y 2023, con un pico en 2021. Los repositorios más citados fueron dbSNP, Protein Data Bank y European Nucleotide Archive, reflejando un fuerte enfoque en biomedicina y biología estructural.

En cuanto a áreas intensivas en datos, Northwestern destaca en investigación médica y neurociencia, mientras que Colorado Boulder lo hace en ciencias ambientales y biología vegetal. Las citas provienen principalmente de revistas especializadas en dichas disciplinas.

1. Objetivo principal

Mejorar la capacidad de las bibliotecas para rastrear, analizar y reportar el impacto de los datos de investigación utilizando citas automatizadas a gran escala, especialmente a través del Data Citation Corpus.

2. Instituciones involucradas

  • University Libraries, University of Colorado Boulder
  • Helmholtz Open Science Office, Alemania
  • Northwestern University Feinberg School of Medicine

3. Hallazgos clave (Key Data Citation Insights)

  • Los datos de Northwestern se citan más en revistas de ciencias de la vida y biomédicas.
  • Los datos de CU Boulder se usan más en revistas específicas de campos como ciencias ambientales.

Áreas de investigación intensiva en datos:

  • CU Boulder: Ciencias ambientales, biología molecular y genética, ciencias de las plantas.
  • Northwestern: Investigación médica, bioquímica, biología molecular, neurociencia.

Se concluye que las citas de datos ofrecen información valiosa para las estrategias institucionales, y se está ampliando el Data Citation Corpus con nuevas fuentes y mejoras en los metadatos. También se están desarrollando recursos para que las bibliotecas integren estas métricas en procesos de evaluación institucional junto con iniciativas como HELIOS Open.

Los «golden oldies» de la ciencia: los trabajos de investigación de hace décadas que siguen siendo muy citados hoy

Van Noorden, Richard. «Science’s Golden Oldies: The Decades-Old Research Papers Still Heavily Cited TodayNature, April 15, 2025. https://doi.org/10.1038/d41586-025-01126-8

Supplementary information.

Se analiza cómo ciertos trabajos clave han mantenido su relevancia a lo largo del tiempo, destacando especialmente los más citados en los artículos publicados en 2023.

El análisis revela que, aunque muchas publicaciones recientes sobre inteligencia artificial (IA), software científico y métodos para mejorar la calidad de la investigación dominan hoy las listas de referencias, algunos estudios más antiguos continúan siendo referenciados con frecuencia. Entre ellos, se incluyen trabajos de los años 90, como el que describe una arquitectura temprana de redes neuronales llamada long short-term memory (LSTM) de 1997, que sigue siendo citado con frecuencia debido a su eficiencia en el procesamiento de datos.

También se destacan investigaciones sobre materiales publicadas en 1996 que, gracias a su innovador enfoque para calcular interacciones electrónicas en materiales, siguen siendo citadas en una proporción significativa. Un cuarto de las citas de este trabajo se han dado en los últimos dos años, mostrando cómo el impacto de investigaciones antiguas puede continuar creciendo a medida que nuevas generaciones de científicos las descubren y aplican.

El estudio muestra cómo algunas publicaciones, incluso décadas después de su publicación, siguen siendo fundamentales para el avance de la ciencia, gracias a su base teórica sólida y la continua aplicabilidad de sus descubrimientos. Esto subraya la importancia de identificar y reconocer las «piedras angulares» del conocimiento científico, independientemente de su antigüedad.

RankTitleNumber of Citations (Range)
1Deep residual learning for image recognition (2016)19,826–33,339
2Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide (2021)10,952–24,830
3Attention is all you need (2017)9,395–19,348
4Generalized gradient approximation made simple (1996)14,338–17,540
5Using thematic analysis in psychology (2006)10,660–17,347
6The PRISMA 2020 statement: an updated guideline for reporting systematic reviews (2021)13,115–13,443
7Analysis of relative gene expression data using real-time quantitative PCR and the 2−ΔΔCT method (2001)11,851–13,082
8Random forests (2001)6,266–12,294
9Efficient iterative schemes for ab initio total-energy calculations using a plane-wave basis set (1996)10,063–10,789
10Long short-term memory (1997)2,394–12,355

Fuente: Nature (2025).

Los artículos científicos más citados de todos los tiempos

Van Noorden, Richard. 2025. “These Are the Most-Cited Research Papers of All Time.” Nature, April 17, 2025. https://www.nature.com/articles/d41586-025-01124-w.

Nature ha actualizado su análisis sobre los trabajos científicos más citados de la historia, revelando que algunos han sido referenciados cientos de miles de veces. Esta revisión evidencia no solo el impacto de ciertas investigaciones, sino también cómo han evolucionado las tendencias en la producción científica y la citación a lo largo del tiempo.

Sorprendentemente, el artículo más citado no es ampliamente conocido entre la comunidad científica actual. Se trata de un trabajo de 1951 publicado en el Journal of Biological Chemistry, que describe un método para determinar la cantidad de proteínas en una solución. Este artículo ha sido citado más de 350.000 veces según el índice Web of Science (WoS), una base de datos que recopila 98 millones de publicaciones desde 1900.

Muchos de los artículos más citados están relacionados con técnicas de laboratorio en biología, lo que sugiere que los métodos ampliamente aplicables generan un impacto duradero. También figuran trabajos clave en inteligencia artificial (IA), software de investigación y métodos estadísticos.

La nueva clasificación actualiza una lista publicada por Nature en 2014, cuando los trabajos más citados eran herramientas de biología celular y molecular, principalmente de las décadas de 1950 y 1970. Desde entonces, alrededor de la mitad de los artículos en el top 100 han cambiado, debido al auge en las citas de trabajos más recientes. En 2014, eran necesarios unos 12.000 citas para entrar en el top 100. Hoy, hacen falta más de 30.000, lo que indica una inflación en el número de citas y el creciente volumen de publicaciones científicas.

Para este análisis, Nature también consultó otras dos grandes bases de datos de investigación: Dimensions y OpenAlex, cuyas versiones públicas permiten el análisis desde 1900. Aunque los rankings y recuentos de citas varían ligeramente entre bases, los artículos destacados son generalmente los mismos. La lista completa de los 100 más citados, con detalles sobre las diferencias entre bases, está disponible en el material suplementario del artículo.

Uno de los datos más llamativos es que un artículo de 2015 de investigadores de Microsoft, presentado en una conferencia sobre IA, ya ocupa el quinto lugar si se consideran los rankings medianos entre las tres bases de datos, y el séptimo solo en WoS. Esto muestra la velocidad con la que algunos artículos contemporáneos pueden acumular citas.

Actualmente, 16 artículos del siglo XXI se encuentran ya entre los 50 más citados de todos los tiempos, a pesar de su relativa juventud. Muchos de ellos están vinculados a desarrollos en software y al uso de la inteligencia artificial para acelerar el descubrimiento científico. Este fenómeno puede explicarse, según Paul Wouters (experto en cienciometría retirado de la Universidad de Leiden), por el aumento anual del número de publicaciones, lo que incrementa el volumen de referencias, así como por la mayor visibilidad de los trabajos científicos a través de Internet y las redes sociales.

Los 25 artículos científicos más citados desde el año 2000 tienen que ver con métodos, revisiones o software

Pearson, Helen, Heidi Ledford, Matthew Hutson, y Richard Van Noorden. “Exclusive: The Most-Cited Papers of the Twenty-First Century.Nature, April 10, 2025. https://www.nature.com/articles/d41586-025-01125-9.​

Las citas en la literatura científica son una manera de reconocer el uso e influencia de investigaciones previas. Sin embargo, los artículos más citados no suelen ser los más conocidos por el público general, sino que tienden a ser herramientas metodológicas, revisiones sistemáticas o descripciones de software ampliamente utilizado. Según Misha Teplitskiy, sociólogo de la Universidad de Míchigan, aunque los científicos afirman valorar teorías y descubrimientos empíricos, lo que realmente citan con más frecuencia son los métodos.

La revista Nature ha realizado un análisis exhaustivo sobre los 25 artículos científicos más citados desde el año 2000, revelando qué estudios han tenido mayor impacto medido por el número de citas, y por qué han alcanzado tal relevancia. Sorprendentemente, muchos de los artículos más citados no están relacionados con los descubrimientos más espectaculares —como las vacunas de ARNm, CRISPR, el bosón de Higgs o las ondas gravitacionales—, sino con métodos, software, estadísticas y herramientas que sustentan el trabajo científico diario.

El artículo más citado, según la media de cinco bases de datos académicas (Web of Science, Scopus, OpenAlex, Dimensions y Google Scholar), es un trabajo de 2016 de investigadores de Microsoft sobre aprendizaje residual profundo (ResNet), una arquitectura de red neuronal con más de 150 capas. Esta innovación resolvió problemas de entrenamiento en redes muy profundas y allanó el camino para avances como AlphaGo, AlphaFold o ChatGPT. Dependiendo de la base de datos, sus citas oscilan entre 103.000 y más de 250.000.

Rank (median)CitationTimes Cited (range across databases)
1Deep residual learning for image recognition (2016, preprint 2015)103.756–254,074
2Analysis of relative gene expression data using real-time quantitative PCR and the 2–ΔΔCT method (2001)149.953–185,480
3Using thematic analysis in psychology (2006)100.327–230,391
4Diagnostic and Statistical Manual of Mental Disorders, DSM-5 (2013)98,312–367,800
5A short history of SHELX (2007)76.523–99,470
6Random forests (2001)31.809–146,508
7Attention is all you need (2017)56.201–150,832
8ImageNet classification with deep convolutional neural networks (2017)46.860–137,997
9Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries (2020)75.634–99,390
10Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries (2016)66.844–93,433

Supplementary information

Otros artículos destacados incluyen el DSM-5 (manual diagnóstico de psiquiatría), el algoritmo de Random Forests (utilizado en machine learning), y GLOBOCAN, un informe bianual de la OMS sobre estadísticas globales de cáncer.

Los artículos sobre IA dominan el ranking. El trabajo de Hinton en 2012 sobre AlexNet, que revolucionó el reconocimiento de imágenes, ocupa el puesto 8. El artículo de 2017 “Attention is all you need”, que introdujo la arquitectura transformer que impulsa modelos de lenguaje como ChatGPT, está en el puesto 7. El artículo sobre Random Forests, método estadístico muy utilizado y accesible, está en el puesto 6.

La comunidad de IA también se ha beneficiado de la cultura del código abierto y del uso extendido de preprints, aunque muchas bases de datos aún no integran adecuadamente las citas entre versiones preliminares y artículos revisados.

Muchos artículos populares describen software científico. Uno de ellos es el artículo sobre SHELX (puesto 5), un conjunto de programas para determinar estructuras moleculares mediante difracción de rayos X, escrito por George Sheldrick. Otro caso es DESeq2, software para analizar datos de secuenciación de ARN (puesto 18). Estos artículos se citan por su utilidad más que por su novedad teórica.

El caso del artículo en el puesto 2 es paradigmático: Thomas Schmittgen publicó el método 2–ΔΔCT porque un revisor le dijo que no podía citar un manual técnico. Hoy acumula más de 160.000 citas.

Los informes GLOBOCAN de 2018 y 2020 están entre los diez primeros. Son herramientas esenciales para investigadores y responsables de políticas públicas. Otro trabajo clave (puesto 19) es el artículo sobre las “marcas distintivas del cáncer” (hallmarks of cancer), que ayudó a estructurar la investigación oncológica contemporánea.

El análisis muestra que el impacto en la ciencia no depende solo de grandes descubrimientos, sino de herramientas que permiten a otros investigar con más precisión, fiabilidad y alcance. El auge de la inteligencia artificial, el desarrollo de software y los métodos estadísticos dominan las citas, destacando cómo la ciencia avanza no solo por lo que descubre, sino por cómo lo hace.

¿Por qué se siguen citando algunos artículos retractados?

Schmidt, Marion. «Why Do Some Retracted Articles Continue to Get Cited?» Scientometrics, 4 de noviembre de 2024. https://doi.org/10.1007/s11192-024-05147-4.

El artículo de Marion Schmidt explora por qué algunos artículos retractados continúan recibiendo citas incluso después de su retractación. A pesar de la retracción, estos estudios siguen siendo citados, y se sabe poco sobre las causas de este fenómeno y el posible riesgo o daño epistemológico asociado. Este estudio de caso examina cómo las comunidades académicas manejan la incertidumbre en la recepción de publicaciones retractadas y analiza el impacto de las citas continuas o decrecientes de estas publicaciones.

Para llevar a cabo este análisis, el estudio utiliza varias técnicas de procesamiento de lenguaje natural y lectura cualitativa detallada. En particular, se identifica el apoyo y la disensión en las publicaciones que citan o co-citan los artículos retractados; además, se rastrean los términos conceptuales y su contexto de uso, y se analizan las funciones retóricas en los contextos de citación.

Los resultados muestran que en los casos con citas continuas, se encuentran tanto apoyo empírico como disputas no resueltas. Los autores tienden a destacar ciertos valores informativos en artículos que siguen siendo citados tras la retractación, mientras que en otros prevalecen argumentos metodológicos o afirmaciones generales. Esto sugiere que el impacto continuo de una cita no necesariamente perpetúa un daño epistemológico, sino que refleja una valoración entre el riesgo epistemológico y el valor informativo.

Los artículos en Acceso Abierto tienen una tasa de citación en Wikipedia del 44.1% significativamente mayor

Yang, Puyu, Ahad Shoaib, Robert West, y Giovanni Colavizza. «Open Access Improves the Dissemination of Science: Insights from Wikipedia». Scientometrics, 15 de octubre de 2024. https://doi.org/10.1007/s11192-024-05163-4.

Este estudio analiza cómo el acceso abierto (Open Access, OA) influye en el uso de artículos científicos en Wikipedia. Aunque se supone que el OA facilita la difusión del conocimiento científico, la magnitud de esta relación no se había investigado a fondo hasta ahora. Los autores examinaron un extenso conjunto de datos de citas en la Wikipedia en inglés y compararon los patrones de citación en relación con el acceso abierto.

Los hallazgos revelan que los artículos en OA tienen una tasa de citación en Wikipedia del 44.1%, significativamente mayor que su disponibilidad en otras fuentes científicas como Web of Science (23.6%) y OpenAlex (22.6%). Además, el estatus de acceso abierto y el impacto académico (medido por el número de citas) aumentan la probabilidad de que un artículo sea citado en Wikipedia. En particular, los artículos de acceso abierto tienen un 64.7% más de probabilidad de ser citados en comparación con los artículos con restricciones de acceso, después de controlar factores de confusión.

El estudio destaca que el acceso abierto facilita la difusión del conocimiento científico, incrementando la probabilidad de que llegue a una audiencia más amplia a través de Wikipedia. También refuerza la confiabilidad de Wikipedia, ya que los editores pueden acceder a resultados novedosos y actualizados gracias a la disponibilidad de artículos en OA.


Los efectos de compartir datos de investigación, códigos y preprints en las citas

Colavizza, Giovanni, Lauren Cadwallader, Marcel LaFlamme, Grégory Dozot, Stéphane Lecorney, Daniel Rappo, y Iain Hrynaszkiewicz. «An Analysis of the Effects of Sharing Research Data, Code, and Preprints on Citations». arXiv.org, 24 de abril de 2024. https://arxiv.org/abs/2404.16171v1.


La liberación temprana de una publicación como preprints muestra una ventaja significativa en las citas, con un aumento promedio del 20.2%. Compartir datos en un repositorio en línea también está asociado con una ventaja de citas positiva, aunque menor, del 4.3% en promedio. Sin embargo, no se observa una ventaja significativa en las citas para compartir código.


Las llamadas para hacer la investigación científica más abierta han ganado fuerza con una variedad de actores sociales interesados. Las prácticas de Ciencia Abierta incluyen, pero no se limitan a, el intercambio temprano de resultados a través de preprints y compartir abiertamente productos como datos y código para hacer que la investigación sea más reproducible y extensible. La evidencia existente muestra que adoptar prácticas de Ciencia Abierta tiene efectos en varios ámbitos. En este estudio, se investiga si adoptar una o más prácticas de Ciencia Abierta conduce a un número significativamente mayor de citas para una publicación asociada, que es una forma de impacto académico.

Se utiliza un conjunto de datos novedoso conocido como Indicadores de Ciencia Abierta, producido por PLOS y DataSeer, que incluye todas las publicaciones de PLOS desde 2018 hasta 2023, así como un grupo de comparación muestreado del Subconjunto de Acceso Abierto de PMC. En total, se analizan alrededor de 122,000 publicaciones. Se calculan indicadores de citas a nivel de publicación y autor y se utilizan un amplio conjunto de variables de control para aislar el efecto de los Indicadores de Ciencia Abierta en las citas recibidas. Se muestra que las prácticas de Ciencia Abierta se adoptan en diferentes grados en disciplinas científicas.

Se descubre que la liberación temprana de una publicación como preprints se correlaciona con una ventaja significativa de citas positivas de aproximadamente 20.2% de promedio. También se encuentra que compartir datos en un repositorio en línea se correlaciona con una ventaja de citas más pequeña pero aún positiva de 4.3% de promedio. Sin embargo, no se encuentra una ventaja de citas significativa para compartir código. Se necesita más investigación sobre medidas de impacto adicionales o alternativas más allá de las citas. Estos resultados probablemente sean de interés para los investigadores, así como para los editores, financiadores de investigación y responsables de políticas.

El oscuro mundo de los carteles de citación

The Chronicle of Higher Education. «Opinion | The Dark World of ‘Citation Cartels’», 6 de marzo de 2024. https://www.chronicle.com/article/the-dark-world-of-citation-cartels.


En el complejo panorama de la investigación contemporánea, el lema «publicar o perecer» ha evolucionado gradualmente hacia un mantra diferente: «Se citado o tu carrera se verá perjudicada». Las citas son la nueva moneda académica y las carreras ahora dependen firmemente de esta forma de reconocimiento académico. De hecho, la citación se ha vuelto tan importante que ha impulsado una nueva forma de engaño: redes clandestinas diseñadas para manipular citas.

Los investigadores, impulsados por el imperativo de asegurar impacto académico, recurren a la formación de anillos de citas: círculos colaborativos diseñados para aumentar artificialmente la visibilidad de su trabajo. Al hacerlo, comprometen la integridad del discurso académico y socavan los fundamentos de la búsqueda académica. La historia del moderno «cartel de citas» no es solo resultado de la presión de publicación. El surgimiento de las mega revistas también juega un papel, al igual que las revistas depredadoras y los esfuerzos institucionales por sobresalir en las clasificaciones académicas globales.

En la última década, el panorama de la investigación académica ha sido significativamente alterado por el gran número de académicos que participan en empresas científicas. El número de académicos que contribuyen a publicaciones indexadas en matemáticas se ha duplicado, por ejemplo. En respuesta a la creciente demanda de espacio en publicaciones científicas, una nueva generación de emprendedores editoriales ha aprovechado la oportunidad, y el resultado es el surgimiento de mega revistas que publican miles de artículos anualmente. Mathematics, una revista de acceso abierto producida por el Multidisciplinary Digital Publishing Institute, publicó más de 4.763 artículos en 2023, lo que representa el 9.3 por ciento de todas las publicaciones en el campo, según Web of Science. Tiene un factor de impacto de 2.4 y una medida de influencia de artículos de solo 0.37, pero, crucialmente, está indexada por Web of Science de Clarivate, Scopus de Elsevier y otros indexadores, lo que significa que sus citas cuentan hacia una variedad de métricas profesionales. (En comparación, Annals of Mathematics, publicada por la Universidad de Princeton, contenía 22 artículos el año pasado, y tiene un factor de impacto de 4.9 y una medida de influencia de artículos de 8.3.)

Las mega revistas prosperan en la era del acceso abierto, proporcionando una plataforma conveniente para investigadores ansiosos por ver su trabajo publicado y ampliamente leído. Sin barreras de pago, los artículos en esas revistas pueden compartirse (y citarse) fácilmente. La revista gana «cargos por procesamiento de artículos» (APCs) pagados por los autores de un artículo o sus instituciones, con tarifas que suelen rondar en las cuatro cifras bajas en dólares estadounidenses por artículo. Los anillos de citas, que han existido durante décadas, ahora explotan los procesos de revisión por pares rápidos y fáciles de las mega revistas para canalizar miles de referencias a sus colaboradores. El resultado es una distorsión de los índices de citas académicas y los puntajes de factor de impacto que permiten que la erudición mediocre parezca mucho más influyente de lo que es, por el precio correcto para la revista, por supuesto.

Una métrica de citas importante objetivo para los juegos de manipulación es la prestigiosa lista de «Highly Cited Researchers» de Clarivate. «De la población mundial de científicos y científicos sociales, los Investigadores Altamente Citados™ son 1 de cada 1.000», explica Clarivate. La inclusión en la lista ocurre primero a través de la actividad de citación: «Cada investigador seleccionado ha sido autor de múltiples artículos altamente citados™ que se clasifican en el 1% superior por citaciones para su(s) campo(s)». Esa lista luego se «refina utilizando análisis cualitativo y juicio experto». En general, el sello Highly Cited Researchers de Clarivate es reconocido por la comunidad investigadora como un marcador de influencia.

La lista de investigadores altamente citados también alimenta un indicador en el Ranking de Shanghái, una clasificación académica de universidades mundiales. En un intento por obtener visibilidad internacional, las instituciones no siempre se oponen a que sus miembros de la facultad encuentren atajos para el reconocimiento académico, incluso aquellos que involucran prácticas de citas dudosas. El atractivo de subir en las tablas de clasificación internacionales

La compra de citas de investigación en la publicación académica

Langin, Katie «Vendor Offering Citations for Purchase Is Latest Bad Actor in Scholarly Publishing». Science 12 feb. 2024, Accedido 20 de febrero de 2024. https://www.science.org/content/article/vendor-offering-citations-purchase-latest-bad-actor-scholarly-publishing.

Un nuevo estudio resalta que un vendedor que ofrece citas a la venta se suma a la lista de actores problemáticos en la publicación académica. Según la investigación, investigadores sin escrúpulos disponen de múltiples opciones para manipular las métricas de citas.

En 2023, apareció un nuevo perfil de Google Scholar en línea que presentaba a un investigador desconocido. En pocos meses, el científico, un experto en noticias falsas, fue catalogado por la base de datos académica como el 36º investigador más citado en su campo. Tenía un índice h de 19, lo que significa que había publicado 19 artículos académicos que habían sido citados al menos 19 veces cada uno. Fue un impresionante debut en la escena de la publicación académica.

Pero nada de eso era legítimo. El investigador y su institución eran ficticios, creados por investigadores de la Universidad de Nueva York en Abu Dhabi que investigaban prácticas editoriales cuestionables. Las publicaciones fueron escritas por ChatGPT. Y los números de citas eran falsos: algunas provenían de la excesiva auto-cita del autor, mientras que otras 50 fueron compradas por 300$ a un vendedor que ofrecía un «servicio de impulso de citas».

«La capacidad de comprar citas en gran cantidad es un desarrollo nuevo y preocupante», dice Jennifer Byrne, una investigadora de cáncer de la Universidad de Sídney que ha estudiado publicaciones problemáticas en la literatura biomédica. En la universidad, el índice h de un investigador y el número de citas que han recibido a menudo se utilizan para decisiones de contratación y ascenso. Y el perfil fabricado, que fue parte de un estudio publicado como preprint la semana pasada en arXiv, muestra tácticas «extremas» que se pueden emplear para manipularlos, agrega Byrne, quien no estuvo involucrada en el trabajo. (Los investigadores declinaron nombrar al vendedor para evitar darles más negocios).

El estudio comenzó cuando Yasir Zaki, un científico de la computación en la Universidad de Nueva York en Abu Dhabi, y sus colegas notaron patrones preocupantes entre investigadores reales. Después de examinar los perfiles de Google Scholar de más de 1.6 millones de científicos y mirar a autores con al menos 10 publicaciones y 200 citas, el equipo identificó a 1016 científicos que habían experimentado un aumento de 10 veces en las citas en un solo año. «Sabes que algo anda mal cuando un científico experimenta un aumento repentino y masivo en sus citas», dice Zaki.

El equipo señaló a 114 científicos que habían recibido más de 18 citas de un solo artículo, un signo sospechoso, según Zaki, «ya que es raro que incluso los científicos establecidos tengan más de un puñado de citas provenientes de la misma fuente». En un caso particularmente flagrante, el 90% de las referencias en un solo artículo citaban las publicaciones de un científico. «Fue… publicado en una revista de la que el científico sospechoso es editor», dice Zaki.

Muchas de las citas asociadas con los 114 científicos sospechosos provenían de publicaciones de baja calidad, dicen los investigadores, incluidos preprints, que no están sujetos a revisión por pares. Algunas de las publicaciones citantes ni siquiera mencionaban el trabajo del investigador en el texto principal del artículo; la cita simplemente se había añadido a la lista de referencias al final.

El equipo también notó que uno de los autores había recibido muchas citas de documentos alojados por una cuenta en ResearchGate, un sitio de redes sociales para científicos. «Para nuestro asombro, ¡esa cuenta estaba anunciando abiertamente un servicio de compra de citas!», dice el autor del estudio, Talal Rahwan, un científico de informática en la Universidad de Nueva York en Abu Dhabi.

Fue entonces cuando decidieron crear el perfil ficticio de Google Scholar y ver si podían comprar citas ellos mismos. Le pidieron a ChatGPT que escribiera 20 artículos de investigación sobre el tema de las noticias falsas, incluyendo muchas auto-citas, referencias a documentos escritos por el mismo autor ficticio, imitando una práctica que algunos investigadores usan para aumentar sus números de citas.

Luego, publicaron los artículos en varios servidores de preprints. Google Scholar detectó esos artículos en su exploración de la literatura académica y se recogieron en el perfil del autor ficticio, enumerando esos preprints como publicaciones y dándole al investigador crédito por 380 auto-citas contenidas en ellos.

A partir de ahí, fue relativamente fácil comprar citas adicionales. Utilizando el nombre del científico ficticio, el equipo de investigación contactó al vendedor a través de WhatsApp y compró el «paquete de 50 citas». Dentro de 40 días, se publicaron cinco artículos que incluían cada uno 10 citas al trabajo del investigador de noticias falsas ficticio. Cuatro de los cinco aparecieron en una sola revista de química. «Esto no tenía sentido, ya que los documentos de nuestro investigador ficticio no estaban ni remotamente relacionados con la química», señala Rahwan.

El estudio sugiere que algunos investigadores están utilizando tácticas similares a las empleadas por el equipo de la Universidad de Nueva York en Abu Dhabi para aumentar sus clasificaciones de citas. «La evidencia que muestran en este documento es bastante sólida», dice Naoki Masuda, un matemático de la Universidad de Buffalo que ha estudiado citas anómalas.

Los autores no pueden decir cuan extendidos son estos problemas en la literatura académica. «Solo nos enfocamos en los casos escandalosos», dice Rahwan. Pero vieron señales de que otros artículos publicados por la misma revista de química pueden haber incluido citas que fueron compradas: Once otros (reales) científicos habían recibido al menos 10 citas de un solo artículo publicado en esa revista.

Bernhard Sabel, un neuropsicólogo de la Universidad Otto von Guericke en Magdeburgo que ha estudiado fábricas de papel que venden autoría en artículos científicos, dice que la comunidad académica debería estar «muy preocupada» por este tipo de manipulaciones. «El problema es grande, y ha estado creciendo rápidamente en los últimos 10-15 años», agrega Sabel. En su opinión, Google Scholar y otras bases de datos