Archivo de la etiqueta: Citas bibliográficas

OpenAlex y Crossref como fuentes de datos bibliográficas alternativas a Web of Science y Scopus en ciencias de la salud.

Cebrián, Guillem, Ángel Borrego y Ernest Abadal. 2025. «OpenAlex y Crossref como fuentes de datos bibliográficas alternativas a Web of Science y Scopus en ciencias de la salud.» Revista Española de Documentación Científica 48 (1). https://doi.org/10.3989/redc.2025.1.1649.

El artículo analiza el valor de OpenAlex y Crossref como fuentes alternativas a las reconocidas bases de datos Web of Science (WoS) y Scopus, particularmente en el campo de las ciencias de la salud. La motivación surge del creciente uso de WoS y Scopus en procesos de evaluación científica, lo que ha derivado en críticas por su falta de transparencia, sesgos comerciales y limitada cobertura temática y geográfica. En este contexto, los autores exploran si OpenAlex y Crossref pueden ofrecer una cobertura más amplia, representativa y abierta.

Para abordar el primer objetivo, los autores partieron de un listado de revistas categorizadas como «Health Sciences» por Scopus. A partir de este conjunto, analizaron cuántas de estas publicaciones estaban indexadas en Crossref, WoS y Scopus. También compararon el país y la editorial de cada revista.

Para el segundo objetivo, se seleccionaron al azar 300 artículos (100 de cada año entre 2017 y 2019) publicados en revistas científicas españolas de ciencias de la salud. Se consultaron las tres bases de datos (OpenAlex, WoS y Scopus) para verificar la presencia de estos artículos, el número de citas que habían recibido, y la completitud de los metadatos (autores, título, año, DOI, etc.). Para acceder a la información de Crossref y OpenAlex, se emplearon consultas mediante sus respectivas APIs.

1. Cobertura de revistas y editoriales

  • Crossref indexa un mayor número de títulos que WoS y Scopus. En concreto, supera en un 18 % a WoS y en un 14 % a Scopus.
  • La cobertura por países y editoriales también es más amplia en Crossref, que muestra una mayor representatividad de editoriales pequeñas o periféricas.
  • Mientras que WoS y Scopus tienden a concentrarse en publicaciones de grandes editoriales y países centrales (EE.UU., Reino Unido, Países Bajos), Crossref incluye una variedad más diversa.

2. Cobertura de artículos y citas en OpenAlex

  • De los 300 artículos muestreados, OpenAlex recuperó el 93 %, mientras que Scopus y WoS recuperaron el 88 % y 82 % respectivamente.
  • El cómputo de citas fue mayor en OpenAlex que en las otras dos bases. En promedio, OpenAlex ofrecía un 23 % más de citas que WoS y un 17 % más que Scopus.
  • En cuanto a la calidad de los metadatos, no hubo grandes diferencias. Las tres bases presentaban niveles similares de completitud, especialmente en campos como título, autores y año. OpenAlex destaca por su apertura y facilidad de acceso a los datos mediante API.

Los resultados confirman que Crossref y OpenAlex ofrecen una cobertura más amplia y representativa, lo que las convierte en herramientas útiles para investigaciones y procesos de evaluación más inclusivos. Su carácter abierto y gratuito constituye una ventaja clara frente a WoS y Scopus, que son plataformas comerciales con acceso limitado.

Sin embargo, los autores también advierten de ciertas limitaciones. Por ejemplo, aunque Crossref ofrece una amplia cobertura de revistas, no todas están actualizadas o bien mantenidas por sus editores. Por otro lado, OpenAlex, al ser un recurso relativamente reciente, aún está en desarrollo y puede presentar inconsistencias ocasionales.

Conclusiones

  1. Crossref presenta una cobertura de revistas superior a WoS y Scopus, tanto en cantidad como en diversidad editorial y geográfica.
  2. OpenAlex muestra mayor cobertura de artículos y citas, así como una calidad de metadatos comparable a la de las otras dos bases.
  3. Ambas plataformas representan una alternativa viable y sólida para estudios bibliométricos, especialmente en un entorno que promueve la ciencia abierta.
  4. Los resultados del estudio pueden servir de base para repensar los criterios de evaluación científica, diversificando las fuentes y apoyando modelos más equitativos y abiertos.

¿Qué miden realmente los rankings universitarios? Un sistema atrapado en su propia lógica

Mohan, Deepanshu. “In a Ranking-Obsessed System, What Exactly Are Universities Measuring?” The Wire, marzo 2025. https://thewire.in/education/ranking-universities-education-system-research

En la educación superior actual, los rankings universitarios globales, como los QS World University Rankings by Subject, han dejado de ser simples clasificaciones para convertirse en herramientas de gran influencia. Estos rankings moldean percepciones, guían decisiones políticas y afectan tanto la elección de los estudiantes como las prioridades de inversión de los gobiernos.

La edición de 2025 de los QS Rankings by Subject, publicada el 12 de marzo, evaluó más de 55 disciplinas en cinco grandes áreas del conocimiento, lo que refleja la creciente especialización académica. Se incorporaron 171 nuevas instituciones, evidenciando una expansión significativa, sobre todo en áreas estratégicas como medicina, ciencias de la computación y ciencia de materiales. Por ejemplo, las universidades clasificadas en informática pasaron de 601 en 2020 a 705 en 2024. Este crecimiento no solo revela un mayor interés académico, sino también una fuerte competencia entre universidades por visibilidad y prestigio en sectores con alto potencial de financiación e innovación.

Se cuestiona si los rankings realmente miden mérito académico o si premian a quienes mejor entienden y manipulan su lógica. En países como Arabia Saudita o Singapur, se observa un crecimiento desproporcionado en la reputación académica sin una mejora equivalente en las citas, lo que sugiere posibles prácticas de gestión reputacional poco éticas.

Fuente: Clasificación Mundial de Universidades QS por Materias 2025

Se ha identificado una correlación preocupante entre el aumento de publicaciones y el incremento en retracciones de artículos científicos, especialmente en países como China, India, Pakistán, Arabia Saudita, Egipto e Irán. Esto sugiere que la presión por publicar y escalar posiciones ha conducido en algunos casos a malas prácticas científicas como la fabricación o duplicación de resultados. Arabia Saudita, por ejemplo, duplicó su producción científica entre 2019 y 2024, pero también registró un fuerte aumento en retracciones. En India, la producción aumentó más de un 56% en cinco años, pero también se han visto afectadas por problemas de calidad y control.

Fuente: Número total de trabajos de investigación según Scopus: artículos y revisiones.

Se destaca el ascenso de instituciones de Asia Occidental y países árabes como Arabia Saudita, Emiratos Árabes Unidos y Catar, gracias a inversiones en I+D. Sin embargo, también se cuestiona si este progreso refleja mejoras reales o estrategias diseñadas para escalar en el ranking, como el aumento artificial de citaciones o encuestas de reputación manipuladas.

India ha sido uno de los países con mayor crecimiento en los rankings globales, especialmente en áreas STEM (ciencia, tecnología, ingeniería y matemáticas). Este ascenso se ha vinculado a políticas como la iniciativa Institutions of Eminence (IoE), que busca crear universidades de élite. Sin embargo, esta estrategia ha generado críticas por concentrar recursos en pocas instituciones, mientras muchas universidades estatales sufren abandono, falta de financiación y precariedad.

Los rankings se basan ahora en indicadores como la reputación académica (40 %), la reputación entre empleadores (10 %), las citas de investigación por artículo (20 %) y el índice H (20 %), respaldados además por la puntuación de la red internacional de investigación. Uno de los problemas principales es que el QS otorga casi el 50% del peso a encuestas de reputación académica y empresarial, lo que deja margen para maniobras estratégicas de autopromoción institucional y visibilidad controlada. A esto se suma el fenómeno de las “citas en anillo” y la contratación de académicos con alta visibilidad para inflar métricas.

Además, estos rankings influyen profundamente en la formulación de políticas educativas, especialmente en economías emergentes. Estar en el top 200 puede significar más financiación, mayor atracción de estudiantes internacionales y prestigio diplomático. Sin embargo, esta influencia genera comportamientos orientados a mejorar la posición en rankings antes que a desarrollar auténtica calidad educativa.

En conclusión, los rankings como QS y THE, aunque útiles para comparaciones internacionales, también pueden ser engañosos. Favorecen la visibilidad y los indicadores cuantitativos sobre la calidad docente, el compromiso social o la equidad. La carrera por ascender en estas clasificaciones puede fomentar reformas superficiales y cosméticas, en lugar de una transformación estructural del sistema educativo.

Evaluación de la cobertura lingüística de OpenAlex

van Eck, Nees Jan, Ludo Waltman, y Thed N. van Leeuwen. 2024. “Evaluating the Linguistic Coverage of OpenAlex: An Assessment of Metadata Accuracy and Completeness.” Journal of the Association for Information Science and Technology. https://doi.org/10.1002/asi.24979

Más sobre Open Alex

El artículo analiza en profundidad la cobertura lingüística de OpenAlex, una base de datos de acceso abierto que busca convertirse en una alternativa transparente y gratuita a plataformas comerciales de referencia como Web of Science (WoS) y Scopus. Uno de los objetivos centrales del estudio es evaluar la precisión y completitud de los metadatos relativos al idioma de publicación que ofrece OpenAlex, un aspecto clave para investigaciones bibliométricas, estudios de comunicación científica y análisis de la diversidad lingüística en la producción académica.

Para llevar a cabo esta evaluación, los autores diseñaron una metodología basada en la validación manual de una muestra significativa de 6,836 artículos. Esta muestra fue seleccionada para representar diversas disciplinas y procedencias geográficas, lo cual permite examinar no solo la precisión de los datos de idioma en OpenAlex, sino también su comparabilidad frente a otras fuentes como WoS. A través de este análisis, se busca determinar en qué medida OpenAlex refleja adecuadamente la diversidad lingüística real de las publicaciones académicas.

Uno de los principales hallazgos del estudio es que OpenAlex ofrece una cobertura lingüística más amplia y equilibrada que Web of Science, particularmente en lo que se refiere a publicaciones en idiomas distintos del inglés. Mientras que WoS tiende a priorizar y sobrerrepresentar publicaciones en inglés —lo cual ha sido señalado como una limitación en muchos estudios— OpenAlex incorpora un número relativamente mayor de trabajos en lenguas como el español, portugués, francés, alemán o chino. Esto representa una ventaja significativa en términos de inclusión y representatividad de comunidades científicas no angloparlantes.

Sin embargo, este avance no está exento de problemas. El estudio identifica que, pese a su cobertura más inclusiva, OpenAlex presenta notables inexactitudes en los metadatos relacionados con el idioma. En muchos casos, el idioma asignado por el sistema no coincide con el idioma real del texto, lo que lleva a una sobreestimación de publicaciones en inglés y una subestimación de otros idiomas. Además, se detectan casos de entradas sin especificación del idioma, o con asignaciones erróneas derivadas de errores de extracción automatizada o de la falta de estandarización en los metadatos originales.

Los autores subrayan que estos errores no son triviales: afectan directamente la calidad de los análisis bibliométricos que utilizan estos datos, y perpetúan sesgos que podrían comprometer estudios sobre la diversidad lingüística, las dinámicas de publicación regional, o las políticas de ciencia abierta. Por ello, se destaca que para que OpenAlex pueda ser una fuente confiable para estudios multilingües, es urgente mejorar la infraestructura técnica subyacente y los algoritmos de detección y normalización del idioma.

En conclusión, el artículo reconoce el enorme potencial de OpenAlex como herramienta abierta, accesible y más equitativa en la representación de la producción científica global. No obstante, también advierte que dicho potencial solo podrá materializarse plenamente si se abordan las deficiencias actuales en la calidad de sus metadatos lingüísticos. Mejorar estos aspectos permitiría realizar análisis más rigurosos y completos sobre las lenguas utilizadas en la ciencia, contribuyendo así a una comprensión más justa y realista del ecosistema de conocimiento global.

Aprovechar las citas de datos para responder a las necesidades de evaluación de datos de las bibliotecas.

Dean, Clare. 2025. Leveraging Data Citations to Respond to Libraries’ Data Evaluation Needs. Zenodo. https://doi.org/10.60804/yxna-f837

Se presenta un estudio sobre cómo la automatización de citas de datos puede mejorar las métricas de datos abiertos y ayudar a las bibliotecas a evaluar el uso y el impacto de los conjuntos de datos generados por sus instituciones.

Las bibliotecas desempeñan un papel clave en la promoción de los datos abiertos y necesitan evaluar el uso e impacto de los conjuntos de datos para apoyar la gestión de datos de investigación y reconocer el trabajo de sus investigadores. Sin embargo, medir este impacto es complejo debido a la dispersión y falta de visibilidad de la información.

Una solución prometedora es el uso de citas de datos como indicadores de utilización. Para demostrar su valor, se analizó el uso de datos en la Universidad Northwestern y la Universidad de Colorado Boulder mediante el Data Citation Corpus y Europe PMC. Se observó un aumento significativo de citas entre 2020 y 2023, con un pico en 2021. Los repositorios más citados fueron dbSNP, Protein Data Bank y European Nucleotide Archive, reflejando un fuerte enfoque en biomedicina y biología estructural.

En cuanto a áreas intensivas en datos, Northwestern destaca en investigación médica y neurociencia, mientras que Colorado Boulder lo hace en ciencias ambientales y biología vegetal. Las citas provienen principalmente de revistas especializadas en dichas disciplinas.

1. Objetivo principal

Mejorar la capacidad de las bibliotecas para rastrear, analizar y reportar el impacto de los datos de investigación utilizando citas automatizadas a gran escala, especialmente a través del Data Citation Corpus.

2. Instituciones involucradas

  • University Libraries, University of Colorado Boulder
  • Helmholtz Open Science Office, Alemania
  • Northwestern University Feinberg School of Medicine

3. Hallazgos clave (Key Data Citation Insights)

  • Los datos de Northwestern se citan más en revistas de ciencias de la vida y biomédicas.
  • Los datos de CU Boulder se usan más en revistas específicas de campos como ciencias ambientales.

Áreas de investigación intensiva en datos:

  • CU Boulder: Ciencias ambientales, biología molecular y genética, ciencias de las plantas.
  • Northwestern: Investigación médica, bioquímica, biología molecular, neurociencia.

Se concluye que las citas de datos ofrecen información valiosa para las estrategias institucionales, y se está ampliando el Data Citation Corpus con nuevas fuentes y mejoras en los metadatos. También se están desarrollando recursos para que las bibliotecas integren estas métricas en procesos de evaluación institucional junto con iniciativas como HELIOS Open.

Cómo hacer que ChatGPT proporcione mejores fuentes y citas

Nellis, Stephan. 2024. «How to Make ChatGPT Provide Better Sources and CitationsZDNet, March 4, 2024. https://www.zdnet.com/article/how-to-make-chatgpt-provide-better-sources-and-citations/.

Nellis explica que una de las principales críticas a ChatGPT es su falta de precisión en las fuentes que proporciona. A menudo, la IA no cita sus fuentes o brinda enlaces incorrectos. Sin embargo, existen estrategias para mejorar la calidad de las referencias obtenidas

Una de las críticas más recurrentes a ChatGPT es la dificultad para verificar la precisión de la información que proporciona. Esto se debe a que no siempre incluye fuentes, notas a pie de página o enlaces que respalden sus respuestas.

Según la propia descripción de ChatGPT: «En su versión gratuita, GPT-4o ofrece citas básicas y esenciales, priorizando referencias rápidas y concisas para facilitar la trazabilidad de la información. En cambio, la versión de pago proporciona citas más detalladas y frecuentes, incorporando múltiples fuentes y anotaciones contextuales para una verificación y comprensión más completas. Esto garantiza una experiencia más sólida y fiable, especialmente útil para quienes necesitan información en profundidad y validación rigurosa de las fuentes.»

Para mejorar la precisión de las fuentes y citas proporcionadas por ChatGPT, es esencial adoptar estrategias que incrementen la fiabilidad de sus respuestas. A continuación, se detallan algunas recomendaciones respaldadas por recursos externos:

  • Solicitar fuentes y citas explícitamente: Se recomienda preguntar directamente por fuentes y enlaces, especificando la cantidad deseada o el tipo de fuente (académica, revisada por pares, etc.).
  • Refinar las solicitudes: Se pueden mejorar los resultados pidiendo fuentes confiables o ajustando los rangos de fechas para evitar información obsoleta.
  • Verificar la validez de las fuentes: Muchos enlaces proporcionados por ChatGPT son incorrectos o irrelevantes, por lo que es esencial contrastarlos con búsquedas en Google Scholar, JSTOR u otras bases de datos académicas.
  • Utilizar ChatGPT como asistente de investigación: En lugar de confiar ciegamente en sus respuestas, se recomienda usar sus sugerencias como punto de partida para investigaciones más profundas.

¿Por qué se siguen citando algunos artículos retractados?

Schmidt, Marion. «Why Do Some Retracted Articles Continue to Get Cited?» Scientometrics, 4 de noviembre de 2024. https://doi.org/10.1007/s11192-024-05147-4.

El artículo de Marion Schmidt explora por qué algunos artículos retractados continúan recibiendo citas incluso después de su retractación. A pesar de la retracción, estos estudios siguen siendo citados, y se sabe poco sobre las causas de este fenómeno y el posible riesgo o daño epistemológico asociado. Este estudio de caso examina cómo las comunidades académicas manejan la incertidumbre en la recepción de publicaciones retractadas y analiza el impacto de las citas continuas o decrecientes de estas publicaciones.

Para llevar a cabo este análisis, el estudio utiliza varias técnicas de procesamiento de lenguaje natural y lectura cualitativa detallada. En particular, se identifica el apoyo y la disensión en las publicaciones que citan o co-citan los artículos retractados; además, se rastrean los términos conceptuales y su contexto de uso, y se analizan las funciones retóricas en los contextos de citación.

Los resultados muestran que en los casos con citas continuas, se encuentran tanto apoyo empírico como disputas no resueltas. Los autores tienden a destacar ciertos valores informativos en artículos que siguen siendo citados tras la retractación, mientras que en otros prevalecen argumentos metodológicos o afirmaciones generales. Esto sugiere que el impacto continuo de una cita no necesariamente perpetúa un daño epistemológico, sino que refleja una valoración entre el riesgo epistemológico y el valor informativo.

Revistas con altos índices de artículos sospechosos señalados por una start-up de integridad científica



Van Noorden R. Journals with high rates of suspicious papers flagged by science-integrity start-up. Nature. 2024 Oct 23;doi: 10.1038/d41586-024-03427-w. Available from: https://www.nature.com/articles/d41586-024-03427-w

El artículo de Richard Van Noorden analiza el impacto de investigaciones científicas fraudulentas o sospechosas en revistas académicas, señaladas por la herramienta Argos, desarrollada por la empresa tecnológica Scitility. Esta plataforma, lanzada en septiembre de 2024, asigna a los artículos un puntaje de riesgo basado en los antecedentes de los autores y en las citas a investigaciones previamente retractadas. Un puntaje alto no prueba que un artículo sea de baja calidad, pero sugiere que debe investigarse más a fondo.

Entre las editoriales con más artículos de alto riesgo, destaca Hindawi, un sello ahora cerrado, subsidiario de Wiley, con más de 10.000 retractaciones en dos años (alrededor del 4% de su cartera en la última década). Aunque Wiley ha limpiado una gran parte de su catálogo, Argos señala que todavía persisten más de 1.000 artículos de alto riesgo. Otras editoriales, como Elsevier, MDPI y Springer Nature, también figuran con miles de artículos sospechosos, pero con proporciones más bajas en relación a su volumen de publicaciones.

Argos es parte de una creciente cantidad de herramientas diseñadas para detectar señales de alerta en la integridad científica, como Papermill Alarm y Signals, que ayudan a identificar posibles fraudes en manuscritos. Aunque algunas editoriales han implementado tecnologías para detectar irregularidades, la proporción de artículos problemáticos aún es considerable. Las editoriales Impact Journals, Spandidos e Ivyspring presentan las mayores proporciones de artículos de alto riesgo, con cifras superiores al 0.6%.

Además de analizar la situación a nivel de editorial, Argos también proporciona datos sobre revistas específicas. La revista Scientific Reports de Springer Nature, por ejemplo, cuenta con 450 artículos de alto riesgo y 231 retractaciones, lo que representa el 0.3% de su producción total. Otras revistas con grandes brechas entre artículos retractados y sospechosos son Sustainability de MDPI y Materials Today Proceedings de Elsevier.

El crecimiento del fraude científico se debe en parte a la proliferación de «fábricas de artículos» y contenido generado por inteligencia artificial. Las editoriales están aumentando su inversión en supervisión humana y tecnología para enfrentar estos desafíos.

Argos se apoya en datos abiertos, como la base de datos de Retraction Watch, y también rastrea redes de autores con antecedentes de mala conducta. No obstante, una de las dificultades más grandes que enfrentan las herramientas de integridad es la correcta distinción entre autores con nombres similares, lo que puede sesgar los resultados.

¿Se deben citar los chatbots de Inteligencia Artificial en un trabajo de investigación?

Antunes Nogueira, L.; Rein, Jan Ove. «Guest Post – The Case For Not Citing Chatbots As Information Sources (Part I) and (Part II)». The Scholarly Kitchen, 20 de junio de 2024. https://scholarlykitchen.sspnet.org/2024/06/19/chatbots-to-cite-or-not-to-cite-part-1/

Este artículo invita a reflexionar sobre las implicaciones éticas y prácticas del uso de IA generativa en la producción académica y la necesidad de normas más claras para su uso y citación.

Se revisan las políticas de 17 editores y organizaciones académicas, encontrando un consenso general sobre que los chatbots no cumplen los requisitos para ser considerados autores, ya que no pueden asumir la responsabilidad por los textos generados. Sin embargo, no existe una postura clara sobre si deben ser citados como fuentes.

Algunos, como International Committee of Medical Journal Editors (ICMJE) y Elsevier, son tajantes en su recomendación de no citarlos, mientras que la American Psychological Association (APA) ha ofrecido directrices sobre cómo citar chatbots como herramientas, sin admitirlos como fuentes de información.

El problema radica en que los textos generados por chatbots, aunque coherentes, no son rastreables ni verificables, lo que lleva a muchos a cuestionar su validez como fuentes. El caso de la retracción de un artículo por el uso de citas incorrectas generadas por ChatGPT ejemplifica los riesgos involucrados.

Citar es una norma sociocultural y ética en la academia, y sus razones incluyen:

  • Atribuir crédito a las ideas ajenas.
  • Proveer evidencia para respaldar un argumento.
  • Situar el trabajo dentro de un debate académico.
  • Facilitar que otros verifiquen las fuentes de información.

El uso de chatbots introduce un nuevo desafío, ya que sus respuestas, aunque parecen coherentes, no representan fuentes verificables de información, sino productos generados probabilísticamente por algoritmos.

El debate sobre si los chatbots deben ser citados como fuentes se divide en dos posturas:

  1. Pro-citación: Se argumenta que si el contenido no es propio, debe citarse para evitar el plagio, lo que implicaría tratar al chatbot como una fuente.
  2. Anti-citación: Quienes se oponen a citarlos como fuentes destacan que los textos generados por IA no pueden ser rastreados ni verificados, lo que los hace inadecuados para ser tratados como fuentes. Sugieren que los chatbots deben considerarse como herramientas, similares a otras usadas en la investigación, y que su uso debe ser explicado en las secciones metodológicas del trabajo.

Los autores concluyen que la irrupción de los chatbots obliga a reconsiderar las prácticas de citación y a discernir entre herramientas de asistencia y fuentes de información verificables.

Se proponen varias razones para no citar chatbots. Primero, citar chatbots entraría en conflicto con las políticas académicas, ya que citar a estos sistemas podría legitimar a las empresas detrás de la tecnología como autores, lo que comprometería la responsabilidad intelectual. Además, citar chatbots podría contaminar el ecosistema informativo al difundir datos generados por IA, lo que erosionaría la calidad de los modelos de lenguaje y promovería la desinformación.

Otro punto relevante es que los chatbots no fueron diseñados como máquinas de verdad. Su funcionamiento se basa en cálculos probabilísticos de secuencias de palabras, no en la verificación de hechos. Por ello, los resultados que generan pueden incluir falsedades (hallucinations). Sin embargo, los chatbots podrían ser útiles en tareas de extracción de información, siempre que se basen en bases de datos confiables.

El texto también plantea que crear reglas que obliguen a citar a los chatbots sería impráctico y enviaría un mensaje erróneo, ya que las herramientas actuales no pueden detectar de manera confiable el uso de textos generados por IA. Además, legitimar la práctica de citar chatbots como fuentes podría llevar al mal uso de estas herramientas, lo que resultaría contraproducente para la academia. En lugar de ello, se propone una inversión en alfabetización en IA y un enfoque normativo flexible, basado en normas socioculturales que evolucionen con el tiempo y que establezcan prácticas adecuadas para el uso de estas herramientas.

En conclusión, se sugiere que las instituciones académicas deben adoptar una postura clara que desincentive la citación de chatbots como fuentes de información, y que promueva su uso adecuado como herramientas de apoyo en el proceso de investigación. Las instituciones académicas, junto con editoriales y revistas, tienen el poder de guiar la normalización de las prácticas sobre la divulgación del uso de IA, lo cual sería crucial para mantener la integridad del ecosistema informativo.

La compra de citas de investigación en la publicación académica

Langin, Katie «Vendor Offering Citations for Purchase Is Latest Bad Actor in Scholarly Publishing». Science 12 feb. 2024, Accedido 20 de febrero de 2024. https://www.science.org/content/article/vendor-offering-citations-purchase-latest-bad-actor-scholarly-publishing.

Un nuevo estudio resalta que un vendedor que ofrece citas a la venta se suma a la lista de actores problemáticos en la publicación académica. Según la investigación, investigadores sin escrúpulos disponen de múltiples opciones para manipular las métricas de citas.

En 2023, apareció un nuevo perfil de Google Scholar en línea que presentaba a un investigador desconocido. En pocos meses, el científico, un experto en noticias falsas, fue catalogado por la base de datos académica como el 36º investigador más citado en su campo. Tenía un índice h de 19, lo que significa que había publicado 19 artículos académicos que habían sido citados al menos 19 veces cada uno. Fue un impresionante debut en la escena de la publicación académica.

Pero nada de eso era legítimo. El investigador y su institución eran ficticios, creados por investigadores de la Universidad de Nueva York en Abu Dhabi que investigaban prácticas editoriales cuestionables. Las publicaciones fueron escritas por ChatGPT. Y los números de citas eran falsos: algunas provenían de la excesiva auto-cita del autor, mientras que otras 50 fueron compradas por 300$ a un vendedor que ofrecía un «servicio de impulso de citas».

«La capacidad de comprar citas en gran cantidad es un desarrollo nuevo y preocupante», dice Jennifer Byrne, una investigadora de cáncer de la Universidad de Sídney que ha estudiado publicaciones problemáticas en la literatura biomédica. En la universidad, el índice h de un investigador y el número de citas que han recibido a menudo se utilizan para decisiones de contratación y ascenso. Y el perfil fabricado, que fue parte de un estudio publicado como preprint la semana pasada en arXiv, muestra tácticas «extremas» que se pueden emplear para manipularlos, agrega Byrne, quien no estuvo involucrada en el trabajo. (Los investigadores declinaron nombrar al vendedor para evitar darles más negocios).

El estudio comenzó cuando Yasir Zaki, un científico de la computación en la Universidad de Nueva York en Abu Dhabi, y sus colegas notaron patrones preocupantes entre investigadores reales. Después de examinar los perfiles de Google Scholar de más de 1.6 millones de científicos y mirar a autores con al menos 10 publicaciones y 200 citas, el equipo identificó a 1016 científicos que habían experimentado un aumento de 10 veces en las citas en un solo año. «Sabes que algo anda mal cuando un científico experimenta un aumento repentino y masivo en sus citas», dice Zaki.

El equipo señaló a 114 científicos que habían recibido más de 18 citas de un solo artículo, un signo sospechoso, según Zaki, «ya que es raro que incluso los científicos establecidos tengan más de un puñado de citas provenientes de la misma fuente». En un caso particularmente flagrante, el 90% de las referencias en un solo artículo citaban las publicaciones de un científico. «Fue… publicado en una revista de la que el científico sospechoso es editor», dice Zaki.

Muchas de las citas asociadas con los 114 científicos sospechosos provenían de publicaciones de baja calidad, dicen los investigadores, incluidos preprints, que no están sujetos a revisión por pares. Algunas de las publicaciones citantes ni siquiera mencionaban el trabajo del investigador en el texto principal del artículo; la cita simplemente se había añadido a la lista de referencias al final.

El equipo también notó que uno de los autores había recibido muchas citas de documentos alojados por una cuenta en ResearchGate, un sitio de redes sociales para científicos. «Para nuestro asombro, ¡esa cuenta estaba anunciando abiertamente un servicio de compra de citas!», dice el autor del estudio, Talal Rahwan, un científico de informática en la Universidad de Nueva York en Abu Dhabi.

Fue entonces cuando decidieron crear el perfil ficticio de Google Scholar y ver si podían comprar citas ellos mismos. Le pidieron a ChatGPT que escribiera 20 artículos de investigación sobre el tema de las noticias falsas, incluyendo muchas auto-citas, referencias a documentos escritos por el mismo autor ficticio, imitando una práctica que algunos investigadores usan para aumentar sus números de citas.

Luego, publicaron los artículos en varios servidores de preprints. Google Scholar detectó esos artículos en su exploración de la literatura académica y se recogieron en el perfil del autor ficticio, enumerando esos preprints como publicaciones y dándole al investigador crédito por 380 auto-citas contenidas en ellos.

A partir de ahí, fue relativamente fácil comprar citas adicionales. Utilizando el nombre del científico ficticio, el equipo de investigación contactó al vendedor a través de WhatsApp y compró el «paquete de 50 citas». Dentro de 40 días, se publicaron cinco artículos que incluían cada uno 10 citas al trabajo del investigador de noticias falsas ficticio. Cuatro de los cinco aparecieron en una sola revista de química. «Esto no tenía sentido, ya que los documentos de nuestro investigador ficticio no estaban ni remotamente relacionados con la química», señala Rahwan.

El estudio sugiere que algunos investigadores están utilizando tácticas similares a las empleadas por el equipo de la Universidad de Nueva York en Abu Dhabi para aumentar sus clasificaciones de citas. «La evidencia que muestran en este documento es bastante sólida», dice Naoki Masuda, un matemático de la Universidad de Buffalo que ha estudiado citas anómalas.

Los autores no pueden decir cuan extendidos son estos problemas en la literatura académica. «Solo nos enfocamos en los casos escandalosos», dice Rahwan. Pero vieron señales de que otros artículos publicados por la misma revista de química pueden haber incluido citas que fueron compradas: Once otros (reales) científicos habían recibido al menos 10 citas de un solo artículo publicado en esa revista.

Bernhard Sabel, un neuropsicólogo de la Universidad Otto von Guericke en Magdeburgo que ha estudiado fábricas de papel que venden autoría en artículos científicos, dice que la comunidad académica debería estar «muy preocupada» por este tipo de manipulaciones. «El problema es grande, y ha estado creciendo rápidamente en los últimos 10-15 años», agrega Sabel. En su opinión, Google Scholar y otras bases de datos

Las citaciones en Google Scholar son manipulables


Ibrahim, Hazem, Fengyuan Liu, Yasir Zaki, y Talal Rahwan. «Google Scholar is manipulatable». arXiv, 7 de febrero de 2024. https://doi.org/10.48550/arXiv.2402.04607.


El documento proporciona evidencia de fraude en la compra de citas en Google Scholar. A través de un análisis de perfiles en Google Scholar y encuestas a profesores de universidades de alto prestigio, se descubre la amplia utilización de esta plataforma en la evaluación de científicos. Los investigadores también revelan la existencia de un servicio para aumentar citas y demuestran que es posible comprar citas en grandes cantidades. Este hallazgo subraya la importancia de no depender exclusivamente de los recuentos de citas en la evaluación académica.

En este estudio, se compiló un conjunto de datos de aproximadamente 1.6 millones de perfiles en Google Scholar para examinar casos de fraude de citas en la plataforma. Se encuestó a profesores de universidades altamente clasificadas, confirmando que Google Scholar se utiliza ampliamente en la evaluación de los científicos. Intrigados por un servicio de aumento de citas descubierto durante la investigación, los investigadores contactaron con el servicio encubiertos como autores ficticios y lograron comprar 50 citas. Estos hallazgos proporcionan evidencia concluyente de que las citas pueden ser compradas en grandes cantidades, resaltando la necesidad de ir más allá de los recuentos de citas.