Descubren una red de 80.000 citas fraudulentas ocultas en los metadatos de publicaciones científicas

Besançon, Lonni; Cabanac, Guillaume; Labbé, Cyril; Magazinov, Alexander; di Scala, Jules; Tkaczyk, Dominika; Weber-Boer, Kathryn (2025). Detection of metadata manipulations: Finding sneaked references in the scholarly literature. Preprint enviado a Journal of the Association for Information Science and Technology (JASIST). arXiv:2501.03771. Disponible en: arXiv – Detection of metadata manipulations

La investigación demuestra que la infraestructura global de comunicación científica presenta una vulnerabilidad crítica: es posible manipular artificialmente el impacto académico insertando citas inexistentes en los metadatos de un artículo sin alterar el documento publicado, comprometiendo así la fiabilidad de los sistemas internacionales de evaluación basados en citación. Los resultados son extraordinariamente reveladores. El análisis de 4.077 documentos identificó más de 80.000 referencias fraudulentas insertadas artificialmente, distribuidas en 2.787 artículos manipulados.

Este trabajo constituye una de las investigaciones más inquietantes y relevantes de los últimos años en el ámbito de la integridad científica, al revelar una nueva forma de manipulación bibliométrica basada en la inserción de lo que los autores denominan “sneaked references” o referencias infiltradas. Se trata de citas que no aparecen en el texto visible ni en la bibliografía real de un artículo científico, pero que sí son introducidas artificialmente en los metadatos depositados en infraestructuras académicas como Crossref, permitiendo que sistemas bibliométricos las contabilicen como citas legítimas. El hallazgo cuestiona directamente la fiabilidad de numerosos indicadores de impacto científico utilizados globalmente, desde el índice h hasta métricas institucionales empleadas en rankings universitarios, financiación de proyectos o evaluación académica.

El estudio se centra inicialmente en el caso del International Journal of Innovative Science and Research Technology (IJISRT), una revista en la que los investigadores detectaron un patrón sistemático de inserción fraudulenta de referencias adicionales durante el registro de metadatos. Estas referencias eran invisibles para cualquier lector que consultara el PDF del artículo, pero aparecían en los registros enviados a Crossref, generando citas falsas que beneficiaban principalmente a artículos publicados en la misma revista. Este mecanismo constituye una variante sofisticada del conocido fenómeno del citation gaming, es decir, estrategias destinadas a inflar artificialmente el número de citas recibidas por revistas o artículos con el fin de mejorar indicadores de impacto y reputación científica.

Para detectar esta anomalía, los autores diseñan dos metodologías automatizadas innovadoras. La primera consiste en comparar la lista de referencias depositadas en los metadatos de Crossref con las referencias extraídas automáticamente del PDF mediante herramientas como GROBID, especializada en extracción estructurada de documentos académicos. La segunda técnica compara directamente el texto completo extraído del PDF con las cadenas textuales almacenadas en los registros de referencias de Crossref, utilizando algoritmos de similitud textual como la distancia de Levenshtein implementada en bibliotecas como RapidFuzz. Ambas metodologías buscan determinar si una referencia registrada en el sistema realmente aparece en el documento original o si ha sido añadida clandestinamente en la fase de indexación.

Los resultados son extraordinariamente reveladores. El análisis de 4.077 documentos identificó más de 80.000 referencias fraudulentas insertadas artificialmente, distribuidas en 2.787 artículos manipulados. Algunos artículos beneficiados llegaron a recibir cientos de citas indebidas, alcanzando cifras completamente anómalas en plataformas como Digital Science Dimensions o OpenAlex OpenAlex. El caso más extremo documentado en el artículo corresponde a un DOI que aparecía acreditado con aproximadamente 1.700 citas en Dimensions y 1.800 en OpenAlex, aunque una parte sustancial de esas citas provenían exclusivamente de referencias falsas introducidas en metadatos y nunca presentes en publicaciones reales. Esto demuestra que la manipulación logró atravesar múltiples sistemas de agregación científica y afectar directamente bases de datos utilizadas mundialmente para evaluar investigación.

Uno de los aspectos más preocupantes del estudio es que esta manipulación ocurre en una capa invisible para la mayoría de investigadores, bibliotecarios y evaluadores científicos. Tradicionalmente, las malas prácticas en citación implicaban añadir citas irrelevantes dentro del propio artículo, mediante coerción editorial o acuerdos entre autores. Sin embargo, el mecanismo identificado aquí opera después de la publicación, en el nivel de los metadatos depositados en infraestructuras centrales del ecosistema científico. Esto significa que incluso artículos perfectamente legítimos pueden convertirse, sin conocimiento de sus autores, en vehículos para generar citas artificiales que alteren métricas globales. El problema deja de ser un asunto editorial aislado para convertirse en una vulnerabilidad sistémica de la infraestructura internacional de comunicación científica.

Los investigadores intentaron además escalar el análisis a gran escala examinando más de 47 millones de documentos científicos procesados por Dimensions desde el año 2000, con el objetivo de detectar patrones similares en toda la literatura académica mundial. Aunque el procesamiento masivo presenta limitaciones técnicas, especialmente en la extracción automática de referencias desde archivos PDF, el estudio demuestra que existen mecanismos potenciales para auditar grandes volúmenes de literatura científica y detectar patrones anómalos de citación. Los autores también exploraron heurísticas basadas en referencias duplicadas dentro de registros Crossref como posible señal temprana de manipulación sistemática.

El artículo plantea profundas implicaciones para todo el ecosistema de comunicación científica. Si plataformas como Crossref, OpenAlex, Scopus o sistemas derivados utilizan metadatos potencialmente manipulados, entonces gran parte de los indicadores bibliométricos contemporáneos podrían estar sujetos a distorsiones invisibles. Los autores reclaman mecanismos de auditoría más rigurosos por parte de infraestructuras académicas, validaciones automáticas entre texto completo y metadatos depositados, así como mayor vigilancia sobre prácticas editoriales sospechosas. Más allá del caso específico investigado, el estudio abre una discusión fundamental sobre la fragilidad de los sistemas de evaluación científica contemporáneos y sobre cómo la obsesión por las métricas cuantitativas puede incentivar nuevas formas de fraude cada vez más sofisticadas y difíciles de detectar.