Archivo de la etiqueta: Evaluación

Evaluación de 8 chatbots de inteligencia artificial

Caswell, Amanda. “I Tested 8 AI Chatbots for Our First Ever AI Madness — and This Is the Surprise Winner.” Tom’s Guide, marzo‑abril 2025.

Texto completo

En marzo de 2025, el medio tecnológico Tom’s Guide organizó una competencia llamada “AI Madness”, una especie de torneo eliminatorio inspirado en los brackets deportivos, para evaluar y comparar ocho de los chatbots de inteligencia artificial más avanzados del momento.

La periodista Amanda Caswell fue la encargada de probar cada modelo en múltiples rondas, utilizando una serie de prompts reales que abarcaban seis criterios clave: precisión factual, creatividad, utilidad, capacidades multimodales, experiencia de usuario e interfaz, y velocidad de respuesta.

En la primera ronda, ChatGPT (de OpenAI) venció a Perplexity.ai gracias a su equilibrio entre creatividad, profundidad y claridad. Gemini, el chatbot de Google, superó a Mistral por ofrecer una lógica más ordenada y explicaciones más didácticas. Una de las mayores sorpresas fue que Grok, el modelo de xAI desarrollado por Elon Musk, derrotó a Claude (de Anthropic), al mostrar respuestas más completas y accesibles para usuarios generales. Finalmente, DeepSeek, una plataforma emergente de origen chino, logró imponerse a Meta AI destacando por su tono conversacional, precisión técnica y versatilidad temática.

En las semifinales, Gemini se enfrentó a ChatGPT en una ronda muy reñida. Aunque ambos ofrecieron un alto nivel de rendimiento, Gemini destacó por estructurar mejor las respuestas y adaptarse a distintos tipos de consultas, como explicaciones académicas, planificación de menús y diseños de bases de datos. DeepSeek, por su parte, logró derrotar a Grok al demostrar una mayor profundidad analítica y un estilo más claro, manteniendo a la vez un enfoque conversacional eficaz.

La final del torneo fue entre Gemini y DeepSeek. Aunque Gemini mantuvo un nivel alto de desempeño, DeepSeek logró brillar en la mayoría de las tareas propuestas, entre ellas la resolución de problemas reales, la explicación de conceptos para diferentes edades, y la creatividad narrativa. El modelo combinó razonamiento avanzado con un lenguaje claro y accesible, superando las expectativas del jurado. Como resultado, DeepSeek fue proclamado ganador absoluto del torneo AI Madness 2025.

Un factor diferencial que explica el rendimiento sobresaliente de DeepSeek fue su enfoque de entrenamiento. A diferencia de muchos modelos que dependen principalmente del aprendizaje supervisado, DeepSeek-R1 utiliza aprendizaje por refuerzo (reinforcement learning), lo que le permite mejorar su capacidad de razonamiento y reflexión con menos intervención humana. Esto le otorga mayor autonomía y eficiencia a la hora de generar respuestas coherentes y detalladas en tiempo real.

¿Son mejores las ideas de investigación generadas por Inteligencia Artificial o las creadas por humanos?

Si, Chenglei, Tatsunori Hashimoto y Diyi Yang. The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas. arXiv, 25 de junio de 2025. https://arxiv.org/abs/2506.20803

Los resultados mostraron que las ideas generadas por LLM recibieron puntuaciones significativamente más bajas que las ideas humanas en todos los criterios evaluados: novedad, entusiasmo, efectividad y puntuación general. Este fenómeno, denominado «brecha ideación-ejecución», sugiere que, aunque los LLM pueden generar ideas originales, su capacidad para traducir esas ideas en resultados de investigación efectivos es limitada.

El estudio investiga la diferencia entre la generación de ideas de investigación por modelos de lenguaje grande (LLM, Large Language Models) y la capacidad real de esas ideas para traducirse en resultados concretos y efectivos cuando se llevan a la práctica. Aunque investigaciones anteriores han señalado que los LLM pueden producir ideas originales e innovadoras, el presente estudio se enfoca en la llamada “brecha ideación-ejecución” para determinar si estas ideas realmente tienen éxito cuando se implementan en proyectos de investigación reales.

Para evaluar esta cuestión, los autores diseñaron un experimento riguroso en el que 43 investigadores expertos en procesamiento de lenguaje natural recibieron ideas de investigación generadas tanto por humanos como por LLM. Cada investigador trabajó durante más de 100 horas en la ejecución de una de estas ideas, desarrollando proyectos completos documentados en informes detallados de cuatro páginas. Estos informes fueron luego evaluados de manera anónima por otros expertos para medir la calidad y el impacto de los resultados obtenidos.

Los resultados revelaron que, en múltiples dimensiones evaluadas —incluyendo la novedad de la idea, el entusiasmo generado, la efectividad del proyecto y la valoración general—, los proyectos derivados de ideas humanas superaron claramente a los derivados de ideas generadas por LLM. En otras palabras, aunque los LLM son capaces de ofrecer propuestas creativas y novedosas, su capacidad para traducir esas ideas en investigaciones exitosas y aplicables es significativamente menor.

Este hallazgo tiene implicaciones importantes para el uso de la inteligencia artificial en la investigación científica. Sugiere que, aunque la IA puede ser una herramienta valiosa para inspirar ideas o asistir en la fase inicial de generación conceptual, la supervisión humana y la experiencia siguen siendo cruciales para asegurar que las ideas puedan concretarse en resultados tangibles y de calidad. El estudio enfatiza la necesidad de evaluar no solo la creatividad o novedad de las ideas producidas por IA, sino también su factibilidad y capacidad de ejecución.

Finalmente, los autores invitan a reflexionar sobre cómo integrar de manera efectiva las capacidades de los modelos de lenguaje en el proceso de investigación, proponiendo un enfoque colaborativo entre humanos e IA que maximice las fortalezas de cada uno, minimizando las limitaciones observadas.

GLAT: herramienta para evaluar la alfabetización en inteligencia artificial generativa

Yueqiao Jin, Roberto Martinez-Maldonado, Dragan Gašević, Lixiang Yan, GLAT: The generative AI literacy assessment test, Computers and Education: Artificial Intelligence,
Volume 9, 2025, 10 de junio de 2025. https://www.sciencedirect.com/science/article/pii/S2666920X25000761

Se presenta «GLAT: The Generative AI Literacy Assessment Test» una herramienta para el desarrollo y validación del rendimiento para medir la alfabetización en inteligencia artificial generativa (GenAI).

Esta prueba, denominada GLAT, fue diseñada para evaluar la capacidad de los individuos para utilizar herramientas de GenAI de manera efectiva y ética, abordando la creciente necesidad de evaluar habilidades en un entorno digital cada vez más automatizado.

La investigación destaca que, a pesar del aumento en el uso de tecnologías de GenAI, existe una falta de herramientas estandarizadas para medir la competencia en este ámbito. GLAT se diferencia de las evaluaciones tradicionales al centrarse en tareas prácticas que simulan escenarios reales donde los usuarios deben interactuar con sistemas de GenAI, evaluando su capacidad para generar, analizar y aplicar contenido de manera crítica.

Además, el estudio valida la fiabilidad y validez del GLAT a través de pruebas empíricas, demostrando que la herramienta es efectiva para medir la alfabetización en GenAI en diversos grupos demográficos. Los resultados sugieren que el GLAT puede ser una herramienta valiosa para instituciones educativas, organizaciones y gobiernos que buscan evaluar y mejorar las competencias digitales relacionadas con la inteligencia artificial generativa.

GLAT es una solución innovadora para abordar la necesidad urgente de evaluar la alfabetización en GenAI, proporcionando una base para el desarrollo de políticas educativas y formativas que promuevan el uso responsable y competente de las tecnologías de inteligencia artificial generativa

El valor y el impacto de las bibliotecas públicas

Scottish Book Trust. The Impact of Scotland’s Libraries. Última modificación en 2025. https://www.scottishbooktrust.com/our-research/the-impact-of-scotlands-libraries.

Scottish Book Trust ha llevado a cabo una investigación independiente sobre el valor y el impacto de las bibliotecas públicas y escolares en Escocia en colaboración con la Biblioteca Nacional de Escocia (NLS), el Consejo Escocés de Bibliotecas e Información (SLIC) y el Instituto Colegiado de Profesionales de Bibliotecas e Información de Escocia (CILIPS).


Scottish Book Trust ha emprendido un proyecto de investigación independiente, dirigido por nuestro Director de Investigación y Evaluación Éadaoín Lynch, para informar sobre el valor y el impacto de nuestras bibliotecas públicas y escolares – y mostrar cómo son intrínsecas a la eliminación de la desigualdad a través de muchas intersecciones de la vida escocesa.

Trabajamos con todas las autoridades locales, esforzándonos por ofrecer a todas las personas la oportunidad de contar sus historias; como tales, estamos en una posición única para dar testimonio.

Los métodos incluyen

  • Encuestas a bibliotecarios públicos y escolares
  • Entrevistas con bibliotecarios públicos y escolares
  • Opiniones cualitativas de usuarios de bibliotecas
  • Recopilación de datos cuantitativos sobre horarios de apertura y capacidad de las bibliotecas.

El informe completo, publicado en junio de 2025, revela el papel vital y diverso que desempeñan las bibliotecas, al tiempo que desvela el alcance de los cierres y la reducción de servicios en toda Escocia en los últimos 16 años.

RESULTADOS PRELIMINARES – ENCUESTAS A BIBLIOTECARIOS ESCOLARES

Tras las encuestas distribuidas a los bibliotecarios en otoño/invierno de 2023-24, Scottish Book Trust ha preparado informes de resultados preliminares separados para las bibliotecas escolares de primaria y secundaria de Escocia.

El documento «Resumen principal» ofrece una sinopsis de alto nivel y una comparación de los resultados de las escuelas primarias y secundarias.

Estos resultados muestran cómo los bibliotecarios escolares de toda Escocia son apasionados de su trabajo, dedicados a sus alumnos, innovadores e ingeniosos en su actividad, y una firme corrección a la desinformación y la desinformación en línea. Sin embargo, estos resultados también demuestran el impacto de los drásticos recortes de financiación, las restricciones y las demandas en competencia sobre los espacios dedicados a las bibliotecas, y el tiempo y los recursos limitados del personal.

El informe destaca la importancia de contar con profesionales de la información en las bibliotecas escolares, no solo para fomentar la lectura por placer, sino también para guiar en la investigación y el acceso a información confiable en una era de abundancia de datos y desinformación.

Diferencias entre bibliotecas de primaria y secundaria:

  • Solo el 15% de los bibliotecarios en escuelas primarias son profesionales cualificados, frente al 71% en secundaria.
  • En secundaria, 91% de los encuestados indicaron que su biblioteca está gestionada por un bibliotecario, mientras que en primaria solo 24%.
  • En primaria, las bibliotecas son mayormente administradas por maestros (49%), voluntarios (27%) y alumnos asistentes (17%).
  • 49% de los bibliotecarios de secundaria han estado en su rol por más de 10 años, mientras que en primaria solo 10%.
  • 87% de las escuelas secundarias reciben apoyo de la autoridad local, frente al 71% de las primarias.

Problemas y desafíos:

  • Hay desigualdad en la gestión de las bibliotecas, ya sea en términos de salario, tiempo y calidad del servicio.
  • Muchos trabajadores sin certificación hacen un esfuerzo considerable para mantener las bibliotecas funcionando, a pesar de la falta de recursos y reconocimiento.
  • 59% de los bibliotecarios de secundaria reportaron restricciones en financiación y recursos, y 21% indicaron falta de espacio dedicado a la biblioteca. En primaria, 29% señalaron limitaciones de financiamiento y 12% la eliminación del bibliotecario escolar.
  • Falta de comprensión por parte de los directivos sobre el papel y la relevancia de las bibliotecas.

Impacto de las bibliotecas escolares:

El estudio del Scottish Book Trust identifica cuatro áreas clave de impacto:

  1. Lectura por placer.
  2. Oportunidades de aprendizaje.
  3. Inclusión digital.
  4. Ciudadanía activa.

El informe subraya que las bibliotecas deberían ser el corazón de la escuela, pero en muchos casos se han reducido a simples salas con computadoras y libros. La falta de financiamiento y apoyo está amenazando su existencia.

RESULTADOS PRELIMINARES – ENCUESTA A BIBLIOTECARIOS PÚBLICOS

Tras las encuestas distribuidas en otoño/invierno de 2023-24, Scottish Book Trust ha preparado un informe de conclusiones preliminares sobre las bibliotecas públicas de Escocia.

Estos resultados muestran las presiones a las que se enfrenta el sector bibliotecario, los éxitos conseguidos por los infatigables trabajadores de las bibliotecas y el profundo impacto que las bibliotecas tienen en sus comunidades en términos de inclusión digital, lectura por placer, oportunidades de aprendizaje y ciudadanía activa.

Aquí tienes un resumen de los hallazgos principales:

  • 1 de cada 3 bibliotecarios reportó que su servicio completo está en riesgo de reducción o eliminación.
  • 82% (4 de cada 5 bibliotecarios) señaló restricciones en financiamiento y recursos.
  • 1 de cada 3 bibliotecarios reportó la pérdida de personal bibliotecario dedicado.

Además de los recortes presupuestarios en el sector bibliotecario, los bibliotecarios indicaron que hay falta de comprensión por parte de las autoridades locales sobre el impacto social y a largo plazo de su servicio. En un contexto de financiación precaria, los enfoques centrados solo en costos no reflejan el verdadero valor de las bibliotecas.

Para demostrar el impacto positivo que generan, el estudio de Scottish Book Trust se enfocó en cuatro áreas clave:

  1. Lectura por placer
  2. Oportunidades de aprendizaje
  3. Inclusión digital
  4. Ciudadanía activa

Guía práctica para la implementación de la evaluación responsable de la investigación en organizaciones que realizan investigación

Allen, Liz, Virginia Barbour, Kelly Cobey, Zen Faulkes, Haley Hazlett, Rebecca Lawrence, Giovanna Lima, Flora Massah, y Ruth Schmidt. A Practical Guide to Implementing Responsible Research Assessment at Research Performing Organizations. Maryland, USA: DORA, 2025. https://doi.org/10.5281/zenodo.15000683

La organización DORA (Declaration on Research Assessment) ha celebrado su 12.º aniversario con la publicación de una nueva Guía Práctica para la Implementación de una Evaluación Responsable de la Investigación. Esta guía está dirigida a organizaciones que realizan investigación (RPOs) y ofrece herramientas prácticas, ejemplos ilustrativos y recursos para ayudar a estas instituciones a desarrollar, mejorar o transformar sus sistemas de evaluación científica de manera responsable, justa e inclusiva.

El documento reconoce que no existe un enfoque único que funcione para todas las instituciones ni disciplinas, por lo que propone una metodología flexible y adaptable a diferentes contextos. La guía puede ser utilizada tanto por organizaciones que deseen crear una estrategia desde cero como por aquellas que buscan reformar procesos existentes o simplemente comenzar a dar pasos hacia evaluaciones más holísticas.

Este recurso ha sido desarrollado de manera colaborativa con diversos actores del ámbito académico y científico, especialmente durante un encuentro celebrado en enero de 2025 en Maryland, EE. UU. Asimismo, se agradece la participación del Comité Directivo de DORA y de especialistas que contribuyeron a estructurar y organizar los contenidos de la guía.

La guía forma parte del Proyecto TARA, una iniciativa respaldada por la fundación Arcadia, que promueve el acceso abierto al conocimiento, la conservación del patrimonio natural y cultural, y la mejora de las prácticas académicas. Dentro de este proyecto, la guía se complementa con otras herramientas como Reformscape, Building Blocks for Impact y Debiasing Committee Composition, diseñadas para apoyar a las organizaciones que buscan reformar sus políticas de evaluación.

En conjunto, esta Guía Práctica representa un paso significativo hacia la consolidación de criterios más responsables, éticos y eficaces para valorar la calidad de la investigación, en un contexto donde la evaluación académica necesita responder a los desafíos contemporáneos de la ciencia y la sociedad.

¿Qué miden realmente los rankings universitarios? Un sistema atrapado en su propia lógica

Mohan, Deepanshu. “In a Ranking-Obsessed System, What Exactly Are Universities Measuring?” The Wire, marzo 2025. https://thewire.in/education/ranking-universities-education-system-research

En la educación superior actual, los rankings universitarios globales, como los QS World University Rankings by Subject, han dejado de ser simples clasificaciones para convertirse en herramientas de gran influencia. Estos rankings moldean percepciones, guían decisiones políticas y afectan tanto la elección de los estudiantes como las prioridades de inversión de los gobiernos.

La edición de 2025 de los QS Rankings by Subject, publicada el 12 de marzo, evaluó más de 55 disciplinas en cinco grandes áreas del conocimiento, lo que refleja la creciente especialización académica. Se incorporaron 171 nuevas instituciones, evidenciando una expansión significativa, sobre todo en áreas estratégicas como medicina, ciencias de la computación y ciencia de materiales. Por ejemplo, las universidades clasificadas en informática pasaron de 601 en 2020 a 705 en 2024. Este crecimiento no solo revela un mayor interés académico, sino también una fuerte competencia entre universidades por visibilidad y prestigio en sectores con alto potencial de financiación e innovación.

Se cuestiona si los rankings realmente miden mérito académico o si premian a quienes mejor entienden y manipulan su lógica. En países como Arabia Saudita o Singapur, se observa un crecimiento desproporcionado en la reputación académica sin una mejora equivalente en las citas, lo que sugiere posibles prácticas de gestión reputacional poco éticas.

Fuente: Clasificación Mundial de Universidades QS por Materias 2025

Se ha identificado una correlación preocupante entre el aumento de publicaciones y el incremento en retracciones de artículos científicos, especialmente en países como China, India, Pakistán, Arabia Saudita, Egipto e Irán. Esto sugiere que la presión por publicar y escalar posiciones ha conducido en algunos casos a malas prácticas científicas como la fabricación o duplicación de resultados. Arabia Saudita, por ejemplo, duplicó su producción científica entre 2019 y 2024, pero también registró un fuerte aumento en retracciones. En India, la producción aumentó más de un 56% en cinco años, pero también se han visto afectadas por problemas de calidad y control.

Fuente: Número total de trabajos de investigación según Scopus: artículos y revisiones.

Se destaca el ascenso de instituciones de Asia Occidental y países árabes como Arabia Saudita, Emiratos Árabes Unidos y Catar, gracias a inversiones en I+D. Sin embargo, también se cuestiona si este progreso refleja mejoras reales o estrategias diseñadas para escalar en el ranking, como el aumento artificial de citaciones o encuestas de reputación manipuladas.

India ha sido uno de los países con mayor crecimiento en los rankings globales, especialmente en áreas STEM (ciencia, tecnología, ingeniería y matemáticas). Este ascenso se ha vinculado a políticas como la iniciativa Institutions of Eminence (IoE), que busca crear universidades de élite. Sin embargo, esta estrategia ha generado críticas por concentrar recursos en pocas instituciones, mientras muchas universidades estatales sufren abandono, falta de financiación y precariedad.

Los rankings se basan ahora en indicadores como la reputación académica (40 %), la reputación entre empleadores (10 %), las citas de investigación por artículo (20 %) y el índice H (20 %), respaldados además por la puntuación de la red internacional de investigación. Uno de los problemas principales es que el QS otorga casi el 50% del peso a encuestas de reputación académica y empresarial, lo que deja margen para maniobras estratégicas de autopromoción institucional y visibilidad controlada. A esto se suma el fenómeno de las “citas en anillo” y la contratación de académicos con alta visibilidad para inflar métricas.

Además, estos rankings influyen profundamente en la formulación de políticas educativas, especialmente en economías emergentes. Estar en el top 200 puede significar más financiación, mayor atracción de estudiantes internacionales y prestigio diplomático. Sin embargo, esta influencia genera comportamientos orientados a mejorar la posición en rankings antes que a desarrollar auténtica calidad educativa.

En conclusión, los rankings como QS y THE, aunque útiles para comparaciones internacionales, también pueden ser engañosos. Favorecen la visibilidad y los indicadores cuantitativos sobre la calidad docente, el compromiso social o la equidad. La carrera por ascender en estas clasificaciones puede fomentar reformas superficiales y cosméticas, en lugar de una transformación estructural del sistema educativo.

Aprovechar las citas de datos para responder a las necesidades de evaluación de datos de las bibliotecas.

Dean, Clare. 2025. Leveraging Data Citations to Respond to Libraries’ Data Evaluation Needs. Zenodo. https://doi.org/10.60804/yxna-f837

Se presenta un estudio sobre cómo la automatización de citas de datos puede mejorar las métricas de datos abiertos y ayudar a las bibliotecas a evaluar el uso y el impacto de los conjuntos de datos generados por sus instituciones.

Las bibliotecas desempeñan un papel clave en la promoción de los datos abiertos y necesitan evaluar el uso e impacto de los conjuntos de datos para apoyar la gestión de datos de investigación y reconocer el trabajo de sus investigadores. Sin embargo, medir este impacto es complejo debido a la dispersión y falta de visibilidad de la información.

Una solución prometedora es el uso de citas de datos como indicadores de utilización. Para demostrar su valor, se analizó el uso de datos en la Universidad Northwestern y la Universidad de Colorado Boulder mediante el Data Citation Corpus y Europe PMC. Se observó un aumento significativo de citas entre 2020 y 2023, con un pico en 2021. Los repositorios más citados fueron dbSNP, Protein Data Bank y European Nucleotide Archive, reflejando un fuerte enfoque en biomedicina y biología estructural.

En cuanto a áreas intensivas en datos, Northwestern destaca en investigación médica y neurociencia, mientras que Colorado Boulder lo hace en ciencias ambientales y biología vegetal. Las citas provienen principalmente de revistas especializadas en dichas disciplinas.

1. Objetivo principal

Mejorar la capacidad de las bibliotecas para rastrear, analizar y reportar el impacto de los datos de investigación utilizando citas automatizadas a gran escala, especialmente a través del Data Citation Corpus.

2. Instituciones involucradas

  • University Libraries, University of Colorado Boulder
  • Helmholtz Open Science Office, Alemania
  • Northwestern University Feinberg School of Medicine

3. Hallazgos clave (Key Data Citation Insights)

  • Los datos de Northwestern se citan más en revistas de ciencias de la vida y biomédicas.
  • Los datos de CU Boulder se usan más en revistas específicas de campos como ciencias ambientales.

Áreas de investigación intensiva en datos:

  • CU Boulder: Ciencias ambientales, biología molecular y genética, ciencias de las plantas.
  • Northwestern: Investigación médica, bioquímica, biología molecular, neurociencia.

Se concluye que las citas de datos ofrecen información valiosa para las estrategias institucionales, y se está ampliando el Data Citation Corpus con nuevas fuentes y mejoras en los metadatos. También se están desarrollando recursos para que las bibliotecas integren estas métricas en procesos de evaluación institucional junto con iniciativas como HELIOS Open.

Los «golden oldies» de la ciencia: los trabajos de investigación de hace décadas que siguen siendo muy citados hoy

Van Noorden, Richard. «Science’s Golden Oldies: The Decades-Old Research Papers Still Heavily Cited TodayNature, April 15, 2025. https://doi.org/10.1038/d41586-025-01126-8

Supplementary information.

Se analiza cómo ciertos trabajos clave han mantenido su relevancia a lo largo del tiempo, destacando especialmente los más citados en los artículos publicados en 2023.

El análisis revela que, aunque muchas publicaciones recientes sobre inteligencia artificial (IA), software científico y métodos para mejorar la calidad de la investigación dominan hoy las listas de referencias, algunos estudios más antiguos continúan siendo referenciados con frecuencia. Entre ellos, se incluyen trabajos de los años 90, como el que describe una arquitectura temprana de redes neuronales llamada long short-term memory (LSTM) de 1997, que sigue siendo citado con frecuencia debido a su eficiencia en el procesamiento de datos.

También se destacan investigaciones sobre materiales publicadas en 1996 que, gracias a su innovador enfoque para calcular interacciones electrónicas en materiales, siguen siendo citadas en una proporción significativa. Un cuarto de las citas de este trabajo se han dado en los últimos dos años, mostrando cómo el impacto de investigaciones antiguas puede continuar creciendo a medida que nuevas generaciones de científicos las descubren y aplican.

El estudio muestra cómo algunas publicaciones, incluso décadas después de su publicación, siguen siendo fundamentales para el avance de la ciencia, gracias a su base teórica sólida y la continua aplicabilidad de sus descubrimientos. Esto subraya la importancia de identificar y reconocer las «piedras angulares» del conocimiento científico, independientemente de su antigüedad.

RankTitleNumber of Citations (Range)
1Deep residual learning for image recognition (2016)19,826–33,339
2Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide (2021)10,952–24,830
3Attention is all you need (2017)9,395–19,348
4Generalized gradient approximation made simple (1996)14,338–17,540
5Using thematic analysis in psychology (2006)10,660–17,347
6The PRISMA 2020 statement: an updated guideline for reporting systematic reviews (2021)13,115–13,443
7Analysis of relative gene expression data using real-time quantitative PCR and the 2−ΔΔCT method (2001)11,851–13,082
8Random forests (2001)6,266–12,294
9Efficient iterative schemes for ab initio total-energy calculations using a plane-wave basis set (1996)10,063–10,789
10Long short-term memory (1997)2,394–12,355

Fuente: Nature (2025).

Los artículos científicos más citados de todos los tiempos

Van Noorden, Richard. 2025. “These Are the Most-Cited Research Papers of All Time.” Nature, April 17, 2025. https://www.nature.com/articles/d41586-025-01124-w.

Nature ha actualizado su análisis sobre los trabajos científicos más citados de la historia, revelando que algunos han sido referenciados cientos de miles de veces. Esta revisión evidencia no solo el impacto de ciertas investigaciones, sino también cómo han evolucionado las tendencias en la producción científica y la citación a lo largo del tiempo.

Sorprendentemente, el artículo más citado no es ampliamente conocido entre la comunidad científica actual. Se trata de un trabajo de 1951 publicado en el Journal of Biological Chemistry, que describe un método para determinar la cantidad de proteínas en una solución. Este artículo ha sido citado más de 350.000 veces según el índice Web of Science (WoS), una base de datos que recopila 98 millones de publicaciones desde 1900.

Muchos de los artículos más citados están relacionados con técnicas de laboratorio en biología, lo que sugiere que los métodos ampliamente aplicables generan un impacto duradero. También figuran trabajos clave en inteligencia artificial (IA), software de investigación y métodos estadísticos.

La nueva clasificación actualiza una lista publicada por Nature en 2014, cuando los trabajos más citados eran herramientas de biología celular y molecular, principalmente de las décadas de 1950 y 1970. Desde entonces, alrededor de la mitad de los artículos en el top 100 han cambiado, debido al auge en las citas de trabajos más recientes. En 2014, eran necesarios unos 12.000 citas para entrar en el top 100. Hoy, hacen falta más de 30.000, lo que indica una inflación en el número de citas y el creciente volumen de publicaciones científicas.

Para este análisis, Nature también consultó otras dos grandes bases de datos de investigación: Dimensions y OpenAlex, cuyas versiones públicas permiten el análisis desde 1900. Aunque los rankings y recuentos de citas varían ligeramente entre bases, los artículos destacados son generalmente los mismos. La lista completa de los 100 más citados, con detalles sobre las diferencias entre bases, está disponible en el material suplementario del artículo.

Uno de los datos más llamativos es que un artículo de 2015 de investigadores de Microsoft, presentado en una conferencia sobre IA, ya ocupa el quinto lugar si se consideran los rankings medianos entre las tres bases de datos, y el séptimo solo en WoS. Esto muestra la velocidad con la que algunos artículos contemporáneos pueden acumular citas.

Actualmente, 16 artículos del siglo XXI se encuentran ya entre los 50 más citados de todos los tiempos, a pesar de su relativa juventud. Muchos de ellos están vinculados a desarrollos en software y al uso de la inteligencia artificial para acelerar el descubrimiento científico. Este fenómeno puede explicarse, según Paul Wouters (experto en cienciometría retirado de la Universidad de Leiden), por el aumento anual del número de publicaciones, lo que incrementa el volumen de referencias, así como por la mayor visibilidad de los trabajos científicos a través de Internet y las redes sociales.

Los 25 artículos científicos más citados desde el año 2000 tienen que ver con métodos, revisiones o software

Pearson, Helen, Heidi Ledford, Matthew Hutson, y Richard Van Noorden. “Exclusive: The Most-Cited Papers of the Twenty-First Century.Nature, April 10, 2025. https://www.nature.com/articles/d41586-025-01125-9.​

Las citas en la literatura científica son una manera de reconocer el uso e influencia de investigaciones previas. Sin embargo, los artículos más citados no suelen ser los más conocidos por el público general, sino que tienden a ser herramientas metodológicas, revisiones sistemáticas o descripciones de software ampliamente utilizado. Según Misha Teplitskiy, sociólogo de la Universidad de Míchigan, aunque los científicos afirman valorar teorías y descubrimientos empíricos, lo que realmente citan con más frecuencia son los métodos.

La revista Nature ha realizado un análisis exhaustivo sobre los 25 artículos científicos más citados desde el año 2000, revelando qué estudios han tenido mayor impacto medido por el número de citas, y por qué han alcanzado tal relevancia. Sorprendentemente, muchos de los artículos más citados no están relacionados con los descubrimientos más espectaculares —como las vacunas de ARNm, CRISPR, el bosón de Higgs o las ondas gravitacionales—, sino con métodos, software, estadísticas y herramientas que sustentan el trabajo científico diario.

El artículo más citado, según la media de cinco bases de datos académicas (Web of Science, Scopus, OpenAlex, Dimensions y Google Scholar), es un trabajo de 2016 de investigadores de Microsoft sobre aprendizaje residual profundo (ResNet), una arquitectura de red neuronal con más de 150 capas. Esta innovación resolvió problemas de entrenamiento en redes muy profundas y allanó el camino para avances como AlphaGo, AlphaFold o ChatGPT. Dependiendo de la base de datos, sus citas oscilan entre 103.000 y más de 250.000.

Rank (median)CitationTimes Cited (range across databases)
1Deep residual learning for image recognition (2016, preprint 2015)103.756–254,074
2Analysis of relative gene expression data using real-time quantitative PCR and the 2–ΔΔCT method (2001)149.953–185,480
3Using thematic analysis in psychology (2006)100.327–230,391
4Diagnostic and Statistical Manual of Mental Disorders, DSM-5 (2013)98,312–367,800
5A short history of SHELX (2007)76.523–99,470
6Random forests (2001)31.809–146,508
7Attention is all you need (2017)56.201–150,832
8ImageNet classification with deep convolutional neural networks (2017)46.860–137,997
9Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries (2020)75.634–99,390
10Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries (2016)66.844–93,433

Supplementary information

Otros artículos destacados incluyen el DSM-5 (manual diagnóstico de psiquiatría), el algoritmo de Random Forests (utilizado en machine learning), y GLOBOCAN, un informe bianual de la OMS sobre estadísticas globales de cáncer.

Los artículos sobre IA dominan el ranking. El trabajo de Hinton en 2012 sobre AlexNet, que revolucionó el reconocimiento de imágenes, ocupa el puesto 8. El artículo de 2017 “Attention is all you need”, que introdujo la arquitectura transformer que impulsa modelos de lenguaje como ChatGPT, está en el puesto 7. El artículo sobre Random Forests, método estadístico muy utilizado y accesible, está en el puesto 6.

La comunidad de IA también se ha beneficiado de la cultura del código abierto y del uso extendido de preprints, aunque muchas bases de datos aún no integran adecuadamente las citas entre versiones preliminares y artículos revisados.

Muchos artículos populares describen software científico. Uno de ellos es el artículo sobre SHELX (puesto 5), un conjunto de programas para determinar estructuras moleculares mediante difracción de rayos X, escrito por George Sheldrick. Otro caso es DESeq2, software para analizar datos de secuenciación de ARN (puesto 18). Estos artículos se citan por su utilidad más que por su novedad teórica.

El caso del artículo en el puesto 2 es paradigmático: Thomas Schmittgen publicó el método 2–ΔΔCT porque un revisor le dijo que no podía citar un manual técnico. Hoy acumula más de 160.000 citas.

Los informes GLOBOCAN de 2018 y 2020 están entre los diez primeros. Son herramientas esenciales para investigadores y responsables de políticas públicas. Otro trabajo clave (puesto 19) es el artículo sobre las “marcas distintivas del cáncer” (hallmarks of cancer), que ayudó a estructurar la investigación oncológica contemporánea.

El análisis muestra que el impacto en la ciencia no depende solo de grandes descubrimientos, sino de herramientas que permiten a otros investigar con más precisión, fiabilidad y alcance. El auge de la inteligencia artificial, el desarrollo de software y los métodos estadísticos dominan las citas, destacando cómo la ciencia avanza no solo por lo que descubre, sino por cómo lo hace.