Archivo de la categoría: Investigación

¿Navegar con IA o hundirse con IA? Análisis de verbos de títulos de artículos de investigación sospechosos de contener contenidos generados/asistidos por IA

Comas-Forgas, Ruben, Alexandros Koulouris, y Dimitris Kouis. «‘AI-Navigating’ or ‘AI-Sinking’? An Analysis of Verbs in Research Articles Titles Suspicious of Containing AI-Generated/Assisted Content.» Learned Publishing, publicado por primera vez el 1 de diciembre de 2024. https://doi.org/10.1002/leap.1647.



El estudio examina cómo la inteligencia artificial generativa (IA), como ChatGPT, puede estar influyendo en el lenguaje de los títulos de artículos académicos. Analizando 15 verbos seleccionados en títulos extraídos de SCOPUS (2015-2024), se detectó un incremento notable de ciertos términos asociados con IA. Los hallazgos sugieren que estas herramientas afectan la escritura científica, especialmente en disciplinas específicas. Se subraya la importancia de establecer estándares para el uso de IA en publicaciones académicas y se plantea la necesidad de más investigaciones para ampliar el análisis lingüístico.

Se analizaron cómo la aparición frecuente del verbo «navigating» en títulos académicos revisados en 2023 despertando sospechas sobre la influencia de herramientas de inteligencia artificial generativa (IA). Lo cual motivó una investigación que conecta los avances en modelos de lenguaje como ChatGPT con cambios en la redacción científica, particularmente en los títulos. Los resultados de la misma sugieren que la IA está transformando los métodos de escritura académica, aunque la detección de su uso sigue siendo un desafío. Los títulos, clave en la visibilidad y selección editorial, se examinan como indicadores de esta influencia emergente.

El estudio buscaba entender cómo la IA está transformando la comunicación científica, para ello se analizaron los verbos de acción en títulos de artículos científicos para identificar patrones que sugieran contenido generado o asistido por IA, especialmente ChatGPT. Sus objetivos incluyen:

  1. Identificar verbos recurrentes indicativos de IA generativa.
  2. Analizar tendencias en el uso de estos verbos durante la última década.
  3. Examinar características de documentos con títulos sospechosos.
  4. Cuantificar manuscritos asistidos por IA, estimando su impacto en la redacción académica.

La metodología del estudio se desarrolló en dos pasos principales:

  1. Identificación de verbos sospechosos: Se analizaron verbos presentes en títulos generados por ChatGPT usando resúmenes de artículos recientes en cuatro disciplinas. Esto resultó en una lista de 25 verbos potencialmente indicativos de contenido asistido por IA, basándose en aumentos significativos en su uso desde 2023 en títulos indexados en SCOPUS.
  2. Análisis bibliométrico: Se examinaron tendencias de uso y características de manuscritos con estos verbos en bases como SCOPUS y DOAJ, proyectando datos de 2024 para evaluar patrones lingüísticos relacionados con la IA.

El estudio identificó 15 verbos con un notable aumento de uso en títulos de manuscritos entre 2023 y 2024, lo que sugiere una posible influencia de herramientas de IA como ChatGPT. Verbos como revolutionizing y unleashing mostraron tasas de crecimiento anual (YoYG) superiores al 100%, mientras que otros como exploring y bridging presentaron incrementos más moderados. Estos datos, obtenidos de SCOPUS, revelan un patrón de crecimiento en el uso de términos asociados con innovación y descubrimiento, correlacionado con la creciente adopción de tecnologías de IA.

El análisis de títulos en SCOPUS mostró un aumento significativo en el uso de verbos asociados con IA, con 165.087 documentos estimados para 2024 que contienen al menos uno de los 15 verbos analizados. Este incremento es más notable en categorías como ‘Letters’ y ‘Review’, lo que sugiere una creciente dependencia de herramientas de IA para redactar comunicaciones rápidas y revisiones literarias. Además, se observó un aumento del 144.5% en el uso de IA en países no anglófonos, mientras que en los países de habla inglesa fue del 59.8%.



Para estimar el número de títulos generados o asistidos por IA, se siguieron tres pasos: calcular el crecimiento interanual (YoYG) promedio de 2016 a 2022, estimar el YoYG para 2023-2024 según esa media, y calcular la diferencia entre esta estimación y los datos reales para determinar los títulos potencialmente generados por IA. Se observó un aumento notable de títulos sospechosos de ser asistidos por IA en SCOPUS, con un total de 63.780 títulos en dos años, destacando verbos como “Enhancing” y “Exploring” en el lenguaje académico.

El uso no declarado de herramientas de inteligencia artificial (IA) generativa en la redacción de literatura científica



Glynn, Alex. “Suspected Undeclared Use of Artificial Intelligence in the Academic Literature: An Analysis of the Academ-AI Dataset.” arXiv, November 30, 2024. https://arxiv.org/abs/2411.15218.

El artículo aborda un problema creciente en el ámbito académico: el uso no declarado de herramientas de inteligencia artificial (IA) generativa en la redacción de literatura científica. Estas herramientas, como ChatGPT de OpenAI, han ganado popularidad en los últimos años, permitiendo a los investigadores utilizarlas para tareas como la generación de texto y la edición de manuscritos. Sin embargo, el uso de estas tecnologías plantea serias preocupaciones éticas cuando no se revela explícitamente en los trabajos publicados, a pesar de que las normativas de las editoriales lo exigen.

El estudio utiliza el conjunto de datos Academ-AI, diseñado para documentar ejemplos de uso sospechoso de IA en la literatura académica. Según Glynn, estos casos pueden identificarse gracias a patrones lingüísticos idiosincráticos que son característicos de los modelos de lenguaje generativo, como frases repetitivas o construcciones poco naturales que no encajan con el estilo habitual de los autores. De los primeros 500 casos analizados, el autor concluye que el uso no declarado de IA está ampliamente extendido, incluso en revistas científicas de prestigio y congresos relevantes. Sorprendentemente, estas prácticas se detectaron con mayor frecuencia en publicaciones con altos índices de citación y elevados costos de procesamiento de artículos (Article Processing Charges, APCs), lo que sugiere que incluso las editoriales con mayores recursos no están logrando prevenir este tipo de irregularidades.

Uno de los problemas más graves que destaca el análisis es la limitada capacidad de detección y corrección de estas irregularidades. Glynn señala que, aunque en algunos casos se han identificado textos sospechosos, las correcciones post-publicación son extremadamente escasas y, en la mayoría de las ocasiones, insuficientes para solucionar el problema de fondo. Esto deja en evidencia la falta de un sistema robusto que permita identificar y rectificar el uso indebido de IA en la etapa de revisión o tras la publicación.

Además, el autor subraya que muchos casos de uso no declarado de IA probablemente sean indetectables. Esto se debe a la creciente sofisticación de las herramientas de IA generativa, que permiten a los usuarios generar contenido que resulta más difícil de distinguir del texto escrito por humanos. Este fenómeno plantea un desafío significativo para las editoriales académicas, que deben encontrar formas de garantizar la transparencia sin depender exclusivamente de sistemas automatizados de detección.

El uso no declarado de IA en la literatura académica tiene profundas implicaciones para la ética y la integridad científica. Glynn advierte que estas prácticas no solo comprometen la credibilidad de los artículos afectados, sino que también amenazan la confianza en el sistema de publicación académica en su conjunto. El hecho de que los casos detectados sean más frecuentes en publicaciones de alto impacto amplifica la gravedad del problema, ya que estos trabajos suelen ser citados más ampliamente y, por lo tanto, tienen un impacto desproporcionado en la comunidad científica.

El estudio también pone de relieve las desigualdades que podrían surgir de esta situación. Mientras que algunos investigadores y editoriales tienen acceso a herramientas y recursos avanzados para verificar la autenticidad de los textos, otros carecen de estas capacidades, lo que podría generar un terreno desigual en la producción y evaluación de conocimiento académico.

Para mitigar este fenómeno, Glynn enfatiza la necesidad de que las editoriales refuercen sus políticas contra el uso no declarado de IA, especialmente en los casos que sean detectables. Esto implica no solo mejorar los procesos de revisión para identificar patrones sospechosos, sino también implementar sanciones claras y medidas correctivas efectivas. El autor sugiere que la transparencia y la rendición de cuentas deben convertirse en pilares fundamentales del proceso de publicación académica en la era digital.

En última instancia, el artículo concluye que abordar este problema de manera proactiva es esencial para preservar la calidad y la credibilidad de la literatura científica. En un contexto donde la inteligencia artificial desempeña un papel cada vez más importante, la comunidad académica debe establecer normas claras y efectivas para garantizar que el uso de estas herramientas sea transparente y ético. Esto no solo protegerá la integridad de las publicaciones científicas, sino que también fomentará un entorno de investigación más equitativo y confiable.

El valor de los datos para la toma de decisiones. Paloma Marín Arraiza

.

PALOMA MARÍN ARRAIZA. El valor de los datos para la toma de decisiones

VER VIDEO

VER PRESENTACIÓN


Paloma Marín Arraiza, en su comunicación en línea a través de ORCID Open Researcher and Contributor ID, analiza el valor de los datos en la toma de decisiones. Destaca cómo el acceso y análisis de datos precisos y relevantes son fundamentales para fundamentar decisiones informadas en diversos campos, desde la investigación hasta la gestión pública y empresarial. Marín Arraiza subraya que la correcta interpretación y uso de los datos no solo mejora la efectividad de las decisiones, sino que también permite optimizar recursos y prever resultados con mayor precisión.

Sobre Paloma: 

Paloma Marín-Arraiza es licenciada en Física y máster en Información y Comunicación Científica, ambos por la Universidad de Granada (España). Obtuvo su doctorado en Ciencias de la Información en la Universidad Estatal de São Paulo (Brasil), con una tesis centrada en el modelado de datos para publicaciones mejoradas. Antes de unirse a ORCID, trabajó en bibliotecas de investigación en Alemania (TIB Hannover) y Austria (Biblioteca universitaria de la TU Wien), ocupándose de productos de investigación no textuales e identificadores persistentes, respectivamente. Desde marzo de 2020, forma parte del equipo de ORCID, donde actualmente es Directora Asociada de Engagement. Aparte de eso, es profesora invitada en cursos de Gestión de Datos de Investigación y Data Stewardship en España y Austria, y es miembro del consejo editorial y del comité de revisores de cuatro revistas diamante de acceso abierto en el campo de las ciencias de la información.

DeSci Connect de La Biblioteca Digital Max Planck (MPDL) fomenta el intercambio de datos de manera segura, transparente y responsable



Kleinfercher, Friederike. «MPDL Launches the Max Planck Decentralized Science Initiative: DeSci Connect.» Max Planck Digital Library, November 2024. https://www.mpdl.mpg.de/en/about-us/news/13-nachrichten/1025-mpdl-launches-the-max-planck-decentralized-science-initiative-desci-connect-2.html.

La Biblioteca Digital Max Planck (MPDL) ha lanzado la Iniciativa de Ciencia Descentralizada Max Planck, “DeSci Connect”. Esta iniciativa busca transformar la colaboración científica al adoptar principios de apertura, transparencia y democratización. A través de la integración de tecnologías Web3, DeSci Connect fomenta el intercambio de datos de manera segura, transparente y responsable, abriendo nuevos caminos para el descubrimiento científico.

El objetivo de la iniciativa es participar activamente en el movimiento internacional de DeSci, comprender su impacto en la comunidad científica y orientar su evolución. También proporcionará asesoramiento estratégico a la gestión de la Sociedad Max Planck y a los investigadores, destacando nuevas herramientas y metodologías DeSci que puedan mejorar los resultados científicos. DeSci Connect busca integrar estos enfoques innovadores para empoderar a los investigadores, promoviendo la transparencia, colaboración y eficiencia en su trabajo.

La iniciativa también impulsa modelos Web3 para la financiación y evaluación de la investigación, permitiendo que los científicos reciban apoyo directo de la comunidad y favoreciendo una investigación sostenible respaldada por ella. Con DeSci Connect, la Sociedad Max Planck se posiciona como una de las primeras organizaciones tradicionales de investigación en liderar la entrada estratégica en el campo de la ciencia descentralizada.

Gestión de publicaciones retractadas por parte de diferentes bases de datos

Salami, Malik Oyewale, Corinne McCumber, y Jodi Schneider. 2024. «Analyzing the Consistency of Retraction Indexing». OSF. https://doi.org/10.31222/osf.io/gvfk5.

El artículo aborda un problema crítico en el ámbito académico: la inconsistencia en la identificación y el manejo de publicaciones retractadas por parte de diferentes bases de datos. Se analiza cómo estas bases gestionan las retractaciones, evaluando la calidad de su indexación.

El propósito central es investigar por qué las publicaciones retractadas siguen siendo citadas incluso después de que se retiran oficialmente. Esto puede atribuirse, en parte, a las dificultades que enfrentan autores y editores para identificar sistemáticamente estas publicaciones en diferentes bases de datos académicas. Los investigadores buscan comprender el nivel de acuerdo entre estas bases de datos y señalar los errores más comunes en la indexación.

Para llevar a cabo el estudio se evaluaron 11 bases de datos científicas relevantes, utilizando una lista unificada de 85.392 publicaciones únicas retractadas como referencia. Se analizaron las publicaciones que cada base incluía, aquellas que identificaban como retractadas y las que no eran reconocidas en absoluto. Y finalmente se midió la concordancia entre las bases de datos en cuanto a la identificación de publicaciones retractadas.

Hallazgos principales:

  • Baja consistencia entre bases de datos: Los resultados muestran que las bases de datos tienen una baja concordancia en la indexación de publicaciones retractadas, incluso cuando cubren los mismos documentos. Esto genera discrepancias significativas sobre qué trabajos se identifican oficialmente como retractados.
  • Errores en la indexación: Se encontraron problemas recurrentes en cómo se manejan las retractaciones, tales como: Las publicaciones retractadas que no son marcadas adecuadamente en ciertas bases. Inconsistencias en el etiquetado de retractaciones entre diferentes plataformas.
  • Impacto en las citas posteriores a la retractación: Debido a estas inconsistencias, muchos trabajos retractados siguen siendo citados por error, lo que perpetúa información incorrecta y afecta la credibilidad de futuras investigaciones.

El estudio destaca varias implicaciones importantes para la comunidad académica debido a la falta de estándares claros en la gestión de publicaciones retractadas.

  • Primero, hay una confusión para los investigadores. Los autores pueden no estar al tanto de que una publicación ha sido retractada si buscan referencias en bases de datos que no la han actualizado adecuadamente. Esto puede llevar a la cita de trabajos que ya no son válidos, lo que afecta la calidad de la investigación.
  • En segundo lugar, hay un impacto en la calidad científica. Las citas erróneas de publicaciones retractadas pueden disminuir la precisión de nuevos estudios. Si otros investigadores basan su trabajo en artículos retractados, esto puede afectar la fiabilidad de sus propios resultados, lo que reduce la confianza en la ciencia.

El estudio también presenta varias recomendaciones para mejorar la situación. Una de las principales sugerencias es crear directrices claras sobre cómo las bases de datos deben manejar las publicaciones retractadas. Además, se debe mejorar la coordinación entre las plataformas para asegurarse de que todas las bases de datos identifiquen correctamente los trabajos retractados. Finalmente, se recomienda implementar mejores sistemas de notificación para alertar a los investigadores cuando un artículo haya sido retractado, asegurando que todos estén informados y puedan evitar usar referencias incorrectas.

El análisis pone de manifiesto un desafío crítico en el sistema académico global: la inconsistencia en el manejo de las retractaciones. Resolver este problema es fundamental para mejorar la transparencia y la confiabilidad de la investigación científica

Enfoque innovador para evaluar la calidad de las revistas académicas utilizando inteligencia artificial

Thelwall, Mike, y Kayvan Kousha. 2024. «Journal Quality Factors from ChatGPT: More meaningful than Impact Factors?» arXiv. https://doi.org/10.48550/arXiv.2411.09984.

Este estudio representa el primer intento de utilizar un modelo de lenguaje avanzado como ChatGPT para evaluar la calidad de las revistas académicas. Aunque no busca reemplazar las métricas tradicionales, aporta una dimensión adicional que podría transformar la manera en que se mide la calidad en el ámbito académico, destacando el potencial de la inteligencia artificial en la investigación.

Un reciente artículo publicado en arXiv propone un enfoque innovador para evaluar la calidad de las revistas académicas utilizando inteligencia artificial, específicamente a través de ChatGPT. El estudio, titulado «Journal Quality Factors From ChatGPT: More Meaningful Than Impact Factors?», fue realizado por Mike Thelwall (Universidad de Sheffield) y Kayvan Kousha (Universidad de Wolverhampton). Este trabajo plantea una alternativa a las métricas tradicionales como el Journal Impact Factor (JIF), centrándose en aspectos más amplios de la calidad académica.

Journal Impact Factor, ampliamente utilizado para medir el impacto académico, se basa principalmente en la cantidad de citas recibidas. Sin embargo, esta métrica no evalúa otros aspectos clave, como el impacto social, la originalidad de los artículos o el rigor metodológico. Para abordar esta limitación, los investigadores definieron el Journal Quality Factors (JQFs), como puntuaciones promedio asignadas por ChatGPT para valorar los artículos de una revista considerando una perspectiva más holística.

El análisis incluyó 1.300 revistas que publicaron 130.000 artículos en 2021, cubriendo 25 de los 27 campos principales de investigación definidos por Scopus. El JQF fue comparados con clasificaciones nacionales de revistas de Polonia, Noruega y Finlandia, así como con las tasas de citación de las publicaciones. Además, se examinaron casos atípicos en los que Factor de Impacto no coincidían con las clasificaciones tradicionales, para explorar posibles sesgos o influencias externas.

Principales hallazgos

Correlación con clasificaciones existentes: El JQFs mostraron una correlación positiva y sólida (mediana de 0.641) con los rankings nacionales de revistas en 24 de los 25 campos analizados. Esto sugiere que ChatGPT puede estimar la calidad de las revistas de manera consistente en la mayoría de las disciplinas.

Comparación con las tasas de citación: Las tasas de citación también mostraron correlaciones altas con los rankings nacionales, lo que indica que los JQFs no son necesariamente superiores, pero ofrecen una alternativa igualmente válida.

Influencia del estilo de los resúmenes: Los investigadores encontraron que ciertos estilos de redacción, como la mención de contextos sociales en los resúmenes, pueden influir en las puntuaciones del JQF, destacando la sensibilidad del modelo a los matices de presentación.

El artículo reconoce que los resultados podrían variar si se usaran diferentes sistemas de clasificación, ya que no existe un consenso universal sobre qué define la calidad de una revista. Además, los JQFs, aunque prometedores, no deben reemplazar a las métricas tradicionales en todos los contextos, ya que su utilidad depende del propósito específico de la evaluación.

ChatGPT para tareas complejas de evaluación de textos

Thelwall, M. (2024). ChatGPT for complex text evaluation tasksJournal of the Association for Information Science and Technology, 1–4. https://doi.org/10.1002/asi.24966

ChatGPT y otros modelos de lenguaje a gran escala (LLMs) han demostrado ser efectivos en tareas de procesamiento de lenguaje natural y computacional con diversos niveles de complejidad. Este documento resume las lecciones aprendidas de una serie de investigaciones sobre su uso en la evaluación de calidad de investigaciones, una tarea compleja de análisis de textos.

En términos generales, ChatGPT destaca por su capacidad para comprender y ejecutar tareas complejas de procesamiento de textos, produciendo respuestas plausibles con un mínimo de intervención por parte del investigador. Sin embargo, los resultados deben ser evaluados sistemáticamente, ya que pueden ser engañosos. A diferencia de las tareas simples, los resultados en tareas complejas son muy variables, y se pueden obtener mejores resultados repitiendo los comandos en sesiones diferentes y promediando las respuestas obtenidas. Modificar los parámetros de configuración de ChatGPT respecto a sus valores predeterminados no parece ser útil, excepto en lo relacionado con la extensión del texto solicitado en las respuestas.

Capacidad de Procesamiento Complejo: ChatGPT es muy hábil para realizar tareas de análisis textual complejo, generando respuestas plausibles con instrucciones detalladas. Sin embargo, sus resultados no siempre son precisos y requieren validación sistemática.

Variabilidad en Tareas Complejas: A diferencia de tareas simples (como análisis de sentimiento), los resultados en evaluaciones complejas varían significativamente. Mejores resultados se obtienen al repetir los comandos múltiples veces y promediando las respuestas.

Configuración del Modelo: Cambiar parámetros predeterminados no suele mejorar los resultados, salvo ajustes en la longitud de la salida. Modelos más avanzados (como GPT-4o frente a 4o-mini) ofrecen mejor desempeño, pero versiones económicas pueden ser una opción práctica.

Estructura de las Instrucciones: Instrucciones complejas y detalladas, adaptadas del formato usado por evaluadores humanos, producen mejores resultados. Sin embargo, instrucciones más breves y simplificadas tienden a disminuir la precisión.

Evaluación y Limitaciones: ChatGPT puede producir salidas plausibles, pero estas no siempre reflejan una evaluación significativa. Por ejemplo, al evaluar artículos basándose en títulos y resúmenes en lugar del texto completo, ChatGPT ofrece mejores resultados, probablemente debido a la concisión de la información.

Uso de Información Condensada: Aunque puede manejar textos extensos, ChatGPT parece ser más efectivo al trabajar con entradas resumidas, como títulos y resúmenes, en lugar de textos completos, evitando sobrecarga de información irrelevante.

Financiación y Costos: Realizar evaluaciones sistemáticas con múltiples iteraciones implica altos costos en el uso de la API. Por ello, las versiones más económicas de los modelos, aunque menos precisas, pueden ser adecuadas para ciertos proyectos.

Fine-Tuning: La personalización del modelo mediante fine-tuning es efectiva en tareas simples, pero no parece prometedora para evaluaciones complejas debido a la diversidad de salidas posibles y la falta de patrones consistentes en evaluaciones humanas.

Como conclusión puede decirse que ChatGPT muestra un gran potencial en la evaluación académica, pero sus limitaciones subrayan la necesidad de realizar validaciones exhaustivas. Los investigadores deben considerar enfoques sistemáticos, como repetir comandos y ajustar configuraciones, para optimizar resultados. Aunque aún quedan cuestiones abiertas, como el papel del fine-tuning en estas tareas, los resultados sugieren que LLMs pueden complementar, pero no reemplazar, las evaluaciones humanas en tareas complejas.

Clarivate retira el Índice de Impacto a la revista eLife debido a su nuevo modelo de publicación

«Web of Science Index Plans to End eLife’s Journal Impact Factor». Accedido 14 de noviembre de 2024. https://www.science.org/content/article/web-science-index-plans-end-elife-s-journal-impact-factor.

Clarivate anunció que el journal eLife dejará de recibir el índice de impacto, una métrica controvertida considerada por muchos como un indicador de calidad. La razón detrás de esta decisión es que el modelo de publicación adoptado por eLife en enero de 2023 no cumple con los estándares de revisión por pares establecidos por Clarivate. Este modelo incluye una revisión por pares pública, pero no una decisión final sobre si un manuscrito es aceptado o rechazado.

El fundador de eLife, Randy Schekman, expresó su preocupación de que la eliminación del índice de impacto podría afectar negativamente la viabilidad financiera de la revista, ya que el índice de impacto influye en el número de envíos. eLife cobra 2500$ por cada manuscrito que revisa, lo que constituye una fuente clave de ingresos. Sin embargo, el director ejecutivo de eLife, Damian Pattinson, ha defendido el modelo, argumentando que la decisión de Clarivate es un exceso y que el índice de impacto es una métrica corrosiva que nunca han apoyado.

Clarivate ha explicado que su decisión se basa en la falta de una validación clara por parte de la revisión por pares, dado que eLife publica todos los manuscritos que envía para revisión, sin importar si los comentarios de los revisores son positivos o negativos. Los artículos se publican con las revisiones adjuntas, lo que genera controversia sobre la calidad de la revisión.

El modelo de eLife ha sido apoyado por el Instituto Médico Howard Hughes (HHMI), que considera que este enfoque más transparente de la revisión por pares favorece la innovación en la publicación. No obstante, la decisión de Clarivate podría alimentar el debate sobre las debilidades y fortalezas del modelo de publicación de eLife. Críticos como Schekman argumentan que el nuevo modelo ha producido resultados negativos, incluidos casos de artículos subóptimos publicados por la revista.

A pesar de la pérdida del índice de impacto, eLife ha mantenido que su modelo, basado en la transparencia y la participación de los lectores en la evaluación de los trabajos, es beneficioso para la ciencia. Sin embargo, la controversia sigue abierta, ya que algunos consideran que la ausencia de una decisión final por parte de los editores puede dificultar la evaluación adecuada de los artículos.

¿Puede la inteligencia artificial revisar la literatura científica y descifrar su significado?

Pearson, Helen. «Can AI Review the Scientific Literature — and Figure out What It All Means?» Nature 635, n.o 8038 (13 de noviembre de 2024): 276-78. https://doi.org/10.1038/d41586-024-03676-9.


La inteligencia artificial (IA) está revolucionando la revisión de la literatura científica al ofrecer herramientas que pueden resumir grandes volúmenes de información de manera rápida. Sin embargo, esta innovación plantea tanto beneficios como riesgos.

La IA en la ciencia no es un tema nuevo. Los investigadores han utilizado herramientas de software durante décadas para buscar y analizar la literatura científica. Sin embargo, los recientes modelos de lenguaje de gran escala (LLM), como ChatGPT, han generado entusiasmo por la automatización de la síntesis de información. Estos modelos no solo encuentran y resumen artículos, sino que ahora pueden, en teoría, generar revisiones narrativas de literatura científica, aunque todavía no alcanzan el nivel de rigor de las revisiones sistemáticas.

Este campo está en auge debido a la dificultad de los investigadores para mantenerse al día con la creciente cantidad de publicaciones científicas. Tal es el caso de Sam Rodriques, quien, junto a su equipo de la startup FutureHouse, ha creado un sistema de IA llamado PaperQA2, diseñado para sintetizar información científica. Con él, lograron producir artículos sobre 17.000 genes humanos, muchos de los cuales carecían de una página en Wikipedia.

Los motores de búsqueda de IA en ciencia

Algunos motores de búsqueda con IA, como Consensus y Elicit, se han diseñado específicamente para facilitar la revisión de literatura académica. Estos motores primero realizan una búsqueda en bases de datos científicas como Semantic Scholar y PubMed, y luego utilizan un LLM para resumir los estudios encontrados y generar respuestas sintetizadas. El usuario puede ver referencias y filtros para ajustar los resultados. Estas herramientas pueden hacer que el proceso de revisión y redacción sea más eficiente al encargarse de las tareas más laboriosas, aunque la calidad de sus resúmenes no es comparable aún a la de una revisión realizada por expertos.

Desafíos y limitaciones

Los expertos advierten que pedirle a una IA como ChatGPT que redacte revisiones completas desde cero sería poco fiable. Los LLM entrenan con grandes volúmenes de texto y generan respuestas basadas en probabilidad, sin evaluar la credibilidad de las fuentes. Esto significa que pueden combinar información académica válida con fuentes menos confiables, sin dar prioridad a la literatura de mayor calidad. Además, pueden generar errores o «alucinaciones», es decir, referencias o afirmaciones inexistentes.

Para evitar estos problemas, algunos investigadores emplean un método llamado “generación aumentada por recuperación”, que consiste en cargar en el modelo únicamente artículos seleccionados previamente. Esta técnica reduce los errores, pero no los elimina por completo.

Revisión sistemática y el papel de la IA

Mientras las revisiones narrativas son confiables, la revisión sistemática presenta mayores obstáculos. Este tipo de revisión requiere pasos estrictos, como búsqueda exhaustiva, evaluación de la calidad de los estudios, síntesis de datos y, a menudo, un meta-análisis. Cada paso es revisado por al menos dos investigadores para garantizar precisión y transparencia. En 2019, un equipo de investigadores, incluido Paul Glasziou, estableció un récord al completar una revisión sistemática en solo dos semanas, empleando herramientas como RobotSearch y RobotReviewer, que usan IA para identificar estudios y evaluar riesgos de sesgo. Sin embargo, aunque estas herramientas reducen el tiempo de revisión, la IA aún no puede completar una revisión sistemática de forma autónoma.

Elicit y otros sistemas afirman ayudar en la revisión sistemática, pero no la automatizan completamente. En su lugar, permiten a los investigadores acelerar pasos específicos, como la clasificación de artículos y la extracción de datos, mientras que otros procesos siguen dependiendo del juicio humano. La limitación de estos sistemas es que solo pueden buscar en artículos de acceso abierto y abstracts, dejando fuera gran parte de la literatura científica, que suele estar bajo pago.

Riesgos y futuro de la IA en revisiones científicas

Aunque la IA puede ayudar a mejorar la velocidad y eficiencia de las revisiones, también podría dar lugar a revisiones menos rigurosas y de menor calidad. La tentación de utilizar herramientas de IA para realizar revisiones rápidamente podría resultar en artículos poco precisos, contaminando la literatura científica. Sin embargo, hay quienes creen que la IA también podría elevar los estándares en la revisión de literatura al hacer que más científicos consulten la literatura existente antes de lanzar nuevos estudios.

Algunos expertos sugieren que el desarrollo de herramientas de IA para la ciencia debería estar en manos de organizaciones sin fines de lucro que promuevan la transparencia y la evaluación rigurosa. Recientemente, en el Reino Unido se ha anunciado una inversión significativa en herramientas de síntesis de evidencia, lo que refleja el creciente interés en abordar estos desafíos. La clave para el futuro parece estar en equilibrar la eficiencia que la IA puede aportar con la necesidad de mantener estándares rigurosos en la investigación científica.

Informe de la Conferencia de París sobre Información Abierta para la Investigación

Information, Barcelona Declaration on Open Research. «Report of the Paris Conference on  Open Research Information». Zenodo, 8 de noviembre de 2024. https://doi.org/10.5281/zenodo.14054244.

Texto completo

Report of the Paris Conference on Open Research Information, describe los resultados de una conferencia celebrada en septiembre de 2024 en la Universidad de la Sorbona en París, donde se discutieron los próximos pasos para avanzar en la agenda de la Declaración de Barcelona sobre Información de Investigación Abierta. Durante el evento, que fue híbrido (presencial y en línea), participaron alrededor de 140 personas que compartieron avances y desafíos en la producción, gestión y uso de información de investigación abierta, y colaboraron en la elaboración de un plan de acción para los próximos años.

El primer día estuvo centrado en el intercambio de experiencias, mientras que el segundo se enfocó en la formulación de acciones concretas. En total, se presentaron 21 charlas, abarcando temas como las políticas universitarias y su implementación práctica, el papel de los financiadores y las organizaciones gubernamentales, las colaboraciones internacionales y las infraestructuras necesarias para respaldar la investigación abierta.

Entre las acciones prioritarias destacaron:

  1. Metadatos de artículos de revistas: Mejora en la estructuración y el intercambio de datos relacionados con los artículos de investigación.
  2. Metadatos de salidas de investigación en repositorios institucionales: Incluyendo preprints y repositorios de datos.
  3. Metadatos sobre la financiación: Establecer sistemas claros y abiertos para seguir el rastro del financiamiento de investigaciones.
  4. Sustitución de sistemas cerrados: Migrar de plataformas privadas a sistemas abiertos para gestionar la información de la investigación.
  5. Sostenibilidad de infraestructuras: Asegurar que las infraestructuras que soportan la investigación abierta sean viables a largo plazo.
  6. Evaluación de los datos abiertos: Crear marcos para medir los beneficios de los datos abiertos en la investigación.

Al final de la conferencia, se implementó un marco de teoría del cambio para clasificar las acciones en cuatro categorías: recolección de información, marcos y análisis, principios y directrices, y implementación y monitoreo. Esto permitirá construir una hoja de ruta concreta para coordinar las actividades de los próximos años.

Las organizaciones están invitadas a participar en los grupos de trabajo que llevarán adelante estas acciones a partir de 2025, con un enfoque en la colaboración y la coordinación global para fortalecer la investigación abierta. Se ha solicitado a las organizaciones interesadas que se inscriban antes del 30 de noviembre de 2024.