Artículos científicos fabricados con GPT en Google Scholar: características principales, difusión e implicaciones

Harvard Kennedy School Misinformation Review. “GPT-Fabricated Scientific Papers on Google Scholar: Key Features, Spread, and Implications for Preempting Evidence Manipulation.” Harvard Kennedy School Misinformation Review. Última modificación enero 24, 2025. https://misinforeview.hks.harvard.edu/article/gpt-fabricated-scientific-papers-on-google-scholar-key-features-spread-and-implications-for-preempting-evidence-manipulation/.

La investigación aborda el creciente fenómeno de publicaciones académicas creadas total o parcialmente mediante herramientas de IA generativa, como ChatGPT. Estos documentos, muchas veces fraudulentas, se encuentran fácilmente en Google Scholar, junto a investigaciones legítimas.

Se recuperó, descargó y analizó una muestra de artículos científicos con indicios de uso de GPT encontrados en Google Scholar mediante una combinación de codificación cualitativa y estadísticas descriptivas. Todos los artículos contenían al menos una de dos frases comunes generadas por agentes conversacionales que utilizan modelos de lenguaje extensos (LLM), como ChatGPT de OpenAI. Luego, se utilizó la búsqueda en Google para determinar en qué medida las copias de estos artículos cuestionables, fabricados con GPT, estaban disponibles en diversos repositorios, archivos, bases de datos de citas y plataformas de redes sociales.

Aproximadamente dos tercios de los artículos recuperados fueron producidos, al menos en parte, mediante el uso no declarado y potencialmente engañoso de GPT. La mayoría (57 %) de estos artículos cuestionables trataban temas relevantes para políticas (es decir, medio ambiente, salud, informática), que son susceptibles a operaciones de influencia. La mayoría estaban disponibles en varias copias en diferentes dominios (por ejemplo, redes sociales, archivos y repositorios).

De un análisis de 139 artículos, la mayoría (89) se encontraba en revistas no indexadas, mientras que 19 estaban en revistas indexadas. Además, varios se habían replicado en redes sociales, repositorios y otras plataformas, dificultando su control o eliminación. La mayoría de los artículos trataban temas sensibles y de relevancia política, como medio ambiente (19,5%), salud (14,5%) y computación (23%). Esto los hace propensos a ser utilizados en campañas de desinformación o manipulación de la opinión pública.

Algunos de los riesgos principales es que el aumento de estos artículos amenaza con saturar el sistema de comunicación académica y erosionar la confianza en el conocimiento científico y la manipulación malintencionada, ya que se trata de un fenómeno denominado evidence hacking, en el que estas publicaciones se emplean para socavar consensos científicos o respaldar narrativas engañosas en temas controvertidos.

El artículo propone implementar filtros más rigurosos en buscadores académicos, como Google Scholar, para identificar y excluir artículos no revisados por pares o de origen cuestionable. Además, sugiere crear motores de búsqueda académicos de acceso público y no comerciales, así como promover la alfabetización mediática entre los actores clave, como periodistas y legisladores.

Estos hallazgos subrayan que el fenómeno de publicaciones científicas fabricadas por GPT plantea un riesgo significativo para la confianza en la ciencia y requiere atención inmediata para mitigar sus efectos.