
Lehr, Steven A., Aylin Caliskan, Suneragiri Liyanage, y Mahzarin R. Banajii. «ChatGPT as Research Scientist: Probing GPT’s Capabilities as a Research Librarian, Research Ethicist, Data Generator, and Data Predictor.» Proceedings of the National Academy of Sciences 121, no. 35 (2024): e2404328121. https://doi.org/10.1073/pnas.2404328121
¿Hasta qué punto es ChatGPT un buen investigador científico? Se probó sistemáticamente las capacidades de GPT-3.5 y GPT-4 en cuatro componentes centrales del proceso científico: como bibliotecario de investigación, ético de investigación, generador de datos y predictor de datos novedosos, utilizando la ciencia psicológica como campo de pruebas.
En el Estudio 1 (Bibliotecario de Investigación), a diferencia de los investigadores humanos, GPT-3.5 y GPT-4 alucinaron, generando autoritariamente referencias ficticias el 36,0% y el 5,4% de las veces, respectivamente, aunque GPT-4 mostró una capacidad evolutiva para reconocer sus ficciones.
En el Estudio 2 (Ética de la investigación), GPT-4 (aunque no GPT-3.5) demostró ser capaz de detectar infracciones como el p-hacking en protocolos de investigación ficticios, corrigiendo el 88,6% de los problemas presentados de forma flagrante y el 72,6% de los presentados de forma sutil.
En el Estudio 3 (Generador de datos), ambos modelos reprodujeron sistemáticamente patrones de sesgo cultural descubiertos previamente en grandes corpus lingüísticos, lo que indica que ChatGPT puede simular resultados conocidos, un antecedente de utilidad tanto para la generación de datos como para habilidades como la generación de hipótesis.
Por el contrario, en el Estudio 4 (Predictor de datos novedosos), ninguno de los modelos logró predecir resultados nuevos ausentes en sus datos de entrenamiento, y ninguno pareció aprovechar información sustancialmente nueva a la hora de predecir resultados más o menos novedosos.
En conjunto, estos resultados sugieren que GPT es un bibliotecario defectuoso pero en rápida mejora, un ético de la investigación ya decente, capaz de generar datos en dominios simples con características conocidas, pero deficiente en la predicción de nuevos patrones de datos empíricos para ayudar en futuras experimentaciones.