ChatGPT es la última creación de la familia GPT de sistemas de IA para generación de texto, un proyecto de la fundación OpenAI.

Los grandes modelos lingüísticos, como ChatGPT, pueden producir textos cada vez más realistas, pero se desconoce la precisión y la integridad del uso de estos modelos en la escritura científica. Se recopilaron diez resúmenes de investigación de cinco revistas médicas de alto factor de impacto (n=50) y se generaronresúmenes de investigación basados en sus títulos y revistas con ChatGPT. Se evaluaron los resúmenes utilizando un detector de resultados de inteligencia artificial (IA), un detector de plagio, y se hizo que revisores humanos intentaran distinguir si los resúmenes eran originales o generados. Todos los resúmenes generados por ChatGPT estaban escritos con claridad, pero sólo el 8% seguía correctamente los requisitos de formato de la revista específica. La mayoría de los resúmenes generados se detectaron mediante el detector de salida de IA, con puntuaciones (más alta significa más probabilidad de ser generado) de mediana [rango intercuartílico] de 99,98% [12,73, 99,98] en comparación con una probabilidad muy baja de salida generada por IA en los resúmenes originales de 0,02% [0,02, 0,09]. El AUROC del detector de resultados de IA fue de 0,94. Los resúmenes generados obtuvieron una puntuación muy alta en originalidad utilizando el detector de plagio (100% [100, 100] de originalidad). Los resúmenes generados tenían un tamaño de cohorte de pacientes similar al de los resúmenes originales, aunque los números exactos eran inventados. Cuando se les dio una mezcla de resúmenes originales y generales, los revisores humanos identificaron correctamente el 68% de los resúmenes generados como generados por ChatGPT, pero identificaron incorrectamente el 14% de los resúmenes originales como generados. Los revisores indicaron que era sorprendentemente difícil diferenciar entre los dos, pero que los resúmenes generados eran más vagos y tenían una redacción formulista.