Evaluación de la eficacia de las herramientas de detección de contenido generado por IA

Elkhatat, Ahmed M., Khaled Elsaid y Saeed Almeer. «Evaluating the efficacy of AI content detection tools in differentiating between human and AI-generated text.» International Journal for Educational Integrity 19, artículo 17 (2023). https://doi.org/10.1007/s40979-023-00140-5.

Se evalúa la eficacia de diversas herramientas de detección de contenido generado por inteligencia artificial (IA), como OpenAI, Writer, Copyleaks, GPTZero y CrossPlag, para diferenciar entre textos escritos por humanos y generados por IA.

Para la investigación, se generaron 15 párrafos con el modelo ChatGPT 3.5, 15 con el modelo 4 y 5 respuestas de control escritas por humanos, todas sobre el tema de torres de enfriamiento en procesos de ingeniería. Las herramientas evaluadas incluyeron OpenAI, Writer, Copyleaks, GPTZero y CrossPlag.

Los resultados indicaron que las herramientas de detección fueron más precisas al identificar contenido generado por GPT-3.5 que por GPT-4. Sin embargo, al aplicarlas a las respuestas de control escritas por humanos, las herramientas mostraron inconsistencias, produciendo falsos positivos y clasificaciones inciertas. Estos hallazgos subrayan la necesidad de desarrollar y perfeccionar las herramientas de detección de contenido generado por IA, ya que el contenido generado por IA se vuelve más sofisticado y difícil de distinguir del texto escrito por humanos.

Aunque las herramientas de detección de IA ofrecen una funcionalidad valiosa, su fiabilidad y precisión actuales son limitadas. Es crucial abordar estos desafíos para garantizar una evaluación justa y precisa en diversos contextos académicos y profesionales.