Las herramientas de detección de texto mediante inteligencia artificial son muy fáciles de engañar

Weber-Wulff, Debora, Alla Anohina-Naumeca, Sonja Bjelobaba, Tomáš Foltýnek, Jean Guerrero-Dib, Olumide Popoola, Petr Šigut, y Lorna Waddington. «Testing of Detection Tools for AI-Generated Text». arXiv, 21 de junio de 2023. https://doi.org/10.48550/arXiv.2306.15666.

Después de semanas después del lanzamiento de ChatGPT, surgieron temores de que los estudiantes utilizaran el chatbot para generar ensayos aceptables en cuestión de segundos. En respuesta a estos temores, las startups comenzaron a desarrollar productos que prometían detectar si un texto había sido escrito por un humano o por una máquina.

El problema es que, según una nueva investigación que aún no ha sido revisada por pares, es relativamente fácil engañar estas herramientas y evitar su detección. Debora Weber-Wulff, profesora de medios y computación en la Universidad de Ciencias Aplicadas, HTW Berlin, trabajó con un grupo de investigadores de diversas universidades para evaluar la capacidad de 14 herramientas, incluyendo Turnitin, GPT Zero y Compilatio, para detectar textos escritos por ChatGPT de OpenAI.

La mayoría de estas herramientas funcionan buscando características distintivas de textos generados por IA, como la repetición, y luego calculando la probabilidad de que el texto haya sido generado por una IA. Sin embargo, el equipo descubrió que todas las herramientas probadas tenían dificultades para detectar textos generados por ChatGPT que habían sido ligeramente reorganizados por humanos y ocultados por una herramienta de parafraseo, lo que sugiere que todo lo que los estudiantes necesitan hacer es adaptar ligeramente los ensayos generados por la IA para evadir los detectores.

Los investigadores evaluaron las herramientas escribiendo ensayos cortos de nivel universitario sobre una variedad de temas, que incluían ingeniería civil, ciencias de la computación, economía, historia, lingüística y literatura. Los ensayos fueron escritos por los propios investigadores para asegurarse de que el texto no estuviera ya en línea, lo que significaría que podría haber sido utilizado para entrenar a ChatGPT. Luego, cada investigador escribió un texto adicional en bosnio, checo, alemán, letón, eslovaco, español o sueco. Esos textos se pasaron por la herramienta de traducción de IA DeepL o Google Translate para traducirlos al inglés.

El equipo luego utilizó ChatGPT para generar otros dos textos cada uno, que modificaron ligeramente en un intento de ocultar que habían sido generados por IA. Un conjunto fue editado manualmente por los investigadores, que reorganizaron las oraciones e intercambiaron palabras, mientras que otro fue reescrito utilizando una herramienta de parafraseo de IA llamada Quillbot. Al final, tenían 54 documentos para probar las herramientas de detección.

Descubrieron que si bien las herramientas eran buenas para identificar textos escritos por humanos (con una precisión promedio del 96%), tenían un desempeño más deficiente cuando se trataba de detectar textos generados por IA, especialmente cuando habían sido editados. Aunque las herramientas identificaron textos generados por ChatGPT con un 74% de precisión, esta cifra disminuyó al 42% cuando el texto generado por ChatGPT había sido ligeramente modificado.

Compilatio, que fabrica una de las herramientas probadas por los investigadores, señala que es importante recordar que su sistema solo indica pasajes sospechosos, que clasifica como posible plagio o contenido potencialmente generado por IA.