Editores, ¡no utilicen herramientas de detección de IA!

Staiman, Avi. «Publishers, Don’t Use AI Detection Tools!» The Scholarly Kitchen, 14 de septiembre de 2023. https://scholarlykitchen.sspnet.org/2023/09/14/publishers-dont-use-ai-detection-tools/.

La semana pasada recibí una llamada desesperada de un estudiante de máster de Austria que estaba inconsolable. Acababa de enviar su tesis a su universidad para que la revisaran y había sido marcada como escrita por IA. La universidad le había dado una oportunidad más para revisar y volver a presentar su trabajo. Si pasaba la herramienta de detección de IA, revisarían el trabajo y le darían una nota final. Si no superaba la comprobación automática, lo rechazarían automáticamente y lo expulsarían deshonrosamente de su programa, tirando por la borda dos años de estudio.

¿Herramientas de detección de IA para defender la integridad de la investigación?

El reciente auge en el desarrollo de tecnologías de IA en el ámbito de la escritura ha provocado el aumento y la proliferación de detectores de IA en el mundo académico. Estos detectores prometen ser los guardianes de la integridad académica combatiendo el plagio y los contenidos generados por IA. Aunque la ambición es noble, su aplicación práctica ha tenido su buena dosis de deficiencias críticas.

El supuesto fundamental que subyace a la creación de herramientas de detección de IA parece ser que la escritura con IA debería poder detectarse del mismo modo que se detecta el plagio. Sin embargo, hay una diferencia fundamental: el plagio simplemente busca coincidencias exactas con obras existentes, un criterio objetivo que puede identificarse, medirse y reproducirse. Por otro lado, la escritura de IA es original por derecho propio (aunque se extraiga de fuentes no originales) y no puede rastrearse fácilmente hasta su fuente.

Mi oposición a que las editoriales académicas recurran a herramientas de detección obedece a razones tanto pragmáticas como ideológicas. Empecemos por las cuestiones pragmáticas.

Problemas con los falsos positivos

Los grandes modelos lingüísticos aprenden de la escritura humana y se construyen para parecerse a ella en sus resultados. Ya con el lanzamiento de ChatGPT, quedó claro que la IA generativa podía producir una escritura que imitara con éxito la de los humanos. Cuantificar los respectivos componentes humanos y de IA en un documento concreto es todo un reto y, a menudo, los autores mezclan sus propias palabras con las sugeridas por la herramienta de IA.

Las imperfecciones de los detectores de IA son cada vez más evidentes, ya que a menudo identifican erróneamente contenidos genuinamente generados por humanos. Los estudios han mostrado tasas de error de hasta el 9% o más, una cifra demasiado alta para vivir con ella. Un caso notable fue el de una herramienta de IA que marcó la Constitución de EE.UU. como producida por IA. Este falso positivo no sólo pone de manifiesto la flagrante imperfección de estos detectores, sino que también subraya las posibles trampas que aguardan a los autores académicos que tratan estos informes como fidedignos. Un caso humorístico pero inquietante de este tipo de confusión surgió después de que un profesor de Texas A&M suspendiera toda su clase después de que ChatGPT respondiera afirmativamente cuando le preguntó si había escrito los trabajos entregados por los estudiantes.

En un vídeo reciente, Turnitin admitió con sorprendente franqueza que su software de detección de IA debe tomarse «con cautela». Además, dicen que los profesores tendrán que ser los que «hagan la interpretación final» de lo que crea la IA generativa.

¿No es esa precisamente la razón por la que los profesores recurren a estas herramientas?

Las universidades están empezando a comprender las implicaciones de estas admisiones y han empezado a tomar medidas aconsejando a su profesorado que no utilice estas herramientas. En un informe de orientación publicado por la Universidad de Vanderbilt, señalan que Turnitin, su proveedor de software contra el plagio, afirmó originalmente tener una tasa positiva del 1% en la detección de trabajos escritos con IA tras el lanzamiento de su herramienta de detección de IA, pero luego aumentó esa tasa al 4% tras un uso y unas pruebas más amplias. Aunque esas cifras mejoren, no sería difícil para los autores malintencionados pasar los resultados de la IA por un software de parafraseo para eliminar rastros del original. La propia OpenAI cerró un proyecto que intentaba detectar sus propios resultados. Muchas universidades ya han cambiado de rumbo y están buscando políticas alternativas.

Daños colaterales de las falsas acusaciones

La falacia de los detectores de IA tiene consecuencias en el mundo real. Timnit Gebru, fundadora y directora ejecutiva del Distributed AI Research Institute (DAIR), compartió recientemente un angustioso correo electrónico que recibió en el que se acusaba injustamente a un escritor de emplear IA. Este tipo de incidentes pueden causar una angustia emocional indebida y empañar potencialmente la reputación profesional de un investigador. El efecto dominó puede traducirse en desconfianza, escepticismo y descarrilamiento de la carrera académica, por no hablar de las prolongadas batallas legales.

Peor aún, es más probable que estos detectores marquen como generados por IA los trabajos de hablantes de inglés como lengua adicional (EAL) que los de sus homólogos nativos de habla inglesa. Lo último que querría cualquier editor es arriesgarse a introducir aún más prejuicios y discriminación contra los autores EAL.

¿Por qué corremos de nuevo a prohibir la escritura asistida por IA?

Las editoriales académicas deberían ser cautelosas a la hora de adoptar herramientas de detección de IA por razones que van más allá de la integridad de la investigación.

Si bien es probable que la mayoría de los editores no quieran publicar investigaciones que hayan sido obviamente realizadas por ChatGPT, adoptar políticas en las que los verificadores de IA sean estándar es también hacer una declaración educativa y de valores sobre cómo vemos el uso de la IA generativa en la expresión de hallazgos académicos. En lugar de rechazar las herramientas de IA en la escritura académica, ¿qué pasaría si las utilizáramos como herramientas educativas y como medio para igualar las condiciones de los académicos de la EAL?

Instituciones como la Universidad de Yale son pioneras en la utilización de la IA para mejorar el proceso de escritura. Ethan y Lilach Mollick, de la Wharton School, han creado un curso práctico en línea sobre IA para el aula que incluye la integración de la GPT en las tareas. Estos avances ponen de relieve un posible camino a seguir en el que la IA ayude a la escritura académica en lugar de entorpecerla.

Conclusión

Aunque la motivación para integrar los detectores de IA en la revisión académica es bienintencionada, los retos que introducen exigen un enfoque diferente. El sector de las publicaciones académicas debe estar alerta, sopesar los posibles escollos frente a las promesas y explorar formas de integrar armoniosamente la IA en la bibliografía académica.