¿Puede Turnitin detectar realmente la escritura generada por inteligencia artificial? Un análisis crítico sobre los límites de los detectores de IA

Diagram showing AI detector capabilities with formulaic text, generic essay, and patterned content vs. limitations like high ambiguity, new writing style, and paraphrasing
An infographic explaining what AI detectors can confidently identify and where their analysis falls short.

Atamhenwan, Lucky E. (2026). How are combinations of human-written words and LLM-generated words by ChatGPT, Copilot, Gemini and Grammarly detected by Turnitin? Education and Information Technologies. Springer Nature. DOI: 10.1007/s10639-026-14049-2

La rápida expansión de herramientas de inteligencia artificial está transformando profundamente la educación y la escritura académica. Ante este cambio, universidades e instituciones recurren cada vez más a detectores automáticos como Turnitin para identificar textos generados por IA. El estudio de Lucky E. Atamhenwan analiza hasta qué punto Turnitin puede distinguir con precisión entre escritura humana y contenido producido total o parcialmente por inteligencia artificial.

La expansión acelerada de la inteligencia artificial generativa en los últimos años ha transformado profundamente la educación superior y los procesos de producción textual. La aparición de modelos de lenguaje de gran escala como ChatGPT, Microsoft Copilot, Google Gemini y Grammarly ha permitido que estudiantes, investigadores y profesionales generen textos complejos con rapidez y una calidad lingüística cada vez más cercana a la escritura humana. Frente a este nuevo escenario, instituciones educativas de todo el mundo han comenzado a depender de sistemas automáticos de detección de contenido generado por IA, siendo Turnitin una de las herramientas más utilizadas. El estudio de Lucky E. Atamhenwan se propone analizar hasta qué punto Turnitin es realmente capaz de diferenciar entre textos escritos por humanos y textos producidos, parcial o totalmente, mediante modelos de lenguaje artificial.

La investigación parte de una cuestión central: aunque numerosas universidades están comenzando a utilizar detectores automáticos de IA para evaluar trabajos académicos, existe todavía una gran incertidumbre acerca de la precisión real de estas herramientas. El autor recuerda que la irrupción masiva de ChatGPT en noviembre de 2022 marcó un punto de inflexión sin precedentes en la relación entre inteligencia artificial y educación. En apenas unos meses aparecieron múltiples sistemas generativos capaces no solo de redactar textos completos, sino también de resumir documentos, corregir gramática, traducir contenidos, programar código y reformular ideas con notable coherencia. Este avance ha generado enormes beneficios pedagógicos, pero también ha abierto interrogantes sobre plagio, autoría y honestidad académica, especialmente cuando los estudiantes presentan como propio un contenido producido parcial o totalmente por IA.

Para estudiar la eficacia de Turnitin, el investigador diseñó un experimento de gran escala basado en 81 documentos diferentes, construidos a partir de combinaciones variables entre escritura humana y texto generado por modelos de lenguaje. Los documentos contenían mezclas progresivas que iban desde un 100% de texto humano hasta un 100% de texto generado por IA, utilizando cuatro sistemas distintos: ChatGPT, Copilot, Gemini y Grammarly. Se crearon textos de aproximadamente 4.000 palabras y se fueron introduciendo porcentajes crecientes de contenido generado artificialmente: 5%, 10%, 15%, 20%, 30%, 50%, 70%, hasta llegar al 100%. Cada documento fue sometido al detector de Turnitin para observar qué porcentaje del contenido era identificado como generado por inteligencia artificial. Este diseño experimental permitió estudiar no solamente si Turnitin detecta IA, sino también cómo cambia su comportamiento cuando el texto combina escritura humana y escritura algorítmica.

Uno de los resultados más relevantes del estudio es que Turnitin no detectó absolutamente ningún contenido generado por IA cuando este representaba solo el 5% o el 10% del texto total. Esto significa que si un estudiante escribe la mayor parte de un trabajo por sí mismo y utiliza un modelo de lenguaje únicamente para generar pequeños fragmentos, Turnitin puede no generar ninguna alerta. A partir de porcentajes cercanos al 15%, el sistema comienza a identificar contenido sospechoso, pero con un problema importante: las puntuaciones no son exactas. Cuando el porcentaje real de texto generado por IA es bajo, Turnitin suele sobreestimar la cantidad de contenido artificial, produciendo falsos incrementos. Paradójicamente, cuando el porcentaje real de IA es muy alto, el detector comienza a subestimar la presencia artificial, mostrando cifras inferiores a la realidad. Esta inconsistencia cuestiona seriamente la confianza absoluta en el sistema.

El comportamiento del detector varía además según el modelo de lenguaje utilizado. En el caso de ChatGPT, Turnitin mostró una tendencia sistemática a detectar porcentajes inferiores al contenido real generado por IA. Incluso cuando un texto estaba producido al 100% por ChatGPT, Turnitin solo identificó un 60% como artificial. Con Copilot y Gemini los resultados fueron algo más equilibrados, aunque igualmente inconsistentes: en algunos casos sobreestimaban la presencia de IA y en otros la reducían. Grammarly presentó un patrón diferente, con detecciones superiores al porcentaje real cuando la intervención de IA era baja, pero subestimaciones cuando aumentaba la proporción de texto generado automáticamente. Esto demuestra que no existe un criterio homogéneo y que el detector responde de manera distinta según las características lingüísticas propias de cada modelo de inteligencia artificial.

Un segundo bloque del estudio analiza un fenómeno cada vez más extendido: el uso de herramientas diseñadas específicamente para “humanizar” textos creados por IA con el objetivo de evitar ser detectados. Para ello se utilizaron plataformas como QuillBot, EasyEssayAI y RyneAI, muy conocidas en comunidades digitales por su capacidad para reformular textos y hacerlos parecer escritos por humanos. Los investigadores tomaron textos generados al 100% por ChatGPT, Copilot, Gemini y Grammarly, y posteriormente los pasaron por estas herramientas de reformulación antes de volver a analizarlos en Turnitin. Los resultados fueron especialmente reveladores: textos completamente generados por Copilot y posteriormente reformulados con QuillBot obtuvieron una puntuación del 0%, es decir, Turnitin los consideró completamente humanos. De manera similar, RyneAI consiguió que textos enteramente generados por Copilot, Gemini o Grammarly fueran clasificados también con 0% de contenido artificial.

Desde un punto de vista estadístico, el estudio confirma que existe una correlación muy fuerte entre la cantidad real de texto generado por IA y la puntuación otorgada por Turnitin. Sin embargo, esta relación no implica precisión. Los análisis de correlación y regresión muestran que el sistema detecta patrones asociados al texto artificial, pero no logra cuantificar de manera fiable cuánto contenido ha sido realmente producido por inteligencia artificial. El modelo estadístico utilizado revela que el 82,5% de la variabilidad observada en las puntuaciones depende efectivamente de la presencia de texto generado por IA, pero el margen de error sigue siendo considerable. En otras palabras: Turnitin reconoce señales asociadas al uso de IA, pero no constituye una herramienta exacta para determinar porcentajes reales de autoría algorítmica.

Las implicaciones educativas del trabajo son profundas. El autor sostiene que las universidades no deberían utilizar las puntuaciones de Turnitin como prueba concluyente para sancionar estudiantes, especialmente cuando los porcentajes detectados son bajos o moderados. Según el estudio, puntuaciones inferiores al 40% deben interpretarse con gran cautela, mientras que valores superiores al 60% pueden ser indicativos más sólidos, aunque nunca definitivos. Más allá de la detección, el artículo plantea que el verdadero desafío no consiste en prohibir la inteligencia artificial, sino en redefinir el modo en que se evalúa el aprendizaje. A medida que los modelos generativos evolucionen, será cada vez más difícil impedir su uso en tareas escritas tradicionales. Esto obliga a replantear metodologías de evaluación, incorporando sistemas supervisados, navegadores bloqueados, evaluaciones presenciales y nuevas formas de demostrar conocimiento que no dependan exclusivamente de la producción textual.

El estudio concluye que la educación necesita abandonar la visión puramente punitiva sobre la inteligencia artificial y avanzar hacia un modelo de integración ética y transparente. La IA debe entenderse como una herramienta legítima de aprendizaje, siempre que existan normas claras sobre su uso. El autor propone una cooperación entre universidades, empresas tecnológicas y plataformas como Turnitin para desarrollar sistemas que no solo detecten contenido generado por IA, sino que permitan rastrear el origen y el proceso de creación de los textos. En definitiva, esta investigación desmonta la idea de que los detectores actuales sean infalibles y muestra que, en el contexto actual, confiar ciegamente en estas herramientas para tomar decisiones académicas puede generar errores, injusticias y conflictos éticos considerables. Más que una solución definitiva, los detectores de IA representan apenas una tecnología en desarrollo dentro de un escenario educativo que está cambiando a una velocidad sin precedentes.

Datos clave:

  • Precisión con textos humanos: Turnitin no arrojó falsos positivos en el texto escrito completamente por humanos (0% de puntuación de IA).
  • Umbral mínimo de detección: Turnitin no detectó la presencia de IA cuando el porcentaje real de texto generado por los LLM era del 5% o 10% (marcando 0% en la puntuación).
  • Distorsión en porcentajes bajos (Inexactitud por exceso): Cuando la cantidad de IA era baja pero detectable (ej. 15% o 20%), Turnitin tendió a sobreestimar el puntaje, otorgando porcentajes de IA detectada más altos que la realidad (ej. detectó entre 21% y 24% para un 15% real).
  • Distorsión en porcentajes altos (Inexactitud por defecto): A medida que aumentaba el texto de IA en la combinación, el detector tendió a subestimar el puntaje real. Al llegar al 100% de contenido de IA en textos largos (4,000 palabras), Turnitin nunca puntuó 100%; las calificaciones máximas para textos puros de IA fueron de 87% (Copilot/Gemini), 82% (Grammarly) y apenas un 60% (ChatGPT).
  • Correlación: Existe una relación positiva muy fuerte ($R^2$ de Nagelkerke = 0.825): a mayor porcentaje real de IA, mayor es la puntuación de detección de Turnitin, confirmando que la detección se debe efectivamente a los fragmentos de IA
  • ChatGPT: Fue el modelo que más «burló» el detector en formato mixto. Turnitin puntuó por debajo de la realidad en el 65% de sus textos. Incluso al 25% de contenido real de ChatGPT, Turnitin marcó 0%.
  • Copilot y Gemini: Siguieron un comportamiento similar entre sí; Turnitin tendió a sobreestimar el porcentaje de IA en rangos bajos y medianos, pero empezó a reportar por debajo de la realidad a partir del 75% de contenido de IA.
  • Grammarly: Turnitin detectó niveles inflados (más altos que la realidad) entre el 15% y 40% de contenido, pero empezó a puntuar por debajo del porcentaje real a partir del 45% de texto generado por Grammarly.
  • RyneAI: Fue la herramienta de evasión más efectiva. Logró reducir la puntuación de Turnitin a 0% para Copilot, Grammarly y Gemini (haciendo que el detector los aceptara por completo como humanos). Para ChatGPT, la redujo al 26%.
  • QuillBot (AI Humanizer): Consiguió reducir la puntuación de Copilot a 0%. Sin embargo, fue menos efectivo con los demás: ChatGPT (33%), Grammarly (62%) y Gemini (83%).
  • EasyessayAI: Fue la menos efectiva. Turnitin siguió detectando altas tasas de IA en los textos procesados: Copilot (80%), ChatGPT (65%), Gemini (63%) y Grammarly (56%).
  • Efecto de la longitud del texto: El estudio demostró que Turnitin es mucho más preciso detectando textos puramente de IA cuando el documento es más corto (500-1000 palabras frente a las 4000 de la primera fase).