
Juzek, T. S., & Ward, Z. B. (2024). Why does ChatGPT “delve” so much? Exploring the sources of lexical overrepresentation in large language models [Preprint]. arXiv. https://arxiv.org/abs/2412.11385
El investigador Jeremy Nguyen, de la Universidad de Tecnología Swinburne (Australia), ha calculado que delve ya aparece en más del 0,5% de los estudios médicos, cuando antes de ChatGPT no llegaba al 0,04%. La sobrerrepresentación léxica causada por los LLMs es un fenómeno real y relevante para el futuro del lenguaje científico. Entender sus causas es clave para usar estos modelos de manera más consciente y crítica.
El inglés científico está cambiando rápidamente. Palabras como “delve” (profundizar), “intricate” (complejo) o “underscore” (destacar) aparecen mucho más en los textos científicos actuales que hace unos años. Muchas personas creen que este cambio se debe al uso generalizado de modelos de lenguaje de gran escala (LLMs) como ChatGPT para escribir artículos académicos. Este estudio busca entender por qué ocurre este fenómeno, al que los autores llaman «sobrerrepresentación léxica» (lexical overrepresentation): ¿por qué ciertas palabras se usan demasiado en los textos generados con IA?
Para ello, los autores diseñaron un método formal y transferible para detectar qué palabras han aumentado notablemente su frecuencia en textos científicos, especialmente en resúmenes de artículos. Usando esta metodología, identifican 21 palabras clave cuya aparición frecuente probablemente se debe al uso de LLMs.
Una vez identificadas esas palabras, surge la gran pregunta del artículo:
¿Por qué los modelos como ChatGPT tienden a usar tanto esas palabras concretas?
Los autores exploran varias posibles causas:
- ¿Es culpa de la arquitectura del modelo o del algoritmo usado?
No encuentran evidencia de que el diseño técnico del modelo explique el uso excesivo. - ¿Se debe al tipo de datos con los que se entrena el modelo?
- ¿Influye el aprendizaje por refuerzo con retroalimentación humana (RLHF)?
El estudio muestra que los LLMs están influyendo de forma clara en el lenguaje científico actual, incluso generando modas lingüísticas. Sin embargo, todavía no está claro por qué ciertas palabras sean usadas en exceso.
Este fenómeno plantea riesgos, porque puede dar lugar a un lenguaje académico artificial, repetitivo o menos preciso. Además, los autores alertan de que la falta de transparencia en el desarrollo de los modelos de IA limita la investigación sobre cómo y por qué ocurren estos cambios.