Waldo, Jim, y Soline Boussard. 2024. «GPTs and Hallucination: Why do large language models hallucinate?» Queue 22 (4): Pages 10:19-Pages 10:33. https://doi.org/10.1145/3688007.
Los modelos de lenguaje de gran escala (LLMs), como ChatGPT, han revolucionado la interacción entre humanos y la inteligencia artificial debido a su capacidad para generar texto coherente y comprensivo. Estos modelos se basan en aplicaciones transformadoras preentrenadas en grandes cantidades de datos sin procesar. Aunque tienen un rendimiento impresionante y pueden realizar tareas como responder preguntas y resumir textos, también tienen la tendencia a generar «alucinaciones». Estas ocurren cuando el modelo crea respuestas que parecen realistas pero que son incorrectas o no tienen sentido, lo que puede llevar a la diseminación de información falsa.
Las alucinaciones son preocupantes, especialmente en decisiones críticas o situaciones que requieren confianza en la IA. Un ejemplo destacado fue el de un abogado que utilizó ChatGPT para generar citas legales que resultaron ser ficticias. Estas alucinaciones, a menudo sutiles, pueden pasar desapercibidas, lo que plantea una pregunta importante: ¿Por qué los GPTs alucinan?
Los LLMs funcionan mediante aprendizaje automático entrenado en grandes cantidades de datos textuales. Este entrenamiento genera un conjunto de probabilidades que predice qué palabra es más probable que siga a otra en una secuencia. Sin embargo, esta predicción no se basa en la verdad o significado real del mundo, sino en las asociaciones estadísticas entre palabras. Esto explica por qué los modelos a veces generan respuestas erróneas: simplemente están siguiendo patrones previos de datos sin una verificación de los hechos.
La pregunta fundamental no es tanto por qué los GPTs alucinan, sino cómo logran acertar. Este dilema está vinculado a la «confianza epistémica», es decir, cómo confiamos en que algo expresado en lenguaje es verdadero. Históricamente, esta confianza ha sido establecida mediante la ciencia, que se basa en la experimentación, publicación y revisión por pares, pero los GPTs carecen de ese tipo de validación externa y generan respuestas basadas únicamente en probabilidades estadísticas.
Los GPTs basados en LLMs representan un paso más en este proceso, ya que generan respuestas basadas en el análisis de todas las preguntas y respuestas disponibles en Internet. Los modelos predicen la respuesta más probable basada en la co-ocurrencia de palabras, lo que en muchos casos refleja un consenso general.
Sin embargo, cuando hay consenso limitado o controversia sobre un tema, o cuando el tema es poco común, los GPTs son más propensos a generar respuestas incorrectas o «alucinaciones». Esto sugiere que la precisión de los GPTs depende de la disponibilidad de datos y del consenso sobre el tema en cuestión.
En este experimento se utilizaron cuatro modelos: Llama, accesible a través de la biblioteca de código abierto Llama-lib; ChatGPT-3.5 y ChatGPT-4, accesibles mediante el servicio de suscripción de OpenAI; y Google Gemini, disponible a través del servicio gratuito de Google.
Se realizaron pruebas con una variedad de temas sensibles y oscuros. Los prompts finales incluyeron: 1) solicitar artículos sobre polarización ferroelectric, 2) citas poco comunes de Barack Obama, 3) justificaciones políticas de Putin en relación con escritores rusos, 4) una descripción breve sobre el cambio climático, y 5) completar la frase «los israelíes son…». Estos prompts se presentaron semanalmente a cada modelo entre el 27 de marzo y el 29 de abril de 2024.
Los resultados mostraron variaciones en la consistencia de las respuestas, siendo ChatGPT-4 y Google Gemini los que presentaron cambios más significativos. A lo largo del experimento, se observó que, aunque los prompts eran independientes, algunos modelos utilizaban el contexto de preguntas anteriores para influir en sus respuestas. Llama a menudo repetía citas de Obama y fallaba en citar artículos científicos con precisión. ChatGPT-3.5 ofrecía citas precisas de Obama, pero también tenía dificultades para citar correctamente artículos científicos. ChatGPT-4 podía proporcionar citas precisas, aunque en ocasiones introducía términos no consensuados científicamente. Google Gemini tuvo dificultades para responder a las preguntas sobre las citas de Obama y las justificaciones de Putin, sugiriendo a menudo realizar búsquedas en Google para obtener respuestas. A pesar de todo, Gemini logró proporcionar artículos relevantes sobre polarización ferroelectric, aunque con citas incorrectas. En cuanto a la frase sobre los israelíes, Gemini ofreció diversas perspectivas y fomentó el diálogo.
En respuesta a las preguntas sobre artículos científicos, todas las aplicaciones pudieron proporcionar la sintaxis de citación correcta, pero las citas completas rara vez eran precisas. En particular, algunos autores citados por ChatGPT-4 habían publicado en el mismo campo, pero no en el artículo específico mencionado. Esto se puede entender como un reflejo de las respuestas como completaciones estadísticamente probables; el programa sabe cómo lucen las citas y qué grupos de autores tienden a aparecer juntos, aunque no necesariamente en el artículo citado. En general, la aplicación basada en Llama proporcionó las respuestas más consistentes, aunque de menor calidad que las otras, ya que no estaba en desarrollo activo y se basaba en un LLM temprano.
ChatGPT-3.5 y -4 ofrecieron consistentemente citas precisas de Obama, mientras que Llama repetía múltiples versiones de las mismas citas, muchas de las cuales eran incorrectas. En una ocasión, Google Gemini respondió correctamente a la pregunta sobre Obama, pero una de las citas era en realidad de Craig Ferguson, un comediante. La aplicación Llama tuvo dificultades para seguir restricciones gramaticales, como el requerimiento de dar una respuesta en tres palabras; a veces devolvía una sola palabra o una oración completa. Esto plantea preguntas sobre cómo la aplicación interpreta la gramática y la puntuación y cómo estas características no semánticas influyen en las respuestas.
Conclusiones
En general, las aplicaciones tuvieron dificultades con temas que contaban con datos limitados en línea, produciendo respuestas inexactas en un formato realista y sin reconocer las inexactitudes. Aunque manejaron temas polarizadores con mayor meticulosidad, algunas aún devolvieron errores y ocasionalmente advertencias sobre hacer afirmaciones en temas controvertidos.
Los GPTs basados en LLM pueden propagar conocimientos comunes con precisión, pero enfrentan dificultades en preguntas sin un consenso claro en sus datos de entrenamiento. Estos hallazgos respaldan la hipótesis de que los GPTs funcionan mejor con prompts populares y de consenso general, pero tienen problemas con temas controvertidos o con datos limitados. La variabilidad en las respuestas de las aplicaciones subraya que los modelos dependen de la cantidad y calidad de sus datos de entrenamiento, reflejando el sistema de crowdsourcing que se basa en contribuciones diversas y creíbles. Por lo tanto, aunque los GPTs pueden ser herramientas útiles para muchas tareas cotidianas, su interacción con temas oscuros y polarizados debe interpretarse con cautela. La precisión de los LLM está estrechamente vinculada a la amplitud y calidad de los datos que reciben.