
Jones, Nicola. «AI Hallucinations Can’t Be Stopped — but These Techniques Can Limit Their Damage.» Nature 637, no. 778–780 (2025). https://doi.org/10.1038/d41586-025-00068-5
Los desarrolladores tienen trucos para evitar que la inteligencia artificial (IA) invente cosas, pero los modelos de lenguaje grande (LLM, por sus siglas en inglés) todavía luchan por decir la verdad, toda la verdad y nada más que la verdad.
Es bien sabido que todos los tipos de IA generativa, incluidos los grandes modelos de lenguaje (LLM) que hay detrás de los chatbots de IA, se inventan cosas. Esto es a la vez un punto fuerte y un punto débil. Es la razón de su célebre capacidad inventiva, pero también significa que a veces confunden verdad y ficción, insertando detalles incorrectos en frases aparentemente objetivas. «Parecen políticos», dice Santosh Vempala, informático teórico del Georgia Institute of Technology de Atlanta. Tienden a «inventarse cosas y estar totalmente seguros pase lo que pase».
Cuando el informático Andy Zou investiga sobre inteligencia artificial (IA), suele pedir a un chatbot que le sugiera lecturas de fondo y referencias. Pero esto no siempre sale bien. «La mayoría de las veces me da autores distintos de los que debería, o a veces el artículo ni siquiera existe», dice Zou, estudiante de posgrado en la Universidad Carnegie Mellon de Pittsburgh, Pensilvania.
El problema concreto de las referencias científicas falsas está muy extendido. En un estudio realizado en 2024, varios chatbots cometieron errores entre el 30% y el 90% de las veces en las referencias, equivocándose al menos en dos de los casos: el título del artículo, el primer autor o el año de publicación. Los chatbots vienen con etiquetas de advertencia que indican a los usuarios que comprueben dos veces cualquier cosa importante. Pero si las respuestas de los chatbots se toman al pie de la letra, sus alucinaciones pueden provocar graves problemas, como en el caso de 2023 de un abogado estadounidense, Steven Schwartz, que citó casos legales inexistentes en una presentación judicial tras utilizar ChatGPT.
Dado que las alucinaciones de la IA son fundamentales para el funcionamiento de los LLM, los investigadores afirman que eliminarlas por completo es imposible. Sin embargo, científicos como Zou están trabajando en formas de hacer que las alucinaciones sean menos frecuentes y menos problemáticas, desarrollando una serie de trucos que incluyen la comprobación externa de los hechos, la autorreflexión interna o incluso, en el caso de Zou, la realización de «escáneres cerebrales» de las neuronas artificiales de un LLM para revelar patrones de engaño.
Zou y otros investigadores afirman que éstas y otras técnicas emergentes deberían ayudar a crear chatbots que mientan menos o que, al menos, puedan ser inducidos a revelar cuándo no están seguros de sus respuestas. Pero algunos comportamientos alucinatorios podrían empeorar antes de mejorar.
Básicamente, los LLM no están diseñados para arrojar datos. Más bien componen respuestas que son estadísticamente probables, basándose en patrones de sus datos de entrenamiento y en el posterior ajuste mediante técnicas como la retroalimentación de evaluadores humanos. Aunque el proceso de entrenamiento de un LLM para predecir las siguientes palabras probables de una frase se conoce bien, su funcionamiento interno preciso sigue siendo un misterio, admiten los expertos. Tampoco está claro cómo se producen las alucinaciones.
Una de las causas es que los LLM funcionan comprimiendo los datos. Durante el entrenamiento, estos modelos exprimen las relaciones entre decenas de billones de palabras en miles de millones de parámetros, es decir, las variables que determinan la fuerza de las conexiones entre neuronas artificiales. Por tanto, es inevitable que pierdan algo de información cuando construyan las respuestas, es decir, que vuelvan a expandir esos patrones estadísticos comprimidos. «Sorprendentemente, siguen siendo capaces de reconstruir casi el 98% de lo que se les ha enseñado, pero en el 2% restante pueden equivocarse por completo y dar una respuesta totalmente errónea», afirma Amr Awadallah, cofundador de Vectara, una empresa de Palo Alto (California) que pretende minimizar las alucinaciones en la IA generativa.
Algunos errores se deben simplemente a ambigüedades o equivocaciones en los datos de entrenamiento de una IA. Una respuesta infame en la que un chatbot sugería añadir pegamento a la salsa de la pizza para evitar que el queso se deslizara, por ejemplo, se remontó a una publicación (presumiblemente sarcástica) en la red social Reddit.
Los estudios han demostrado que los modelos más recientes son más propensos a responder a una consulta que a evitar responderla, y por tanto son más «ultracrepidarios», o sea, más proclives a hablar fuera de su ámbito de conocimiento, lo que da lugar a errores. Otra categoría de error se produce cuando un usuario escribe hechos o suposiciones incorrectos en las preguntas. Como los chatbots están diseñados para producir una respuesta que se ajuste a la situación, pueden acabar «siguiéndole el juego» a la conversación.
¿Cuál es la gravedad del problema de las alucinaciones? Los investigadores han desarrollado diversas métricas para hacer un seguimiento del problema. Vipula Rawte, que está realizando su doctorado sobre comportamientos alucinatorios de IA en la Universidad de Carolina del Sur en Columbia, por ejemplo, ha ayudado a crear un Índice de Vulnerabilidad a las Alucinaciones, que clasifica las alucinaciones en seis categorías y tres grados de gravedad. Un esfuerzo independiente y abierto ha compilado una tabla de clasificación de alucinaciones, alojada en la plataforma HuggingFace, para seguir la evolución de las puntuaciones de los bots en varios puntos de referencia comunes.
Vectara tiene su propia tabla de clasificación que analiza el sencillo caso de un chatbot al que se le pide que resuma un documento, una situación cerrada en la que es relativamente fácil contar alucinaciones. El esfuerzo muestra que algunos chatbots confabulan hechos hasta en un 30% de los casos, inventándose información que no está en el documento dado. Pero, en general, las cosas parecen mejorar. Mientras que el GPT-3.5 de OpenAI tenía una tasa de alucinación del 3,5% en noviembre de 2023, en enero de 2025, el modelo posterior GPT-4 de la empresa obtuvo un 1,8% y su o1-mini LLM sólo un 1,4% (véase «Los mayores mentirosos»).

No confíes, verifica. Hay muchas formas sencillas de reducir las alucinaciones. Un modelo con más parámetros que ha sido entrenado durante más tiempo tiende a alucinar menos, pero esto es caro computacionalmente e implica compensaciones con otras habilidades del chatbot, como la capacidad de generalizar8. El entrenamiento con conjuntos de datos más grandes y limpios ayuda, pero hay límites en cuanto a los datos disponibles.
Los desarrolladores también pueden utilizar un sistema independiente, que no haya sido entrenado del mismo modo que la IA, para contrastar la respuesta de un chatbot con una búsqueda en Internet. El sistema Gemini de Google, por ejemplo, tiene una opción para el usuario llamada «respuesta de doble comprobación», que resalta partes de la respuesta en verde (para mostrar que ha sido verificada por una búsqueda en Internet) o en marrón (para contenido controvertido o incierto). Esto, sin embargo, es caro computacionalmente y lleva tiempo, dice Awadallah. Y estos sistemas siguen alucinando, dice, porque Internet está lleno de datos erróneos.
Lo más desconcertante de los chatbots es que pueden parecer tan seguros cuando se equivocan. A menudo no hay pistas obvias para saber cuándo un chatbot está especulando alocadamente fuera de sus datos de entrenamiento. Los chatbots no tienen una memoria perfecta y pueden recordar cosas mal. «Eso nos pasa a nosotros, y es razonable que también le ocurra a una máquina», dice Vempala.




