
Schwartz, Eric Hal. “ChatGPT Is Getting Smarter, but Its Hallucinations Are Spiraling.” TechRadar, 7 de mayo de 2025. https://www.techradar.com/computing/artificial-intelligence/chatgpt-is-getting-smarter-but-its-hallucinations-are-spiraling.
Un reciente informe de The New York Times, basado en investigaciones de la propia OpenAI, revela una paradoja inquietante en la evolución de la inteligencia artificial generativa: a medida que los modelos de lenguaje como ChatGPT se vuelven más sofisticados y “razonan” mejor, también cometen más errores graves en forma de alucinaciones.
Las alucinaciones consisten en la generación de datos falsos, hechos inexistentes o afirmaciones engañosas expresadas con total confianza, lo que compromete seriamente la fiabilidad del sistema.
Los modelos más nuevos —GPT-0.3 y GPT-0.4-mini— han sido diseñados para emular procesos de razonamiento humano, superando a versiones anteriores enfocadas en la mera generación fluida de texto. OpenAI presumía de que su modelo GPT-0.1 podía igualar o superar a estudiantes de doctorado en química, biología o matemáticas. Sin embargo, los nuevos datos contradicen esta promesa en aspectos clave de precisión.
Cuando se evaluó a GPT-0.3 en una prueba sobre figuras públicas, se detectaron alucinaciones en un tercio de las respuestas, duplicando los errores del modelo anterior. El modelo GPT-0.4-mini mostró aún peores resultados, alucinando en el 48 % de los casos. En otro test de conocimientos generales (SimpleQA), los errores se dispararon: 51 % para GPT-0.3 y un alarmante 79 % para GPT-0.4-mini.
Este patrón sugiere que los modelos más avanzados, al intentar analizar información de manera más profunda y generar respuestas complejas, tienden también a “improvisar” con mayor frecuencia, lo que se traduce en un incremento de datos inventados. A diferencia de modelos más simples que solo repiten datos conocidos, estos nuevos sistemas exploran caminos especulativos y, en ocasiones, cruzan la línea entre la deducción válida y la fantasía sin fundamento.
Aunque OpenAI matiza que esta tendencia no implica necesariamente que los nuevos modelos sean peores —argumentando que simplemente son más creativos—, el hecho es que esa creatividad puede resultar peligrosa. Ya existen casos reales de errores generados por IA que han tenido consecuencias legales, como abogados que presentaron citas judiciales inventadas por ChatGPT.
A medida que estas herramientas se introducen en ámbitos como la educación, el trabajo administrativo, la sanidad o la gestión pública, la posibilidad de que una alucinación cause un error grave crece de forma proporcional. Aunque GPT-0.3 ha demostrado logros impresionantes en codificación y resolución de problemas lógicos, su credibilidad se desmorona si afirma con seguridad que Abraham Lincoln tenía un pódcast o que el agua hierve a 80°F.
En definitiva, estamos ante un dilema: cuanto más útil y versátil es una IA, menos margen hay para el error. La promesa de ahorrar tiempo y esfuerzo se ve anulada si el usuario debe verificar constantemente cada respuesta. Hasta que no se solucionen estos problemas de fiabilidad, es imprescindible usar estas herramientas con escepticismo y sentido crítico.