Archivo de la etiqueta: Alucinaciones

Citas fantasma y ciencia creada con ayuda de IA en un informe sobre salud infantil de la administración Trump

Manto, Margaret. “The MAHA Report Has Been Updated to Replace Citations That Didn’t Exist.” NOTUS, 29 de mayo de 2025. https://www.notus.org/health-science/maha-report-update-citations

El informe MAHA, publicado en mayo de 2025 y encargado a la secretaria de Salud y Servicios Humanos, Robert F. Kennedy Jr., contenía numerosas referencias a estudios que no existían o eran fabricados, lo que sugiere que partes significativas del texto podrían haber sido generadas mediante prompts a sistemas de generative AI (IA generativa)

El informe Make America Healthy Again (MAHA), un documento emblemático publicado por la Comisión MAHA bajo la administración de Donald Trump, centrado en la salud infantil y en causas de enfermedad crónica en Estados Unidos. Una investigación del propio medio reveló originalmente que al menos siete citas incluidas en la versión inicial del informe simplemente no existían en la literatura científica —es decir, atribuían estudios que no estaban publicados o que jamás fueron escritos por los autores listados— lo que llevó a una fuerte preocupación por la integridad científica del texto.

Ante esta revelación, la Casa Blanca y el Departamento de Salud y Servicios Humanos (HHS) procedieron a reemplazar las citas inexistentes en una nueva versión del informe publicada en el sitio oficial de la Casa Blanca. Cinco de las referencias falsas fueron sustituidas por trabajos completamente distintos, y dos por estudios reales de los mismos autores mencionados previamente, aunque con títulos y contenidos distintos. Por ejemplo, un estudio epidemiológico supuestamente escrito por la investigadora Katherine Keyes fue reemplazado por un enlace a un artículo de KFF Health News sobre un tema similar, y otras referencias vinculadas a publicidad de medicamentos en niños se cambiaron por artículos periodísticos y estudios más antiguos sobre tendencias en uso de psicofármacos. Aunque estas nuevas fuentes parecen corresponder a estudios legítimos, no está claro si respaldan de manera precisa las afirmaciones formuladas en el informe original.

Además de sustituir las citas inexistentes, la versión actualizada también modificó referencias que habían sido mal interpretadas en la versión previa. Por ejemplo, un estudio que se usó para sostener que la psicoterapia es tan eficaz como los medicamentos en el corto plazo fue reemplazado después de que uno de los autores originales señalará a NOTUS que su investigación no incluía psicoterapia dentro de los parámetros analizados. A pesar de los cambios, tanto la Casa Blanca como funcionarios de HHS minimizaron la gravedad de los errores, describiéndolos como problemas menores de formato que ya habían sido corregidos, y defendieron la sustancia general del informe. Voceros oficiales declararon que el documento sigue siendo una evaluación histórica y transformadora para entender la epidemia de enfermedades crónicas que afectan a los niños estadounidenses, y subrayaron que los ajustes no alteran sus conclusiones principales.

Sin embargo, la actualización y corrección de citas ha suscitado debates profundos sobre los estándares de rigor científico que deben aplicarse a informes gubernamentales de salud pública, especialmente cuando estos documentos se utilizan para formular políticas importantes. Organizaciones periodísticas, científicos y legisladores han cuestionado la confiabilidad de las referencias del MAHA report y han pedido mayor transparencia en cómo se elaboran y revisan estos textos, así como sobre el uso de tecnologías como la inteligencia artificial durante su redacción. La situación ilustra las tensiones entre la comunicación científica, la integridad académica y las prioridades políticas en la producción de informes de política pública.

Los chatbots de IA aún tienen dificultades con la precisión de las noticias

Pal, Moinak. «AI chatbots still struggle with news accuracy, study finds”. Digital Trends, 13 de enero de 2026

Texto completo

Se remarca la importancia del estudio dado que una proporción creciente de usuarios usa sistemas de IA para informarse. Aunque no reemplazan completamente a los medios tradicionales, estas herramientas ya se integran en hábitos informativos, lo que eleva el riesgo de difundir desinformación, especialmente cuando las respuestas se presentan con tono seguro y sin advertencias claras sobre sus limitaciones.

El artículo de Digital Trends resume los hallazgos de un experimento de cuatro semanas en el que se evaluó la capacidad de varios chatbots de inteligencia artificial generativa para identificar, priorizar y resumir noticias reales (incluyendo enlaces directos a los artículos) sobre acontecimientos diarios en Québec. La prueba fue diseñada y publicada originalmente por The Conversation, con el objetivo de medir cuánto pueden confiar los usuarios en estos sistemas como fuentes de noticias.

Los resultados del experimento revelaron problemas significativos: algunos chatbots, como Google Gemini, acabaron inventando medios de comunicación completos e informes que nunca existieron, lo que se conoce como alucinación de IA. Por ejemplo, en uno de los casos, Gemini afirmó falsamente que hubo una huelga de conductores de autobús escolar en Québec en septiembre de 2025, cuando en realidad lo que ocurrió fue la retirada temporal de autobuses Lion Electric por un problema técnico real.

Más allá de la fabricación de noticias completas, los sistemas evaluados generaron respuestas con errores frecuentes: citaron fuentes ficticias o inactivas, proporcionaron URLs incompletas o no válidas, tergiversaron el contenido de informes legítimos e insertaron conclusiones inventadas que no estaban en las noticias originales. En general, solo alrededor del 37 % de las respuestas incluyeron una URL de fuente completa y legítima, y menos de la mitad de los resúmenes fueron totalmente precisos.

El análisis también encontró que estas herramientas a menudo añadían información de más —como afirmar que cierta noticia “reavivó debates” o “expuso tensiones” que no existían en los hechos reales— creando narrativas que no estaban sustentadas. Esto puede dar la impresión de profundidad o perspicacia, pero en realidad amplifica la desinformación.

Además, los errores no se limitaron solo a invenciones completas: en algunos casos, los chatbots distorsionaron noticias reales, por ejemplo al informar incorrectamente sobre el trato a solicitantes de asilo o al dar ganadores equivocados de eventos deportivos, y otros cometieron errores básicos en datos como estadísticas o información personal. En suma, la IA generativa sigue teniendo dificultades para distinguir entre resumir hechos y crear contexto o sentido, lo que genera respuestas que pueden ser engañosas o inexactas.

El impacto de la IA en la comunicación académica, informes sobre la aparición de «revistas imaginarias» hasta el punto de crear revistas y citas fantásticas

Linacre, Simon. 2026. “Land of Make Believe.” Cabells Blog, 7 de enero de 2026. https://blog.cabells.com/2026/01/07/land-of-make-believe/

A finales de 2025 empezaron a surgir informes sobre algo que han llamado revistas imaginarias. La IA generativa puede “alucinar”, es decir, inventar hechos o datos presentándolos como reales, pero que llegue al punto de generar títulos de revistas y citas que no existen en absoluto ha sorprendido a muchos.

Se han detectado referencias a publicaciones que nunca han existido en trabajos académicos. Estamos acostumbrados a las revistas falsas o depredadoras, pero estos nuevos títulos sólo aparecen en bibliografías generadas por IA, sin rastro real de su existencia.

Además, también se han encontrado artículos atribuidos a autores que no existen. Incluso algunos de estos textos se han presentado a revistas legítimas. Esto podría formar parte de pruebas para evaluar sistemas de revisión o detección de plagio, aunque también podría responder a fines más oscuros.

Aunque suene sorprendente, la aparición de artículos completamente generados por IA está alterando las normas tradicionales de la investigación y la publicación académica. Muchos repositorios de preprints han tenido que restringir envíos ante el aumento de trabajos de baja calidad generados por IA.

El impacto podría ser serio: si se difunden investigaciones inventadas y otros investigadores las citan o usan como referencia, el daño se propaga rápidamente. Incluso se han visto casos en los que artículos falsos han sido citados decenas de veces, sin que los autores supieran que su nombre aparecía en esos documentos.

Frente a esta situación, las fuentes verificadas de publicaciones científicas se vuelven más importantes a medida que el uso de IA se expande. Las fronteras entre investigación humana, híbrida o generada exclusivamente por IA se están desdibujando, con implicaciones profundas para editores, autores, instituciones y financiadores.

Las alucinaciones en los modelos de lenguaje aplicados a la comunicación académica

Lamba, Naveen, Sanju Tiwari y Manas Gaur. “Hallucinations in Scholarly LLMs: A Conceptual Overview and Practical Implications.” Ponencia presentada en Bridge on Artificial Intelligence for Scholarly Communication (AAAI-26), 2025. Open Conference Proceedings. Hannover: TIB – Leibniz Information Centre for Science and Technology.
https://www.tib-op.org/ojs/index.php/ocp/article/view/3175/3207

Las alucinaciones incluyen resultados de investigación inventados, ideas de referencias falsas e inferencias malinterpretadas que destruyen la credibilidad y la fiabilidad de los escritos académicos

Se aborda de forma amplia la problemática de las alucinaciones generadas por modelos de lenguaje grandes (LLMs) en contextos académicos y de investigación. Comienza definiendo las alucinaciones como salidas de los modelos que no están fundamentadas en hechos reales —por ejemplo, resultados de investigación inventados, referencias bibliográficas fabricadas o inferencias erróneas— y explica cómo estas pueden comprometer la credibilidad y confiabilidad de la escritura académica asistida por IA

El documento identifica los principales tipos, causas y efectos de estas alucinaciones en el flujo de trabajo académico, subrayando que las LLMs pueden producir información plausible pero incorrecta, lo que es especialmente problemático cuando se integran en herramientas que asisten en la redacción, revisión o gestión del conocimiento científico. Para contrarrestar estos problemas, los autores discuten medidas pragmáticas de mitigación como la generación de respuestas ancladas en recuperación de información (RAG), la verificación automatizada de citas y estrategias neurosimbólicas que combinan enfoques simbólicos con modelos de IA para asegurar la veracidad de los hechos y la transparencia en los resultados generados. Asimismo, destacan la importancia de una colaboración humano-IA responsable para desarrollar sistemas que sean tanto precisos como verificables en entornos de investigación.

Para enfrentar estas limitaciones, la ponencia describe estrategias prácticas para mitigar las alucinaciones en entornos académicos. Entre ellas se incluyen:

  • Generación anclada en recuperación de información (RAG), que combina la capacidad generativa de los LLMs con una verificación contra bases de datos externas verificadas.
  • Técnicas de verificación automática de citas y fuentes, para asegurar que las referencias sugeridas por el modelo correspondan a publicaciones existentes y adecuadamente verificadas.
  • Hibridación simbólica/neurosimbólica, que integra métodos que permiten comprobar reglas o hechos previamente establecidos en sistemas de conocimiento simbólico, reduciendo así la probabilidad de que el modelo fabrique información no verificada

Los bibliotecarios están desbordados por acusaciones de ocultar libros de referencias inexistentes que realmente fueron inventadas por alucinaciones de la IA

Novak, Matt. 2025. “Librarians Are Tired of Being Accused of Hiding Secret Books That Were Made Up by AI.Gizmodo, 11 de diciembre de 2025. https://gizmodo.com/librarians-arent-hiding-secret-books-from-you-that-only-ai-knows-about-2000698176

Todo el mundo sabe que los chatbots con IA como ChatGPT, Grok y Gemini suelen inventarse fuentes. Pero para las personas encargadas de ayudar al público a encontrar libros y artículos de revistas, las referencias falsas de la IA están pasando factura. Según una nueva publicación de Scientific American, los bibliotecarios parecen absolutamente agotados por las solicitudes de títulos que no existen.

Una problemática creciente en bibliotecas y centros de información provocada por la expansión del uso de chatbots de inteligencia artificial como ChatGPT, Grok o Gemini: la generación de títulos de libros, artículos y citas que en realidad no existen. Estas herramientas, debido a sus frecuentes “alucinaciones” (es decir, respuestas plausibles pero inventadas), han llevado a que muchos usuarios crean que dichos títulos son reales y se dirijan a los bibliotecarios con solicitudes para encontrarlos. Esta situación está causando frustración entre los profesionales de la información, quienes deben invertir tiempo y esfuerzo en demostrar que tales obras no existen en ningún catálogo o archivo conocido.

Según testimonios recopilados, como el de Sarah Falls del Library of Virginia, alrededor del 15% de las consultas de referencia recibidas por correo electrónico provienen directamente de sugerencias generadas por IA, muchas de las cuales incluyen títulos inventados o citas erróneas. Lo que agrava la situación no es solo la frecuencia de estas consultas, sino también el hecho de que parte del público confía más en la respuesta de la IA que en la experiencia de un bibliotecario profesional, lo cual ha generado situaciones tensas en las que usuarios insisten en la existencia de un libro pese a la demostración de que este nunca fue publicado.

Asimismo, el artículo señala que esta tendencia plantea un desafío más amplio para la comunidad académica y científica, ya que diluir la calidad de las referencias podría erosionar la confianza en el sistema de investigación y en la fiabilidad de las fuentes. Mientras que los modelos de IA pueden ser útiles para sintetizar o resumir información, su falta de capacidad para verificar hechos contra bases de datos reales implica que las instituciones y los investigadores deben adoptar prácticas de verificación más estrictas y educar a los usuarios sobre las limitaciones de estas tecnologías. Esto incluye pedir a quienes hagan consultas que indiquen si la referencia proviene de una IA y animarles a validar independientemente cualquier cita recibida.

Bibliotecas y búsquedas con IA: evaluando la fiabilidad de las respuestas

Fowler, Geoffrey A. “We Tested Which AI Gave the Best Answers Without Making Stuff Up — One Beat ChatGPT.” The Washington Post, August 27, 2025

En agosto de 2025, The Washington Post publicó un estudio en el que un grupo de bibliotecarios evaluó nueve herramientas de búsqueda basadas en inteligencia artificial para determinar cuáles ofrecían respuestas más precisas y fiables, evitando las conocidas “alucinaciones” o errores inventados por la IA. El objetivo era medir la exactitud de las respuestas, la fiabilidad de las fuentes y la capacidad de cada sistema para manejar información reciente, especializada o compleja.

El experimento consistió en 30 preguntas diseñadas para poner a prueba las fortalezas y debilidades de cada IA, incluyendo datos poco conocidos, eventos recientes, interpretación de imágenes y sesgos de los modelos. Se evaluaron herramientas como ChatGPT (versiones 4 y 5), Bing Copilot, Claude, Grok, Perplexity, Meta AI y las versiones de búsqueda de Google AI. Tres bibliotecarios analizaron cerca de 900 respuestas, valorando tanto la exactitud como la presencia de referencias confiables.

Los resultados mostraron que Google AI Mode fue, en general, la herramienta más fiable, especialmente en la resolución de preguntas sobre trivialidades o información reciente. Sin embargo, todas las IA evaluadas presentaron limitaciones: muchas generaron respuestas incorrectas con citas aparentemente verídicas, fallaron en preguntas especializadas o de difícil acceso, tuvieron problemas con información reciente y mostraron sesgos hacia ciertas disciplinas o perspectivas. La interpretación de imágenes también fue un reto para la mayoría de los sistemas.

A pesar de sus limitaciones, las IA demostraron ser útiles en ciertos contextos, como la síntesis de información dispersa o compleja. Los evaluadores subrayaron que, aunque estas herramientas pueden ahorrar tiempo, no deben reemplazar la verificación tradicional de fuentes. Recomiendan un uso crítico y complementario, tratando la IA como un apoyo para la investigación más que como fuente definitiva.

El estudio evidencia que ninguna IA es perfecta y que, aunque ofrecen ventajas en rapidez y síntesis, siguen siendo propensas a errores, omisiones y sesgos. Los bibliotecarios enfatizan la importancia de la verificación y el pensamiento crítico al usar estas herramientas, igual que se haría al consultar fuentes tradicionales en una biblioteca.

Resultados clave:

Herramienta más fiable: Google AI Mode fue la IA que ofreció respuestas más precisas y consistentes, especialmente en información reciente y trivialidades poco conocidas.

Alucinaciones y errores: Varias IA, incluida ChatGPT, generaron respuestas incorrectas con un tono de certeza, a veces citando fuentes que no respondían a la pregunta.

Limitaciones con información especializada: Ninguna IA respondió correctamente en todos los casos que requerían conocimientos de nicho o fuentes difíciles de acceder.

Problemas con información reciente: Las IA fallaron en eventos o datos muy recientes debido a sus límites en actualización de datos.

Interpretación visual limitada: Las preguntas sobre detalles de imágenes o contenido visual fueron problemáticas para la mayoría de las IA.

Sesgos inherentes: Las IA mostraron sesgos en temas de carreras académicas o áreas de conocimiento, favoreciendo disciplinas STEM sobre humanidades o sociales.

Utilidad relativa: Las IA pueden ahorrar tiempo y sintetizar información compleja, pero no sustituyen la verificación de fuentes tradicionales; deben usarse como complemento crítico en la investigación.

¿Qué es la psicosis de IA? una mirada desde la psiquiatría

Psychiatrist Explains What AI Psychosis Looks Like — and Why It’s Spreading.” LinkedIn Pulse. 2025 https://www.linkedin.com/pulse/psychiatrist-explains-what-ai-psychosis-looks-like-why-spreading-yqwzf/

La llamada psicosis de IA es un concepto reciente que describe fenómenos en los que las personas desarrollan delirios, miedos o percepciones distorsionadas vinculadas con la inteligencia artificial.

En términos generales, una “psicosis” es una alteración mental caracterizada por una alteración de la percepción de la realidad, que puede incluir delirios (creencias falsas fijas) o alucinaciones. Aplicándolo al contexto de la IA, podría tratarse de casos en los que personas atribuyen intencionalidades, conciencia o incluso paranoia a sistemas de inteligencia artificial — imaginando que la IA “los vigila”, “manipula” sus pensamientos o “toma decisiones con voluntad propia”.

El autor, psiquiatra, describe ejemplos clínicos o anecdóticos en que individuos manifiestan una relación problemática o distorsionada con tecnologías de IA: confundir algoritmos con agentes conscientes, desarrollar miedo irracional ante el supuesto control algorítmico, interpretar notificaciones, respuestas automáticas o fallas tecnológicas como mensajes personalizados del “sistema” o de una inteligencia maligna. También podría abordar cómo la expansión del uso de IA en muchos ámbitos (chatbots, asistentes virtuales, sistemas de recomendación, vigilancia algorítmica) puede aumentar la exposición a estos desencadenantes psicológicos para personas susceptibles.

Asimismo, el artículo probablemente discute los factores que predisponen a esta “psicosis de IA”: por ejemplo, aislamiento social, vulnerabilidad mental previa (ansiedad, paranoia, trastornos del pensamiento), el alto grado de opacidad de los algoritmos (las “cajas negras”), y el fenómeno de atribución de agencia (tendencia humana a atribuir intencionalidad a objetos inanimados). El autor también quizá advierte que esta condición “se está propagando” debido a que muchas aplicaciones de IA están presentes en la vida cotidiana, y las personas que no comprenden bien su funcionamiento pueden caer en interpretaciones erróneas o catastrofistas.

El riesgo de la psicosis de IA no radica únicamente en los individuos afectados, sino también en el clima cultural en que se desarrolla. Los discursos mediáticos suelen exagerar las capacidades de la IA, presentándola como “inteligente”, “omnipresente” o incluso “peligrosa”, lo que alimenta interpretaciones delirantes. De ahí que psiquiatras y psicólogos insistan en la necesidad de mejorar la alfabetización digital y promover una comunicación clara sobre lo que la inteligencia artificial realmente es y lo que no puede hacer.

Se proponen algunas recomendaciones para mitigar el riesgo de “psicosis de IA”: mejorar la alfabetización digital, fomentar transparencia (explicabilidad) en los sistemas de IA, promover una comunicación clara sobre lo que sí hace y no hace la IA, y en el ámbito clínico, reconocer la posibilidad de síntomas relacionados con la tecnología al evaluar pacientes con delirios o ansiedad tecnológica.

¿Nuevas fuentes de inexactitud? Un marco conceptual para estudiar las alucinaciones de la IA.

Shao, Anqi. “New Sources of Inaccuracy? A Conceptual Framework for Studying AI Hallucinations.” Misinformation Review, Harvard Kennedy School, 27 de agosto de 2025. Disponible en Misinformation Review https://misinforeview.hks.harvard.edu/article/new-sources-of-inaccuracy-a-conceptual-framework-for-studying-ai-hallucinations/

Se enfatiza la necesidad de ampliar las teorías tradicionales de desinformación para incluir estas formas emergentes de inexactitud generada por IA. Propone adoptar una perspectiva que reconozca tanto los límites como las dinámicas propias de los sistemas probabilísticos y no humanos en la producción y transmisión de conocimiento.

Las “alucinaciones” generadas por sistemas de IA representan una categoría de inexactitud significativamente distinta de la desinformación humana, principalmente porque surgen sin ninguna intención deliberada. A través de ejemplos concretos —como el resumen satírico erróneo de Google que presentó una broma del Día de los Inocentes como hecho real—, la autora muestra cómo estas alucinaciones no son simples errores técnicos aislados, sino fenómenos de comunicación con implicaciones sociales reales.

Esto significa que las inexactitudes generadas por la IA no son producto de una intención humana consciente, sino de procesos probabilísticos automatizados y profundamente integrados en los ecosistemas institucionales de producción de información.

Shao destaca tres dimensiones clave en las que difiere una alucinación de IA respecto a la desinformación tradicional:

  1. Producción (Supply): Las respuestas falsas plausibles derivan de los procesos internos de los modelos, no de una fabricación intencional.
  2. Percepción (Demand): Los usuarios tienden a percibir estas respuestas como confiables justamente por su plausibilidad y confianza de presentación.
  3. Respuesta institucional: Las instituciones aún carecen de marcos adecuados para reconocer y responder a estos errores automáticos como formar parte del ecosistema comunicativo

ArXivBench: Evaluando la fiabilidad de los modelos de lenguaje en la generación de referencias académicas

Li, Ning; Zhang, Jingran; Cui, Justin. ArXivBench: When You Should Avoid Using ChatGPT for Academic Writing. arXiv preprint (v2), 7 de agosto de 2025. arXiv:2504.10496 [cs.IR]. https://arxiv.org/html/2504.10496v2

Los modelos de lenguaje a gran escala (LLMs) han mostrado capacidades impresionantes en razonamiento, pregunta-respuesta y generación de texto, pero su tendencia a generar contenido erróneo o referencias falsas sigue siendo una preocupación crítica en entornos académicos rigurosos. El artículo se enfoca en evaluar qué tan fiables son estos modelos al generar referencias académicas, concretamente enlaces a artículos en arXiv.

El artículo presenta ArXivBench, un banco de pruebas diseñado para evaluar la fiabilidad de los modelos de lenguaje a gran escala (LLMs) al generar referencias y enlaces a artículos académicos en arXiv. Los autores parten de la preocupación por el uso creciente de LLMs en redacción académica, donde su capacidad para producir contenido coherente y persuasivo no siempre va acompañada de precisión factual. En particular, señalan el riesgo de que los modelos generen referencias inventadas o incorrectas, lo que compromete la integridad de un trabajo de investigación.

Para abordar este problema, ArXivBench reúne un conjunto de 6.500 prompts que cubren trece áreas temáticas dentro de la informática, organizadas en ocho categorías y cinco subcampos. La herramienta incluye un flujo de trabajo automatizado para generar nuevos prompts y un sistema de evaluación que permite medir el rendimiento de diferentes modelos sin recurrir a técnicas de recuperación aumentada (RAG), evaluando así sus capacidades “de fábrica”. Se probaron quince modelos, tanto de código abierto como propietarios, analizando su precisión al proporcionar enlaces correctos y contenido relevante.

Los resultados muestran que el rendimiento varía de forma significativa según la disciplina. El subcampo de inteligencia artificial es donde los modelos ofrecen mejores resultados, mientras que en otras áreas las tasas de error son más elevadas. Entre los modelos evaluados, Claude-3.5-Sonnet destacó por su capacidad para generar respuestas relevantes y referencias exactas, superando de forma consistente a otros competidores.

Los autores concluyen que, si bien los LLMs pueden ser útiles en ciertas fases del trabajo académico, no son aún herramientas plenamente fiables para la generación de referencias académicas, especialmente en áreas menos cubiertas por sus datos de entrenamiento. ArXivBench se propone así como un instrumento para medir y mejorar la fiabilidad de estos sistemas, ofreciendo datos comparativos que orienten tanto a investigadores como a desarrolladores hacia un uso más responsable y fundamentado de la inteligencia artificial en la producción científica.

ChatGPT-5, presenta una reducción significativa en las llamadas “alucinaciones”

Baden, Matthew. «Tests Reveal That ChatGPT-5 Hallucinates Less Than GPT-4o Did — and Grok Is Still the King of Making Stuff UpTechRadar, August 8, 2025. https://www.techradar.com/ai-platforms-assistants/tests-reveal-that-chatgpt-5-hallucinates-less-than-gpt-4o-did-and-grok-is-still-the-king-of-making-stuff-up?utm_source=flipboard&utm_content=other

Recientes pruebas comparativas entre modelos avanzados de inteligencia artificial han revelado que ChatGPT-5, la versión más reciente del popular asistente de OpenAI, presenta una reducción significativa en las llamadas “alucinaciones” — es decir, respuestas erróneas, inventadas o sin fundamento — en comparación con su predecesor, GPT-4o.

Esta mejora en la precisión representa un paso importante hacia una IA más confiable y útil para aplicaciones que requieren datos exactos y consistencia en la información proporcionada.

A pesar de estos avances, otro competidor en el ámbito de los asistentes IA, Grok, desarrollado por Anthropic, continúa siendo la IA que más tiende a generar datos incorrectos o inventados, lo que se denomina coloquialmente como “hacer stuff up”. Aunque Grok es reconocido por su velocidad de respuesta y su habilidad para mantener conversaciones naturales y fluidas, sufre limitaciones en la exactitud de sus respuestas, lo que puede resultar problemático en contextos que demandan alta precisión.

El análisis destaca que la reducción de alucinaciones en ChatGPT-5 no implica que esté completamente libre de errores, por lo que la verificación y validación de la información siguen siendo cruciales cuando se emplea esta tecnología, especialmente en ámbitos profesionales, académicos o científicos. Además, el artículo subraya la importancia de que los desarrolladores sigan trabajando para equilibrar la velocidad, la fluidez y la precisión de las IA, para optimizar su desempeño sin sacrificar la confiabilidad.

Este tipo de evaluaciones es fundamental para usuarios, desarrolladores y empresas que dependen de modelos de lenguaje para tareas complejas, y también refleja cómo la competencia en el desarrollo de IA impulsa mejoras constantes y la necesidad de transparencia sobre las limitaciones actuales.