
Fowler, Geoffrey A. “We Tested Which AI Gave the Best Answers Without Making Stuff Up — One Beat ChatGPT.” The Washington Post, August 27, 2025
En agosto de 2025, The Washington Post publicó un estudio en el que un grupo de bibliotecarios evaluó nueve herramientas de búsqueda basadas en inteligencia artificial para determinar cuáles ofrecían respuestas más precisas y fiables, evitando las conocidas “alucinaciones” o errores inventados por la IA. El objetivo era medir la exactitud de las respuestas, la fiabilidad de las fuentes y la capacidad de cada sistema para manejar información reciente, especializada o compleja.
El experimento consistió en 30 preguntas diseñadas para poner a prueba las fortalezas y debilidades de cada IA, incluyendo datos poco conocidos, eventos recientes, interpretación de imágenes y sesgos de los modelos. Se evaluaron herramientas como ChatGPT (versiones 4 y 5), Bing Copilot, Claude, Grok, Perplexity, Meta AI y las versiones de búsqueda de Google AI. Tres bibliotecarios analizaron cerca de 900 respuestas, valorando tanto la exactitud como la presencia de referencias confiables.
Los resultados mostraron que Google AI Mode fue, en general, la herramienta más fiable, especialmente en la resolución de preguntas sobre trivialidades o información reciente. Sin embargo, todas las IA evaluadas presentaron limitaciones: muchas generaron respuestas incorrectas con citas aparentemente verídicas, fallaron en preguntas especializadas o de difícil acceso, tuvieron problemas con información reciente y mostraron sesgos hacia ciertas disciplinas o perspectivas. La interpretación de imágenes también fue un reto para la mayoría de los sistemas.
A pesar de sus limitaciones, las IA demostraron ser útiles en ciertos contextos, como la síntesis de información dispersa o compleja. Los evaluadores subrayaron que, aunque estas herramientas pueden ahorrar tiempo, no deben reemplazar la verificación tradicional de fuentes. Recomiendan un uso crítico y complementario, tratando la IA como un apoyo para la investigación más que como fuente definitiva.
El estudio evidencia que ninguna IA es perfecta y que, aunque ofrecen ventajas en rapidez y síntesis, siguen siendo propensas a errores, omisiones y sesgos. Los bibliotecarios enfatizan la importancia de la verificación y el pensamiento crítico al usar estas herramientas, igual que se haría al consultar fuentes tradicionales en una biblioteca.
Resultados clave:
Herramienta más fiable: Google AI Mode fue la IA que ofreció respuestas más precisas y consistentes, especialmente en información reciente y trivialidades poco conocidas.
Alucinaciones y errores: Varias IA, incluida ChatGPT, generaron respuestas incorrectas con un tono de certeza, a veces citando fuentes que no respondían a la pregunta.
Limitaciones con información especializada: Ninguna IA respondió correctamente en todos los casos que requerían conocimientos de nicho o fuentes difíciles de acceder.
Problemas con información reciente: Las IA fallaron en eventos o datos muy recientes debido a sus límites en actualización de datos.
Interpretación visual limitada: Las preguntas sobre detalles de imágenes o contenido visual fueron problemáticas para la mayoría de las IA.
Sesgos inherentes: Las IA mostraron sesgos en temas de carreras académicas o áreas de conocimiento, favoreciendo disciplinas STEM sobre humanidades o sociales.
Utilidad relativa: Las IA pueden ahorrar tiempo y sintetizar información compleja, pero no sustituyen la verificación de fuentes tradicionales; deben usarse como complemento crítico en la investigación.








.png)