
Strauss, Ilan; Jangho Yang; Tim O’Reilly; Sruly Rosenblat; e Isobel Moure. “The Attribution Crisis in LLM Search Results: Estimating Ecosystem Exploitation.” SSRC AI Disclosures Project Working Paper Series (SSRC AI WP 2025‑06), junio 2025 https://ssrc-static.s3.us-east-1.amazonaws.com/The-Attribution-Crisis-LLM-Search-Results-Strauss-Yang-OReilly-Rosenblat-Moure_SSRC_062525.pdf
La investigación revela una alarmante “crisis de atribución” en las respuestas de modelos de lenguaje con búsqueda web (LLM), basada en el análisis de casi 14.000 conversaciones reales usando Google Gemini, OpenAI GPT‑4o y Perplexity Sonar. Un primer hallazgo asombroso es que hasta un 34 % de las respuestas generadas por Gemini y un 24 % de GPT‑4o se basan exclusivamente en conocimiento interno, sin realizar ninguna consulta en línea.
Esto se agrava al observar que incluso cuando acceden a la web, los modelos rara vez acreditan correctamente sus fuentes: Gemini omitió citas en el 92 % de sus respuestas, mientras que Perplexity Sonar realizó una media de 10 búsquedas por consulta, pero solo citó 3 o 4 páginas relevantes. Modelos como Gemini y Sonar dejan un déficit aproximado de tres sitios relevantes sin referenciar, una brecha atribuida no a limitaciones tecnológicas, sino a decisiones de diseño en su arquitectura de recuperación.
Los autores califican este déficit como una forma de “explotación del ecosistema”: los LLMs se nutren del contenido disponible online, pero no devuelven el crédito correspondiente, lo que mina los incentivos de los creadores para producir información de calidad. En respuesta, abogan por una arquitectura de búsqueda más transparente basada en estándares abiertos (como OpenTelemetry), que exponga registros completos de recuperación y citaciones. Ello permitiría evaluar y comparar de forma fiable diferentes modelos y fortalecer la confianza en sus respuestas