
Allaham, Mowafak, and Nicholas Diakopoulos. 2026. Synthetic Sources?: Auditing Generative Search Engine Citations for Evidence of AI-Generated Sources. arXiv:2605.23684, May 2026. https://arxiv.org/abs/2605.23684
El artículo analiza un problema emergente en la ecosfera informativa contemporánea: la aparición de “fuentes sintéticas” en los sistemas de búsqueda generativa, es decir, referencias o citas que no provienen de documentos humanos tradicionales verificables, sino que podrían haber sido generadas parcial o totalmente por modelos de inteligencia artificial. Los autores se centran en cómo los motores de búsqueda basados en IA —que combinan recuperación de información con generación de texto— pueden introducir nuevos tipos de distorsión en la cadena de citación científica y periodística.
El trabajo parte de una preocupación central: los sistemas de búsqueda generativa no solo responden preguntas, sino que también construyen aparentes evidencias mediante citas, enlaces o referencias que parecen legítimas. Sin embargo, estas referencias pueden no corresponder a documentos reales, o pueden ser reconstrucciones plausibles generadas por el modelo. Esto plantea un riesgo crítico para la integridad del ecosistema informativo, ya que el usuario puede asumir que una cita es verificable cuando en realidad es una “alucinación documentada” o una fuente fabricada.
Metodológicamente, el estudio propone un enfoque de auditoría para examinar las respuestas de diferentes sistemas de búsqueda generativa. Los autores diseñan un conjunto de procedimientos para analizar la trazabilidad de las citas: verifican si los enlaces conducen a documentos reales, si las fuentes son consistentes con el contenido citado y si existen patrones recurrentes de generación de referencias inexistentes. Este enfoque permite clasificar las citas en diferentes categorías, incluyendo fuentes auténticas, fuentes parcialmente verificables y fuentes completamente sintéticas.
Los resultados muestran que una proporción significativa de las citas generadas por sistemas de IA no puede ser rastreada directamente a publicaciones reales o presenta inconsistencias importantes entre el contenido citado y la fuente original. Esto sugiere que los sistemas de búsqueda generativa pueden producir un tipo de “autoridad simulada”, donde la apariencia de rigor académico o periodístico no está respaldada por una verificación documental sólida.
El estudio analiza en total 19.154 fuentes (URLs con contenido recuperado) que han sido citadas por distintos sistemas de búsqueda generativa. Estas fuentes representan el conjunto de documentos que los modelos consultan y utilizan como apoyo para construir sus respuestas a los usuarios. En este corpus amplio, los investigadores intentan determinar no solo qué dominios se citan, sino también la naturaleza del contenido que contienen.
Dentro de este conjunto, el sistema de detección de contenido generado por inteligencia artificial —en este caso, el modelo Pangram— identifica dos categorías principales de contenido sintético. Por un lado, 2.916 fuentes son clasificadas como “Highly Likely AI”, es decir, textos con una alta probabilidad de haber sido generados por modelos de lenguaje o sistemas automáticos. Por otro lado, 140 fuentes adicionales se clasifican como “Likely AI”, lo que indica una probabilidad significativa, aunque algo menos concluyente, de haber sido producidas o fuertemente asistidas por IA.
Al sumar ambas categorías, el estudio concluye que existen 3.056 documentos sintéticos en total dentro de las fuentes analizadas. Esta cifra no implica únicamente textos completamente generados por IA, sino también aquellos que pueden haber sido parcialmente producidos o editados mediante herramientas de inteligencia artificial, lo que amplía el concepto de “contenido sintético” utilizado en el análisis.
En términos proporcionales, estos 3.056 documentos representan aproximadamente un 16% del total de fuentes examinadas. Este dato es especialmente relevante porque indica que una parte no menor de las fuentes utilizadas por los sistemas de búsqueda generativa podría estar influida por procesos automatizados de generación de texto, lo que introduce posibles sesgos o problemas de calidad en la cadena de información.
El estudio subraya además que esta cifra debe interpretarse como una estimación conservadora o “lower bound”, es decir, un límite inferior. Esto significa que el 16% probablemente no refleja la totalidad real del fenómeno, ya que existen limitaciones técnicas importantes: no todas las páginas pudieron ser analizadas, algunos contenidos multimodales (como PDFs, imágenes o vídeos) quedaron fuera, y además los detectores de IA tienen márgenes de error inherentes.
En consecuencia, los autores advierten que la presencia real de contenido sintético en las citas podría ser igual o incluso superior al 16% estimado. Este resultado sugiere que los sistemas de búsqueda basados en IA están construyendo sus respuestas sobre un ecosistema informativo donde el contenido generado por IA ya es una fracción significativa y potencialmente creciente del total de fuentes disponibles en la web.
El artículo también discute las implicaciones teóricas y prácticas de este fenómeno. En primer lugar, plantea un desafío epistemológico: la noción tradicional de citación como mecanismo de validación del conocimiento se ve erosionada cuando las citas pueden ser generadas artificialmente. En segundo lugar, advierte sobre el impacto en la confianza pública en sistemas de información, especialmente en contextos de alta sensibilidad como salud, política o investigación académica.
Finalmente, los autores proponen la necesidad de nuevos marcos de transparencia y auditoría para sistemas de búsqueda generativa. Esto incluye mecanismos automáticos de verificación de fuentes, estándares de trazabilidad de citas y políticas de diseño que eviten la generación de referencias no comprobables. El objetivo general es preservar la integridad del ecosistema informativo en un entorno donde la frontera entre contenido generado y contenido documentado se vuelve cada vez más difusa.








