Archivo de la etiqueta: Plagio

Los detectores de escritura con IA marcan erróneamente el 60 % de textos de hablantes no nativos como escritos por IA

Myers, Andrew. «AI-Detectors Biased Against Non-Native English WritersStanford Institute for Human-Centered Artificial Intelligence, 15 de mayo de 2023. https://hai.stanford.edu/news/ai-detectors-biased-against-non-native-english-writers.

Los detectores de escritura con IA funcionan mejor con hablantes nativos de inglés. Los ensayos de estudiantes nacidos en EE. UU. fueron evaluados con alta precisión, mientras que los textos de hablantes no nativos fueron clasificados erróneamente como generados por IA en más del 60 % de los casos.

Un estudio de la Universidad de Stanford revela que los detectores de contenido generado por inteligencia artificial (IA) presentan sesgos significativos contra los escritores no nativos de inglés. Estos sistemas, diseñados para identificar textos producidos por IA, muestran una precisión notablemente baja al evaluar ensayos escritos por estudiantes cuya lengua materna no es el inglés.

La investigación, dirigida por el profesor James Zou, encontró que mientras los detectores alcanzaban una precisión casi perfecta al evaluar ensayos de estudiantes nacidos en EE. UU., clasificaron erróneamente más del 61% de los ensayos del TOEFL (Test of English as a Foreign Language) como generados por IA. Además, todos los detectores identificaron como IA 18 de los 91 ensayos evaluados (19%), y al menos uno de ellos marcó 89 de los 91 ensayos (97%) como potencialmente generados por IA.

Este sesgo se atribuye al uso de métricas como la «perplejidad», que mide la complejidad lingüística. Los escritores no nativos suelen obtener puntuaciones más bajas en aspectos como riqueza léxica, diversidad léxica, complejidad sintáctica y gramatical, lo que los hace más susceptibles a ser identificados erróneamente como generadores de IA. Además, los sistemas actuales son fácilmente manipulables mediante técnicas como la «ingeniería de indicaciones», donde se solicita a una IA generativa que reescriba un texto utilizando un lenguaje más sofisticado, lo que puede engañar a los detectores.

Los autores del estudio advierten sobre los riesgos éticos de utilizar estos detectores sin una evaluación rigurosa, ya que podrían llevar a acusaciones injustas o sanciones para estudiantes y trabajadores extranjeros. Proponen evitar su uso en entornos educativos con alta presencia de hablantes no nativos de inglés y sugieren el desarrollo de métodos más sofisticados, como la incorporación de marcas de agua digitales en los textos generados por IA, para mejorar la fiabilidad de los sistemas de detección.

Fiabilidad de los detectores de escritura con IA

La fiabilidad de los detectores de texto generado por inteligencia artificial (IA) es un tema de creciente preocupación y debate en diversos ámbitos, como la educación, el periodismo y la investigación académica. Aunque existen herramientas comerciales que afirman altos niveles de precisión, diversos estudios han evidenciado limitaciones significativas en su desempeño.

Investigaciones han revelado que muchos detectores de IA presentan tasas de precisión inferiores al 80%. Por ejemplo, un estudio realizado por Weber-Wulff y colaboradores en 2023 evaluó 14 herramientas de detección, incluyendo Turnitin y GPTZero, y encontró que «todos puntuaron por debajo del 80% de precisión, y solo 5 superaron el 70%» . Además, estas herramientas tienden a clasificar los textos más como humanos que como generados por IA, y su precisión disminuye al parafrasear el contenido.

Un estudio adicional de la Universidad de Maryland destacó que los detectores actuales no son fiables en escenarios prácticos, con un rendimiento apenas superior al de un clasificador aleatorio. Además, técnicas de parafraseo pueden reducir significativamente la tasa de detección.

El uso de detectores de IA también ha suscitado preocupaciones éticas. Investigaciones han demostrado que estos sistemas tienden a clasificar erróneamente los textos de personas no nativas en inglés como generados por IA. Por ejemplo, un estudio reveló que los ensayos de escritores no nativos fueron clasificados como generados por IA en un 61,3% de los casos, en comparación con solo el 10% de los ensayos de escritores nativos.

Además, se ha observado que los detectores de IA pueden tener dificultades para identificar contenido generado por modelos avanzados como GPT-4, lo que plantea desafíos adicionales para su aplicación en contextos académicos y profesionales.

Dado el panorama actual, se recomienda utilizar los detectores de IA como herramientas complementarias y no como métodos definitivos para evaluar la autoría de un texto. Es esencial considerar el contexto y aplicar un juicio humano informado al interpretar los resultados de estas herramientas. Además, se destaca la importancia de desarrollar tecnologías de detección más avanzadas y éticamente responsables para abordar los desafíos emergentes en la identificación de contenido generado por IA.

El auge alarmante de los artículos científicos fraudulentos

Fraudulent Scientific Papers Are Booming.” The Economist, 6 de agosto de 2025. https://www.economist.com/science-and-technology/2025/08/06/fraudulent-scientific-papers-are-booming

Se analiza un problema creciente y alarmante en la ciencia: el aumento exponencial de artículos científicos fraudulentos. Mientras que el número total de publicaciones científicas se duplica aproximadamente cada quince años, el número estimado de artículos fraudulentos se duplica cada año y medio, lo que indica un ritmo mucho más acelerado de expansión de la falsedad en la literatura académica. Esta tendencia sugiere que, si continúa, los estudios fraudulentos podrían llegar a representar una proporción significativa del conocimiento científico disponible.

Uno de los factores clave detrás de este fenómeno son los llamados «paper mills», organizaciones que venden artículos ya redactados o fabricados, muchas veces con datos falsos, imágenes manipuladas o plagios. A cambio, los científicos obtienen autorías o citas sin esfuerzo real. Estas redes operan con una sofisticación sorprendente, casi como mafias, e involucran a editores corruptos, intermediarios y revistas vulnerables. Solo un pequeño número de individuos en posiciones editoriales puede facilitar la publicación masiva de estudios falsos, lo que multiplica la propagación del fraude.

El sistema editorial, tal como está estructurado, muestra vulnerabilidades importantes. Los intentos de combatir la difusión de artículos fraudulentos, como retirar revistas de bases de datos académicas o deindexarlas, han sido insuficientes. La proliferación de estudios falsos distorsiona campos enteros, dificulta los procesos de revisión y pone en riesgo los meta-análisis que guían prácticas médicas y científicas. Esto erosiona la confianza tanto dentro de la comunidad científica como en el público general, amenazando la credibilidad del método científico y sus aplicaciones.

Para llegar a su conclusión, los autores buscaron artículos publicados en PLOS ONE, una revista importante y generalmente reconocida que identifica cuál de sus 18.329 editores es responsable de cada artículo. (La mayoría de los editores son académicos que realizan la revisión por pares durante toda su investigación). Desde 2006, la revista ha publicado 276.956 artículos, 702 de los cuales fueron retractados y 2.241 recibieron comentarios en PubPeer, un sitio web que permite a otros académicos y a investigadores en línea plantear inquietudes.

El artículo también hace un llamado urgente a reforzar la integridad académica. Aunque existen herramientas para contrarrestar la amenaza —como retractaciones, exclusión de autores o instituciones, y revisiones de indexación en bases académicas—, las medidas actuales no son suficientes frente al crecimiento desenfrenado del fraude. De no implementarse estrategias más rigurosas y coordinadas, advierten los expertos, la propia ciencia podría verse comprometida.

Para preservar la credibilidad y la utilidad del conocimiento científico, será crucial que las instituciones académicas, las publicaciones y los evaluadores actúen de manera decidida y coordinada, reformando incentivos y fortaleciendo los mecanismos de control y verificación.

Contenido generado por IA está contaminando los servidores de preprints

Watson, Traci. «AI content is tainting preprints: how moderators are fighting backNature, 12 de agosto de 2025. https://doi.org/10.1038/d41586-025-02469-y.

Diversos servidores de preprints —como PsyArXiv, arXiv, bioRxiv y medRxiv— están detectando un aumento en el número de manuscritos que parecen haber sido generados o asistidos por inteligencia artificial o incluso por fábricas de artículos («paper mills»). Este comportamiento plantea serias dudas sobre la integridad de la ciencia abierta y la velocidad de publicación sin control.

Un caso emblemático involucró un manuscrito titulado “Self-Experimental Report: Emergence of Generative AI Interfaces in Dream States” publicado en PsyArXiv. El estilo estrambótico del contenido, la falta de afiliación del autor y la ausencia de detalles claros sobre el uso de IA llevaron a una alerta lanzada por la psicóloga Olivia Kirtley, quien luego solicitó su eliminación. Aunque el autor afirmó que la IA solo tuvo un papel limitado (como cálculo simbólico y verificación de fórmulas), no lo declaró explícitamente, lo que violó las normas del servidor.

En el servidor arXiv, los moderadores estiman que aproximadamente un 2 % de las presentaciones son rechazadas por tener indicios de IA o ser elaboradas por paper mills.

En bioRxiv y medRxiv, se rechazan más de diez manuscritos al día que resultan sospechosos de ser generados de forma automatizada, dentro de un promedio de 7.000 envíos mensuales

Los servidores de preprints reconocen un incremento reciente en contenido generado por IA, especialmente tras el lanzamiento de herramientas como ChatGPT en 2022. Esto ha generado una crisis creciente en apenas los últimos meses. El Centro para la Ciencia Abierta (Center for Open Science), responsable de PsyArXiv, expresó públicamente su preocupación por esta tendencia.

Un estudio publicado la semana pasada en Nature Human Behavior estima que, en septiembre de 2024, casi dos años después del lanzamiento de ChatGPT, los LLM produjeron el 22 % del contenido de los resúmenes de informática publicados en arXiv y aproximadamente el 10 % del texto de los resúmenes de biología publicados en bioRxiv. En comparación, un análisis de los resúmenes biomédicos publicados en revistas en 2024 reveló que el 14 % contenía texto generado por LLM en sus resúmenes. (imagen de arriba)

Sin embargo, aplicar filtros más rigurosos para detectar contenido automatizado presenta desafíos: requiere recursos adicionales, puede ralentizar el proceso de publicación y genera dilemas sobre qué contenidos aceptar o rechazar sin convertirse en un sistema excesivamente burocrático

La proliferación de contenido no fiable amenaza con erosionar la credibilidad de la ciencia de los repositorios de preprints, que juegan un papel cada vez más relevante en la difusión rápida de descubrimientos. Se vuelve clave que los servicios de preprints implementen mecanismos de detección más sofisticados, promuevan la transparencia respecto al uso de IA en la redacción y mantengan un equilibrio entre agilidad de publicación y rigor científico.

La IA saca sobresaliente en los exámenes de Derecho

Sloan, Karen. “Artificial Intelligence Is Now an A+ Law Student, Study Finds.” Reuters, 5 de junio de 2025. https://www.reuters.com/legal/legalindustry/artificial-intelligence-is-now-an-law-student-study-finds-2025-06-05/.

Un estudio reciente realizado por la Universidad de Maryland ha revelado que la última generación de inteligencia artificial generativa, específicamente el modelo o3 de OpenAI, es capaz de obtener calificaciones sobresalientes en los exámenes finales de la Facultad de Derecho Francis King Carey. Este modelo alcanzó calificaciones que van desde A+ hasta B en ocho exámenes de primavera evaluados por profesores de la universidad. Estas calificaciones representan una mejora significativa en comparación con versiones anteriores de ChatGPT, que en estudios previos habían obtenido calificaciones de B, C e incluso D en exámenes similares realizados en 2022 y 2023.

A diferencia de ChatGPT, que genera respuestas de manera inmediata en función de las consultas del usuario, o3 es un modelo de razonamiento. Esto significa que evalúa internamente las preguntas, genera respuestas tentativas y múltiples enfoques, y luego produce el texto final tras un proceso de revisión. Este enfoque le permite abordar problemas legales complejos con mayor precisión y coherencia.

Los resultados obtenidos por o3 en áreas como Derecho Constitucional, Responsabilidad Profesional y Propiedad, donde obtuvo A+, son indicativos de su capacidad para comprender y aplicar principios legales de manera efectiva. Sin embargo, en áreas como Derecho Penal y Procedimientos Penales, donde obtuvo A-, B+ y B, se observan ciertas limitaciones que podrían reflejar la complejidad inherente a estos campos del derecho.

Este avance sugiere que la inteligencia artificial generativa está acercándose al rendimiento de los estudiantes de derecho de alto nivel. No obstante, se destaca que, aunque o3 muestra un rendimiento impresionante, aún existen áreas en las que la intervención humana sigue siendo esencial para garantizar la interpretación adecuada de matices legales y contextuales

Por qué ChatGPT crea citas científicas que no existen

Westreich, Sam. «Why ChatGPT Creates Scientific Citations — That Don’t ExistAge of Awareness, June 4, 2025. https://medium.com/age-of-awareness/why-chatgpt-creates-scientific-citations-that-dont-exist-8978ec973255

Se aborda un fenómeno cada vez más observado en la inteligencia artificial generativa: la creación de referencias bibliográficas falsas o inventadas. Este problema, conocido en la comunidad de IA como “hallucination” (alucinación), consiste en que los modelos de lenguaje como ChatGPT generan respuestas plausibles y estructuradas, pero que no se corresponden con datos reales verificables.

En el caso de las citas científicas, el modelo construye referencias completas que incluyen autores, títulos, años y revistas, pero que no existen en ninguna base de datos académica. Esto ocurre porque la IA no accede directamente a una base de datos específica al generar la respuesta, sino que se basa en patrones probabilísticos aprendidos durante su entrenamiento en grandes corpus textuales.

El fenómeno de la hallucination en modelos de lenguaje ha sido documentado por varios estudios recientes. Por ejemplo, Ji et al. (2023) en su trabajo “Survey of Hallucination in Natural Language Generation” indican que esta tendencia a inventar hechos o detalles es inherente a la forma en que estos modelos predicen palabras en secuencia para maximizar la coherencia textual, pero sin una “conciencia” o acceso en tiempo real a datos verdaderos (Ji et al., 2023, ACM Computing Surveys). Así, el modelo genera lo que “suena correcto” más que lo que es correcto, produciendo con frecuencia referencias falsas, especialmente cuando se le solicita citar fuentes académicas.

El problema de las citas inventadas tiene graves implicaciones en ámbitos científicos y académicos, donde la veracidad y la confiabilidad de las referencias es fundamental para la integridad del conocimiento. Según un artículo publicado en Nature sobre la creciente adopción de IA en la generación de textos académicos, existe preocupación entre investigadores sobre el potencial de estas herramientas para introducir errores difíciles de detectar, que pueden desinformar a estudiantes y profesionales (Nature Editorial, 2024). La confianza que los usuarios depositan en estas IA aumenta el riesgo, dado que una cita bien formada visualmente se asume auténtica, lo que puede propagar información errónea y socavar la credibilidad de trabajos científicos.

Westreich señala que la raíz del problema está en la naturaleza probabilística del entrenamiento del modelo, que aprende a generar texto basado en patrones estadísticos en lugar de verificar hechos. Además, las bases de datos académicas tienen un acceso limitado y no siempre están integradas en los sistemas de generación de lenguaje, lo que impide la validación automática de las citas en tiempo real. Sin embargo, se están explorando soluciones para mitigar este problema. Por ejemplo, la integración de sistemas de búsqueda y recuperación de información en tiempo real (RAG, Retrieval-Augmented Generation) permitiría a los modelos consultar bases de datos académicas fiables durante la generación de texto, reduciendo la producción de referencias falsas (Lewis et al., 2020, NeurIPS).

Otra estrategia recomendada es aumentar la transparencia del modelo, avisando a los usuarios de que las referencias generadas pueden no ser reales y deben ser verificadas independientemente. Instituciones educativas y editoriales también pueden establecer guías para el uso responsable de estas herramientas, fomentando la revisión manual de las citas generadas por IA.

En un análisis crítico más amplio, la producción de citas falsas por IA pone en evidencia la brecha entre la fluidez lingüística y la comprensión real del contenido que tienen estos modelos. Aunque pueden imitar estructuras y formatos, carecen de un sistema de verificación interna que asegure la veracidad. Por ello, investigadores como Bender et al. (2021) advierten que el uso indiscriminado de estas tecnologías sin supervisión puede erosionar la confianza en la información científica y educativa, un problema que debe abordarse con estrategias técnicas, educativas y éticas.

La comunidad científica y tecnológica trabaja para desarrollar métodos que permitan una generación de contenido más responsable, precisa y verificable. Mientras tanto, es imprescindible que los usuarios mantengan un enfoque crítico y verifiquen cualquier referencia proporcionada por estas herramientas, para preservar la integridad académica y evitar la propagación de desinformación.

Decopy.ai: detector y humanizador de texto escrito por IA gratuito

Decopy.ai

https://decopy.ai/

Decopy.ai es una plataforma integral de inteligencia artificial especializada en la detección y análisis de contenido generado por IA. Esta herramienta surge como respuesta a la creciente necesidad de verificar la autenticidad del contenido digital en una era donde la inteligencia artificial puede producir textos, imágenes y otros medios de comunicación con una calidad cada vez más sofisticada. La plataforma se posiciona como una solución confiable para educadores, empresas, creadores de contenido y cualquier persona que requiera verificar la originalidad de material digital.

La funcionalidad central de Decopy.ai es su capacidad para identificar contenido creado por modelos de inteligencia artificial como ChatGPT, Gemini, Claude, LLaMa y otros sistemas similares. La plataforma cuenta con una tasa de precisión que alcanza hasta el 99% en la detección de texto generado por IA, lo que la convierte en una herramienta altamente confiable para verificar la autenticidad del contenido escrito.

Además del análisis textual, Decopy.ai incluye un detector de imágenes basado en IA que permite verificar instantáneamente la autenticidad de las imágenes. Esta funcionalidad es especialmente relevante en un contexto donde las imágenes generadas por IA se vuelven cada vez más realistas y difíciles de distinguir de las fotografías auténticas.

Una característica distintiva de la plataforma es su capacidad para «humanizar» el contenido generado por IA. Esta función transforma el texto producido por inteligencia artificial para que resulte más natural y menos detectable por otros sistemas de verificación. Esta herramienta es particularmente útil para aquellos que desean refinar contenido generado por IA para hacerlo más atractivo y auténtico.

Decopy.ai también funciona como una suite integral de herramientas de escritura que incluye capacidades de paráfrasis, reescritura para mayor claridad, traducción entre idiomas y creación de ensayos bien estructurados. Estas funcionalidades están diseñadas para facilitar el proceso de escritura y mejorar la calidad del contenido producido.

También, la plataforma ofrece capacidades de resumido que permiten a los usuarios procesar documentos extensos y extraer las ideas principales de manera eficiente. Esta función es especialmente valiosa para académicos, estudiantes y profesionales que necesitan procesar grandes volúmenes de información rápidamente.

Una ventaja significativa de Decopy.ai es su soporte para múltiples idiomas, lo que la hace accesible para una audiencia global. Esta característica es particularmente importante dado que el contenido generado por IA se produce en diversos idiomas y requiere herramientas de detección que puedan manejar esta diversidad lingüística.

El 93% de los estudiantes usa herramientas de Inteligencia artificial

Kelly, Rhea. 2025. “Survey: Student AI Use on the Rise.” Campus Technology, 25 de junio de 2025. https://campustechnology.com/articles/2025/06/25/survey-student-ai-use-on-the-rise.aspx.

El estudio confirma que la inteligencia artificial se ha convertido en una herramienta habitual en la vida académica de muchos estudiantes. Aun así, su integración plantea desafíos importantes que deben abordarse desde las instituciones educativas, fomentando un uso crítico, ético y estratégico.

Un reciente estudio llevado a cabo por Microsoft en colaboración con PSB Insights revela que el uso de inteligencia artificial (IA) entre estudiantes estadounidenses está creciendo rápidamente. Según la encuesta, publicada por Campus Technology el 25 de junio de 2025, el 93 % de los estudiantes mayores de 16 años ha utilizado alguna vez herramientas de IA en sus estudios. Este dato indica una integración casi universal de estas tecnologías en la vida académica, una cifra que ha aumentado significativamente en comparación con el año anterior.

El informe también muestra un incremento notable en la frecuencia de uso. El 42 % de los encuestados afirma utilizar IA al menos semanalmente, mientras que un 30 % la emplea diariamente. Esto representa un aumento de 26 puntos porcentuales en el grupo que la usa con frecuencia y una disminución de 20 puntos entre quienes nunca la han utilizado, lo que evidencia una adopción acelerada y progresiva de la IA en entornos educativos.

Los fines para los que los estudiantes utilizan la IA son variados. La mayoría recurre a ella para generar ideas iniciales o ayudarles a comenzar tareas (37 %), para resumir información (33 %) o para obtener respuestas rápidas (33 %). Otros la emplean como herramienta de retroalimentación preliminar (32 %), como medio de aprendizaje personalizado (30 %) o para mejorar su escritura (28 %). Además, se valora su utilidad para crear materiales visuales, desarrollar habilidades para el futuro, completar tareas enteras o simplemente para liberar tiempo y cuidar del bienestar personal. Estas cifras muestran que los estudiantes no solo utilizan la IA como ayuda puntual, sino también como un recurso para el aprendizaje autónomo, la organización y la creatividad.

Lluvia de ideas y arranque de tareas: 37 %
Resúmenes de información: 33 %
Obtener respuestas rápidamente: 33 %
Retroalimentación inicial: 32 %
Aprendizaje personalizado: 30 %
Mejora de escritura: 28 %
Diseño visual para presentaciones: 25 %
Desarrollo de habilidades futuras: 22 %
Realización completa de tareas: 22 %
Fomento de la creatividad: 21 %
Liberar tiempo para aprendizaje o bienestar: 21 %
Apoyo al bienestar personal: 19 %

Sin embargo, el uso creciente de la IA también viene acompañado de preocupaciones. Un 33 % teme ser acusado de hacer trampa o plagio; un 30 % se preocupa por volverse demasiado dependiente de estas herramientas; y un 28 % teme recibir información inexacta o engañosa. También surgen inquietudes sobre la pérdida de oportunidades valiosas de aprendizaje (24 %) y sobre los posibles dilemas éticos y de autonomía (24 %). Estos datos indican que, si bien los beneficios son evidentes, los estudiantes no son ingenuos frente a los riesgos que conlleva esta tecnología.

Acusaciones de plagio o trampa: 33 %
Dependencia excesiva de la IA: 30 %
Información inexacta o desinformación: 28 %
Pérdida de aspectos significativos del aprendizaje: 24 %
Cuestiones éticas y autonómicas: 24 %

La formación en competencias digitales, el establecimiento de políticas claras y el acompañamiento docente serán claves para equilibrar los beneficios de la IA con una educación significativa y responsable.

Un juez avala como ‘uso justo’ el entrenamiento de IA con millones de libros

MIT Technology Review. “AI Giants Win Big in the Copyright Fight. Here’s What Happens Now.” MIT Technology Review, July 1, 2025. https://www.technologyreview.com/2025/07/01/1119486/ai-copyright-meta-anthropic/

Un juez federal de Estados Unidos dictaminó que el uso de millones de libros por parte de Anthropic para entrenar su modelo Claude constituye «uso justo» (fair use), ya que se trató de un uso altamente transformativo. En un caso paralelo, un tribunal también falló a favor de Meta, al considerar que los autores no demostraron perjuicio económico suficiente por el entrenamiento de su modelo Llama

Estas decisiones judiciales proporcionan un respaldo legal significativo a grandes empresas tecnológicas —como Anthropic, Meta, Google, OpenAI y Microsoft— al determinar que pueden usar contenido accesible en línea para entrenar sus modelos sin tener que pagar a los creadores originales

No obstante, se advierte sobre límites importantes: en el caso de Anthropic, el juez Alsup señaló que conservar millones de libros pirateados en una “biblioteca central” no es uso justo, por lo que esa parte del litigio sigue en curso.

Este giro refuerza la doctrina del fair use en los EE.UU., estableciendo que el entrenamiento de IA puede estar protegido legalmente si no causa daño al mercado original. Sin embargo, los fallos se basan en detalles concretos de cada caso, y no suponen una carta blanca general. En especial, los tribunales dejaron abierta la posibilidad de futuras demandas si se demuestra el uso de material pirateado o un impacto negativo en los mercados creativos .

Como reacción, surgen iniciativas empresariales como el servicio «pay per crawl» de Cloudflare, diseñado para que los creadores de contenido puedan exigir compensación a las compañías de IA por acceder a sus sitios web. Además, algunos medios, como Microsoft, optan por formatos menos expuestos al scraping web, como la publicación impresa de su revista Signal

Finalmente decir que estos hitos legales representan una victoria para la industria de la IA, al legitimar el uso transformativo de contenido protegido, pero también mantienen vivo el debate sobre la compensación justa, la procedencia ética de los datos y la sostenibilidad del ecosistema creativo en línea.

Ver además: Re:Create sostiene que el entrenamiento de modelos de IA constituye un uso transformador y un posible uso justo

La crisis de atribución en los resultados de los modelos de Inteligencia Artificial: Gemini omite el 94% de las citas

Strauss, Ilan; Jangho Yang; Tim O’Reilly; Sruly Rosenblat; e Isobel Moure. “The Attribution Crisis in LLM Search Results: Estimating Ecosystem Exploitation.SSRC AI Disclosures Project Working Paper Series (SSRC AI WP 2025‑06), junio 2025 https://ssrc-static.s3.us-east-1.amazonaws.com/The-Attribution-Crisis-LLM-Search-Results-Strauss-Yang-OReilly-Rosenblat-Moure_SSRC_062525.pdf

La investigación revela una alarmante “crisis de atribución” en las respuestas de modelos de lenguaje con búsqueda web (LLM), basada en el análisis de casi 14.000 conversaciones reales usando Google Gemini, OpenAI GPT‑4o y Perplexity Sonar. Un primer hallazgo asombroso es que hasta un 34 % de las respuestas generadas por Gemini y un 24 % de GPT‑4o se basan exclusivamente en conocimiento interno, sin realizar ninguna consulta en línea.

Esto se agrava al observar que incluso cuando acceden a la web, los modelos rara vez acreditan correctamente sus fuentes: Gemini omitió citas en el 92 % de sus respuestas, mientras que Perplexity Sonar realizó una media de 10 búsquedas por consulta, pero solo citó 3 o 4 páginas relevantes. Modelos como Gemini y Sonar dejan un déficit aproximado de tres sitios relevantes sin referenciar, una brecha atribuida no a limitaciones tecnológicas, sino a decisiones de diseño en su arquitectura de recuperación.

Los autores califican este déficit como una forma de “explotación del ecosistema”: los LLMs se nutren del contenido disponible online, pero no devuelven el crédito correspondiente, lo que mina los incentivos de los creadores para producir información de calidad. En respuesta, abogan por una arquitectura de búsqueda más transparente basada en estándares abiertos (como OpenTelemetry), que exponga registros completos de recuperación y citaciones. Ello permitiría evaluar y comparar de forma fiable diferentes modelos y fortalecer la confianza en sus respuestas