Archivo de la etiqueta: Plagios

Por qué los autores no revelan el uso de la IA y qué deberían (o no) hacer las editoriales al respecto

Staiman, Avi. Why Authors Aren’t Disclosing AI Use and What Publishers Should (Not) Do About It. The Scholarly Kitchen, 27 de enero de 2026.

Part 1

Part 2

  1. El problema central

En esta serie de dos artículos, Avi Staiman analiza un fenómeno creciente en las publicaciones académicas: aunque muchos investigadores utilizan herramientas de inteligencia artificial (IA) en diversas fases de su trabajo —desde la búsqueda de literatura, redacción de textos o apoyo en el análisis de datos—, muy pocos lo revelan explícitamente en sus manuscritos. Las políticas de muchas revistas y editoriales requieren este tipo de declaraciones, pero la práctica demuestra que casi nadie cumple con ellas y la razón no es simplemente desobediencia, sino un problema de incentivos, claridad y cultura editorial.

Los editores esperaban que al exigir a los autores que explicaran su uso de IA se fomentara una mayor transparencia, permitiendo que revisores y equipos editoriales evaluaran si ese uso era apropiado y cómo influía en la investigación. Sin embargo, esto no ha ocurrido en la práctica: con encuestas que muestran que más de la mitad de los investigadores (por ejemplo, un 62 %) usan IA en algún punto de su flujo de trabajo, solo una fracción mínima declara esa asistencia en sus artículos publicados.

  1. ¿Por qué los autores no revelan su uso de IA?

Staiman identifica varias razones clave:

a) Miedo a consecuencias negativas

Muchos autores temen que revelar el uso de IA sea interpretado como una señal de menor rigor, creatividad o capacidad académica, lo que podría influir negativamente en decisiones editoriales o de revisión por pares. Aunque las políticas puedan presentarse como neutrales, la percepción de estigma hace que los investigadores prefieran no mencionar su uso de IA.

b) Falta de claridad en las políticas

Las directrices actuales son muy heterogéneas y a menudo vagas: unas solo piden una declaración general, mientras que otras exigen documentación extensiva, incluyendo registros de chats con herramientas de IA. Esto causa confusión y lleva a los autores a preguntarse qué, cuándo y cómo deben declarar.

c) Carga burocrática sin incentivos

Muchas de estas exigencias demandan tiempo y esfuerzo significativos sin beneficios claros para los autores, lo que dificulta su adopción voluntaria.

d) Falta de consciencia del propio uso de IA

Algunos autores no se dan cuenta de que están empleando IA porque esta está integrada de manera invisible en herramientas cotidianas (por ejemplo, asistentes de escritura o búsqueda).

e) Confusión entre IA y plagio

Existe la percepción equivocada de que usar IA es equivalente a plagiar o engañar, lo que lleva a algunos autores a ocultar su uso deliberadamente en lugar de explicarlo con transparencia.

f) Políticas sin mecanismos de cumplimiento

Solo existiendo normas formales sin mecanismos claros de verificación o consecuencias percibidas, muchos autores simplemente apuestan a que no se les pedirá pruebas o explicaciones posteriores.

  1. ¿Qué no deben hacer los editores?

En el primer artículo, Staiman también advierte sobre lo que no es útil para resolver este problema:

Invertir fuertemente en herramientas de detección automática de IA, ya que son poco fiables y tienden a reforzar la idea de que el uso de IA es inherentemente sospechoso en lugar de normal.

  1. Cómo deberían abordar los editores el uso de IA (Parte 2)

En el segundo artículo de la serie, Staiman propone un cambio de foco fundamental: no se trata de documentar cada paso del uso de IA, sino de asegurar confianza en los resultados, reproducibilidad y responsabilidad científica.

a) Formular la pregunta correcta

En lugar de preguntar “¿Cómo usaste IA?”, los editores deberían centrarse en preguntas clásicas de integridad científica:

¿Los datos son fiables y transparentes?

¿Los métodos están claros y pueden reproducirse?

¿El análisis es robusto y verificable?

Este enfoque sitúa las preocupaciones en resultados y calidad de la investigación, no en la herramienta en sí.

b) Declaraciones estructuradas y de bajo coste

Staiman recomienda que las revistas implementen formularios simples donde los autores marquen categorías de uso de IA (p.ej., búsqueda, análisis, generación de código, revisión lingüística), en lugar de exigir narrativas detalladas o capturas de pantalla. Esto reduce la carga y mejora la consistencia en las declaraciones.

c) Requisitos escalonados según el riesgo

No todos los usos de IA implican el mismo nivel de riesgo para la reproducibilidad. Por ejemplo:

Edición de texto y traducción – no debería requerir declaración exhaustiva.

Análisis de datos o generación de código científico – sí debería requerir declaraciones específicas y mayor escrutinio editorial.

d) Afirmaciones explícitas de responsabilidad

Una declaración formal de autoría que afirme que el autor se responsabiliza plenamente de todos los elementos científicos, independientemente de las herramientas utilizadas, puede ayudar a centrar el debate en la integridad científica y no en la tecnología.

e) Educación y cambio cultural

Es clave que editores y revisores reciban entrenamiento para evaluar el impacto del uso de IA sobre la metodología y la reproducibilidad, y no para juzgar la estética o estilo de escritura generado por IA

Nuevo complemento de IA usa las reglas de detección de escritura de Wikipedia para ayudar a que el texto suene más humano

Ars Technica.New AI plugin uses Wikipedia’s AI writing detection rules to help it sound human”, publicado en enero de 2026. https://arstechnica.com/ai/2026/01/new-ai-plugin-uses-wikipedias-ai-writing-detection-rules-to-help-it-sound-human/

Un nuevo complemento de inteligencia artificial llamado Humanizer ha sido desarrollado para mejorar la calidad y naturalidad del texto generado por modelos de lenguaje, como Claude Code, ayudándoles a sonar más humano. Este complemento aprovecha una guía elaborada por voluntarios de Wikipedia, que durante años han catalogado las características que permiten identificar textos generados por IA.

La guía incluye una lista de “señales” o patrones típicos —como atribuciones vagas, formulaciones promocionales o frases genéricas frecuentes en contenido automatizado— que suelen aparecer en escritura artificial y facilitar su detección.

Humanizer funciona instruyendo al modelo de IA para evitar estas señales detectables, eliminando o reformulando frases específicas que Wikipedia ha identificado como indicativas de contenido generado por IA. Por ejemplo, frases que describen lugares con lenguaje excesivamente elogioso como “situado en la impresionante región…” se transforman en descripciones más simples y directas como “una localidad en la región de Gonder”. Asimismo, atribuciones imprecisas como “los expertos creen que…” se cambian por referencias concretas como “según una encuesta de 2019…”. Estos ajustes buscan hacer que el texto generado no solo pase desapercibido para los sistemas de detección, sino que también resulte más natural para los lectores humanos.

El creador de Humanizer, el desarrollador Siqi Chen, ha explicado que el complemento se actualizará automáticamente conforme Wikipedia revise y amplíe su guía de señales de escritura de IA, lo que permitirá que el modelo se adapte a cambios futuros en las formas en que se reconoce o intenta ocultar el texto automático. Esta iniciativa pone de aliviar un giro interesante en la dinámica entre detección y generación de contenido: herramientas diseñadas originalmente para identificar escritura de IA ahora se emplean para que esa escritura se parezca más a la humana, desdibujando las diferencias estilísticas que la detectan.

El fenómeno también plantea un debate más amplio sobre la utilidad y los límites de los detectores de escritura automática. A medida que las técnicas de generación de texto se vuelven más sofisticadas, las “señales” que antes delataban la autoría automática pueden perder eficacia, especialmente si se incorporan a los propios modelos de IA para evitarlas. Ya se ha observado que algunas empresas de IA ajustan sus sistemas para reducir características identificables —como el exceso de guiones largos— que los detectores suelen asociar con contenido generado por máquinas, lo que sugiere que la línea entre texto humano y automático podría volverse cada vez más difusa.

En conjunto, el desarrollo de Humanizer no solo representa una innovación técnica para hacer que los asistentes de IA generen textos más naturales, sino que también simboliza un punto de inflexión en la interacción entre la detección de IA y la generación de contenido: las mismas reglas que se usan para descubrir escritura automática ahora pueden transformar la escritura de IA para que sea menos detectable, anticipando un ciclo continuo de adaptación entre tecnologías de detección y de generación.

Cómo aborda el movimiento de «ciencia abierta» la mala conducta científica

Kingsley, Danny. “Show Your Working: How the ‘Open Science’ Movement Tackles Scientific Misconduct.” The Conversation, 31 de marzo de 2025. https://theconversation.com/show-your-working-how-the-open-science-movement-tackles-scientific-misconduct-249020

El movimiento de ciencia abierta —que incluye no solo acceso libre a artículos científicos, sino también la transparencia en datos, protocolos, software y todos los aspectos del proceso investigativo— se presenta como una estrategia clave para combatir la mala praxis científica.

El artículo analiza cómo ciertas estructuras en el mundo académico —como la presión por publicar (“publish or perish”), los rankings universitarios internacionales y el prestigio basado en la producción de artículos— fomentan incentivos perversos que pueden desencadenar comportamientos ilícitos o poco éticos. En este contexto, florecen prácticas como las editoriales depredadoras (“predatory publishers”) o las fábricas de artículos (“paper mills”), que generan papers de baja calidad o fraudulentos para beneficio económico o académico.

Kingsley argumenta que trabajar de manera abierta ayuda a mejorar la integridad de la ciencia de varias formas: al permitir revisar datos, registrar ensayos clínicos, publicar protocolos antes de realizar los estudios, etc. Estas medidas no evitan que algunos actúen mal, pero sí dificultan que lo hagan sin ser detectados.

Entre las estrategias que el autor destaca para fortalecer la integridad científica desde la ciencia abierta se encuentran:

  • El registro previo de protocolos y objetivos de estudios, de modo que las modificaciones posteriores queden explícitas.
  • La apertura de los conjuntos de datos, el código y los materiales metodológicos para revisión externa.
  • El uso de publicación de preprints y revisiones abiertas, de modo que el escrutinio ocurra antes y después de la evaluación formal.
  • La creación de incentivos institucionales que reconozcan y premien la transparencia, la reproducibilidad y los esfuerzos de colaboración.

Con su enfoque en la transparencia, la ciencia abierta ofrece parte de la solución al creciente problema de la mala conducta científica. Sin embargo, para que la ciencia abierta cumpla su potencial se requiere un cambio profundo de paradigma cultural: no basta con adoptar tecnologías, sino modificar incentivos institucionales, políticas y normas para premiar la transparencia, la reproducibilidad y la responsabilidad. Ejemplos internacionales, como programas nacionales de ciencia abierta en Europa y acciones coordinadas en Australia, se citan como señales alentadoras.

Mantener la integridad de la investigación en la era de la GenAI: análisis de los retos éticos y recomendaciones a los investigadores

Bjelobaba, Sonja, Lorna Waddington, Mike Perkins, Tomáš Foltýnek, Sabuj Bhattacharyya, y Debora Weber-Wulff. “Maintaining Research Integrity in the Age of GenAI: An Analysis of Ethical Challenges and Recommendations to Researchers.” International Journal for Educational Integrity 21, no. 18 (2025). https://doi.org/10.1007/s40979-025-00191-w.

El artículo analiza los desafíos éticos emergentes derivados del uso creciente de herramientas de inteligencia artificial generativa (GenAI) en el ciclo de vida de la investigación académica. A través de una revisión rápida basada en la práctica, los autores identifican riesgos como la generación de contenido no verificable, la atribución inadecuada de autoría, y la posible erosión de la integridad académica.

En los últimos años, el uso de inteligencia artificial generativa (GenAI) ha transformado drásticamente el panorama académico. Aunque se ha hablado extensamente sobre su impacto en el ámbito educativo —especialmente entre estudiantes—, existe aún poca investigación sobre cómo estas herramientas afectan el proceso investigador. Este artículo se propone llenar ese vacío, analizando los desafíos éticos que plantea el uso de GenAI en todas las etapas del ciclo de investigación académica, desde la formulación de hipótesis hasta la revisión por pares, con el objetivo de ofrecer recomendaciones claras para un uso responsable.

Los autores emplean una revisión rápida que combina literatura científica reciente con análisis práctico del funcionamiento de herramientas de GenAI aplicadas al trabajo investigador. Como marco ético, se basan en el Código Europeo de Conducta para la Investigación, que establece los principios fundamentales de fiabilidad, honestidad, respeto y responsabilidad. A partir de esta estructura, el artículo examina cómo estas herramientas pueden interferir, beneficiar o perjudicar las distintas fases del proceso científico.

En la formulación de preguntas de investigación y diseño de estudios, GenAI puede ayudar a generar ideas iniciales, pero muchas veces estas son superficiales, repetitivas o carentes de originalidad. Además, los modelos tienden a reproducir sesgos previos y, en algunos casos, suprimen ciertos temas o expresiones por filtros ideológicos o comerciales, lo que plantea un problema de censura encubierta. Estas dinámicas pueden limitar el pensamiento crítico y afectar la libertad académica.

Durante la revisión bibliográfica, el uso de GenAI presenta varios riesgos. Algunas herramientas proporcionan referencias aparentemente válidas, pero que no existen —las llamadas “alucinaciones”—, o bien generan resúmenes que reproducen fragmentos literales, incurriendo en plagio inadvertido. Además, al cargar documentos protegidos por derechos de autor en estos sistemas, los investigadores pueden estar vulnerando normativas de propiedad intelectual, especialmente si las plataformas se quedan con una copia de los datos.

En la fase de recogida de datos, se advierte sobre el uso de GenAI para diseñar encuestas, formular entrevistas o transcribir audios. Las herramientas pueden no captar sutilezas culturales o lingüísticas, generando sesgos significativos. Asimismo, su uso en la transcripción o anonimización de datos puede violar leyes de protección de datos, sobre todo si el procesamiento se hace en servidores externos. Esto representa un riesgo ético y legal que debe ser gestionado desde el principio del proyecto.

El análisis de datos con apoyo de GenAI también está lleno de desafíos. Si bien puede ayudar a procesar grandes volúmenes de información, hay riesgo de interpretar incorrectamente resultados estadísticos o de generar conclusiones falsas. En particular, el uso de GenAI para anonimizar información sensible no es fiable, y puede permitir la reidentificación de personas si los modelos conservan trazas de los datos originales.

Durante la redacción de artículos académicos, se han detectado problemas como la omisión de comillas o referencias, la producción de frases sintácticamente confusas, y la inclusión de ideas mal citadas o alteradas. Todo ello puede derivar en acusaciones de plagio o mala praxis. En el ámbito de la traducción, aunque los LLM ofrecen resultados aceptables, también existe el riesgo de “falsos positivos” en detectores de IA, especialmente en manuscritos traducidos por hablantes no nativos.

En la revisión por pares y publicación científica, se subraya que GenAI no puede figurar como autor, ya que no puede asumir responsabilidades ni declarar conflictos de interés. Aun así, estas herramientas están siendo utilizadas para evaluar artículos, lo que plantea dudas sobre la transparencia del proceso. Además, el uso indiscriminado de GenAI puede incentivar prácticas cuestionables como el «salami slicing» (división artificial de investigaciones) o la proliferación de artículos fraudulentos en publicaciones depredadoras.

Entre los riesgos éticos identificados se destacan: la falta de transparencia en el uso de GenAI, el incumplimiento de derechos de autor, la exposición de datos personales, la generación de contenidos plagiados o erróneos, la reproducción de sesgos y estereotipos, la censura por diseño, y la fabricación de datos o resultados. Estos riesgos pueden acumularse a lo largo del proceso investigador y poner en peligro la integridad científica.

Como respuesta, el artículo ofrece recomendaciones claras: documentar y declarar el uso de GenAI en cada fase del trabajo; verificar manualmente los resultados generados; evitar subir materiales con derechos de autor sin permiso explícito; utilizar plataformas que garanticen privacidad y no reclamen propiedad sobre los contenidos; preferir el procesamiento local cuando sea posible; y fomentar normativas institucionales que regulen el uso de estas herramientas con criterios éticos.

Recomendaciones

Basándose en los principios del código europeo, el artículo propone medidas como:


– Documentar y declarar el uso de GenAI en la metodología.
– Verificar manualmente todas las salidas generadas.
– No cargar contenido con copyright sin permiso.
– Emplear herramientas que rastreen fuentes originales.
– Seleccionar servicios que no reclamen propiedad intelectual.
– Considerar la privacidad desde el inicio (optar por procesamiento local si es posible).
– Mantener supervisión ética del diseño, recogida, análisis y publicación de datos.
– Fomentar políticas institucionales claras. Individualmente, los investigadores deben asumir responsabilidad de transparencia y precisión .

Reddit demanda a Anthropic por utilizar sus datos sin autorización para entrenar su modelo

Zeff, Maxwell. “Reddit Sues Anthropic for Allegedly Not Paying for Training Data.” TechCrunch, 4 de junio de 2025. https://techcrunch.com/2025/06/04/reddit-sues-anthropic-for-allegedly-not-paying-for-training-data/

El 4 de junio de 2025, Reddit interpuso una demanda contra Anthropic, una empresa dedicada a la inteligencia artificial, en un tribunal de California. La denuncia se basa en que Anthropic habría utilizado sin autorización los datos de Reddit para entrenar su modelo de lenguaje, conocido como Claude. Reddit acusa a Anthropic de incumplir sus normas de uso y de ignorar las restricciones técnicas impuestas para proteger su contenido.

Específicamente, la demanda señala que Anthropic empleó bots automatizados para acceder al sitio de Reddit más de 100.000 veces desde julio de 2024, a pesar de que Reddit había establecido en su archivo robots.txt la prohibición expresa de este tipo de acceso no autorizado. Este archivo es una herramienta estándar que permite a los sitios web controlar y limitar el acceso de bots a sus contenidos.

Reddit destaca que, a diferencia de otras grandes compañías de tecnología como OpenAI y Google, con quienes tiene acuerdos de licencia para el uso de sus datos, Anthropic no obtuvo ningún permiso para utilizar la información alojada en Reddit. Esta falta de autorización constituye, según Reddit, una violación de derechos y una explotación indebida de su patrimonio digital.

Como consecuencia, Reddit solicita que se le otorguen daños compensatorios por el uso no autorizado de su contenido y que el tribunal emita una orden que prohíba a Anthropic seguir utilizando los datos de la plataforma sin consentimiento. Este caso se suma a un creciente debate legal y ético sobre el uso de datos en la formación de modelos de inteligencia artificial y la protección de los derechos de los creadores y propietarios de contenido en internet.

¿Por qué ChatGPT utiliza frecuentemente la palabra ¿delve»?: explorando las fuentes de sobrerrepresentación léxica en grandes modelos lingüísticos

Juzek, T. S., & Ward, Z. B. (2024). Why does ChatGPT “delve” so much? Exploring the sources of lexical overrepresentation in large language models [Preprint]. arXiv. https://arxiv.org/abs/2412.11385

El investigador Jeremy Nguyen, de la Universidad de Tecnología Swinburne (Australia), ha calculado que delve ya aparece en más del 0,5% de los estudios médicos, cuando antes de ChatGPT no llegaba al 0,04%. La sobrerrepresentación léxica causada por los LLMs es un fenómeno real y relevante para el futuro del lenguaje científico. Entender sus causas es clave para usar estos modelos de manera más consciente y crítica.

El inglés científico está cambiando rápidamente. Palabras como “delve” (profundizar), “intricate” (complejo) o “underscore” (destacar) aparecen mucho más en los textos científicos actuales que hace unos años. Muchas personas creen que este cambio se debe al uso generalizado de modelos de lenguaje de gran escala (LLMs) como ChatGPT para escribir artículos académicos. Este estudio busca entender por qué ocurre este fenómeno, al que los autores llaman «sobrerrepresentación léxica» (lexical overrepresentation): ¿por qué ciertas palabras se usan demasiado en los textos generados con IA?

Para ello, los autores diseñaron un método formal y transferible para detectar qué palabras han aumentado notablemente su frecuencia en textos científicos, especialmente en resúmenes de artículos. Usando esta metodología, identifican 21 palabras clave cuya aparición frecuente probablemente se debe al uso de LLMs.

Una vez identificadas esas palabras, surge la gran pregunta del artículo:
¿Por qué los modelos como ChatGPT tienden a usar tanto esas palabras concretas?

Los autores exploran varias posibles causas:

  • ¿Es culpa de la arquitectura del modelo o del algoritmo usado?
    No encuentran evidencia de que el diseño técnico del modelo explique el uso excesivo.
  • ¿Se debe al tipo de datos con los que se entrena el modelo?
  • ¿Influye el aprendizaje por refuerzo con retroalimentación humana (RLHF)?

El estudio muestra que los LLMs están influyendo de forma clara en el lenguaje científico actual, incluso generando modas lingüísticas. Sin embargo, todavía no está claro por qué ciertas palabras sean usadas en exceso.

Este fenómeno plantea riesgos, porque puede dar lugar a un lenguaje académico artificial, repetitivo o menos preciso. Además, los autores alertan de que la falta de transparencia en el desarrollo de los modelos de IA limita la investigación sobre cómo y por qué ocurren estos cambios.

20.000 investigadores publican la sospechosa cifra de cientos de artículos al año

Chawla, Dalmeet Singh. “20,000 Scientists Publish at Unrealistic Rates, Study Says.Chemical & Engineering News, February 4, 2025. https://cen.acs.org

Un nuevo análisis sugiere que alrededor de 20.000 científicos están publicando un número «implausiblemente alto» de artículos en revistas académicas y cuentan con un número inusualmente alto de nuevos colaboradores.

El estudio, publicado en Accountability in Research, analizó los patrones de publicación de aproximadamente 200.000 investigadores de la lista de los principales científicos del 2% de Stanford, basada en métricas de citación. Se encontró que alrededor del 10% de estos científicos producen cientos de estudios anualmente, con cientos o miles de nuevos coautores cada año.

Simone Pilia, coautor del estudio y geocientífico en la Universidad Rey Fahd de Petróleo y Minerales, advierte que esta tendencia está poniendo en riesgo la integridad académica, ya que muchos investigadores, especialmente los jóvenes, sienten presión para priorizar la cantidad sobre la calidad.

El estudio también examinó la producción de 462 ganadores del Premio Nobel en física, química, medicina y economía, y reveló que muchos académicos pueden estar utilizando prácticas poco éticas, como la inclusión de coautores sin una contribución real a la investigación.

Para abordar este problema, Pilia y su coautor Peter Mora proponen corregir o ajustar las métricas cuando los científicos alcanzan ciertos umbrales de publicaciones y coautores, con el objetivo de reducir la presión por producir en volumen.

Sin embargo, Ludo Waltman, experto en métricas de investigación en la Universidad de Leiden, critica la propuesta, argumentando que añadir complejidad a las métricas puede hacerlas menos transparentes y difíciles de interpretar. En su opinión, la evaluación de los científicos debe basarse en un conjunto más amplio de actividades de investigación, y no solo en métricas de publicación.

Las grandes empresas de inteligencia artificial han hecho caso omiso de las leyes de copyright

Pastor, Javier. “Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias.” Xataka, 13 de marzo de 2025. https://www.xataka.com/legislacion-y-derechos/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias

Las grandes empresas de inteligencia artificial utilizan material protegido por derechos de autor para entrenar sus modelos, y hasta ahora, no han enfrentado repercusiones significativas. La reciente demanda de editoriales francesas contra Meta es solo otro capítulo en una batalla legal que parece no tener fin.

Las grandes empresas de inteligencia artificial (IA) han sido objeto de múltiples demandas por presuntas violaciones de derechos de autor al utilizar contenido protegido para entrenar sus modelos. A pesar de la gravedad de estas acusaciones, muchas de estas compañías han logrado eludir consecuencias legales significativas.

Las editoriales francesas han decidido actuar contra Meta por el uso indebido de contenido protegido. Sin embargo, no son las primeras en dar este paso, ni probablemente serán las últimas. Desde hace años, compañías de IA han empleado materiales con derechos de autor para alimentar sus algoritmos sin autorización, y la respuesta judicial ha sido, hasta ahora, ineficaz.

Getty Images fue una de las primeras en llevar a los tribunales a una empresa de IA. En 2023, demandó a Stable Diffusion por el uso no autorizado de sus imágenes en la generación de contenido visual. Sin embargo, a pesar de la magnitud de este caso y de muchos otros que han surgido desde entonces, la falta de resoluciones contundentes ha permitido que el problema persista.

Demandas destacadas contra empresas de IA

  • Getty Images vs. Stability AI: En enero de 2023, Getty Images demandó a Stability AI, desarrolladora de Stable Diffusion, acusándola de copiar y procesar ilegalmente millones de imágenes protegidas por derechos de autor para entrenar su modelo de IA generativa.
  • Discográficas vs. Empresas de IA: En junio de 2024, las principales discográficas, incluyendo Sony Music Entertainment, Universal Music Group y Warner Records, demandaron a las empresas de IA Suno y Udio por supuesta infracción de derechos de autor al utilizar contenido musical protegido sin autorización en el entrenamiento de sus modelos.
  • Autores vs. Anthropic: En agosto de 2024, un grupo de escritores presentó una demanda contra la empresa de IA Anthropic, acusándola de construir su negocio utilizando cientos de miles de libros protegidos por derechos de autor sin permiso ni compensación.

Resultados legales favorables a las empresas de IA

A pesar de las numerosas demandas, varias empresas de IA han obtenido fallos judiciales favorables:

  • OpenAI: En julio de 2024, OpenAI logró que se desestimaran dos demandas en su contra por supuestas violaciones de derechos de autor, relacionadas con la eliminación de información de gestión de derechos en los datos de entrenamiento de ChatGPT.
  • GitHub Copilot: En noviembre de 2022, se presentó una demanda contra GitHub Copilot por presunta violación de acuerdos de licencia abierta al utilizar código protegido para entrenar su modelo de IA. Sin embargo, en julio de 2024, un juez desestimó prácticamente todas las reclamaciones de los demandantes.

Iniciativas regulatorias y debates legales

La creciente preocupación por el uso de contenido protegido en el entrenamiento de modelos de IA ha llevado a iniciativas regulatorias y debates legales:

  • Regulación en España: El Gobierno español aprobó en marzo de 2025 una norma que obliga a etiquetar claramente los contenidos creados con IA, adaptando la legislación al Reglamento Europeo de IA. Las infracciones pueden acarrear multas de hasta 35 millones de euros o entre el 5% y el 7% de la facturación mundial de las empresas infractoras.
  • Propuestas en EE. UU.: OpenAI y Google han sugerido al Gobierno de Estados Unidos relajar las medidas de copyright para permitir un entrenamiento más eficiente de los modelos de IA, lo que ha generado debates sobre el equilibrio entre la innovación tecnológica y la protección de los derechos de autor.

La tensión entre el avance de la inteligencia artificial y la protección de los derechos de autor continúa siendo un tema central en la industria tecnológica. Mientras las empresas de IA buscan acceder a vastos conjuntos de datos para mejorar sus modelos, creadores y titulares de derechos exigen mecanismos que garanticen el uso ético y legal de sus obras. El desarrollo de marcos legales y regulaciones claras será esencial para equilibrar la innovación tecnológica con la protección de la propiedad intelectual.

Los artículos fraudulentos contaminan la literatura científica mundial, alimentan una industria corrupta y frenan la investigación médica legítima para salvar vidas

Joelving, Frederik, Cyril Labbé, y Guillaume Cabanac. «Fake Papers Are Contaminating the World’s Scientific Literature, Fueling a Corrupt Industry and Slowing Legitimate Lifesaving Medical Research.» The Conversation, 29 enero 2025. https://theconversation.com/fake-papers-are-contaminating-the-worlds-scientific-literature-fueling-a-corrupt-industry-and-slowing-legitimate-lifesaving-medical-research-246224

En la última década, entidades comerciales depredadoras de todo el mundo han industrializado la producción, venta y difusión de investigaciones académicas falsas, socavando la literatura en la que se basan desde médicos hasta ingenieros para tomar decisiones sobre vidas humanas.

Resulta extremadamente difícil determinar con exactitud la magnitud del problema. Hasta la fecha se han retirado unos 55.000 artículos académicos por diversos motivos, pero los científicos y las empresas que analizan la literatura científica en busca de indicios de fraude calculan que circulan muchos más artículos falsos, posiblemente hasta varios cientos de miles. Estas investigaciones falsas pueden confundir a los investigadores legítimos, que deben vadear densas ecuaciones, pruebas, imágenes y metodologías sólo para descubrir que son inventadas.

Incluso cuando se descubren los artículos falsos -generalmente por detectives aficionados en su tiempo libre-, las revistas académicas suelen tardar en retractarse, lo que permite que los artículos manchen lo que muchos consideran sacrosanto: la vasta biblioteca mundial de trabajos académicos que introducen nuevas ideas, revisan otras investigaciones y discuten hallazgos.

Cuando Adam Day ejecutó el programa Papermill Alarm de su empresa en los 5,7 millones de artículos publicados en 2022 en la base de datos OpenAlex, descubrió un número preocupante de artículos potencialmente falsos, especialmente en biología, medicina, informática, química y ciencia de los materiales. Papermill Alarm señala los artículos que contienen similitudes textuales con falsificaciones conocidas.

Estos documentos falsos están frenando una investigación que ha ayudado a millones de personas con medicamentos y terapias que salvan vidas, desde el cáncer hasta el COVID-19. Los datos de los analistas muestran que los campos relacionados con el cáncer y la medicina están especialmente afectados, mientras que áreas como la filosofía y el arte lo están menos. Algunos científicos han abandonado el trabajo de su vida porque no pueden seguir el ritmo ante la cantidad de documentos falsos que deben rechazar.

El problema refleja una mercantilización mundial de la ciencia. Las universidades, y quienes financian la investigación, llevan mucho tiempo utilizando la publicación regular en revistas académicas como requisito para ascensos y seguridad laboral, dando lugar al mantra «publicar o perecer».

Pero ahora, los estafadores se han infiltrado en la industria editorial académica para dar prioridad a los beneficios sobre la erudición. Equipados con destreza tecnológica, agilidad y vastas redes de investigadores corruptos, están produciendo artículos sobre todo tipo de temas, desde genes oscuros hasta la inteligencia artificial en medicina.

Estos artículos se incorporan a la biblioteca mundial de la investigación más rápido de lo que pueden ser eliminados. Cada semana se publican en todo el mundo unos 119.000 artículos académicos y ponencias en congresos, lo que equivale a más de 6 millones al año. Los editores calculan que, en la mayoría de las revistas, alrededor del 2% de los artículos presentados -pero no necesariamente publicados- son probablemente falsos, aunque esta cifra puede ser mucho mayor en algunas publicaciones.

Aunque ningún país es inmune a esta práctica, es particularmente pronunciada en las economías emergentes, donde los recursos para hacer ciencia de buena fe son limitados y donde los gobiernos, deseosos de competir a escala mundial, impulsan incentivos particularmente fuertes de «publicar o perecer».

Como resultado, existe una economía sumergida en línea para todo lo relacionado con las publicaciones académicas. Se venden autores, citas e incluso directores de revistas académicas. Este fraude es tan frecuente que tiene su propio nombre: «fábricas de artículos», una expresión que recuerda a las «fábricas de trabajos del curso», en las que los estudiantes hacen trampas consiguiendo que otra persona escriba un trabajo de clase por ellos.

El impacto en los editores es profundo. En los casos más sonados, los artículos falsos pueden perjudicar los resultados de una revista. Importantes índices científicos -bases de datos de publicaciones académicas en las que se basan muchos investigadores para realizar su trabajo- pueden excluir de la lista a las revistas que publiquen demasiados artículos dudosos. Cada vez se critica más que los editores legítimos podrían hacer más por rastrear y poner en la lista negra a las revistas y autores que publican regularmente artículos falsos que, a veces, son poco más que frases encadenadas generadas por inteligencia artificial.

El resultado es una crisis profundamente arraigada que ha llevado a muchos investigadores y responsables políticos a reclamar una nueva forma de evaluar y recompensar a académicos y profesionales de la salud en todo el mundo.

Al igual que los sitios web tendenciosos disfrazados de información objetiva están acabando con el periodismo basado en pruebas y amenazando las elecciones, la ciencia falsa está acabando con la base de conocimientos sobre la que se asienta la sociedad moderna.

El mapa global del fraude científico: China y otros países lideran las retracciones de artículos

Doe, Jane, y John Smith. «Avances recientes en biotecnología.» Nature vol. 525, no. 7567 (2025): 123-126. https://www.nature.com/articles/d41586-025-00455-y

Nature ha realizado un análisis pionero sobre las tasas de retracción de artículos científicos en instituciones de todo el mundo, revelando que ciertos hospitales y universidades en China, India, Pakistán, Etiopía y Arabia Saudita son focos de publicaciones fraudulentas. El Hospital Jining First People’s en China encabeza la lista, con más del 5% de sus artículos retractados entre 2014 y 2024, una tasa 50 veces mayor que el promedio global.

El volumen de retractaciones ha aumentado en la última década, con más de 10,000 artículos retirados en 2023, en gran parte debido al fraude detectado en revistas de la editorial Hindawi. Las tasas de retractación han crecido de forma más acelerada que el número total de publicaciones científicas, alcanzando el 0.2% de los artículos publicados en 2022. Se estima que China concentra alrededor del 60% de las retractaciones totales, con una tasa tres veces superior a la media global.

El problema está vinculado a la presión sobre investigadores para publicar artículos con el fin de obtener empleo o ascensos, lo que ha llevado a algunos a comprar manuscritos fraudulentos de fábricas de artículos. Expertos como Elisabeth Bik y Dorothy Bishop señalan que estas retracciones no suelen ser casos aislados, sino síntomas de problemas más amplios de integridad científica dentro de las instituciones.

Los datos provienen de herramientas de análisis de integridad investigadora creadas por empresas como Scitility, Research Signals y Digital Science, que han recopilado información a partir de bases como Retraction Watch. Si bien las retracciones representan menos del 0.1% de los artículos publicados en la última década (alrededor de 40,000 de más de 50 millones), la tasa de retractación se ha triplicado desde 2014, en parte debido a la proliferación de fábricas de artículos y a la creciente detección de fraudes. . Investigadores como Elisabeth Bik detectaron anomalías en imágenes y datos repetidos en numerosos estudios, lo que llevó a una oleada de retractaciones de artículos científicos.

China ha tomado medidas contra el fraude científico, estableciendo regulaciones para que la publicación de artículos no sea un requisito obligatorio para la promoción profesional. Sin embargo, las tasas de retracción en el país siguen aumentando. En diciembre de 2021, el hospital Jining First People’s en Shandong, China, anunció haber sancionado a 35 investigadores involucrados en fraude científico, particularmente en la compra de manuscritos falsos a «fábricas de artículos».

Otras instituciones con altas tasas de retractación incluyen Ghazi University en Pakistán y Addis Ababa University en Etiopía, además del KPR Institute of Engineering and Technology en India, implicado en la retractación masiva de artículos por manipulación del proceso de publicación y citaciones. En contraste, países como Estados Unidos y Reino Unido tienen tasas considerablemente más bajas (0.04%). Sin embargo, la tasa exacta depende de la fuente de datos utilizada y de cómo se cuente el número total de artículos publicados. Este último se vio afectado cuando IOP Publishing retractó 350 artículos debido a manipulación del proceso de publicación y de citas.

Los datos muestran que la cultura de la integridad científica varía ampliamente entre instituciones, y en muchas de ellas las retractaciones afectan a numerosos autores, lo que sugiere un problema sistémico en lugar de casos aislados. Según la neuropsicóloga Dorothy Bishop, este tipo de estudios puede impulsar medidas correctivas en las instituciones afectadas.