Archivo de la etiqueta: Plagio

Silicon Valley construyó la IA comprando, escaneando y descartando millones de libros

Schaffer, Aaron; Oremus, Will y Tiku, Nitasha. “How Silicon Valley Built AI: Buying, Scanning & Discarding Millions of Books”, MSN (basado en Washington Post), 27 de enero de 2026. https://www.msn.com/en-us/technology/artificial-intelligence/how-silicon-valley-built-ai-buying-scanning-and-discarding-millions-of-books/ar-AA1V4aZv

En los últimos años, las grandes empresas de tecnología y startups de Silicon Valley han librado una competencia frenética por adquirir conjuntos masivos de datos textuales, especialmente libros, como materia prima para entrenar sus modelos de inteligencia artificial (IA).

Según documentos judiciales revelados en demandas por derechos de autor, compañías como Anthropic, Meta, Google y OpenAI emprendieron acciones a gran escala para obtener millones de títulos físicos y digitales con el objetivo de mejorar la capacidad de sus modelos de lenguaje para “entender” y “escribir bien”.

Un caso emblemático es el llamado Project Panama de Anthropic, descrito en documentos internos como un esfuerzo por comprar y escanear “todos los libros del mundo”. La compañía gastó decenas de millones de dólares comprando grandes lotes de libros, a menudo en lotes de decenas de miles, y contrató servicios profesionales para desencuadernar y escanear las páginas a gran velocidad. Después del escaneo, muchas de estas copias físicas fueron recicladas o descartadas, lo que ha generado preocupación entre autores y defensores del patrimonio cultural por la eliminación física de obras impresas.

Los detalles de Project Panama, inéditos hasta ahora, salieron a la luz en más de 4.000 páginas de documentos incluidos en una demanda por derechos de autor interpuesta por escritores contra Anthropic. La empresa, valorada por sus inversores en unos 183.000 millones de dólares, aceptó pagar 1.500 millones de dólares para cerrar el litigio en agosto. Sin embargo, la decisión de un juez federal de hacer públicos numerosos documentos del caso permitió conocer con mayor profundidad la intensidad con la que Anthropic persiguió la obtención de libros.

Estos nuevos archivos, junto con otros presentados en demandas similares contra empresas de inteligencia artificial, revelan hasta qué punto compañías tecnológicas como Anthropic, Meta, Google u OpenAI llegaron a extremos notables para reunir enormes volúmenes de datos con los que “entrenar” sus sistemas. En esa carrera acelerada, los libros fueron considerados un botín esencial. Así lo reflejan los registros judiciales: en enero de 2023, uno de los cofundadores de Anthropic sostenía que entrenar modelos con libros permitiría enseñarles “a escribir bien”, en lugar de limitarse a reproducir un “lenguaje de baja calidad propio de internet”. En un correo interno de Meta fechado en 2024, el acceso a grandes bibliotecas digitales se calificaba directamente como “imprescindible” para competir con otros actores del sector.

Sin embargo, los documentos sugieren que las empresas no consideraron viable solicitar autorización directa a autores y editoriales. En su lugar, según las acusaciones recogidas en los autos, Anthropic, Meta y otras compañías recurrieron a métodos de adquisición masiva sin conocimiento de los creadores, incluida la descarga de copias pirateadas.

Estos esfuerzos reflejan las tensiones legales y éticas detrás del entrenamiento de IA con datos culturales. Muchos autores y editoriales han emprendido demandas alegando que la adquisición y uso masivo de sus obras para entrenar modelos de IA se hizo sin permiso y constituye una violación de derechos de autor. A su vez, las empresas tecnológicas han argumentado que el uso es “transformador” y, en algunos fallos judiciales, se ha considerado legal bajo la doctrina de fair use (“uso justo”). No obstante, los documentos judiciales también han expuesto que algunas empresas, incluyendo Meta, consideraron o incluso utilizaron descargas masivas desde bibliotecas pirata en línea como LibGen para obtener copias digitales de libros sin pagar por ellos, lo que ha intensificado las críticas sobre prácticas poco transparentes.

En el caso de Meta, varios empleados expresaron internamente su inquietud ante la posibilidad de infringir la ley de derechos de autor al descargar millones de libros sin permiso. Aun así, un correo electrónico de diciembre de 2023 indicaba que la práctica había sido aprobada tras una “escalada a MZ”, en aparente referencia al consejero delegado Mark Zuckerberg. Meta declinó hacer comentarios al respecto.

Además de las cuestiones legales, expertos y críticos han señalado preocupaciones más amplias sobre el impacto cultural y social de estas prácticas. La destrucción física de libros tras su digitalización plantea preguntas sobre la preservación del patrimonio literario y el valor intrínseco de las obras impresas como registros culturales. Del mismo modo, la dependencia de datos extraídos de fuentes no autorizadas subraya la necesidad de un marco ético y regulador más robusto en torno al uso de contenidos creativos para construir inteligencias artificiales avanzadas.

¿Por qué los autores no revelan el uso de IA en sus trabajos de investigación?

Staiman, Avi. 2026. “Why Authors Aren’t Disclosing AI Use and What Publishers Should (Not) Do About It.The Scholarly Kitchen, January 27, 2026. https://scholarlykitchen.sspnet.org/2026/01/27/why-authors-arent-disclosing-ai-use-and-what-publishers-should-not-do-about-it/

El artículo aborda el fenómeno creciente de que muchos autores académicos no están declarando el uso de herramientas de inteligencia artificial (IA) en sus procesos de investigación y redacción, a pesar de que un número significativo de ellos reconoce emplearlas en distintas fases del trabajo científico

Staiman explica que, aunque las editoriales han desarrollado políticas que requieren declaraciones sobre el uso de IA con el objetivo de mantener la integridad de la literatura científica, estas normas no están siendo efectivamente cumplidas: solo un porcentaje muy bajo de autores realmente declara haber usado IA en sus manuscritos. Esta brecha entre las expectativas formales de transparencia y la práctica real refleja, según el autor, varios factores humanos y estructurales que dificultan la declaración abierta de asistencia artificial en la escritura científica.

Una de las principales razones de esta falta de transparencia es el miedo de los investigadores a que la divulgación de uso de IA sea percibida negativamente por editores y revisores, lo que podría influir adversamente en la evaluación de la calidad, originalidad o rigor del trabajo. Aunque muchos investigadores usan IA para tareas como mejorar la redacción, sintetizar información o buscar literatura relevante, existe una percepción persistente de que tal uso podría ser interpretado como una forma de atajo o amenaza a la integridad académica, lo que crea un ambiente en el que los autores prefieren omitir estas declaraciones.

Otra barrera importante es la confusión y falta de claridad en las directrices editoriales: las políticas de las revistas y editoriales varían ampliamente sobre qué tipo de uso de IA debe ser declarado, cuándo hacerlo y cómo documentarlo. Algunos requisitos son vagos o excesivamente complejos, lo que genera incertidumbre en los autores respecto a si deben declarar, cómo hacerlo o si incluso es obligatorio. Esta ambigüedad, combinada con la carga adicional de trabajo que supone documentar exhaustivamente cada instancia de uso de IA y la ausencia de incentivos claros para hacerlo, contribuye a que muchos autores opten por no reportarlo.

Además, el artículo señala que algunos autores ni siquiera son conscientes del uso de IA en herramientas integradas en aplicaciones comunes (como asistentes de redacción en suites ofimáticas), lo que dificulta aún más la trazabilidad y divulgación de la asistencia artificial. También destaca una confusión extendida entre el uso de IA y el plagio, lo que lleva a algunos autores a tratar de ocultar signos de asistencia de IA en lugar de ser transparentes, con la intención de evitar evaluaciones negativas o fallos en las pruebas de detección.

Finalmente, el autor advierte que, si las editoriales no clarifican, educan y, sobre todo, repiensan cómo deben abordar el uso de IA, es probable que la falta de divulgación continúe. Argumenta que las editoriales no deberían centrarse en herramientas de detección de IA —las cuales son poco fiables y pueden reforzar la idea de que el uso de IA es inaceptable— sino en proporcionar directrices claras, educar a la comunidad académica sobre prácticas responsables y crear políticas que reconozcan las distintas formas legítimas de asistencia de IA sin sacrificar la integridad de la investigación.

Mountweazel: una trampa editorial para detectar el plagio

Edelstein, Stewart. “What Is a Mountweazel?Word Smarts, 2026. https://wordsmarts.com/mountweazel/

Un «mountweazel» es, simplemente, una información falsa puesta a propósito en un diccionario, enciclopedia o libro de referencia para descubrir si alguien copia ese contenido sin permiso.

El término mountweazel describe un fenómeno específico dentro de la industria editorial y de referencia: una entrada deliberadamente falsa insertada en diccionarios, enciclopedias u otras obras de referencia con el propósito de proteger el contenido contra el plagio y la copia no autorizada. A primera vista, una obra de referencia como una enciclopedia debe ser un compendio de hechos verificables y útiles para el lector, pero los editores enfrentan un problema persistente cuando otros publican contenido prácticamente idéntico sin permiso. Para contrarrestar esta práctica, algunos editores emplean “trampas” sutiles: entradas ficticias que parecen plausibles pero que no existen en realidad; si una obra rival reproduce estas entradas, queda claro que ha copiado directamente el contenido en lugar de investigarlo de forma independiente.

La etimología del término proviene de una entrada ficticia incluida en la New Columbia Encyclopedia de 1975 sobre una persona imaginaria: Lillian Virginia Mountweazel, supuestamente una fotógrafa estadounidense nacida en Ohio que realizó proyectos fotográficos sobre temas inusuales y murió trágicamente en una explosión mientras trabajaba para una revista llamada Combustible. Aunque todos los detalles de esa entrada eran completamente inventados, la inclusión de este personaje permitió a los editores identificar a quienes reprodujeran esa misma información sin autorización, revelando un caso de infracción de derechos de autor. A partir de ese ejemplo, la palabra “mountweazel” se ha convertido en un término general para estas entradas trampas en publicaciones de referencia.

Además de enciclopedias, otras formas de publicación utilizan estrategias similares: por ejemplo, algunos diccionarios han incluido palabras falsas —como “esquivalience” en ediciones de The New Oxford American Dictionary— con definiciones plausibles para detectar plagio de contenido. Asimismo, mapas pueden contener “trap streets” o calles ficticias, que cumplen una función análoga al mountweazel al revelar si otra entidad ha copiado el trabajo cartográfico. En conjunto, estas prácticas representan una curiosa intersección entre la creatividad editorial, la protección de derechos de autor y la ética de la información, y aunque no suelen impactar directamente al lector casual, reflejan respuestas ingeniosas de editores ante desafíos concretos de propiedad intelectual en un entorno cada vez más digital y competitivo.

Citas fantasma y ciencia creada con ayuda de IA en un informe sobre salud infantil de la administración Trump

Manto, Margaret. “The MAHA Report Has Been Updated to Replace Citations That Didn’t Exist.” NOTUS, 29 de mayo de 2025. https://www.notus.org/health-science/maha-report-update-citations

El informe MAHA, publicado en mayo de 2025 y encargado a la secretaria de Salud y Servicios Humanos, Robert F. Kennedy Jr., contenía numerosas referencias a estudios que no existían o eran fabricados, lo que sugiere que partes significativas del texto podrían haber sido generadas mediante prompts a sistemas de generative AI (IA generativa)

El informe Make America Healthy Again (MAHA), un documento emblemático publicado por la Comisión MAHA bajo la administración de Donald Trump, centrado en la salud infantil y en causas de enfermedad crónica en Estados Unidos. Una investigación del propio medio reveló originalmente que al menos siete citas incluidas en la versión inicial del informe simplemente no existían en la literatura científica —es decir, atribuían estudios que no estaban publicados o que jamás fueron escritos por los autores listados— lo que llevó a una fuerte preocupación por la integridad científica del texto.

Ante esta revelación, la Casa Blanca y el Departamento de Salud y Servicios Humanos (HHS) procedieron a reemplazar las citas inexistentes en una nueva versión del informe publicada en el sitio oficial de la Casa Blanca. Cinco de las referencias falsas fueron sustituidas por trabajos completamente distintos, y dos por estudios reales de los mismos autores mencionados previamente, aunque con títulos y contenidos distintos. Por ejemplo, un estudio epidemiológico supuestamente escrito por la investigadora Katherine Keyes fue reemplazado por un enlace a un artículo de KFF Health News sobre un tema similar, y otras referencias vinculadas a publicidad de medicamentos en niños se cambiaron por artículos periodísticos y estudios más antiguos sobre tendencias en uso de psicofármacos. Aunque estas nuevas fuentes parecen corresponder a estudios legítimos, no está claro si respaldan de manera precisa las afirmaciones formuladas en el informe original.

Además de sustituir las citas inexistentes, la versión actualizada también modificó referencias que habían sido mal interpretadas en la versión previa. Por ejemplo, un estudio que se usó para sostener que la psicoterapia es tan eficaz como los medicamentos en el corto plazo fue reemplazado después de que uno de los autores originales señalará a NOTUS que su investigación no incluía psicoterapia dentro de los parámetros analizados. A pesar de los cambios, tanto la Casa Blanca como funcionarios de HHS minimizaron la gravedad de los errores, describiéndolos como problemas menores de formato que ya habían sido corregidos, y defendieron la sustancia general del informe. Voceros oficiales declararon que el documento sigue siendo una evaluación histórica y transformadora para entender la epidemia de enfermedades crónicas que afectan a los niños estadounidenses, y subrayaron que los ajustes no alteran sus conclusiones principales.

Sin embargo, la actualización y corrección de citas ha suscitado debates profundos sobre los estándares de rigor científico que deben aplicarse a informes gubernamentales de salud pública, especialmente cuando estos documentos se utilizan para formular políticas importantes. Organizaciones periodísticas, científicos y legisladores han cuestionado la confiabilidad de las referencias del MAHA report y han pedido mayor transparencia en cómo se elaboran y revisan estos textos, así como sobre el uso de tecnologías como la inteligencia artificial durante su redacción. La situación ilustra las tensiones entre la comunicación científica, la integridad académica y las prioridades políticas en la producción de informes de política pública.

Un investigador “infla” su índice h en Google Scholar subiendo numerosos preprints cargados de autocitas

Joelving, Frederik. “How to Juice Your Google Scholar H-Index, Preprint by Preprint.” Retraction Watch, December 8, 2025. https://retractionwatch.com/2025/12/08/how-to-juice-your-google-scholar-h-index-preprint-by-preprint/

Un investigador logró inflar artificialmente su índice h en Google Scholar subiendo numerosos preprints cargados de autocitas, aprovechando que la plataforma indexa documentos sin revisión por pares.

Un investigador asociado a la Universidad de Zhejiang, Muhammad Zain Yousaf, logró un aumento extraordinario en su índice h de Google Scholar en un corto período de tiempo mediante una estrategia que aprovechó preprints cargados de autocitas. Según la investigación, Yousaf subió diez documentos a un servidor de preprints (TechRxiv) en solo dos días, y la mayoría de las referencias dentro de estos documentos eran trabajos propios, en muchos casos con el autor repitiéndose en una proporción muy alta de la bibliografía. Esto provocó que su índice h, una medida de productividad y impacto científico que combina publicaciones y citaciones, se disparara a niveles comparables a los de académicos sénior, aunque la calidad real de los documentos era cuestionada por expertos que los describieron como incoherentes o de baja calidad técnica.

La situación generó sospechas de manipulación de métricas académicas, ya que Google Scholar indexa automáticamente citas incluso de fuentes sin revisión por pares, lo que permite que documentos no evaluados formalmente influyan en el cómputo de indicadores bibliométricos. Investigadores que analizaron el caso descubrieron que, al excluir autocitas y fuentes sin revisión formal (como preprints y actas de conferencias), el índice h real de Yousaf se reducía a la mitad o más, lo que pone en evidencia la fragilidad del sistema para medir el impacto científico auténtico frente a maniobras de este tipo.

El informe también pone énfasis en que esta no es una anomalía única: otros casos documentados muestran que Google Scholar puede ser sencillo de manipular debido a la forma en que indexa contenido en línea, lo que plantea preocupaciones sobre su uso generalizado para evaluaciones académicas, contrataciones y financiación. Expertos citados en el artículo señalan que, mientras continúe la presión sobre investigadores para obtener altas métricas de citación, seguirán apareciendo tácticas similares que explotan lagunas en los sistemas de evaluación automatizados.

Citas invisibles y métricas falsas: la ingeniería oculta detrás de las métricas científicas

How Thousands of Invisible Citations Sneak into Papers and Make for Fake Metrics.” Retraction Watch. Publicado el 9 de octubre de 2023.
https://retractionwatch.com/2023/10/09/how-thousands-of-invisible-citations-sneak-into-papers-and-make-for-fake-metrics/

Se describe cómo investigadores detectaron un mecanismo de manipulación de métricas científicas consistente en la inserción de «citas invisibles» (o “sneaked citations”). En 2022, el informático Guillaume Cabanac observó un caso extraño: un artículo tenía más de 100 citas en menos de dos meses, pese a haberse descargado solo 62 veces. Cuando se decidió revisar los archivos de metadatos que las editoriales proporcionan a las bases de datos, y se descubrió que contenían referencias que no estaban visibles ni en el PDF ni en la versión online del artículo.

El artículo explica cómo miles de “citas invisibles” pueden infiltrarse en los metadatos de artículos científicos y generar métricas falsas. La alerta surgió cuando un investigador descubrió que un artículo acumulaba más de cien citas en menos de dos meses, pese a que apenas había sido descargado. Esto llevó a examinar los archivos de metadatos que las editoriales envían a los sistemas de indexación, donde se encontró que incluían referencias que no aparecían en el PDF ni en la versión web del artículo.

A partir de esta sospecha, se revisaron los metadatos que las editoriales envían a las bases de datos. En esos archivos —que contienen información técnica para la indexación, como títulos, autores, resúmenes y referencias— se encontraron listas de citaciones que no aparecían en el artículo tal como lo ve el lector. Es decir, la versión en PDF o HTML mostraba una bibliografía normal, pero la versión enviada a los indexadores incluía muchas más referencias añadidas artificialmente. Estas “citas fantasma” no estaban destinadas al lector, sino a los sistemas automatizados.

El problema es que la mayoría de plataformas que calculan métricas —incluyendo sistemas que cuentan citas, generan índices de impacto o alimentan rankings académicos— se basan en esos metadatos. No revisan manualmente las bibliografías visibles, sino que extraen la información directamente de los archivos técnicos. Esto significa que una cita inexistente en el papel puede convertirse en una cita “real” en las métricas, alterando indicadores que son usados en evaluaciones, promociones y decisiones de financiación.

La investigación mostró que esta no era una irregularidad aislada, sino un patrón repetido en varias revistas controladas por un mismo editor. En algunos casos, casi una décima parte de todas las referencias de los artículos eran invisibles para los lectores, pero muy visibles para los algoritmos. Lo más preocupante es que estas citas fantasma beneficiaban sobre todo a un grupo pequeño de autores, lo que sugiere que no eran simples errores técnicos, sino un mecanismo deliberado para inflar perfiles individuales.

Este tipo de manipulación es especialmente peligrosa por su invisibilidad. No se trata de alterar un manuscrito, plagiar contenido o falsificar datos; el artículo, tal y como se publica, parece completamente normal. Toda la distorsión ocurre en una capa oculta que solo las máquinas leen y que pocos investigadores examinan. Esta sofisticación hace que sea mucho más difícil detectar el fraude y, por tanto, mucho más fácil que pase desapercibido durante largos periodos.

El artículo también subraya las implicaciones más amplias para el ecosistema de investigación. Las métricas bibliométricas se han vuelto herramientas cruciales para evaluar la productividad, el prestigio y la influencia científica. Cuando estas métricas pueden manipularse de manera tan sencilla, y a una escala tan grande, se compromete la credibilidad de todo el sistema de evaluación. Investigadores que juegan limpio pueden quedar en desventaja frente a quienes manipulan los metadatos; instituciones pueden otorgar recursos basándose en indicadores inflados; y el público puede perder confianza en la fiabilidad de la ciencia.

Finalmente, se plantea la necesidad urgente de que las editoriales, los indexadores y las plataformas bibliométricas revisen sus procedimientos, auditen los metadatos que reciben y establezcan medidas de detección de anomalías. La transparencia en la gestión de metadatos y la trazabilidad de las referencias podrían ayudar a evitar este tipo de prácticas. Sin medidas correctoras, las “citas invisibles” seguirán distorsionando el sistema científico y creando métricas engañosas que no reflejan la calidad real del trabajo académico.

Academ-AI es un proyecto que detecta posibles casos de uso no declarado de inteligencia artificial en artículos científicos y ponencias

Academ-AI

https://www.academ-ai.info/

Academ-AI es un proyecto dedicado a detectar casos sospechosos de uso no declarado de inteligencia artificial en la literatura académica. Su objetivo es identificar artículos publicados en revistas científicas o presentados en congresos que contengan fragmentos de texto con rasgos característicos de los modelos de lenguaje, pero en los que no se haya reconocido explícitamente el uso de estas herramientas.

La iniciativa busca llamar la atención sobre un fenómeno cada vez más común en la comunicación científica y fomentar una mayor transparencia editorial. El proyecto recopila ejemplos de textos en los que se observan expresiones o estructuras típicas de la escritura generada por IA, como frases genéricas, repeticiones innecesarias o giros lingüísticos impropios del estilo académico. En cada caso, se muestran los fragmentos sospechosos y se explica por qué podrían haber sido producidos por un modelo de lenguaje. La página invita además a investigadores, revisores y lectores a colaborar enviando nuevos ejemplos o sugerencias para ampliar la base de datos.

Academ-AI solo incluye artículos de revistas y ponencias de conferencias, dejando fuera otros formatos como libros, capítulos o preprints. El sitio organiza los casos documentados y ofrece una visión general de la extensión del fenómeno, que afecta a publicaciones de distintos campos del conocimiento y niveles de prestigio.

Aunque el propio proyecto reconoce que algunos textos pueden haber sido incluidos por error, su principal contribución es poner de relieve los riesgos que implica la falta de transparencia en el uso de la inteligencia artificial en la escritura científica. Academ-AI actúa así como una herramienta de vigilancia ética y como un recordatorio de la necesidad de reforzar las políticas editoriales que garanticen la autenticidad y la integridad del trabajo académico.

Acuerdo histórico de 1.500 millones de dólares entre Anthropic y autores por uso no autorizado de libros por su inteligencia artificial

Ortutay, Barbara. “Judge Approves $1.5 Billion Copyright Settlement Between AI Company Anthropic and Authors.” AP News, 25 de septiembre de 2025. https://apnews.com/article/anthropic-authors-copyright-judge-artificial-intelligence-9643064e847a5e88ef6ee8b620b3a44c

Un juez aprobó un acuerdo de 1.500 millones de dólares entre Anthropic y autores cuyos libros fueron usados sin permiso para entrenar su IA. Cada obra recibirá aproximadamente 3.000 dólares, aunque no cubre libros futuros. El caso sienta un precedente clave en la protección de derechos de autor frente a tecnologías de inteligencia artificial.

El 25 de septiembre de 2025, un juez federal aprobó preliminarmente un acuerdo histórico de 1.500 millones de dólares entre la empresa de inteligencia artificial Anthropic y un grupo de autores y editores. La disputa surgió cuando los autores denunciaron que la compañía había utilizado sin autorización cerca de 465.000 libros protegidos por derechos de autor para entrenar su modelo de lenguaje Claude. Este acuerdo prevé una compensación de aproximadamente 3.000 dólares por cada libro afectado, aunque no contempla obras que se publiquen en el futuro. El juez destacó la complejidad de distribuir los fondos de manera justa, pero consideró que el acuerdo era razonable y proporcionado para las partes involucradas.

La demanda original fue presentada por varios escritores que alegaban que Anthropic había recopilado ilegalmente millones de libros, almacenándolos en una biblioteca central para alimentar su sistema de inteligencia artificial. A pesar de que en una decisión previa se había reconocido que el uso de ciertos libros para entrenamiento podía considerarse un uso justo, el juez determinó que la compañía sí había infringido los derechos de autor al almacenar y explotar un volumen tan grande de obras sin permiso. Este punto resultó clave para la aprobación del acuerdo, al establecer un reconocimiento de responsabilidad por parte de la empresa.

Este acuerdo marca un precedente importante en el ámbito de la inteligencia artificial y los derechos de autor. Por primera vez, una compañía tecnológica se compromete a una compensación multimillonaria por el uso no autorizado de obras literarias, lo que podría influir en futuras disputas legales y en la manera en que los desarrolladores de IA acceden a contenido protegido. Representa un avance significativo en la protección de los autores y en la reivindicación de sus derechos frente a grandes empresas tecnológicas.

Anthropic expresó su satisfacción por la resolución, afirmando que este acuerdo les permitirá centrarse en el desarrollo de herramientas de inteligencia artificial de manera responsable y segura. El juez, por su parte, subrayó la importancia de garantizar un proceso de reclamaciones transparente, de modo que todos los autores, incluidos aquellos menos conocidos, puedan recibir una compensación justa. En conjunto, este caso refleja un punto de inflexión en la relación entre la tecnología y la propiedad intelectual, estableciendo límites claros sobre el uso de obras protegidas en la creación de sistemas de IA.

Writer: detector gratuito de contenido generado por IA

Writer.com

El detector de contenido con IA de Writer.com es una herramienta gratuita diseñada para identificar la presencia de texto generado por inteligencia artificial en fragmentos de hasta 5.000 palabras. Su objetivo es ayudar a escritores, educadores y profesionales a verificar la autenticidad de los textos antes de su publicación.

Entre sus características principales, destaca la posibilidad de pegar directamente el texto a analizar o incluso ingresar una URL para evaluar su contenido. La herramienta ofrece un puntaje de detección, expresado en porcentaje, que indica la probabilidad de que el texto haya sido generado por IA. Además, es de acceso gratuito y no requiere registro para realizar un análisis, aunque el límite por comprobación es de 5.000 palabras. Para usuarios empresariales, Writer.com ofrece una API que permite integrar el detector en flujos de trabajo automatizados.

Sin embargo, el detector tiene algunas limitaciones. Su precisión puede variar, especialmente en textos que imitan muy bien el estilo humano o que contienen frases comunes, lo que puede generar falsos positivos o negativos. Además, a diferencia de otras herramientas como Originality.ai, no cuenta con detección de plagio, lo que puede ser una desventaja para quienes buscan una solución integral. Otra limitación es que el acceso a la API solo está disponible en planes empresariales, lo que restringe su uso para individuos o pequeñas empresas que necesiten automatizar los análisis.

El detector de IA de Writer.com resulta útil para comprobaciones rápidas y accesibles de contenido generado por inteligencia artificial. Es una opción práctica para usuarios que buscan una solución sencilla y gratuita. Sin embargo, para quienes necesitan funciones más avanzadas, como análisis más profundos o detección de plagio, puede ser necesario considerar herramientas complementarias o alternativas más completas.

Evaluación de la eficacia de las herramientas de detección de contenido generado por IA

Elkhatat, Ahmed M., Khaled Elsaid y Saeed Almeer. 2023. “Evaluating the efficacy of AI content detection tools in differentiating between human and AI-generated text.” International Journal for Educational Integrity 19: 17. https://doi.org/10.1007/s40979-023-00140-5

Se investiga la efectividad de diversas herramientas de detección de contenido generado por IA, como OpenAI, Writer, Copyleaks, GPTZero y CrossPlag, en la identificación de textos producidos por modelos de IA como ChatGPT.

Utilizando párrafos sobre el tema de las torres de refrigeración en procesos de ingeniería generados por ChatGPT Modelos 3.5 y 4, junto con respuestas humanas de control, los investigadores evaluaron la capacidad de estas herramientas para distinguir entre contenido humano y generado por IA.

Los resultados revelaron que las herramientas de detección fueron más precisas al identificar contenido generado por GPT 3.5 en comparación con GPT 4. Sin embargo, al aplicarlas a las respuestas humanas de control, las herramientas mostraron inconsistencias, produciendo falsos positivos y clasificaciones inciertas. Esto destaca la necesidad de un desarrollo y refinamiento continuo de las herramientas de detección de contenido generado por IA, ya que el contenido generado por IA se vuelve cada vez más sofisticado y difícil de distinguir del texto escrito por humanos.

El estudio subraya la importancia de no depender exclusivamente de estas herramientas para garantizar la integridad académica. Se recomienda adoptar un enfoque más holístico que combine el uso de herramientas de detección con revisiones manuales y consideraciones contextuales para asegurar una evaluación justa y precisa del contenido académico. Además, los autores sugieren que las instituciones educativas reconsideren sus métodos de evaluación tradicionales, incorporando tecnologías de IA para mejorar el aprendizaje y la evaluación, al tiempo que fomentan una cultura de honestidad académica y responsabilidad.

Aspectos clave:

  • Ninguna herramienta es completamente infalible; la combinación de detección automática y revisión manual es esencial.
  • Los textos generados por ChatGPT 4 son más difíciles de detectar, mostrando la necesidad de mejorar continuamente estas herramientas.
  • Se recomienda integrar estas tecnologías con políticas educativas que fomenten la honestidad académica y métodos de evaluación adaptados.