Archivo de la etiqueta: Plagio

Uso sospechoso no declarado de la inteligencia artificial en la literatura académica

Glynn, Alex. «Suspected Undeclared Use of Artificial Intelligence in the Academic Literature: An Analysis of the Academ-AI Dataset.» arXiv, November 2024. https://arxiv.org/abs/2411.15218.

Desde que las herramientas de inteligencia artificial generativa (IA), como ChatGPT de OpenAI, se hicieron ampliamente disponibles, los investigadores han comenzado a utilizarlas en el proceso de escritura. El consenso de la comunidad editorial académica es que dicho uso debe ser declarado en el artículo publicado. Academ-AI documenta ejemplos de uso sospechoso de IA no declarado en la literatura académica, lo cual se puede discernir principalmente debido a la aparición en los artículos de investigación de un lenguaje característico de los chatbots basados en modelos de lenguaje grande (LLM).

Este análisis de los primeros 500 ejemplos recopilados revela que el problema es generalizado, afectando a revistas y actas de conferencias de editores altamente respetados. La IA no declarada parece aparecer en revistas con métricas de citación más altas y mayores cargos por procesamiento de artículos (APC), precisamente en esas publicaciones que, teóricamente, deberían tener los recursos y la experiencia para evitar tales descuidos. Una pequeña minoría de casos son corregidos después de la publicación, y las correcciones a menudo son insuficientes para rectificar el problema.

Los 500 ejemplos analizados aquí probablemente representen solo una pequeña fracción de la IA no declarada presente en la literatura académica, gran parte de la cual podría ser indetectable. Los editores deben hacer cumplir sus políticas contra el uso no declarado de la IA en los casos detectables; esta es la mejor defensa disponible actualmente para la comunidad editorial académica contra la proliferación de IA no divulgada.

El conjunto de datos utilizado para esta investigación se compuso de fragmentos de 500 documentos publicados: 449 artículos de revistas y 51 ponencias de conferencias. El 93,2% de estos artículos fueron publicados en 2022 o después, mientras que el 6,8% fueron publicados antes de la liberación pública de ChatGPT en noviembre de 2022. Los artículos fueron publicados en 345 revistas diferentes, la mayoría de las cuales (86%) publicó solo uno de los artículos. Las revistas más representadas en el conjunto de datos fueron International Journal of Open Publication and Exploration (18 artículos) y International Research Journal of Modernization in Engineering Technology and Science (11 artículos).

Las ponencias fueron presentadas en 45 conferencias diferentes, con un 91% de las conferencias presentando solo una ponencia. La conferencia más representada fue la International Conference on Electronics, Communication and Aerospace Technology (4 ponencias). Solo el 13,1% de los artículos de revistas fueron publicados en revistas producidas por grandes editores académicos, como Elsevier (5,1%), Springer (2,2%) o MDPI (1,1%). En contraste, la gran mayoría de las ponencias de conferencias (88,2%) fueron publicadas por editores académicos importantes, principalmente IEEE (80,4%). En general, los grandes editores produjeron el 20,8% de los documentos en el conjunto de datos. Todos los editores importantes representados en el conjunto de datos requieren la declaración del uso de IA en sus políticas editoriales, excepto Wolters Kluwer. Solo dos publicaciones de Wolters Kluwer, Medicine y Annals of Medicine & Surgery, aparecen en el conjunto de datos, y ambas requieren la declaración de uso de IA en sus guías para autores.

Un total de 62 artículos (13,8%) fueron publicados en revistas sin un ISSN confirmado o que afirmaban estar registrados con el ISSN de otra revista.

Es imperativo identificar y abordar los casos de IA no declarada que podemos detectar. En tales casos, las revistas y editores deben hacer cumplir sus políticas mediante correcciones o retractaciones, según la gravedad de la violación de políticas. No hacer esto establece un precedente de violaciones de políticas sin abordar, sugiriendo a los autores que la declaración del uso de IA no es necesaria. Por el contrario, un precedente de hacer cumplir estas políticas incentiva la declaración entre los autores descuidados e incluso sin escrúpulos, por el temor de que el uso de IA sea detectable en su caso.

¿Navegar con IA o hundirse con IA? Análisis de verbos de títulos de artículos de investigación sospechosos de contener contenidos generados/asistidos por IA

Comas-Forgas, Ruben, Alexandros Koulouris, y Dimitris Kouis. «‘AI-Navigating’ or ‘AI-Sinking’? An Analysis of Verbs in Research Articles Titles Suspicious of Containing AI-Generated/Assisted Content.» Learned Publishing, publicado por primera vez el 1 de diciembre de 2024. https://doi.org/10.1002/leap.1647.



El estudio examina cómo la inteligencia artificial generativa (IA), como ChatGPT, puede estar influyendo en el lenguaje de los títulos de artículos académicos. Analizando 15 verbos seleccionados en títulos extraídos de SCOPUS (2015-2024), se detectó un incremento notable de ciertos términos asociados con IA. Los hallazgos sugieren que estas herramientas afectan la escritura científica, especialmente en disciplinas específicas. Se subraya la importancia de establecer estándares para el uso de IA en publicaciones académicas y se plantea la necesidad de más investigaciones para ampliar el análisis lingüístico.

Se analizaron cómo la aparición frecuente del verbo «navigating» en títulos académicos revisados en 2023 despertando sospechas sobre la influencia de herramientas de inteligencia artificial generativa (IA). Lo cual motivó una investigación que conecta los avances en modelos de lenguaje como ChatGPT con cambios en la redacción científica, particularmente en los títulos. Los resultados de la misma sugieren que la IA está transformando los métodos de escritura académica, aunque la detección de su uso sigue siendo un desafío. Los títulos, clave en la visibilidad y selección editorial, se examinan como indicadores de esta influencia emergente.

El estudio buscaba entender cómo la IA está transformando la comunicación científica, para ello se analizaron los verbos de acción en títulos de artículos científicos para identificar patrones que sugieran contenido generado o asistido por IA, especialmente ChatGPT. Sus objetivos incluyen:

  1. Identificar verbos recurrentes indicativos de IA generativa.
  2. Analizar tendencias en el uso de estos verbos durante la última década.
  3. Examinar características de documentos con títulos sospechosos.
  4. Cuantificar manuscritos asistidos por IA, estimando su impacto en la redacción académica.

La metodología del estudio se desarrolló en dos pasos principales:

  1. Identificación de verbos sospechosos: Se analizaron verbos presentes en títulos generados por ChatGPT usando resúmenes de artículos recientes en cuatro disciplinas. Esto resultó en una lista de 25 verbos potencialmente indicativos de contenido asistido por IA, basándose en aumentos significativos en su uso desde 2023 en títulos indexados en SCOPUS.
  2. Análisis bibliométrico: Se examinaron tendencias de uso y características de manuscritos con estos verbos en bases como SCOPUS y DOAJ, proyectando datos de 2024 para evaluar patrones lingüísticos relacionados con la IA.

El estudio identificó 15 verbos con un notable aumento de uso en títulos de manuscritos entre 2023 y 2024, lo que sugiere una posible influencia de herramientas de IA como ChatGPT. Verbos como revolutionizing y unleashing mostraron tasas de crecimiento anual (YoYG) superiores al 100%, mientras que otros como exploring y bridging presentaron incrementos más moderados. Estos datos, obtenidos de SCOPUS, revelan un patrón de crecimiento en el uso de términos asociados con innovación y descubrimiento, correlacionado con la creciente adopción de tecnologías de IA.

El análisis de títulos en SCOPUS mostró un aumento significativo en el uso de verbos asociados con IA, con 165.087 documentos estimados para 2024 que contienen al menos uno de los 15 verbos analizados. Este incremento es más notable en categorías como ‘Letters’ y ‘Review’, lo que sugiere una creciente dependencia de herramientas de IA para redactar comunicaciones rápidas y revisiones literarias. Además, se observó un aumento del 144.5% en el uso de IA en países no anglófonos, mientras que en los países de habla inglesa fue del 59.8%.



Para estimar el número de títulos generados o asistidos por IA, se siguieron tres pasos: calcular el crecimiento interanual (YoYG) promedio de 2016 a 2022, estimar el YoYG para 2023-2024 según esa media, y calcular la diferencia entre esta estimación y los datos reales para determinar los títulos potencialmente generados por IA. Se observó un aumento notable de títulos sospechosos de ser asistidos por IA en SCOPUS, con un total de 63.780 títulos en dos años, destacando verbos como “Enhancing” y “Exploring” en el lenguaje académico.

Gestión de publicaciones retractadas por parte de diferentes bases de datos

Salami, Malik Oyewale, Corinne McCumber, y Jodi Schneider. 2024. «Analyzing the Consistency of Retraction Indexing». OSF. https://doi.org/10.31222/osf.io/gvfk5.

El artículo aborda un problema crítico en el ámbito académico: la inconsistencia en la identificación y el manejo de publicaciones retractadas por parte de diferentes bases de datos. Se analiza cómo estas bases gestionan las retractaciones, evaluando la calidad de su indexación.

El propósito central es investigar por qué las publicaciones retractadas siguen siendo citadas incluso después de que se retiran oficialmente. Esto puede atribuirse, en parte, a las dificultades que enfrentan autores y editores para identificar sistemáticamente estas publicaciones en diferentes bases de datos académicas. Los investigadores buscan comprender el nivel de acuerdo entre estas bases de datos y señalar los errores más comunes en la indexación.

Para llevar a cabo el estudio se evaluaron 11 bases de datos científicas relevantes, utilizando una lista unificada de 85.392 publicaciones únicas retractadas como referencia. Se analizaron las publicaciones que cada base incluía, aquellas que identificaban como retractadas y las que no eran reconocidas en absoluto. Y finalmente se midió la concordancia entre las bases de datos en cuanto a la identificación de publicaciones retractadas.

Hallazgos principales:

  • Baja consistencia entre bases de datos: Los resultados muestran que las bases de datos tienen una baja concordancia en la indexación de publicaciones retractadas, incluso cuando cubren los mismos documentos. Esto genera discrepancias significativas sobre qué trabajos se identifican oficialmente como retractados.
  • Errores en la indexación: Se encontraron problemas recurrentes en cómo se manejan las retractaciones, tales como: Las publicaciones retractadas que no son marcadas adecuadamente en ciertas bases. Inconsistencias en el etiquetado de retractaciones entre diferentes plataformas.
  • Impacto en las citas posteriores a la retractación: Debido a estas inconsistencias, muchos trabajos retractados siguen siendo citados por error, lo que perpetúa información incorrecta y afecta la credibilidad de futuras investigaciones.

El estudio destaca varias implicaciones importantes para la comunidad académica debido a la falta de estándares claros en la gestión de publicaciones retractadas.

  • Primero, hay una confusión para los investigadores. Los autores pueden no estar al tanto de que una publicación ha sido retractada si buscan referencias en bases de datos que no la han actualizado adecuadamente. Esto puede llevar a la cita de trabajos que ya no son válidos, lo que afecta la calidad de la investigación.
  • En segundo lugar, hay un impacto en la calidad científica. Las citas erróneas de publicaciones retractadas pueden disminuir la precisión de nuevos estudios. Si otros investigadores basan su trabajo en artículos retractados, esto puede afectar la fiabilidad de sus propios resultados, lo que reduce la confianza en la ciencia.

El estudio también presenta varias recomendaciones para mejorar la situación. Una de las principales sugerencias es crear directrices claras sobre cómo las bases de datos deben manejar las publicaciones retractadas. Además, se debe mejorar la coordinación entre las plataformas para asegurarse de que todas las bases de datos identifiquen correctamente los trabajos retractados. Finalmente, se recomienda implementar mejores sistemas de notificación para alertar a los investigadores cuando un artículo haya sido retractado, asegurando que todos estén informados y puedan evitar usar referencias incorrectas.

El análisis pone de manifiesto un desafío crítico en el sistema académico global: la inconsistencia en el manejo de las retractaciones. Resolver este problema es fundamental para mejorar la transparencia y la confiabilidad de la investigación científica

The New York Times exige a Perplexity cesar el uso no autorizado de su contenido para IA

Davis, Wes. «The New York Times Warns AI Search Engine Perplexity to Stop Using Its Content». The Verge, 15 de octubre de 2024. https://www.theverge.com/2024/10/15/24270774/new-york-times-cease-and-desist-letter-perplexity-ai-search-engine.

New York Times ha enviado una carta de cesación y desista a la empresa emergente de motores de búsqueda Perplexity, exigiendo que dejen de utilizar su contenido, según informó The Wall Street Journal el 15 de octubre de 2024.

La demanda se produce en el contexto de una disputa legal más amplia, ya que el Times está demandando a OpenAI y Microsoft por presuntamente usar su contenido sin permiso para entrenar sus modelos de inteligencia artificial. En este caso, el periódico acusa a Perplexity de haber estado utilizando su contenido sin autorización, algo que también había sido señalado previamente por otras empresas como Forbes y Condé Nast.

La carta enviada por el Times, de acuerdo con The Wall Street Journal, incluye el siguiente pasaje:

«Perplexity y sus socios comerciales se han enriquecido injustamente al utilizar, sin autorización, el periodismo expresivo, cuidadosamente redactado, investigado y editado del Times sin licencia.»

El New York Times tiene una política clara que prohíbe el uso de su contenido para entrenar modelos de inteligencia artificial. En este sentido, han bloqueado explícitamente varios rastreadores de IA, incluido el de Perplexity, mediante el archivo robots.txt, que indica a los motores de búsqueda qué URLs pueden indexar.

Por su parte, Perplexity ha respondido a las acusaciones a través de un comunicado de su portavoz, Sara Platnick, en el que afirman no estar «robando» contenido para el entrenamiento de modelos de IA. En cambio, defiende que se dedica a «indexar páginas web y mostrar contenido factual» como citas para informar las respuestas a las preguntas de los usuarios. Además, Perplexity sostiene que «ninguna organización posee los derechos de autor sobre los hechos», argumentando que este principio permite un ecosistema de información abierto y libre, lo que también beneficia a los medios de comunicación al poder informar sobre temas previamente cubiertos por otros.

En respuesta a la carta de cesación, Perplexity tiene plazo hasta el 30 de octubre de 2024 para presentar su respuesta. La empresa, sin embargo, ha intentado suavizar la situación, enfatizando su interés en colaborar con los editores de contenido. Aravind Srinivas, CEO de Perplexity, expresó NYT que la compañía «no tiene interés en ser el antagonista de nadie» y que está dispuesta a trabajar con todos los editores, incluido el New York Times.

Este conflicto ocurre en medio de las crecientes tensiones sobre el uso de contenido protegido por derechos de autor por parte de modelos de IA. Durante el verano, Perplexity ya había sido acusada de plagio, lo que la llevó a cerrar acuerdos con varios editores, ofreciendo ingresos por publicidad y suscripciones gratuitas a socios como Fortune, Time, y The Texas Tribune. Sin embargo, la disputa con el New York Times pone de manifiesto el creciente choque entre las empresas tecnológicas emergentes y los medios de comunicación tradicionales en cuanto al uso y la compensación por su contenido digital.

Google ya incluye marcas de agua en sus textos generados por inteligencia artificial

«Google DeepMind Debuts Watermarks for AI-Generated Text – IEEE Spectrum». Accedido 13 de noviembre de 2024. https://spectrum.ieee.org/watermark.

Google DeepMind ha lanzado un innovador sistema de marca de agua para textos generados por IA llamado SynthID-Text, el cual tiene como objetivo facilitar la identificación de contenidos creados por modelos de lenguaje como su chatbot Gemini.

Esta tecnología añade una “firma estadística” o marca de agua en el texto generado, de manera que un detector especializado puede verificar si el contenido proviene de una IA, todo sin afectar la calidad, creatividad ni velocidad de la generación de respuestas. A diferencia de otros métodos que también intentan identificar texto de IA, SynthID-Text no altera visiblemente el texto para el lector humano, pero sí deja una señal detectable para su propio sistema.

Este sistema es la respuesta de Google al creciente problema de proliferación de contenido generado por IA, que ha inundado plataformas digitales como redes sociales y entornos académicos. Aunque existen herramientas para detectar textos de IA o incluso para hacerlos parecer escritos por humanos, su precisión ha sido limitada y, a medida que los chatbots mejoran, distinguir entre textos humanos e IA se vuelve más difícil. Con la implementación de SynthID-Text, Google espera dar un paso adelante en la solución de este problema.

SynthID-Text opera discretamente en el proceso de generación de texto: el sistema asigna puntuaciones a palabras candidatas en la respuesta generada por el chatbot, eligiendo aquellas que crean un patrón estadístico. Este patrón es imperceptible para los usuarios, pero detectable mediante el sistema SynthID. La marca de agua es esencialmente un “sello” que permite a los sistemas de Google o a desarrolladores que usen Gemini verificar si el texto proviene de un modelo de lenguaje de Google.

Sin embargo, los investigadores admiten que la marca de agua puede ser fácilmente eliminada o alterada si el texto se modifica de manera significativa. Por ejemplo, un usuario que edite el texto o que lo resuma con otro chatbot puede remover la firma, lo cual representa un desafío considerable para la tecnología. A pesar de estas limitaciones, Google ha asegurado que las respuestas marcadas con SynthID-Text son igual de satisfactorias que las respuestas no marcadas, basándose en pruebas realizadas con 20 millones de solicitudes a Gemini.

Una herramienta de Google permite detectar fácilmente la escritura generada por IA

«Google Tool Makes AI-Generated Writing Easily Detectable». New Scientist. Accedido 24 de octubre de 2024. https://www.newscientist.com/article/2452847-google-tool-makes-ai-generated-writing-easily-detectable/.

Google DeepMind ha desarrollado una técnica llamada watermarking que permite identificar texto generado por inteligencia artificial (IA) de manera automática. Esta tecnología, utilizada en las respuestas del chatbot Gemini, crea una especie de «marca» o firma en el texto que facilita distinguirlo del contenido escrito por humanos. La herramienta busca combatir el mal uso de los chatbots, como la propagación de desinformación y el fraude en entornos educativos y laborales.

El avance más reciente de Google es que ha hecho esta técnica disponible en código abierto, lo que permite que otros desarrolladores de IA puedan utilizarla en sus propios modelos de lenguaje. Pushmeet Kohli, de Google DeepMind, destaca que aunque esta tecnología, llamada SynthID, no es una solución definitiva, es un importante paso hacia la creación de herramientas más confiables para identificar contenido generado por IA.

La técnica funciona mediante un proceso llamado muestreo por torneo. Mientras el modelo genera una secuencia de texto, un algoritmo va guiando la selección de ciertas palabras (o tokens) que crean una firma estadística única. Este proceso aumenta la complejidad para quienes quieran eliminar o revertir esta marca. Según los investigadores de Google, este sistema ha sido probado en 20 millones de textos generados por Gemini sin que la calidad del texto se vea afectada, lo que demuestra su efectividad.

Sin embargo, los investigadores reconocen que esta técnica es más efectiva en textos largos que ofrecen múltiples formas de respuesta, como ensayos o correos electrónicos, y que no ha sido probada en tipos de respuestas más técnicas, como problemas de matemáticas o codificación. Además, expertos como Furong Huang de la Universidad de Maryland, señalan que un adversario con suficientes recursos computacionales podría eliminar estas marcas, aunque hacerlo requeriría un gran esfuerzo.

La herramienta también ha sido probada frente a otras técnicas de watermarking, y SynthID ha mostrado un mejor desempeño en la detección de contenido generado por IA. A pesar de su eficacia, Scott Aaronson, de la Universidad de Texas en Austin, advierte que ningún método de marcado es infalible, pero cree que puede ayudar a detectar una parte significativa de la desinformación o el engaño académico generado por IA.

Finalmente, los investigadores y expertos coinciden en que esta técnica es solo una parte de la solución y que se necesitan más salvaguardas contra el mal uso de los chatbots de IA. Furong Huang sugiere que la regulación gubernamental podría ayudar a hacer que el watermarking sea una medida estándar, asegurando un uso más seguro y confiable de los grandes modelos de lenguaje.

Integridad Científica e Inteligencia Artificial

CONFERENCIA: Integridad académica e Inteligencia Artificial
Martes 22 de octubre a las 17 h. de España. 9 h. Ciudad de México
con Julio Alonso Arévalo
III Seminario de Integridad Académica y Producción Científica



La inteligencia artificial está teniendo un impacto significativo en la escritura académica al ofrecer herramientas y recursos que facilitan el proceso de investigación, redacción y edición de documentos. Mediante el uso de algoritmos avanzados, los sistemas de inteligencia artificial pueden analizar grandes cantidades de información, extraer patrones y generar ideas para el desarrollo de un texto académico. Estas herramientas pueden ayudar a los estudiantes y profesores a ahorrar tiempo y esfuerzo al proporcionar sugerencias de vocabulario, estructura de párrafos y citas bibliográficas adecuadas. Además, la inteligencia artificial también puede contribuir a mejorar la calidad de los escritos académicos, al detectar errores gramaticales y de estilo, así como proporcionar recomendaciones para una redacción más clara y coherente. Sin embargo, es importante tener en cuenta que la inteligencia artificial no debe reemplazar el pensamiento crítico y la creatividad inherentes a la escritura académica, sino que debe utilizarse como una herramienta complementaria para mejorar y enriquecer el proceso de escritura.

Los detectores de IA acusan falsamente a los alumnos de hacer trampas con graves consecuencias

«AI Detectors Falsely Accuse Students of Cheating—With Big Consequences». Bloomberg.com.18 de octubre de 2024. https://www.bloomberg.com/news/features/2024-10-18/do-ai-detectors-work-students-face-false-cheating-accusations.

Un estudio revela que alrededor de dos tercios de los profesores utilizan regularmente herramientas para detectar contenido generado por IA. Este uso extendido puede llevar a que incluso pequeñas tasas de error se traduzcan en un gran número de acusaciones falsas.

Desde el lanzamiento de ChatGPT hace casi dos años, las escuelas han implementado diversas herramientas de detección para identificar contenido escrito por IA. Los mejores detectores de redacciones con IA son muy precisos, pero no son infalibles. Businessweek probó dos de los principales servicios -GPTZero y Copyleaks- en una muestra aleatoria de 500 redacciones de solicitudes universitarias enviadas a la Universidad A&M de Texas en el verano de 2022, poco antes del lanzamiento de ChatGPT, garantizando así que no habían sido generadas por IA. Los ensayos se obtuvieron a través de una solicitud de registros públicos, lo que significa que no formaban parte de los conjuntos de datos con los que se entrenan las herramientas de IA. Businessweek descubrió que los servicios marcaban falsamente entre el 1% y el 2% de los ensayos como probablemente escritos por IA, y en algunos casos afirmaban tener una certeza cercana al 100%.

Incluso una tasa de error tan pequeña como puede acumularse rápidamente, dado el gran número de trabajos que los estudiantes realizan cada año, con consecuencias potencialmente devastadoras para los estudiantes que son falsamente marcados. Al igual que ocurre con las acusaciones más tradicionales de engaño y plagio, los estudiantes que utilizan IA para hacer sus deberes tienen que rehacer sus tareas y se enfrentan a suspensos y períodos de prueba.

Los más vulnerables a acusaciones erróneas son aquellos que escriben de manera más genérica, como estudiantes no nativos en inglés o aquellos con estilos de escritura más mecánicos. Moira Olmsted, una estudiante de 24 años, fue acusada de utilizar IA para un trabajo en línea en la Universidad Central Methodist, lo que le valió una calificación de cero. La acusación se basó en un detector de IA que había marcado su trabajo como posiblemente generado por inteligencia artificial, a pesar de su estilo de escritura, influenciado por su trastorno del espectro autista. Aunque logró que la calificación fuera cambiada, recibió una advertencia de que futuras detecciones similares serían tratadas como plagio.

Un estudio realizado en 2023 por investigadores de la Universidad de Stanford descubrió que los detectores de IA eran «casi perfectos» cuando comprobaban redacciones escritas por estudiantes de octavo curso nacidos en EE.UU., pero marcaban más de la mitad de las redacciones escritas por estudiantes no nativos de inglés como generadas por IA. Turnitin, una popular herramienta de detección de IA ha declarado que tiene una tasa de falsos positivos del 4% al analizar frases. Turnitin se negó a poner su servicio a disposición para realizar pruebas. En una entrada del blog 2023, la Universidad de Vanderbilt, una de las principales escuelas que desactivaron el servicio de detección de IA de Turnitin por motivos de precisión, señaló que, de lo contrario, cientos de trabajos de estudiantes habrían sido marcados incorrectamente durante el curso académico como escritos en parte por IA. Las empresas de detección de IA insisten en que sus servicios no deben tratarse como juez, jurado y verdugo, sino como un dato para ayudar a informar y orientar a los profesores.

Businessweek también descubrió que los servicios de detección de IA a veces pueden ser engañados por herramientas automatizadas diseñadas para hacer pasar la escritura de IA por humana. Esto podría dar lugar a una carrera armamentística que enfrentara a una tecnología contra otra, dañando la confianza entre educadores y estudiantes con escasos beneficios educativos.

OpenAI ha anunciado recientemente que no lanzará una herramienta para detectar escritos generados por IA, en parte debido a preocupaciones sobre su impacto negativo en ciertos grupos, incluidos los estudiantes que hablan inglés como segunda lengua. Aunque algunas instituciones están reconsiderando el uso de detectores de IA, muchos colegios todavía confían en ellos. Startups de detección de IA han atraído inversiones significativas desde 2019, lo que refleja el aumento del uso de estas tecnologías. Sin embargo, la ansiedad y paranoia en el aula persisten, ya que los estudiantes dedican tiempo a defender la integridad de su trabajo y temen el uso de herramientas de asistencia de escritura comunes.

A pesar de que algunas empresas de detección de IA afirman tener tasas de error bajas, la presión sobre los estudiantes para evitar ser acusados de hacer trampa ha llevado a algunos a modificar sus trabajos, lo que, en muchos casos, ha empeorado su calidad. La situación ha provocado que algunos estudiantes eliminen herramientas como Grammarly de sus dispositivos por miedo a ser marcados como autores de contenido generado por IA. Bloomberg descubrió que utilizar Grammarly para «mejorar» una redacción o «hacer que suene académica» convertirá un trabajo que había pasado de estar escrito al 100% por humanos a estar escrito al 100% por IA.

Educadores y estudiantes consideran que el sistema actual es insostenible, dada la tensión que crea y el hecho de que la IA está aquí para quedarse. Algunos profesores prefieren confiar en su intuición y mantener un diálogo abierto con los estudiantes en lugar de depender de herramientas de detección.

Características de los artículos científicos fabricados con Inteligencia Artificial en Google Scholar

Haider, J., Söderström, K. R., Ekström, B., & Rödl, M. (2024). GPT-fabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation. Harvard Kennedy School (HKS) Misinformation Review. https://doi.org/10.37016/mr-2020-156

Descargar

El artículo analiza el creciente número de trabajos científicos cuestionables generados por inteligencia artificial (IA), como ChatGPT, que se están publicando en revistas académicas y repositorios. Estos trabajos, que imitan el estilo de la escritura científica, están siendo fácilmente localizados y listados por Google Scholar junto con investigaciones legítimas. El estudio se centró en un grupo de estos artículos y encontró que muchos tratan temas aplicados y a menudo controversiales, como el medio ambiente, la salud y la computación, áreas particularmente vulnerables a la desinformación. La preocupación radica en el aumento del potencial de manipulación malintencionada de la base de evidencia, especialmente en temas divisivos políticamente.

El estudio se centra en la producción y difusión de publicaciones cuestionables generadas con transformadores preentrenados (GPT) que son accesibles a través de Google Scholar, abordando varios aspectos clave: primero, se investiga dónde se publican o depositan estas publicaciones dudosas. Este análisis busca identificar los tipos de revistas y plataformas que albergan este contenido. En segundo lugar, se examinan las características principales de estas publicaciones en relación con las categorías temáticas predominantes, permitiendo una comprensión más profunda de los temas que son más susceptibles al uso indebido de la inteligencia artificial generativa. Además, se explora cómo se difunden estas publicaciones en la infraestructura de investigación para la comunicación académica, prestando atención a los canales y plataformas que facilitan su circulación. Esto incluye la identificación de dominios y repositorios donde se comparten estos trabajos. Finalmente, la investigación cuestiona el papel de la infraestructura de comunicación académica en la preservación de la confianza pública en la ciencia y la evidencia, considerando los desafíos que presenta el uso inapropiado de la inteligencia artificial generativa en este contexto. Este aspecto subraya la necesidad de una regulación más efectiva y la implementación de criterios de calidad en la publicación académica.

Para ello, se recuperó, descargó y analizó una muestra de artículos científicos con indicios de uso de GPT encontrados en Google Scholar, utilizando una combinación de codificación cualitativa y estadísticas descriptivas. Todos los artículos contenían al menos una de dos frases comunes generadas por agentes conversacionales que utilizan grandes modelos de lenguaje (LLM) como ChatGPT. Luego, se utilizó Google Search para determinar la extensión de las copias de estos artículos cuestionables en diversos repositorios, archivos, bases de datos de citas y plataformas de redes sociales.

Aproximadamente dos tercios de los artículos recuperados fueron producidos, al menos en parte, mediante el uso no divulgado y potencialmente engañoso de GPT. La mayoría de estos trabajos (57%) abordaban temas relevantes para políticas públicas, como el medio ambiente, la salud y la computación, los cuales son susceptibles a operaciones de influencia. La mayoría de estos artículos estaban disponibles en varias copias en diferentes dominios (redes sociales, archivos y repositorios).

La mayoría de los artículos sospechosos de uso fraudulento de ChatGPT se encontraron en revistas no indexadas o como trabajos en proceso, aunque algunos también aparecieron en revistas establecidas, conferencias y repositorios. En total, se identificaron 139 artículos, de los cuales 19 estaban en revistas indexadas, 89 en revistas no indexadas, 19 eran trabajos estudiantiles y 12 eran documentos de trabajo. La mayoría de los artículos trataban temas de relevancia política, como la salud y el medio ambiente, y se encontraban principalmente en revistas no indexadas.

Existen dos riesgos principales derivados del uso cada vez más común de GPT para producir de manera masiva publicaciones científicas falsas. Primero, la abundancia de “estudios” fabricados que se infiltran en todas las áreas de la infraestructura de investigación amenaza con sobrecargar el sistema de comunicación académica y poner en peligro la integridad del registro científico. El segundo riesgo es que el contenido, aunque parezca científicamente convincente, haya sido creado de manera engañosa con herramientas de IA y esté optimizado para ser recuperado por motores de búsqueda académicos públicos, especialmente Google Scholar. Aunque esta posibilidad sea pequeña, su conocimiento podría socavar la confianza en el conocimiento científico y representar graves riesgos para la sociedad.

El estudio subraya que el problema de las publicaciones científicas fraudulentas generadas por GPT es solo la punta del iceberg, con implicaciones profundas para la confianza en la ciencia y para la sociedad en general.

Los estudiantes universitarios no saben cómo y para que pueden utilizar herramientas de inteligencia artificial generativa (IA) para sus tareas académicas

Mowreader, Ashley. «Survey: When Should College Students Use AI? They’re Not SureInside Higher Ed, October 14, 2024. https://www.insidehighered.com/news/student-success/academic-life/2024/07/03/survey-college-student-academic-experience.

Una encuesta de Inside Higher Ed, realizada en mayo de 2024, reveló que el 31% de los estudiantes universitarios no está seguro de cuándo se les permite usar herramientas de inteligencia artificial generativa (IA) en sus trabajos académicos. Aunque las herramientas de IA son cada vez más comunes en la educación superior, muchas instituciones no han establecido políticas claras sobre su uso. Solo el 16% de los estudiantes indicó que sus universidades han publicado una política al respecto.

La encuesta incluyó a más de 5.000 estudiantes, y los datos muestran que la orientación sobre el uso de la IA proviene principalmente de los profesores, quienes son los responsables de decidir cuándo y cómo se puede utilizar. Sin embargo, una gran parte de los profesores aún no se siente segura sobre el uso de IA en la enseñanza.

Expertos como Afia Tasneem y Dylan Ruediger señalan que, aunque la IA inicialmente fue vista con preocupación por su potencial para facilitar el plagio, ahora se considera una habilidad crucial para el desarrollo profesional. Sin embargo, advierten que la falta de políticas claras podría generar desigualdades en el acceso y uso de estas herramientas, especialmente entre estudiantes de comunidades históricamente desfavorecidas.

Las instituciones de educación superior deben proporcionar formación sobre el uso adecuado de la IA y desarrollar políticas coherentes que equilibren el aprendizaje con la ética y la integridad académica.