Archivo de la categoría: Investigación

Transparencia de los datos en los modelos LLM de Inteligencia Artificial

MIT News | Massachusetts Institute of Technology. «Study: Transparency Is Often Lacking in Datasets Used to Train Large Language Models», 30 de agosto de 2024. https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830.

Un equipo de investigadores del MIT ha desarrollado una herramienta llamada Data Provenance Explorer para mejorar la transparencia en los conjuntos de datos utilizados para entrenar grandes modelos de lenguaje. Esta herramienta permite a los practicantes de IA seleccionar datos adecuados para su modelo, mejorando la precisión y reduciendo el sesgo.

Los investigadores analizaron más de 1,800 conjuntos de datos textuales y descubrieron que más del 70% carecían de información de licencia, mientras que alrededor del 50% contenían errores en los datos de origen. Esto plantea problemas éticos y legales, y puede afectar el rendimiento del modelo, ya que el uso de datos incorrectos o sesgados puede llevar a predicciones injustas.

Data Provenance Explorer genera resúmenes de los creadores, fuentes, licencias y usos permitidos de los conjuntos de datos, ayudando a los investigadores a tomar decisiones más informadas y mejorar la precisión de los modelos en situaciones reales, como evaluaciones de préstamos o consultas de clientes.

Además, el estudio reveló que la mayoría de los creadores de conjuntos de datos se concentran en el norte global, lo que podría limitar las capacidades de los modelos en otras regiones. Los investigadores también notaron un aumento en las restricciones de los conjuntos de datos creados entre 2023 y 2024, debido a preocupaciones sobre su uso comercial no intencionado.

Los investigadores planean expandir su análisis para incluir datos multimodales, como video y audio, y seguir colaborando con reguladores para mejorar la transparencia en el uso de datos.

Clarivate lanza un asistente de investigación para Web of Science con IA Generativa

Web of Science Research Assistant

Ver video

El 4 de septiembre de 2024, Clarivate Plc lanzó el Web of Science Research Assistant, una herramienta impulsada por IA generativa. Esta herramienta permite a los investigadores encontrar artículos clave más rápidamente, gestionar tareas de investigación complejas y visualizar conexiones entre conceptos. Combina una interfaz de chat con el conocimiento acumulado durante 120 años en la colección Web of Science Core Collection.

Según Emmanuel Thiveaud, Vicepresidente Senior de Clarivate, esta herramienta va más allá del descubrimiento de contenido, mejorando la toma de decisiones y proporcionando una comprensión profunda de los campos de investigación. Fue desarrollada en colaboración con la comunidad investigadora para garantizar su calidad y precisión.

El Web of Science Research Assistant ofrece:

  • Búsquedas flexibles: permite realizar búsquedas en lenguaje natural en varios idiomas y descubrir conexiones entre artículos.
  • Tareas guiadas: sugiere cómo mejorar las tareas de investigación con funciones específicas como “Entender un tema” o “Revisión de literatura”.
  • Visualizaciones únicas: permite explorar mapas de tendencias y redes de co-citación.

Este asistente de investigación fue desarrollado en colaboración con bibliotecarios e investigadores y entró en fase de prueba en diciembre de 2023. Clarivate continuará trabajando con la comunidad para mejorar la herramienta.

Documentos científicos elaborados por Inteligencia Artificial en Google Scholar

Haider, Jutta, Kristofer Rolf Söderström, Björn Ekström, y Malte Rödl. «GPT-Fabricated Scientific Papers on Google Scholar: Key Features, Spread, and Implications for Preempting Evidence Manipulation». Harvard Kennedy School Misinformation Review, 3 de septiembre de 2024. https://doi.org/10.37016/mr-2020-156.


El estudio analiza la aparición de publicaciones científicas cuestionables, producidas con transformadores pre-entrenados generativos (GPT), en Google Scholar. Se investiga dónde se publican o depositan estos trabajos, sus características principales, cómo se difunden en la infraestructura de comunicación académica y cómo desafían el rol de esta infraestructura en mantener la confianza pública en la ciencia.

Para elaborar el estudio se realizó una búsqueda y extracción de datos en Google Scholar utilizando la biblioteca de Python Scholarly (Cholewiak et al., 2023) para identificar artículos que contenían frases comunes generadas por ChatGPT y aplicaciones similares basadas en el mismo modelo subyacente (GPT-3.5 o GPT-4): «a partir de mi última actualización de conocimiento» y/o «no tengo acceso a datos en tiempo real». Esto permitió identificar artículos que probablemente usaron inteligencia artificial generativa para producir texto, resultando en 227 artículos recuperados. La información bibliográfica de estos artículos se añadió automáticamente a una hoja de cálculo y se descargó en Zotero.

Todos los artículos contenían al menos una de las dos frases comunes devueltas por los agentes conversacionales que utilizan grandes modelos de lenguaje (LLM) como ChatGPT de OpenAI. A continuación, se utilizó la búsqueda de Google para determinar en qué medida existían copias de artículos cuestionables elaborados con GPT en diversos repositorios, archivos, bases de datos de citas y plataformas de redes sociales.

Para explorar la extensión del trabajo generado por ChatGPT en el índice de Google Scholar, se realizó un estudio que rastreó la plataforma en busca de publicaciones que contenían respuestas comunes de ChatGPT. El análisis reveló que alrededor del 62% de estos artículos no declaraban el uso de GPT, con la mayoría encontrados en revistas no indexadas y documentos de trabajo, aunque algunos aparecían en revistas y actas de conferencias de prestigio. Es notable que el 57% de estos artículos estaban relacionados con áreas de política susceptibles a operaciones de influencia. La mayoría de estos documentos estaban relacionados con temas relevantes para políticas públicas, como el medio ambiente, la salud y la informática, que son susceptibles de ser manipulados.

La presencia de texto generado por GPT se observó en diversas secciones de los artículos, incluyendo revisiones de literatura, métodos, marcos teóricos y discusiones. Esto sugiere un uso generalizado de GPT en la creación de artículos completos, lo que genera preocupaciones sobre la integridad de las publicaciones científicas y la posibilidad de lo que se denomina «piratería de evidencia»—la manipulación deliberada de la base de evidencia para influir en la opinión pública y en las políticas.

La proliferación de publicaciones fabricadas pone en riesgo la integridad del sistema de comunicación académica y socava la confianza en la ciencia. Además, la posibilidad de que estos textos falsos sean recuperados por motores de búsqueda académicos como Google Scholar aumenta el riesgo de manipulación maliciosa de la evidencia científica.

Para mitigar estos riesgos, el estudio recomienda un enfoque multifacético que incluya medidas técnicas, educativas y regulatorias. Estas podrían implicar opciones de filtrado en los motores de búsqueda académicos para distinguir entre literatura revisada por pares y literatura gris, así como el desarrollo de un motor de búsqueda académico no comercial para uso público. Las iniciativas educativas dirigidas a los responsables de la formulación de políticas, periodistas y otros profesionales de los medios también son cruciales para mejorar la alfabetización mediática e informativa y reducir el impacto de la desinformación.

Este problema no solo se deriva del uso de generadores de texto como ChatGPT, sino que también refleja preocupaciones más amplias sobre el sistema de publicaciones académicas y la monopolización de la información por parte de plataformas como Google Scholar. La proliferación de artículos fraudulentos puede erosionar la confianza en la ciencia, con consecuencias graves para la sociedad y la forma en que se manejan las «desórdenes de información».

El estudio concluye que el problema de los artículos fabricados por GPT probablemente se vuelva más generalizado, con implicaciones significativas para la credibilidad de la comunicación científica y la confianza pública en la ciencia. Para abordar este problema, es esencial entender las razones subyacentes a la proliferación de dicho contenido y desarrollar estrategias para prevenir su manipulación y difusión.

Guía para la escritura de trabajos finales de grado


Castronovo, Adela, Sandra Leiva, Adriana Fernández, Javier Areco, Diego Picotto, y Nicolas Brignoli. Guía para la escritura de Trabajos Finales Integradores. UNLa Universidad Nacional de Lanús, 2024. https://dialnet.unirioja.es/servlet/libro?codigo=983708.



La idea de esta guía es asistir a los estudiantes que se encuentran en la última etapa de sus carreras de grado y especialización en la elaboración de sus Trabajos Finales Integradores. Se trata de una orientación, una guía que ayuda a articular un conjunto de saberes y prácticas en un texto complejo, como parte de una labor que requiere tiempo y constancia, además del manejo de un conjunto de conocimientos específicos sobre cómo llevar a cabo este trabajo y cómo presentarlo por escrito de manera pertinente. Esta guía se enfoca en reflexionar puntualmente sobre esta última cuestión y es el resultado, por un lado, del trabajo del equipo de Investigación (PICTO) denominado «Las condiciones de producción en la elaboración de Trabajos Finales de grado y posgrado» y, por otro, del trabajo conjunto con parte del personal de la Biblioteca Rodolfo Puiggrós de la UNLa.

Las empresas de IA deben jugar limpio cuando utilizan datos académicos en el entrenamiento de sus modelos

«AI Firms Must Play Fair When They Use Academic Data in Training». Nature 632, n.o 8027 (27 de agosto de 2024): 953-953. https://doi.org/10.1038/d41586-024-02757-z.

Las empresas de inteligencia artificial (IA) deben actuar de manera justa cuando utilizan datos académicos en el entrenamiento de sus modelos. Los investigadores están preocupados por el uso sin restricciones de su propiedad intelectual en la formación de modelos de lenguaje como ChatGPT. Es crucial establecer reglas claras sobre el uso aceptable de estos datos.

Actualmente, no se sabe con precisión qué datos se usaron para entrenar modelos como ChatGPT, pero es probable que se hayan utilizado millones de artículos académicos, incluidos aquellos bajo acceso abierto y posiblemente también artículos protegidos por derechos de autor. Esto plantea preguntas sobre si los creadores de estos datos deberían recibir crédito y cómo.

El tema es complicado por las leyes de propiedad intelectual, que varían según la jurisdicción y no siempre son claras sobre si la recolección de datos o su uso para crear modelos de IA constituye una infracción de derechos de autor. Algunas empresas de IA, para evitar litigios, están comenzando a comprar licencias para los datos utilizados en el entrenamiento.

El uso de materiales bajo licencias como Creative Commons, que promueven la distribución y reutilización libre, también genera ambigüedades. Aunque no siempre se considera una infracción el uso de estos materiales para entrenar IA, hay preocupaciones sobre cómo las IA pueden afectar a los creadores, incluyendo a investigadores cuyo trabajo podría ser reutilizado sin la atribución adecuada.

La atribución es un principio fundamental en la ciencia, y algunos investigadores consideran que el uso de datos científicos por modelos comerciales de IA excede lo que las exenciones legales actuales estaban destinadas a permitir. Dado que es casi imposible atribuir correctamente las contribuciones cuando se usan millones de fuentes, se han sugerido soluciones como la generación aumentada por recuperación, que podría permitir a los modelos citar trabajos relevantes.

Dar a los investigadores la opción de excluir su trabajo del entrenamiento de IA podría aliviar sus preocupaciones, y algunas herramientas ya están emergiendo para facilitar esto. Además, leyes como la Ley de IA de la UE, que exige mayor transparencia sobre los datos utilizados en el entrenamiento, podrían fortalecer el control de los creadores sobre su trabajo.

Es necesario continuar investigando si se requieren soluciones más radicales, como nuevas licencias o cambios en la ley de derechos de autor. Las herramientas de IA, al aprovechar un ecosistema de datos construido por movimientos de código abierto, deben respetar las expectativas de reciprocidad y uso razonable, para evitar desincentivar la creación original y asegurar que los creadores mantengan cierto control sobre su obra.

¿Está el acceso abierto afectando al negocio de las revistas?

Zhang, Xijie. «Is open access disrupting the journal business? A perspective from comparing full adopters, partial adopters, and non-adopters». Journal of Informetrics 18, n.o 4 (1 de noviembre de 2024): 101574. https://doi.org/10.1016/j.joi.2024.101574.

Dos décadas después del inicio de la publicación en acceso abierto (OA), su impacto sigue siendo un punto central en el discurso académico. Este estudio adopta un marco de innovación disruptiva para examinar la influencia del OA en el mercado tradicional de suscripciones. Evalúa el poder de mercado de las revistas de oro (las que adoptan plenamente el OA) en comparación con las revistas híbridas y las revistas de acceso cerrado (las que lo adoptan parcialmente y las que no lo adoptan). Además, contrasta el poder de mercado entre las revistas híbridas (adoptantes parciales) y las revistas de acceso cerrado (no adoptantes). Utilizando el índice de Lerner para medir el poder de mercado a través de la elasticidad del precio de la demanda, este estudio emplea pruebas de diferencias y regresiones múltiples. Estos resultados indican que los que adoptan plenamente el OA alteran el poder de mercado de los titulares que no lo adoptan. Sin embargo, al integrar la opción de AA en sus modelos de negocio, los adoptantes parciales pueden mitigar eficazmente esta perturbación y ampliar su influencia del mercado tradicional de suscripción al paradigma emergente de OA.

Cómo pueden utilizarse los chatbots de inteligencia artificial para mejorar la investigación científica

Pividori, Milton. «Chatbots in Science: What Can ChatGPT Do for You?» Nature, 14 de agosto de 2024. https://doi.org/10.1038/d41586-024-02630-z.

El artículo de Milton Pividori explora cómo los chatbots de inteligencia artificial, como ChatGPT, pueden ser utilizados para mejorar la investigación científica. A lo largo de 18 meses, su equipo se dedicó a estudiar cómo integrar esta tecnología en tareas diarias como revisiones de literatura, redacción de textos académicos y programación, con el objetivo de aumentar la productividad y mejorar la calidad de la ciencia.

Milton Pividori, un investigador financiado por organizaciones sin fines de lucro como la Fundación Alfred P. Sloan y la Iniciativa Chan Zuckerberg, ha dedicado 18 meses a explorar cómo ChatGPT, un chatbot de inteligencia artificial (IA) basado en un modelo de lenguaje de gran escala, puede ser utilizado para mejorar la investigación científica. Desde su lanzamiento en noviembre de 2022, ChatGPT ha captado la atención mundial por su capacidad para responder preguntas complejas, redactar ensayos sofisticados y generar código fuente. Pividori y su equipo se han centrado en integrar esta tecnología en tareas cotidianas de la investigación, como la revisión de literatura, la redacción de textos académicos y la programación de código, con el objetivo de mejorar la productividad y la calidad del trabajo científico.

Una de las lecciones clave que Pividori destaca es la importancia de la ingeniería de prompts, es decir, la forma en que se formulan las preguntas o comandos para interactuar con el chatbot. Un buen prompt debe ser claro y específico, detallando exactamente lo que se espera que el modelo haga. Esto incluye pedir al chatbot que asuma un rol específico, como el de un editor profesional, y proporcionar ejemplos claros de lo que se espera en la respuesta. Según Pividori, la capacidad de un chatbot para proporcionar resultados útiles depende en gran medida de la calidad de los prompts que recibe.

Otra lección importante es la necesidad de identificar qué tareas son adecuadas para delegar en un chatbot y cuáles no. Pividori señala que no todas las fases del trabajo científico son aptas para ser manejadas por una IA. Por ejemplo, en la etapa inicial de revisión de literatura, donde se requiere creatividad y pensamiento crítico para formular preguntas de investigación y analizar profundamente los artículos, es esencial que los investigadores participen activamente. Sin embargo, una vez que se ha definido el marco de investigación y se necesita realizar tareas más rutinarias o menos críticas, como resumir artículos menos relevantes, los chatbots pueden ser de gran ayuda.

Además, Pividori argumenta que utilizar chatbots para escribir es menos riesgoso que utilizarlos para leer y analizar textos científicos. Al redactar, el investigador mantiene control sobre el resultado final y puede corregir errores o «alucinaciones» del modelo. En contraste, al confiar en un chatbot para leer y resumir un artículo, se corre el riesgo de que se omitan detalles importantes o se interpreten mal los datos. Pividori sugiere un enfoque en el que el investigador escriba primero el texto y luego use el chatbot para revisar y mejorar la redacción, aplicando reglas específicas para la estructura de manuscritos científicos. Este enfoque permite mantener un alto nivel de precisión y control sobre el contenido generado.

En conclusión, aunque los chatbots como ChatGPT tienen un gran potencial para aumentar la eficiencia en la investigación científica, es crucial entender sus limitaciones y utilizarlos de manera estratégica. Los investigadores deben identificar cuidadosamente qué tareas pueden delegarse a la IA y cuáles requieren la intervención directa y el juicio creativo del ser humano. Al hacerlo, es posible aprovechar lo mejor de ambos mundos: la capacidad de procesamiento y automatización de la IA y la creatividad y el pensamiento crítico humanos.

 “AI Scientist” de Sakana AI investiga de forma autónoma desafiando las normas científicas

AI, Sakana. «Sakana AI The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery», 13 de agosto de 2024. https://sakana.ai/.

AI Scientist” es el primer sistema integral para la investigación científica completamente automática. Este sistema permite que los Modelos de Lenguaje Grande (LLMs) realicen investigaciones de manera independiente.

Uno de los grandes desafíos de la inteligencia artificial es desarrollar agentes capaces de realizar investigaciones científicas y descubrir nuevo conocimiento. Aunque los modelos actuales ya ayudan a los científicos humanos en tareas como generar ideas o escribir código, aún requieren mucha supervisión y están limitados a tareas específicas.

Sakana AI, junto con científicos de las universidades de Oxford y British Columbia, ha desarrollado un sistema de inteligencia artificial llamado “AI Scientist”. Este innovador sistema es capaz de realizar investigaciones científicas de manera autónoma, cubriendo todo el proceso de investigación, desde la generación de ideas hasta la elaboración de manuscritos científicos completos.

“AI Scientist” automatiza diversas etapas, como la creación y evaluación de nuevas ideas, la ejecución de experimentos, la recopilación de datos y la redacción de informes científicos. Sin embargo, este avance también suscita preguntas importantes sobre el rol futuro de los científicos humanos. Aunque la IA es eficaz en el procesamiento de grandes cantidades de datos y en la identificación de patrones, la intuición, creatividad y juicio ético humanos continúan siendo indispensables.

Este proceso incluye:

  1. Generación de Ideas: El Científico de IA «brainstormea» nuevas direcciones de investigación, basándose en un código inicial y en búsquedas en Semantic Scholar para asegurar la novedad de las ideas.
  2. Iteración Experimental: Ejecuta los experimentos propuestos, produce gráficos y notas que se usan en la redacción del artículo.
  3. Redacción del Artículo: Redacta un informe conciso y claro en LaTeX, citando autonomamente artículos relevantes.
  4. Revisión Automatizada de Artículos: Desarrolla un revisor automático basado en LLM que evalúa los artículos con una precisión casi humana, mejorando continuamente la producción científica del sistema.

Pese a su potencial, “AI Scientist” tiene varias limitaciones. No es capaz de hacer preguntas a los autores ni de interpretar figuras, y frecuentemente genera propuestas similares en diferentes ejecuciones. Además, puede fallar en la implementación de ideas y presenta desafíos en aspectos visuales y de citación. Los resultados producidos deben considerarse como sugerencias para futuras investigaciones más que como ciencia definitiva.

“AI Scientist” abre una caja de Pandora de nuevos problemas, aunque el informe completo discute estos temas en mayor detalle. Entre los problemas clave se encuentran las consideraciones éticas y el impacto potencial en el proceso académico. Aunque “AI Scientist” puede ser una herramienta útil para los investigadores, su capacidad para crear y enviar automáticamente artículos puede aumentar significativamente la carga de trabajo de los revisores y tensar el proceso académico, afectando el control de calidad científica. Esto es similar a las preocupaciones en torno a la IA generativa en otras aplicaciones, como la generación de imágenes.

Además, el Revisor Automatizado, si se despliega en línea, podría reducir significativamente la calidad de las revisiones e imponer sesgos indeseables en los artículos. Por ello, es fundamental que los artículos y revisiones generados por IA sean identificados como tales para asegurar la transparencia total.

Como con muchas tecnologías anteriores, “AI Scientist” tiene el potencial de ser utilizado de manera poco ética. Por ejemplo, podría realizar investigaciones no éticas o peligrosas si se le da acceso a laboratorios virtuales para realizar experimentos biológicos. Esto podría dar lugar a la creación de virus o sustancias tóxicas antes de que se detecten los riesgos. Del mismo modo, podría desarrollar virus informáticos peligrosos si se le solicita crear software funcional. Estas capacidades en mejora subrayan la necesidad urgente de alinear estos sistemas con valores éticos y garantizar que exploren de manera segura.

En cuanto a los modelos utilizados, se emplearon modelos de frontera propietarios, como GPT-4o y Sonnet, pero también se exploraron modelos abiertos como DeepSeek y Llama-3. Aunque los modelos propietarios actuales producen los mejores artículos, no hay razón fundamental para que un solo modelo mantenga esta ventaja. Se espera que todos los LLMs, incluidos los modelos abiertos, continúen mejorando. La competencia entre LLMs ha llevado a su mayor disponibilidad y capacidades mejoradas, y el trabajo busca ser independiente del proveedor del modelo base. Los modelos abiertos ofrecen beneficios significativos, como menor costo, disponibilidad garantizada, mayor transparencia y flexibilidad. El objetivo es usar estos modelos en un sistema cerrado de investigación automejorado.

Finalmente, aunque se imagina un ecosistema científico completamente impulsado por IA que incluya investigadores, revisores y conferencias, no se cree que el papel del científico humano se vea disminuido. Más bien, este rol evolucionará y se adaptará a la nueva tecnología, moviéndose hacia tareas de mayor nivel.

¿Se ha utilizado un artículo tuyo para entrenar un modelo de inteligencia artificial? Casi seguro

Gibney, Elizabeth. «Has Your Paper Been Used to Train an AI Model? Almost Certainly». Nature 632, n.o 8026 (14 de agosto de 2024): 715-16. https://doi.org/10.1038/d41586-024-02599-9.

Los desarrolladores de inteligencia artificial (IA) están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea incómodas preguntas sobre los derechos de autor. Las editoriales académicas están vendiendo el acceso a estos artículos a empresas tecnológicas para entrenar modelos de IA, lo que ha generado preocupación entre los investigadores, ya que estos acuerdos se realizan sin la consulta de los autores. Esto ha desencadenado un debate sobre el uso de trabajos publicados y, a veces, protegidos por derechos de autor, para entrenar la creciente cantidad de chatbots de IA en desarrollo.

Los expertos afirman que, si un artículo de investigación aún no ha sido utilizado para entrenar un gran modelo de lenguaje LLM, probablemente lo será pronto. Los investigadores están explorando métodos técnicos para que los autores puedan identificar si su contenido ha sido utilizado.

El mes pasado se reveló que la editorial académica británica Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft, permitiendo que la empresa tecnológica accediera a sus datos para mejorar sus sistemas de IA. En junio, se supo que la editorial Wiley ganó 23 millones de dólares al permitir que una empresa no identificada entrenara modelos de IA generativa con su contenido.

Lucy Lu Wang, investigadora de IA en la Universidad de Washington en Seattle, señala que cualquier cosa disponible en línea, ya sea en un repositorio de acceso abierto o no, es «muy probable» que ya haya sido utilizada para entrenar un LLM. Y si un artículo ya ha sido utilizado como datos de entrenamiento en un modelo, «no hay forma de eliminarlo» después de que el modelo haya sido entrenado, añade.

Los LLMs se entrenan con grandes volúmenes de datos, a menudo obtenidos de Internet. Estos modelos generan texto con fluidez al identificar patrones en miles de millones de fragmentos de lenguaje, conocidos como tokens, presentes en los datos de entrenamiento.

El uso de artículos académicos es valioso para los constructores de LLMs debido a su longitud y «alta densidad de información», dice Stefan Baack, quien analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla. Entrenar modelos con una gran cantidad de información científica también les da una mejor capacidad para razonar sobre temas científicos, añade Wang, quien co-creó S2ORC, un conjunto de datos basado en 81.1 millones de artículos académicos.

Este tipo de acuerdos comerciales está en aumento. Este año, el Financial Times ofreció su contenido a OpenAI en un acuerdo lucrativo, al igual que el foro en línea Reddit con Google. Dado que las editoriales científicas probablemente ven como alternativa que su trabajo sea extraído sin un acuerdo, «creo que habrá más de estos acuerdos en el futuro», dice Wang.

Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente sus conjuntos de datos abiertos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. Los repositorios de acceso abierto como arXiv y la base de datos académica PubMed son fuentes «muy populares», aunque probablemente los artículos de revistas de pago han tenido sus resúmenes gratuitos extraídos por grandes empresas tecnológicas.

Probar que un LLM ha utilizado un artículo específico es difícil. Una forma es usar una oración inusual de un texto como entrada al modelo y ver si la salida coincide con las siguientes palabras en el original. Otra técnica conocida como membership inference attack mide si un modelo es más confiado cuando ve algo que ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto llamada «trampa de derechos de autor», que inserta oraciones plausibles pero sin sentido en un trabajo para rastrear si un modelo ha sido entrenado con ese contenido.

Aunque se pudiera demostrar que un LLM ha sido entrenado con un texto específico, no está claro qué pasaría después. Las editoriales sostienen que usar texto con derechos de autor en el entrenamiento sin licencia es una infracción, pero otros argumentan que los LLM no copian nada, sino que extraen información para generar nuevo texto.

En un caso judicial en curso en Estados Unidos, The New York Times está demandando a Microsoft y OpenAI por usar su contenido periodístico sin permiso para entrenar sus modelos, lo que podría sentar un precedente.

Muchos académicos están contentos de que su trabajo se incluya en los datos de entrenamiento de los LLM, especialmente si los modelos se vuelven más precisos. Sin embargo, los autores científicos tienen poco poder si las editoriales deciden vender el acceso a sus obras con derechos de autor, y no existe un mecanismo establecido para otorgar crédito o verificar si un texto ha sido utilizado.

Algunos investigadores, como De Montjoye, están frustrados. «Queremos LLMs, pero también queremos algo que sea justo, y creo que aún no hemos inventado cómo sería esto», dice.

El mercado negro de las citas: la venta de referencias falsas alarma a los científicos

Singh Chawla, D. (2024). The citation black market: Schemes selling fake references alarm scientists. Nature. https://doi.org/10.1038/d41586-024-01672-7

Un grupo de científicos ha revelado un mercado negro donde se venden citaciones falsas para inflar perfiles académicos, lo que plantea serias preocupaciones sobre la integridad en la investigación. Estos esquemas manipulan métricas cruciales para la evaluación académica, como el índice h. Expertos sugieren cambiar los incentivos en la academia para evitar que los investigadores se vean presionados a participar en estas prácticas fraudulentas.

Vigilantes de la integridad en la investigación están preocupados por las crecientes maneras en que los científicos pueden inflar artificialmente el número de citaciones de sus estudios. En los últimos meses, han surgido prácticas cada vez más audaces. Una de estas prácticas fue descubierta mediante una operación encubierta en la que un grupo de investigadores compró 50 citaciones por 300$ para mejorar el perfil de Google Scholar de un científico ficticio que crearon.

Este caso confirma la existencia de un mercado negro de referencias falsificadas, algo que los expertos en integridad habían sospechado durante mucho tiempo. Las citaciones compradas provienen de estudios en 22 revistas, de las cuales 14 están indexadas en Scopus.

Estas prácticas son preocupantes porque muchos aspectos de la carrera de un investigador dependen de la cantidad de citaciones que reciben sus trabajos. Instituciones y métricas como el índice h utilizan estos números para evaluar la productividad y el impacto de los científicos. En un caso reciente en España, el rector de la Universidad de Salamanca fue acusado de inflar artificialmente sus métricas de Google Scholar, lo que llevó a una investigación por parte del Comité de Ética en la Investigación.

La operación encubierta también descubrió que se venden citaciones en «paper mills», servicios que producen estudios de baja calidad y venden autorías en artículos ya aceptados. Además, se ha observado la creación de perfiles falsos, como el de un gato llamado Larry, que acumuló citaciones antes de que Google Scholar y ResearchGate eliminaran las publicaciones falsas.

El equipo de investigadores propone un nuevo índice de concentración de citaciones para detectar patrones sospechosos, como cuando un científico recibe muchas citaciones de pocas fuentes. Sin embargo, persiste el temor de que los estafadores desarrollen métodos más sutiles para evitar ser descubiertos. Según los expertos, para abordar este problema, es necesario cambiar los incentivos en la academia para que los científicos no se vean presionados a acumular citaciones para avanzar en sus carreras.