
Gibney, Elizabeth. «Has Your Paper Been Used to Train an AI Model? Almost Certainly». Nature 632, n.o 8026 (14 de agosto de 2024): 715-16. https://doi.org/10.1038/d41586-024-02599-9.
Los desarrolladores de inteligencia artificial (IA) están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea incómodas preguntas sobre los derechos de autor. Las editoriales académicas están vendiendo el acceso a estos artículos a empresas tecnológicas para entrenar modelos de IA, lo que ha generado preocupación entre los investigadores, ya que estos acuerdos se realizan sin la consulta de los autores. Esto ha desencadenado un debate sobre el uso de trabajos publicados y, a veces, protegidos por derechos de autor, para entrenar la creciente cantidad de chatbots de IA en desarrollo.
Los expertos afirman que, si un artículo de investigación aún no ha sido utilizado para entrenar un gran modelo de lenguaje LLM, probablemente lo será pronto. Los investigadores están explorando métodos técnicos para que los autores puedan identificar si su contenido ha sido utilizado.
El mes pasado se reveló que la editorial académica británica Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft, permitiendo que la empresa tecnológica accediera a sus datos para mejorar sus sistemas de IA. En junio, se supo que la editorial Wiley ganó 23 millones de dólares al permitir que una empresa no identificada entrenara modelos de IA generativa con su contenido.
Lucy Lu Wang, investigadora de IA en la Universidad de Washington en Seattle, señala que cualquier cosa disponible en línea, ya sea en un repositorio de acceso abierto o no, es «muy probable» que ya haya sido utilizada para entrenar un LLM. Y si un artículo ya ha sido utilizado como datos de entrenamiento en un modelo, «no hay forma de eliminarlo» después de que el modelo haya sido entrenado, añade.
Los LLMs se entrenan con grandes volúmenes de datos, a menudo obtenidos de Internet. Estos modelos generan texto con fluidez al identificar patrones en miles de millones de fragmentos de lenguaje, conocidos como tokens, presentes en los datos de entrenamiento.
El uso de artículos académicos es valioso para los constructores de LLMs debido a su longitud y «alta densidad de información», dice Stefan Baack, quien analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla. Entrenar modelos con una gran cantidad de información científica también les da una mejor capacidad para razonar sobre temas científicos, añade Wang, quien co-creó S2ORC, un conjunto de datos basado en 81.1 millones de artículos académicos.
Este tipo de acuerdos comerciales está en aumento. Este año, el Financial Times ofreció su contenido a OpenAI en un acuerdo lucrativo, al igual que el foro en línea Reddit con Google. Dado que las editoriales científicas probablemente ven como alternativa que su trabajo sea extraído sin un acuerdo, «creo que habrá más de estos acuerdos en el futuro», dice Wang.
Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente sus conjuntos de datos abiertos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. Los repositorios de acceso abierto como arXiv y la base de datos académica PubMed son fuentes «muy populares», aunque probablemente los artículos de revistas de pago han tenido sus resúmenes gratuitos extraídos por grandes empresas tecnológicas.
Probar que un LLM ha utilizado un artículo específico es difícil. Una forma es usar una oración inusual de un texto como entrada al modelo y ver si la salida coincide con las siguientes palabras en el original. Otra técnica conocida como membership inference attack mide si un modelo es más confiado cuando ve algo que ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto llamada «trampa de derechos de autor», que inserta oraciones plausibles pero sin sentido en un trabajo para rastrear si un modelo ha sido entrenado con ese contenido.
Aunque se pudiera demostrar que un LLM ha sido entrenado con un texto específico, no está claro qué pasaría después. Las editoriales sostienen que usar texto con derechos de autor en el entrenamiento sin licencia es una infracción, pero otros argumentan que los LLM no copian nada, sino que extraen información para generar nuevo texto.
En un caso judicial en curso en Estados Unidos, The New York Times está demandando a Microsoft y OpenAI por usar su contenido periodístico sin permiso para entrenar sus modelos, lo que podría sentar un precedente.
Muchos académicos están contentos de que su trabajo se incluya en los datos de entrenamiento de los LLM, especialmente si los modelos se vuelven más precisos. Sin embargo, los autores científicos tienen poco poder si las editoriales deciden vender el acceso a sus obras con derechos de autor, y no existe un mecanismo establecido para otorgar crédito o verificar si un texto ha sido utilizado.
Algunos investigadores, como De Montjoye, están frustrados. «Queremos LLMs, pero también queremos algo que sea justo, y creo que aún no hemos inventado cómo sería esto», dice.