
«AI Firms Must Play Fair When They Use Academic Data in Training». Nature 632, n.o 8027 (27 de agosto de 2024): 953-953. https://doi.org/10.1038/d41586-024-02757-z.
Las empresas de inteligencia artificial (IA) deben actuar de manera justa cuando utilizan datos académicos en el entrenamiento de sus modelos. Los investigadores están preocupados por el uso sin restricciones de su propiedad intelectual en la formación de modelos de lenguaje como ChatGPT. Es crucial establecer reglas claras sobre el uso aceptable de estos datos.
Actualmente, no se sabe con precisión qué datos se usaron para entrenar modelos como ChatGPT, pero es probable que se hayan utilizado millones de artículos académicos, incluidos aquellos bajo acceso abierto y posiblemente también artículos protegidos por derechos de autor. Esto plantea preguntas sobre si los creadores de estos datos deberían recibir crédito y cómo.
El tema es complicado por las leyes de propiedad intelectual, que varían según la jurisdicción y no siempre son claras sobre si la recolección de datos o su uso para crear modelos de IA constituye una infracción de derechos de autor. Algunas empresas de IA, para evitar litigios, están comenzando a comprar licencias para los datos utilizados en el entrenamiento.
El uso de materiales bajo licencias como Creative Commons, que promueven la distribución y reutilización libre, también genera ambigüedades. Aunque no siempre se considera una infracción el uso de estos materiales para entrenar IA, hay preocupaciones sobre cómo las IA pueden afectar a los creadores, incluyendo a investigadores cuyo trabajo podría ser reutilizado sin la atribución adecuada.
La atribución es un principio fundamental en la ciencia, y algunos investigadores consideran que el uso de datos científicos por modelos comerciales de IA excede lo que las exenciones legales actuales estaban destinadas a permitir. Dado que es casi imposible atribuir correctamente las contribuciones cuando se usan millones de fuentes, se han sugerido soluciones como la generación aumentada por recuperación, que podría permitir a los modelos citar trabajos relevantes.
Dar a los investigadores la opción de excluir su trabajo del entrenamiento de IA podría aliviar sus preocupaciones, y algunas herramientas ya están emergiendo para facilitar esto. Además, leyes como la Ley de IA de la UE, que exige mayor transparencia sobre los datos utilizados en el entrenamiento, podrían fortalecer el control de los creadores sobre su trabajo.
Es necesario continuar investigando si se requieren soluciones más radicales, como nuevas licencias o cambios en la ley de derechos de autor. Las herramientas de IA, al aprovechar un ecosistema de datos construido por movimientos de código abierto, deben respetar las expectativas de reciprocidad y uso razonable, para evitar desincentivar la creación original y asegurar que los creadores mantengan cierto control sobre su obra.