Archivo por meses: agosto 2024

Archivos Abiertos: el patrimonio documental cubano y la transformación digital

Kraft, Tobias, Rojas Castro, Antonio and Terrón Quintero, Grisel. Archivos Abiertos: el patrimonio documental cubano y la transformación digital, Berlin, Boston: De Gruyter, 2024. https://doi.org/10.1515/9783111187846

La era digital está transformando la forma en que preservamos, publicamos e investigamos nuestro patrimonio cultural: los archivos y las bibliotecas se reorganizan, las colecciones patrimoniales resucitan bajo nuevas formas. Este volumen presenta la producción del «Proyecto Humboldt Digital» (La Habana/Berlín) y los resultados de una conferencia de 2022 que reunió a bibliotecarios, archiveros, académicos e instituciones patrimoniales del contexto cubano e iberoamericano.

Cómo pueden utilizarse los chatbots de inteligencia artificial para mejorar la investigación científica

Pividori, Milton. «Chatbots in Science: What Can ChatGPT Do for You?» Nature, 14 de agosto de 2024. https://doi.org/10.1038/d41586-024-02630-z.

El artículo de Milton Pividori explora cómo los chatbots de inteligencia artificial, como ChatGPT, pueden ser utilizados para mejorar la investigación científica. A lo largo de 18 meses, su equipo se dedicó a estudiar cómo integrar esta tecnología en tareas diarias como revisiones de literatura, redacción de textos académicos y programación, con el objetivo de aumentar la productividad y mejorar la calidad de la ciencia.

Milton Pividori, un investigador financiado por organizaciones sin fines de lucro como la Fundación Alfred P. Sloan y la Iniciativa Chan Zuckerberg, ha dedicado 18 meses a explorar cómo ChatGPT, un chatbot de inteligencia artificial (IA) basado en un modelo de lenguaje de gran escala, puede ser utilizado para mejorar la investigación científica. Desde su lanzamiento en noviembre de 2022, ChatGPT ha captado la atención mundial por su capacidad para responder preguntas complejas, redactar ensayos sofisticados y generar código fuente. Pividori y su equipo se han centrado en integrar esta tecnología en tareas cotidianas de la investigación, como la revisión de literatura, la redacción de textos académicos y la programación de código, con el objetivo de mejorar la productividad y la calidad del trabajo científico.

Una de las lecciones clave que Pividori destaca es la importancia de la ingeniería de prompts, es decir, la forma en que se formulan las preguntas o comandos para interactuar con el chatbot. Un buen prompt debe ser claro y específico, detallando exactamente lo que se espera que el modelo haga. Esto incluye pedir al chatbot que asuma un rol específico, como el de un editor profesional, y proporcionar ejemplos claros de lo que se espera en la respuesta. Según Pividori, la capacidad de un chatbot para proporcionar resultados útiles depende en gran medida de la calidad de los prompts que recibe.

Otra lección importante es la necesidad de identificar qué tareas son adecuadas para delegar en un chatbot y cuáles no. Pividori señala que no todas las fases del trabajo científico son aptas para ser manejadas por una IA. Por ejemplo, en la etapa inicial de revisión de literatura, donde se requiere creatividad y pensamiento crítico para formular preguntas de investigación y analizar profundamente los artículos, es esencial que los investigadores participen activamente. Sin embargo, una vez que se ha definido el marco de investigación y se necesita realizar tareas más rutinarias o menos críticas, como resumir artículos menos relevantes, los chatbots pueden ser de gran ayuda.

Además, Pividori argumenta que utilizar chatbots para escribir es menos riesgoso que utilizarlos para leer y analizar textos científicos. Al redactar, el investigador mantiene control sobre el resultado final y puede corregir errores o «alucinaciones» del modelo. En contraste, al confiar en un chatbot para leer y resumir un artículo, se corre el riesgo de que se omitan detalles importantes o se interpreten mal los datos. Pividori sugiere un enfoque en el que el investigador escriba primero el texto y luego use el chatbot para revisar y mejorar la redacción, aplicando reglas específicas para la estructura de manuscritos científicos. Este enfoque permite mantener un alto nivel de precisión y control sobre el contenido generado.

En conclusión, aunque los chatbots como ChatGPT tienen un gran potencial para aumentar la eficiencia en la investigación científica, es crucial entender sus limitaciones y utilizarlos de manera estratégica. Los investigadores deben identificar cuidadosamente qué tareas pueden delegarse a la IA y cuáles requieren la intervención directa y el juicio creativo del ser humano. Al hacerlo, es posible aprovechar lo mejor de ambos mundos: la capacidad de procesamiento y automatización de la IA y la creatividad y el pensamiento crítico humanos.

Estrategias para ayudar a las bibliotecas universitarias a lograr el éxito de los estudiantes

IFLA. «Three (and a Half) Strategies to Help Academic Libraries Achieve Student Success». Accedido 22 de agosto de 2024. https://www.ifla.org/news/three-and-a-half-strategies-to-help-academic-libraries-achieve-student-success/.

El artículo explora estrategias clave que las bibliotecas universitarias pueden adoptar para impulsar el éxito estudiantil, con un enfoque particular en las iniciativas implementadas por las bibliotecas de la Universidad Nacional de Singapur (NUS). El éxito estudiantil, en este contexto, no se define únicamente por el rendimiento académico, sino también por factores holísticos que incluyen la comunidad, las relaciones sociales y otros resultados que enriquecen la experiencia educativa.

1. Reimaginar el sentido de lugar a través de la creación de espacios (placemaking): NUS ha adoptado la «creación de espacios» como una estrategia central para redefinir el papel de las bibliotecas en la vida estudiantil. Esta iniciativa se enfoca en transformar las bibliotecas en centros comunitarios vibrantes que van más allá de ser simples lugares para estudiar. Las bibliotecas han sido renovadas para ofrecer áreas de estudio ampliadas, zonas dedicadas a la exploración tecnológica y espacios sociales como cafeterías. Además de satisfacer las necesidades universitarias de los estudiantes, estas transformaciones han permitido a las bibliotecas albergar una variedad de eventos, desde conferencias universitarias hasta talleres culturales, que fomentan tanto el desarrollo intelectual como social. Estos eventos, que incluyen actividades como talleres de cocina coreana y conferencias sobre botánica comparativa, subrayan el rol central de las bibliotecas como lugares que integran aprendizaje y comunidad.

2. Innovar el aprendizaje a través de la tecnología: Las bibliotecas de NUS han adoptado un papel activo en la integración de la tecnología en la enseñanza y la investigación, alineándose con la tendencia de la universidad hacia el aprendizaje híbrido. Una de las formas en que las bibliotecas han innovado es mediante la creación de experiencias digitales inmersivas que hacen que las colecciones cobren vida. Un ejemplo destacado es «Panji Across SEA: Love That Transcends Time», un proyecto de narración en 3D basado en una de las versiones más conocidas de los cuentos javaneses de Panji, disponible en la colección Singapur-Malasia de NUS. Además, las bibliotecas han utilizado conceptos de juegos, como salas de escape, para ofrecer experiencias de aprendizaje gamificadas que no solo promueven la interacción con la tecnología, sino que también permiten a los estudiantes explorar las colecciones de manera innovadora. Estas iniciativas tecnológicas no solo enriquecen el aprendizaje, sino que también posicionan a las bibliotecas como catalizadores de la innovación educativa.

3. Aumentar la visibilidad de las colecciones: Para incrementar la visibilidad y el uso de sus amplias colecciones, NUS ha implementado iniciativas como la Beca de Investigación para Estudiantes Universitarios (URLF), que proporciona a los estudiantes no solo acceso privilegiado a las colecciones, sino también apoyo financiero y de investigación. Estos becarios, además de avanzar en sus propios proyectos de investigación, contribuyen al desarrollo de las colecciones al identificar áreas de necesidad y brechas, trabajando en estrecha colaboración con los bibliotecarios. Este enfoque colaborativo no solo enriquece las colecciones, sino que también convierte a los estudiantes en embajadores de la biblioteca, quienes pueden compartir de primera mano el valor de los recursos disponibles para la comunidad académica.

Estrategia adicional (media estrategia): Co-creación con la comunidad: La co-creación es un pilar esencial de la estrategia de NUS. Reconociendo que la biblioteca no tiene todas las respuestas a las necesidades de su comunidad, NUS enfatiza la importancia de trabajar junto con estudiantes y profesores para desarrollar soluciones que realmente respondan a los desafíos educativos actuales. Este enfoque colaborativo es visto como una relación simbiótica, donde los aportes de la comunidad informan y mejoran las ofertas de la biblioteca, lo que a su vez retroalimenta la comunidad con experiencias de aprendizaje mejoradas. La co-creación también fortalece la capacidad de la biblioteca para adaptar sus servicios y recursos a las necesidades específicas de su comunidad, lo que a largo plazo contribuye al aprendizaje continuo y mejora la empleabilidad futura de los estudiantes.

En conclusión, estas estrategias no solo destacan cómo las bibliotecas pueden apoyar el éxito estudiantil, sino que también demuestran cómo pueden evolucionar más allá de su rol tradicional de custodios de información, para convertirse en creadores de experiencias significativas y centros de descubrimiento para sus comunidades. NUS ejemplifica cómo la innovación, la tecnología y la colaboración pueden transformar las bibliotecas universitarias en instituciones dinámicas y centradas en el estudiante, que responden a las demandas cambiantes del entorno educativo.

Construyendo una Red Nacional de Guías de Archivo (NAFAN)

Turner, A., Schiff, L., Mitchell, C., & Waibel, G. (2024). Building a National Finding Aid Network: Final Report. UC Office of the President: California Digital Library. Retrieved from https://escholarship.org/uc/item/6xr6q38m

El informe final del proyecto de investigación «»Building a National Finding Aid Network» (NAFAN) para el periodo 2020-2023, traza un plan para crear y lanzar una red nacional de guías de archivo que sea impulsada, sostenida y gobernada por la comunidad. El proyecto aborda un desafío fundamental para los investigadores: las barreras significativas para localizar materiales archivísticos relevantes en un campo vasto y distribuido de instituciones de patrimonio cultural, muchas de las cuales carecen de recursos suficientes.

Las guías de archivo, que proporcionan descripciones y resúmenes de colecciones archivísticas, son esenciales para la investigación, pero muchas de estas guías no están disponibles en línea. Además, los esfuerzos regionales y estatales para agrupar estas guías suelen ser limitados y están en riesgo debido al envejecimiento de la infraestructura y la reducción de presupuestos. Como resultado, gran parte del contenido archivado en Estados Unidos permanece relativamente invisible, lo que implica que muchas voces documentadas están subrepresentadas en el registro histórico.

El proyecto NAFAN se propone abordar estos desafíos estableciendo una red nacional accesible para todos los contribuyentes e investigadores. Para ello, se llevaron a cabo varias líneas de trabajo: construcción de comunidad y compromiso con las partes interesadas, investigación para entender las necesidades de los investigadores y archivos, evaluación técnica de sistemas potenciales para la red, y modelos de negocio y gobernanza para asegurar la sostenibilidad a largo plazo.

Los hallazgos subrayan la necesidad de una infraestructura centralizada y sostenible que aumente la capacidad y visibilidad de los archivos. También destacan la importancia de centrar las prioridades locales y de incluir a los archivos comunitarios en la planificación y ejecución del proyecto desde el principio.

El proyecto propone un modelo de membresía basado en la «capacidad de pago» para mantener la red, lo que permitiría a los archivos acceder a una infraestructura compartida y reducir costos. La gobernanza de la red también estaría en manos de la comunidad, garantizando que la equidad, inclusión y necesidades de todas las instituciones participantes sean atendidas.

Finalmente, el informe recomienda un enfoque gradual y comunitario para desarrollar la red en tres fases durante un horizonte de 4 a 5 años: establecer una coalición y liderazgo expandido, desarrollar y lanzar un «Producto Mínimo Viable» de la red, y expandir la funcionalidad para apoyar una red más completa y una estructura de gobernanza robusta. Esta iniciativa podría tener un impacto transformador al reducir las barreras para la investigación, expandir el registro histórico y ofrecer un nuevo camino hacia una agregación sostenible de archivos a nivel nacional.

Europeana Impact Playbook ayuda a elaborar recomendaciones sobre metadatos del patrimonio cultural

Europeana PRO. «Europeana Impact Playbook Helps to Develop Recommendations for Cultural Heritage Metadata». Accedido 22 de agosto de 2024. https://pro.europeana.eu/post/europeana-impact-playbook-helps-to-develop-recommendations-for-cultural-heritage-metadata.

Europeana Pro que el Europeana Impact Playbook ofrece un enfoque paso a paso para que los profesionales del patrimonio cultural diseñen, midan y narren el impacto. Un grupo de trabajo en Alemania utilizó este manual para desarrollar recomendaciones destinadas a ayudar a los museos a preparar los metadatos de sus colecciones para su publicación en línea.

En la Deutsche Digitale Bibliothek, se detectó que los museos tenían dificultades para entender los requisitos técnicos de metadatos necesarios para publicar sus datos en la plataforma. Para resolver esto, se decidió crear recomendaciones accesibles que ayudaran a los museos a cumplir con los estándares de documentación y a preparar los metadatos de sus objetos para la publicación en línea. Desde 2022, más organizaciones se unieron al grupo de trabajo para desarrollar estas recomendaciones.

Se optó por utilizar el Impact Playbook para garantizar que las recomendaciones fueran ampliamente aceptadas. Se realizó un ejercicio basado en el Change Pathway, que ayudó a definir claramente los objetivos y actividades del grupo. Se crearon subgrupos para analizar estándares existentes y definir el impacto, manteniendo el enfoque en las necesidades de los interesados.

También se identificaron varias categorías de interesados, como profesionales de museos, consultores, proveedores de software y beneficiarios de datos de patrimonio cultural. Utilizando el Empathy Map del Playbook, se recopilaron opiniones de usuarios potenciales y se realizaron entrevistas con proveedores de software. Esta retroalimentación ayudó a ajustar la recomendación y a lograr que varios proveedores de software modificaran sus funciones de exportación de datos.

Europeana Impact Playbook está disponible para su uso y puede ser una herramienta útil para quienes trabajan en el ámbito del patrimonio cultural. También se puede unirse a la Comunidad de Impacto de Europeana para conectar con otros profesionales, desde principiantes hasta expertos.

El grupo de trabajo espera que la recomendación mínima ayude a preparar los datos para el espacio de datos europeo común y para la formación de aplicaciones de inteligencia artificial, y planea consultar nuevamente el Europeana Impact Playbook para extender la recomendación a nivel internacional.

 “AI Scientist” de Sakana AI investiga de forma autónoma desafiando las normas científicas

AI, Sakana. «Sakana AI The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery», 13 de agosto de 2024. https://sakana.ai/.

AI Scientist” es el primer sistema integral para la investigación científica completamente automática. Este sistema permite que los Modelos de Lenguaje Grande (LLMs) realicen investigaciones de manera independiente.

Uno de los grandes desafíos de la inteligencia artificial es desarrollar agentes capaces de realizar investigaciones científicas y descubrir nuevo conocimiento. Aunque los modelos actuales ya ayudan a los científicos humanos en tareas como generar ideas o escribir código, aún requieren mucha supervisión y están limitados a tareas específicas.

Sakana AI, junto con científicos de las universidades de Oxford y British Columbia, ha desarrollado un sistema de inteligencia artificial llamado “AI Scientist”. Este innovador sistema es capaz de realizar investigaciones científicas de manera autónoma, cubriendo todo el proceso de investigación, desde la generación de ideas hasta la elaboración de manuscritos científicos completos.

“AI Scientist” automatiza diversas etapas, como la creación y evaluación de nuevas ideas, la ejecución de experimentos, la recopilación de datos y la redacción de informes científicos. Sin embargo, este avance también suscita preguntas importantes sobre el rol futuro de los científicos humanos. Aunque la IA es eficaz en el procesamiento de grandes cantidades de datos y en la identificación de patrones, la intuición, creatividad y juicio ético humanos continúan siendo indispensables.

Este proceso incluye:

  1. Generación de Ideas: El Científico de IA «brainstormea» nuevas direcciones de investigación, basándose en un código inicial y en búsquedas en Semantic Scholar para asegurar la novedad de las ideas.
  2. Iteración Experimental: Ejecuta los experimentos propuestos, produce gráficos y notas que se usan en la redacción del artículo.
  3. Redacción del Artículo: Redacta un informe conciso y claro en LaTeX, citando autonomamente artículos relevantes.
  4. Revisión Automatizada de Artículos: Desarrolla un revisor automático basado en LLM que evalúa los artículos con una precisión casi humana, mejorando continuamente la producción científica del sistema.

Pese a su potencial, “AI Scientist” tiene varias limitaciones. No es capaz de hacer preguntas a los autores ni de interpretar figuras, y frecuentemente genera propuestas similares en diferentes ejecuciones. Además, puede fallar en la implementación de ideas y presenta desafíos en aspectos visuales y de citación. Los resultados producidos deben considerarse como sugerencias para futuras investigaciones más que como ciencia definitiva.

“AI Scientist” abre una caja de Pandora de nuevos problemas, aunque el informe completo discute estos temas en mayor detalle. Entre los problemas clave se encuentran las consideraciones éticas y el impacto potencial en el proceso académico. Aunque “AI Scientist” puede ser una herramienta útil para los investigadores, su capacidad para crear y enviar automáticamente artículos puede aumentar significativamente la carga de trabajo de los revisores y tensar el proceso académico, afectando el control de calidad científica. Esto es similar a las preocupaciones en torno a la IA generativa en otras aplicaciones, como la generación de imágenes.

Además, el Revisor Automatizado, si se despliega en línea, podría reducir significativamente la calidad de las revisiones e imponer sesgos indeseables en los artículos. Por ello, es fundamental que los artículos y revisiones generados por IA sean identificados como tales para asegurar la transparencia total.

Como con muchas tecnologías anteriores, “AI Scientist” tiene el potencial de ser utilizado de manera poco ética. Por ejemplo, podría realizar investigaciones no éticas o peligrosas si se le da acceso a laboratorios virtuales para realizar experimentos biológicos. Esto podría dar lugar a la creación de virus o sustancias tóxicas antes de que se detecten los riesgos. Del mismo modo, podría desarrollar virus informáticos peligrosos si se le solicita crear software funcional. Estas capacidades en mejora subrayan la necesidad urgente de alinear estos sistemas con valores éticos y garantizar que exploren de manera segura.

En cuanto a los modelos utilizados, se emplearon modelos de frontera propietarios, como GPT-4o y Sonnet, pero también se exploraron modelos abiertos como DeepSeek y Llama-3. Aunque los modelos propietarios actuales producen los mejores artículos, no hay razón fundamental para que un solo modelo mantenga esta ventaja. Se espera que todos los LLMs, incluidos los modelos abiertos, continúen mejorando. La competencia entre LLMs ha llevado a su mayor disponibilidad y capacidades mejoradas, y el trabajo busca ser independiente del proveedor del modelo base. Los modelos abiertos ofrecen beneficios significativos, como menor costo, disponibilidad garantizada, mayor transparencia y flexibilidad. El objetivo es usar estos modelos en un sistema cerrado de investigación automejorado.

Finalmente, aunque se imagina un ecosistema científico completamente impulsado por IA que incluya investigadores, revisores y conferencias, no se cree que el papel del científico humano se vea disminuido. Más bien, este rol evolucionará y se adaptará a la nueva tecnología, moviéndose hacia tareas de mayor nivel.

El coste del ciberataque informático a la British Library se estima en 400.000 libras

The Stack. «British Library Reveals £400,000 Plan to Rebuild after “Catastrophic” Ransomware Attack», 21 de agosto de 2024. https://www.thestack.technology/british-library-ransomware/.

En octubre de 2023, la Biblioteca Británica sufrió un ataque de ransomware tan grave que un exdirector del Centro Nacional de Ciberseguridad lo calificó como «uno de los peores incidentes cibernéticos en la historia del Reino Unido». Ahora, casi un año después, la biblioteca ha presentado un plan de 400.000£ para recuperarse de esta catástrofe, que dejó su sitio web sin un sistema de gestión de contenido (CMS) adecuado y forzó el cierre continuo de archivos físicos y virtuales.

La biblioteca ha lanzado una licitación de 400.000£ para la primera fase de su proyecto «Web Foundations», que tiene como objetivo reconstruir su sitio web para que sea «robusto, escalable, sostenible y seguro». Este proyecto no solo busca ofrecer una excelente experiencia a usuarios y editores, sino también permitir la expansión rápida de otras áreas de contenido y sentar las bases para futuras integraciones con sistemas backend.

El ataque ocurrió el 28 de octubre de 2023, cuando el grupo de ransomware Rhysida accedió a través de un servidor vulnerable. La biblioteca se negó a pagar un rescate de 20 bitcoins (aproximadamente £600,000 en ese momento) y los atacantes filtraron 600GB de datos en la web oscura. Estos datos incluían información personal de usuarios y empleados de la biblioteca.

El ciberataque no solo comprometió datos, sino que también destruyó servidores, lo que ha complicado la recuperación de las colecciones digitales de la biblioteca. Aunque la biblioteca tiene copias seguras de sus colecciones, la falta de infraestructura viable ha retrasado la restauración. La vulnerabilidad de la biblioteca se vio exacerbada por la dependencia de aplicaciones antiguas que, en su mayoría, no pueden ser restauradas debido a la obsolescencia técnica y la falta de soporte.

En julio de 2024, la biblioteca seguía lidiando con las secuelas del ataque. Su director ejecutivo, Sir Roly Keating, destacó el tiempo que ha tomado restaurar los servicios, lo que refleja la magnitud del daño. Se espera que algunos servicios no estén disponibles hasta septiembre de 2024, y partes importantes de la colección física aún no han sido restauradas.

El ataque probablemente involucró la obtención de credenciales privilegiadas a través de phishing o ataques de fuerza bruta, y los métodos utilizados por los atacantes incluyeron evasión de defensas y técnicas anti-forenses para borrar evidencias.

Opiniones de los estadounidenses sobre las restricciones de libros en las escuelas públicas de EE. UU. 2024

Knight Foundation. «Americans’ Views on Book Restrictions in U.S. Public Schools 2024». Accedido 22 de agosto de 2024. https://knightfoundation.org/reports/americans-views-on-book-restrictions-in-u-s-public-schools-2024/.

El informe «Opiniones de los estadounidenses sobre las restricciones de libros en las escuelas públicas de EE. UU. 2024» de la Fundación Knight revela que las restricciones de libros en las escuelas públicas han aumentado drásticamente desde 2021, aunque la investigación sobre la conciencia y actitudes del público hacia estas restricciones es limitada. Este estudio encuestó a más de 4,500 adultos para explorar sus opiniones sobre la limitación del acceso de los estudiantes a libros.

Hallazgos clave:

  • La mayoría de los estadounidenses se sienten informados sobre los debates de restricciones de libros y consideran que el tema es importante, pero pocos han participado activamente.
  • Dos tercios de los estadounidenses se oponen a las restricciones de libros, confiando en la selección de libros por parte de las escuelas públicas.
  • El 60% ve la adecuación por edad como un motivo legítimo para restringir el acceso a libros, especialmente para estudiantes más jóvenes.
  • Las opiniones están divididas según ideología, con los conservadores siendo los principales defensores de las restricciones, mientras que los liberales y la comunidad LGBTQ son los mayores opositores.
  • Aunque la mayoría cree que los padres de las escuelas públicas deberían poder desafiar los libros, también preocupa que el temor a las quejas disuada la compra de libros con valor educativo.

El estudio muestra que, aunque el tema es ampliamente debatido, las actitudes varían significativamente según el grupo demográfico y la afiliación política.

4o

Una biblioteca es una segunda casa para las personas

«Una biblioteca es una segunda casa para las personas que leen libros. Dentro de una biblioteca se cura la ignorancia, los libros son para la mente como las tiritas para las heridas… Tendrían que estar por todas partes, como las farmacias».

GLORIA FUERTES
El libro de Gloria Fuertes para niñas y niños

¿Se ha utilizado un artículo tuyo para entrenar un modelo de inteligencia artificial? Casi seguro

Gibney, Elizabeth. «Has Your Paper Been Used to Train an AI Model? Almost Certainly». Nature 632, n.o 8026 (14 de agosto de 2024): 715-16. https://doi.org/10.1038/d41586-024-02599-9.

Los desarrolladores de inteligencia artificial (IA) están comprando acceso a valiosos conjuntos de datos que contienen artículos de investigación, lo que plantea incómodas preguntas sobre los derechos de autor. Las editoriales académicas están vendiendo el acceso a estos artículos a empresas tecnológicas para entrenar modelos de IA, lo que ha generado preocupación entre los investigadores, ya que estos acuerdos se realizan sin la consulta de los autores. Esto ha desencadenado un debate sobre el uso de trabajos publicados y, a veces, protegidos por derechos de autor, para entrenar la creciente cantidad de chatbots de IA en desarrollo.

Los expertos afirman que, si un artículo de investigación aún no ha sido utilizado para entrenar un gran modelo de lenguaje LLM, probablemente lo será pronto. Los investigadores están explorando métodos técnicos para que los autores puedan identificar si su contenido ha sido utilizado.

El mes pasado se reveló que la editorial académica británica Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft, permitiendo que la empresa tecnológica accediera a sus datos para mejorar sus sistemas de IA. En junio, se supo que la editorial Wiley ganó 23 millones de dólares al permitir que una empresa no identificada entrenara modelos de IA generativa con su contenido.

Lucy Lu Wang, investigadora de IA en la Universidad de Washington en Seattle, señala que cualquier cosa disponible en línea, ya sea en un repositorio de acceso abierto o no, es «muy probable» que ya haya sido utilizada para entrenar un LLM. Y si un artículo ya ha sido utilizado como datos de entrenamiento en un modelo, «no hay forma de eliminarlo» después de que el modelo haya sido entrenado, añade.

Los LLMs se entrenan con grandes volúmenes de datos, a menudo obtenidos de Internet. Estos modelos generan texto con fluidez al identificar patrones en miles de millones de fragmentos de lenguaje, conocidos como tokens, presentes en los datos de entrenamiento.

El uso de artículos académicos es valioso para los constructores de LLMs debido a su longitud y «alta densidad de información», dice Stefan Baack, quien analiza conjuntos de datos de entrenamiento de IA en la Fundación Mozilla. Entrenar modelos con una gran cantidad de información científica también les da una mejor capacidad para razonar sobre temas científicos, añade Wang, quien co-creó S2ORC, un conjunto de datos basado en 81.1 millones de artículos académicos.

Este tipo de acuerdos comerciales está en aumento. Este año, el Financial Times ofreció su contenido a OpenAI en un acuerdo lucrativo, al igual que el foro en línea Reddit con Google. Dado que las editoriales científicas probablemente ven como alternativa que su trabajo sea extraído sin un acuerdo, «creo que habrá más de estos acuerdos en el futuro», dice Wang.

Algunos desarrolladores de IA, como la Red de Inteligencia Artificial a Gran Escala, mantienen intencionadamente sus conjuntos de datos abiertos, pero muchas empresas que desarrollan modelos de IA generativa han mantenido en secreto gran parte de sus datos de entrenamiento, dice Baack. Los repositorios de acceso abierto como arXiv y la base de datos académica PubMed son fuentes «muy populares», aunque probablemente los artículos de revistas de pago han tenido sus resúmenes gratuitos extraídos por grandes empresas tecnológicas.

Probar que un LLM ha utilizado un artículo específico es difícil. Una forma es usar una oración inusual de un texto como entrada al modelo y ver si la salida coincide con las siguientes palabras en el original. Otra técnica conocida como membership inference attack mide si un modelo es más confiado cuando ve algo que ha visto antes. El equipo de De Montjoye ha desarrollado una versión de esto llamada «trampa de derechos de autor», que inserta oraciones plausibles pero sin sentido en un trabajo para rastrear si un modelo ha sido entrenado con ese contenido.

Aunque se pudiera demostrar que un LLM ha sido entrenado con un texto específico, no está claro qué pasaría después. Las editoriales sostienen que usar texto con derechos de autor en el entrenamiento sin licencia es una infracción, pero otros argumentan que los LLM no copian nada, sino que extraen información para generar nuevo texto.

En un caso judicial en curso en Estados Unidos, The New York Times está demandando a Microsoft y OpenAI por usar su contenido periodístico sin permiso para entrenar sus modelos, lo que podría sentar un precedente.

Muchos académicos están contentos de que su trabajo se incluya en los datos de entrenamiento de los LLM, especialmente si los modelos se vuelven más precisos. Sin embargo, los autores científicos tienen poco poder si las editoriales deciden vender el acceso a sus obras con derechos de autor, y no existe un mecanismo establecido para otorgar crédito o verificar si un texto ha sido utilizado.

Algunos investigadores, como De Montjoye, están frustrados. «Queremos LLMs, pero también queremos algo que sea justo, y creo que aún no hemos inventado cómo sería esto», dice.