Consideraciones sobre la evaluación de herramientas de IA generativa en el ámbito académico

Hendrick, R . «Considering RAG When Evaluating Generative AI Tools», Choice 360 13 de mayo de 2024. https://www.choice360.org/libtech-insight/considering-rag-when-evaluating-generative-ai-tools/.

La evaluación de herramientas de inteligencia artificial generativa (IA) requiere considerar varios aspectos, especialmente en el ámbito académico. La introducción de la Retrieval Augmented Generation (RAG) ha añadido una nueva dimensión a esta evaluación, destacando la importancia de comprender su funcionamiento y sus implicaciones para la investigación.

La creciente proliferación de herramientas de IA ha generado un desafío para los bibliotecarios académicos, quienes se enfrentan a la tarea de evaluar y seleccionar las herramientas más adecuadas para sus instituciones. En medio de esta diversidad de opciones, es esencial entender las distintas categorías de aplicaciones de IA, desde la IA conversacional hasta la IA generativa, y reconocer cómo estas aplicaciones pueden impactar en la investigación y el aprendizaje.

En particular, la IA generativa, que tiene la capacidad de crear nueva información, ha despertado el interés de la comunidad académica. Sin embargo, estas herramientas también plantean desafíos éticos y prácticos, como la falta de citas, la propensión a las alucinaciones y las preocupaciones sobre los derechos de autor y la privacidad del usuario.

Es aquí donde entra en juego la RAG. Esta tecnología, al mejorar las capacidades de las redes neuronales de la IA generativa, ofrece una solución parcial a estos problemas al permitir la incorporación de nueva información, la optimización de resultados y la provisión de citas y enlaces para los resultados de búsqueda. La RAG representa un paso importante hacia la creación de herramientas de IA generativa que sean verdaderamente útiles y confiables para la educación superior.

La diferencia entre una herramienta de IA generativa estándar y una herramienta que utiliza RAG es evidente en la experiencia del usuario. Mientras que las herramientas convencionales pueden ofrecer respuestas imprecisas o incompletas, aquellas que emplean RAG pueden proporcionar resultados más precisos y fiables, junto con la capacidad de personalizar la búsqueda y verificar las fuentes de información.

Los editores de revistas académicas están renunciando en masa: ¿un cambio en el horizonte de la comunicación académica?»

Sanderson, Katharine. «Journal Editors Are Resigning En Masse: What Do These Group Exits Achieve?» Nature 628, n.^o 8007 (27 de marzo de 2024): 244-45. https://doi.org/10.1038/d41586-024-00887-y.

A principios de este mes, los editores de la revista de lingüística Syntax anunciaron públicamente sus renuncias en respuesta a cambios en el proceso de manejo de manuscritos impuestos por su editor, Wiley.

«Concluimos que nuestra posición como editores de la revista ya no es sostenible», escribieron los editores Klaus Abels y Suzanne Flynn en una carta abierta a autores y revisores de la revista el 9 de marzo. Agregaron que las medidas diseñadas para reducir costos y abordar un retraso en los documentos, asignando tareas de edición de copia que anteriormente eran manejadas por la oficina editorial independiente de Syntax a un equipo de producción sin conocimientos especializados en lingüística, significaba que la revista ya «no podía satisfacer las necesidades de nuestra comunidad».

Wiley dice que continuará publicando e invirtiendo en Syntax. «Cualquier cambio que haya realizado Wiley en Syntax ha sido diseñado para facilitar la publicación oportuna y de alta calidad de la revista», dice Allyn Molina, vicepresidente de desarrollo editorial.

El movimiento es el último evento de este tipo en lo que parece ser una forma emergente de protesta: la renuncia masiva de editores académicos.

Editores renuncian a revista de neurociencia para protestar contra los cargos de acceso abierto

Hasta ahora este año, los editores de cinco revistas han renunciado juntos, según un recuento no oficial del sitio web Retraction Watch. Esto siguió a 12 movimientos similares en 2023, un gran aumento respecto a los años anteriores (hubo 2 eventos similares tanto en 2021 como en 2022). El recuento comienza en 2015, aunque se han registrado eventos anteriores.

No está claro si las renuncias masivas están destinadas a volverse aún más frecuentes, dice Michael Clarke, consultor editorial en la firma de consultoría de gestión Clarke & Esposito en Washington DC. Pero agrega que están recibiendo mucha atención. Muchas renuncias masivas, dice Clarke, son en respuesta a cambios en los modelos de negocios en la industria editorial.

Este fue el caso para los editores y miembros de la junta editorial de la revista Critical Public Health, publicada por Taylor & Francis, quienes renunciaron en julio pasado. La ex coeditora en jefe de la revista, Judith Green, socióloga de la Universidad de Exeter, Reino Unido, dice que el movimiento fue provocado en parte por los planes del editor de hacer que la revista sea de acceso abierto. «No es que estuviéramos en contra del principio del acceso abierto», dice. En cambio, los editores se oponían profundamente al modelo de tarifa de procesamiento de artículos, en el que a los autores se les cobran tarifas para publicar sus artículos de acceso abierto. El equipo decidió renunciar solo después de un año de discusiones con el editor sobre modelos alternativos que no produjeron un compromiso, dice Green. Un portavoz de Taylor & Francis refirió a Nature a una declaración emitida en el momento de la renuncia, diciendo que el editor estaba decepcionado por las renuncias, pero estaba deseando reclutar un nuevo equipo editorial.

«El gran tema [de las renuncias masivas] es esta tensión de prioridades competitivas», dice Ivan Oransky, cofundador de Retraction Watch. «Tienes editores —la mayoría de ellos son con fines de lucro— que demandan y requieren un crecimiento constante porque eso es lo que exige el mercado de valores. Tienes investigadores —académicos o editores, en su mayor parte— que defienden la calidad y quizás la profundidad y el tiempo de revisión. Esas están en oposición.»

Más que una protesta Clarke dice que puede entender por qué los editores insatisfechos podrían tomar medidas por su cuenta. «Si una comunidad académica desea controlar las decisiones comerciales de una revista, la mejor manera de hacerlo es ser propietario de la revista», dice. «Estas renuncias masivas fueron todos casos en los que los editores estaban trabajando en revistas propiedad del editor».

Los clubes de especias de las bibliotecas públicas ofrecen kits llenos de condimentos y recetas

anuncial, Diana «The Spice of Life: Culinary clubs bring new flavors to patrons», American Libraries Magazine. 1 de mayo de 2024. https://americanlibrariesmagazine.org/?p=143509.

El club de especias del público está revolucionando una nueva tendencia en las bibliotecas públicas al proporcionar condimentos y recetas para los usuarios. Estos clubes son una forma económica para las bibliotecas de reunir a la comunidad, fomentar la creatividad y educar a los usuarios sobre la cocina mundial.

El club de especias de la Biblioteca Pública de Maynard (MPL) ofrece kits llenos de especias destacadas, recetas y otra información basada en la selección mensual. Los participantes preparan un plato en casa y lo llevan al banquete mensual en persona de MPL, destacando la especia.

Estos clubes pueden adaptarse a una variedad de formatos, con o sin componentes en persona. Por ejemplo, la Biblioteca Reed Memorial (RML) en Ravenna, Ohio, ofrece un club de especias totalmente en casa, distribuyendo kits mensuales a los participantes.

La Biblioteca Pública de Everett (EPL) en Washington comenzó su club de especias en octubre de 2022 y lo complementó con eventos en persona. La biblioteca eligió sumac como su primera especia destacada y recibió el apoyo del Sno-Isle Food Co-op, que proporcionó suficientes especias para llenar aproximadamente 600 kits.

Los clubes de especias ayudan a los usuarios a descubrir una nueva pasión por la comida que pueden compartir con otros, proporcionando una experiencia sin presión y la oportunidad de aprender de errores y fracasos.

Los lectores han tomado prestados más de 4 mil millones de libros electrónicos a través de OverDrive

OverDrive. «Readers Have Borrowed More Than 4 Billion Books Through OverDrive.» Publicado el 9 de mayo de 2024. Consultado el [fecha de acceso]. Disponible en: https://company.overdrive.com/2024/05/09/readers-have-borrowed-more-than-4-billion-books-through-overdrive/

El 30 de abril de 2024, «Crafty Birds» de Kristy Conlin se convirtió en el título número cuatro mil millones prestado a través de OverDrive y sus aplicaciones, Libby y Sora. Este logro es un testimonio de los bibliotecarios y educadores que promueven la lectura digital todos los días (así como el usuario de la Biblioteca Pública de Calgary que tomó prestado el título!).

El primer préstamo de un libro electrónico a través de OverDrive en una biblioteca ocurrió en 2003 y tomó cuatro años alcanzar el primer millón en 2007 y otros cinco para llegar a los 100 millones en 2012. A medida que el apoyo de las bibliotecas a la lectura digital creció, los préstamos totales de OverDrive alcanzaron los 1000 millones en marzo de 2018. Para diciembre de 2020, los préstamos digitales a través de OverDrive, Libby y Sora, superaron los 2000 millones. En dos años, ese número había alcanzado los 3000 millones.

Gracias a su compromiso y dedicación, los préstamos ahora han superado los 4000 millones. Más personas que nunca están descubriendo la alegría de tomar prestados libros electrónicos, audiolibros, revistas, cómics de su biblioteca digital y estamos agradecidos de servir a todos los usuarios que se benefician del acceso a contenido digital.

Las bibliotecas públicas impulsan el compromiso comunitario a través de la innovación y la inspiración

Un impulsor importante del logro de los cuatro mil millones de préstamos de libros digitales son las iniciativas de las bibliotecas locales que se centran en aumentar la conciencia y la participación dentro de sus comunidades. Algunos ejemplos de estas iniciativas:

La Biblioteca Pública de Los Ángeles, la biblioteca digital con mayor circulación en los Estados Unidos, se convirtió en la primera biblioteca en alcanzar los doce millones de préstamos digitales en un año calendario.
La Biblioteca Pública del Condado de Harris (TX) está empoderando la democracia al proporcionar guías de votantes locales en Libby.
Los más de 2,1 millones de usuarios que utilizan la colección de libros digitales de su biblioteca pública con una Tarjeta Digital Instantánea.
La Biblioteca Pública de Tinley Park (IL) elimina las barreras para la lectura al asociarse con el distrito escolar local utilizando Public Library CONNECT.

Mirando hacia el próximo billón, OverDrive continuará su misión de crear una experiencia de lectura inclusiva y accesible para todos, mientras apoya a las 92.000 bibliotecas, escuelas, colegios y organizaciones en 115 países que utilizan contenido digital para llegar a más de sus comunidades.

Directrices para corregir y verificar problemas de accesibilidad en los libros electrónicos

Accessible Backlist Ebooks Laboratory (ABE Lab).

En los últimos años, la accesibilidad digital ha adquirido una importancia significativa, especialmente con la inminente entrada en vigor de la Directiva 2019/882, también conocida como Acta Europea de Accesibilidad (AEA). Los libros electrónicos entran en el ámbito de aplicación de esta directiva, por lo que es crucial que los editores garanticen la accesibilidad en toda su oferta digital. Aunque algunas editoriales han empezado a producir libros electrónicos accesibles desde el nacimiento, sigue siendo difícil resolver los problemas de accesibilidad en los títulos de la lista de títulos ya publicados.

Aquí es donde entran en juego diversas herramientas y soluciones, desde programas y plataformas hasta aplicaciones basadas en la nube y API. El objetivo de estas herramientas es transformar los libros electrónicos inaccesibles en versiones accesibles, adaptándolas a la legislación europea y a las normas internacionales de accesibilidad.

El proyecto ABE Lab

El objetivo principal del proyecto ABE Lab es proporcionar directrices a las editoriales europeas para impulsar la remediación de los libros electrónicos de su backlist. Como parte de esta iniciativa, el equipo del ABE Lab investigó y probó exhaustivamente diversas herramientas de remediación disponibles en el mercado.

Las directrices del ABE Lab para los productores de herramientas ofrecen conocimientos valiosos y pautas de alto nivel basadas en los hallazgos del equipo. Creado como un recurso para los productores y desarrolladores de herramientas, delinea los requisitos clave necesarios para procesos efectivos de correción. Permite a los desarrolladores evaluar independientemente sus herramientas de remediación, mejorarlas mediante la integración de nuevas funciones y diseñar nuevas herramientas que ofrezcan las funcionalidades y el soporte necesarios para producir libros electrónicos completamente accesibles a partir de versiones no accesibles. En general, estas directrices tienen como objetivo mejorar el soporte de las herramientas para los operadores humanos para agilizar la remediación con simplicidad e intuición.

Puntos clave del documento:

El documento aborda tres aspectos principales:

Pautas de alto nivel que destacan la importancia de encontrar, corregir y verificar problemas de accesibilidad en los libros electrónicos y discuten la funcionalidad requerida para abordar de manera efectiva los problemas de accesibilidad más comunes.
Información que los productores y desarrolladores deben proporcionar sobre su herramienta para permitir que los clientes tomen la decisión correcta;
Una lista de verificación diseñada para evaluar las características de remediación de las herramientas, que abarca metadatos, recursos gráficos, aspectos estilísticos, contenido textual, estructura del documento, navegación y contenido disperso para EPUB y PDF.

Las Directrices para productores de herramientas de remediación están disponibles en línea y se pueden descargar desde la sección de Entregables del sitio web del ABE Lab.

Se alienta a los interesados y desarrolladores a aprovechar este recurso para mejorar las funcionalidades de su software y aplicaciones de remediación.

Astra es la respuesta «multimodal» de Google al nuevo ChatGPT que se integrará en unas gafas de realidad aumentada

«Astra Is Google’s ‘Multimodal’ Answer to the New ChatGPT | WIRED». Accedido 15 de mayo de 2024. https://www.wired.com/story/google-io-astra-multimodal-answer-chatgpt/.

El nuevo asistente de IA de Google, llamado Project Astra, puede interpretar lo que ve la cámara del teléfono y responder a comandos de voz. Presentado por Demis Hassabis en la conferencia I/O de Google, Astra utiliza Gemini Ultra, un modelo de IA multimodal que maneja audio, imágenes, video y texto. Similar al reciente ChatGPT de OpenAI, Astra puede analizar escenas, reconocer objetos y mantener conversaciones naturales. Aunque ambas tecnologías son impresionantes, aún no está claro cómo se integrarán en el ámbito laboral o personal.

En el panorama actual de la inteligencia artificial (IA), dos destacados avances han sido presentados por OpenAI y Google. OpenAI dio a conocer una nueva interfaz para ChatGPT, llamada GPT-4o, que permite conversaciones fluidas a través de voz y la capacidad de analizar imágenes en tiempo real. Esta versión de ChatGPT utiliza un tono más humano y expresivo, simulando incluso emociones como la sorpresa y el coqueteo. Por otro lado, Google ha desarrollado Project Astra, basado en el avanzado modelo Gemini Ultra, que compite con ChatGPT. Gemini, al igual que GPT-4o, es «multimodal», lo que significa que puede procesar audio, imágenes y video, además de texto. Ambos avances representan una nueva era en la IA generativa, ya que anteriormente los modelos de IA se centraban únicamente en el texto y necesitaban ser combinados con otros sistemas para añadir capacidades de imagen o audio.

Project Astra es la apuesta de Google para el futuro de los asistentes de inteligencia artificial, similar a la presentada por OpenAI, pero con una innovación llamativa: Google planea integrarlo en unas gafas de realidad aumentada. Este proyecto busca desarrollar agentes de IA universales que puedan entender y responder como lo haría un humano, además de recordar el contexto en el que se encuentran.

Estos desarrollos son el resultado de un enfoque hacia asistentes de IA más sofisticados, como lo señala Demis Hassabis de Google. Hassabis considera que los chatbots basados solo en texto son una etapa transitoria hacia sistemas más avanzados que comprenden y responden a diversas modalidades de información. Sin embargo, aunque las demostraciones de estos sistemas son impresionantes, su utilidad concreta en entornos laborales o personales aún no está clara. Google planea lanzar Project Astra a través de una nueva interfaz llamada Gemini Live. La apuesta es similar a la de OpenAI, pero con una novedad llamativa: Google plantea integrarla en unas gafas

Situación de la revisión por pares en 2024

IOP Publishing. «State of Peer Review 2024». Accedido 15 de mayo de 2024. https://ioppublishing.org/state-of-peer-review-2024/.

IOP Publishing ha publicado el informe «State of Peer Review 2024». En marzo de 2024, repitieron la encuesta de 2020 a revisores por pares en ciencias físicas, añadiendo nuevas preguntas. Los objetivos eran comparar respuestas para detectar cambios y recoger opiniones sobre temas como la IA generativa, el sesgo en la revisión por pares y la revisión doble anónima. El informe destaca cómo la pandemia de Covid-19, el aumento de publicaciones científicas y la aparición de la IA generativa han influido en la revisión por pares, además de abordar el aumento de retractaciones y la comercialización de la mala conducta investigativa.

Resultados Clave

Sesgo: La proporción de encuestados que reportan haber experimentado sesgo en el proceso de revisión por pares ha disminuido (16% en 2024 frente al 24% en 2020).
Motivación: El interés en el artículo sigue siendo la principal motivación para aceptar una invitación a revisar.
Uso de IA: Las opiniones sobre el impacto de la IA generativa en la revisión por pares están divididas.
Solicitudes de Revisión:
- 50% reporta un aumento en las solicitudes en los últimos tres años.
- 47% recibe menos de una invitación al mes.
- 54% siente que recibe la cantidad adecuada de solicitudes.
- 35% de los investigadores en etapas tempranas tienen más tiempo para revisar.
- 52% prefiere revisar manuscritos de doble anonimato.

Tiempo Disponible para la Revisión

Frecuencia: 46.9% recibe menos de una solicitud al mes, solo el 3% recibe más de 11 solicitudes mensuales.
Diferencias Geográficas y de Carrera: No hay diferencias significativas por género, pero sí por etapa de carrera y región, con variaciones entre Europa y el resto del mundo.
Tendencias Recientes: 49.5% de los encuestados han visto un aumento en las solicitudes en los últimos tres años.

Tiempo Disponible Comparado con Solicitudes

En 2024, 30% tiene más tiempo disponible para revisiones comparado con 18% en 2020.
16% recibe demasiadas solicitudes frente al 26% en 2020.
La mayoría, 54%, reporta recibir la cantidad adecuada de solicitudes.

No se observaron diferencias significativas por género, pero sí por etapa de carrera y región geográfica, especialmente entre países de ingresos altos y bajos.

Impacto de la IA Generativa en la Revisión por Pares

Opiniones Diversas:
- Impacto Negativo: 35% de los encuestados.
- Neutral/Sin Impacto: 36%.
- Impacto Positivo: 29%.

Comentarios de los Respondentes:

Positivos: Utilidad para revisar manuscritos por plagio y calidad del idioma.
Negativos: Preocupaciones sobre la precisión y ética de los modelos de IA actuales.
General: La verificación y edición humana experta es necesaria antes de usar textos generados por IA en el proceso de revisión.

Las percepciones de los estudiantes acerca de la inteligencia artificial (IA)

«Student Perceptions of Generative AI.» Jisc.. Last modified January 12, 2024.

Texto completo

JISC ha publicado un nuevo informe sobre las percepciones de los estudiantes acerca de la inteligencia artificial (IA) generativa, basado en una serie de foros de discusión realizados durante el invierno pasado con más de 200 estudiantes de colegios y universidades. Este seguimiento se hizo para entender si y cómo han cambiado las opiniones de los estudiantes respecto a la IA generativa desde el informe anterior y para explorar su rol emergente en la educación.

A medida que las instituciones enfrentan el desarrollo de políticas y directrices, así como los complejos cambios pedagógicos, es crucial captar la voz auténtica de los estudiantes para informar una integración responsable de la IA que los capacite y mantenga la integridad académica.

Cambios clave desde la primavera de 2023

La adopción de la IA generativa en la educación por parte de los estudiantes está experimentando una notable transformación, reflejo de la rápida evolución de la propia tecnología. En tan solo nueve meses, desde el informe anterior, se ha observado un cambio evidente en la forma en que los estudiantes utilizan la IA generativa, así como una maduración de las expectativas de sus instituciones para apoyarles en su camino hacia el empleo en un mundo habilitado para la IA.

Transición al aprendizaje colaborativo: Los estudiantes/aprendices ven cada vez más la IA generativa como una herramienta colaborativa para entrenar y apoyar el aprendizaje activo y el pensamiento crítico, utilizando estas herramientas como un asistente digital en lugar de verlas puramente como proveedoras de respuestas.

Énfasis en las competencias futuras: Los estudiantes subrayaron la importancia de contar con competencias en IA generativa que sean relevantes para sus futuros sectores. Hay una demanda creciente de una educación que integre la IA generativa en todo el plan de estudios y refleje el mundo habilitado para la IA en el que todos vivimos ahora.

Ética, equidad y accesibilidad: Los estudiantes están cada vez más concienciados y preocupados por los problemas de equidad, parcialidad y accesibilidad relacionados con la IA, y abogan por medidas que aborden estos retos para garantizar una experiencia educativa segura, inclusiva y receptiva.

Integración global y competencia de los educadores: Existe una clara expectativa por parte de los estudiantes de una integración completa de la IA generativa en la educación, con un uso competente por parte de los educadores y políticas que garanticen un entorno de aprendizaje mejorado por la IA justo y eficaz.

Conjunto de herramientas para archiveros y bibliotecarios que apoyan la investigación y la enseñanza en Humanidades Digitales

Sayers, Karen. «A Toolkit for Archivists and Librarians Supporting Research and Teaching in Digital Humanities», The Research Libraries (RLUK) and The National Archives (TNA), 24 de abril de 2024.

Texto completo

Este toolkit es un recurso para archiveros y bibliotecarios que apoyan, o desean apoyar, a investigadores y profesores de humanidades digitales y convertirse en socios o colaboradores en proyectos. Además, es valioso para investigadores, profesores académicos y gestores. El toolkit contiene enlaces a proyectos de humanidades digitales, recursos de capacitación y redes de apoyo.

«Toolkit for Archivists and Librarians Supporting Research and Teaching in Digital Humanities» es una herramienta diseñada por Karen Sayers. Está dirigida a archiveros y bibliotecarios que desean brindar apoyo a investigadores y profesores de humanidades digitales, así como convertirse en socios o colaboradores en proyectos relacionados. Además, es útil para investigadores, profesores académicos y gestores. El toolkit incluye enlaces a proyectos de humanidades digitales, recursos de capacitación y redes de apoyo.

Durante 2023-24, Karen Sayers realizó una investigación centrada en humanidades digitales utilizando datos de series de registros históricos. Para crear este toolkit, consideró esencial comprender los procesos que un investigador de humanidades digitales.

El toolkit esta dividido en secciones que describen las etapas en un proyecto de investigación. Contiene enlaces a recursos que brindan apoyo o capacitación relacionados con las habilidades necesarias para llevar a cabo investigaciones en humanidades digitales. El recurso se centra en habilidades de investigación que son especialmente relevantes para las humanidades digitales.

Dentro del toolkit, se incluyen enlaces a recursos de acceso abierto para apoyar a investigadores y profesores de humanidades digitales siempre que sea posible. Es importante recordar que constantemente están surgiendo nuevos recursos.

Los libros como aliados: el impulso de las bibliotecas para democratizar la inteligencia artificial

Hansen, Dave. «Books Are Big AI’s Achilles Heel». Authors Alliance (blog), 13 de mayo de 2024. https://www.authorsalliance.org/2024/05/13/books-are-big-ais-achilles-heel/.

El avance rápido de la inteligencia artificial está transformando cómo trabajamos y vivimos, una revolución que nos afectará a todos. Mientras que el impacto de la IA sigue expandiéndose, la operación y los beneficios de la tecnología están cada vez más concentrados en un pequeño número de gigantescas corporaciones, incluyendo a OpenAI, Google, Meta, Amazon y Microsoft.

Desafiar este emergente oligopolio de la IA parece intimidante. Los últimos modelos de IA ahora cuestan miles de millones de dólares, más allá de los presupuestos de startups e incluso de las universidades de investigación de élite, que a menudo han generado las nuevas ideas e innovaciones que avanzan el estado de la inteligencia artificial.

Pero las universidades tienen un arma secreta que podría nivelar el campo de juego de la IA: sus bibliotecas. La potencia informática puede ser una parte importante de la IA, pero el otro ingrediente clave es los datos de entrenamiento. La inmensa escala es esencial para estos datos, pero también lo es su calidad.

Dada su voraz apetencia por el texto para alimentar sus grandes modelos de lenguaje, las principales compañías de IA han tomado todas las palabras que pueden encontrar, incluyendo de foros en línea, subtítulos de YouTube y documentos de Google. Esto no es exactamente «lo mejor que se ha pensado y dicho», para usar la frase punzante de Matthew Arnold. En la búsqueda caótica de la cantidad por parte de la Gran IA, la calidad ha quedado en un segundo plano. La frecuencia de «alucinaciones», inexactitudes actualmente endémicas en las salidas de la IA, es motivo de una preocupación aún mayor.

La manera obvia de rectificar esta falta de calidad y la tenue relación con la verdad es mediante el entrenamiento de los modelos a través de libros. Desde el advenimiento de la imprenta, los autores han publicado más de 100 millones de libros. Estos volúmenes, conservados durante generaciones en los estantes de las bibliotecas, son quizás el reflejo más sofisticado del pensamiento humano desde el principio de la historia registrada, conteniendo dentro de ellos algunas de nuestras mejores (y peores) ideas. En promedio, tienen una calidad editorial excepcional en comparación con otros textos, capturan una amplitud y diversidad de contenido, una mezcla vívida de estilos y utilizan la narrativa de larga extensión para comunicar argumentos y conceptos matizados.

Los principales proveedores de IA han buscado aprovechar esta fuente de inteligencia humana para alimentar lo artificial, aunque a menudo mediante métodos cuestionables. Algunas compañías han recurrido a un infame conjunto de miles de libros, aparentemente recuperados de sitios web piratas sin permiso, llamados «Books3». También han buscado licencias directamente de los editores, utilizando sus enormes presupuestos para comprar lo que no pueden recoger. Meta incluso consideró comprar uno de los mayores editores del mundo, Simon & Schuster.

Como piedra angular de nuestra cultura compartida y como posible base para una mejor inteligencia artificial, los libros son demasiado importantes para fluir a través de estos canales comprometidos o costosos. ¿Qué pasaría si hubiera una colección gestionada por bibliotecas disponible para una amplia gama de investigadores de IA, incluidos los de universidades, instituciones de investigación sin fines de lucro y pequeñas empresas, así como las grandes?

Tales colecciones vastas de libros digitalizados existen en la actualidad. Google, al invertir millones de dólares en su proyecto de escaneo de libros, tiene acceso a más de 40 millones de libros, un activo valioso que sin duda les gustaría mantener en exclusiva. Afortunadamente, esos libros digitalizados también son mantenidos por las bibliotecas asociadas de Google. Las bibliotecas de investigación y otras organizaciones sin fines de lucro tienen reservas adicionales de libros digitalizados derivados de sus propias operaciones de escaneo, provenientes de libros en sus propias colecciones. Juntos, representan una formidable agregación de textos.

Un conjunto de datos de entrenamiento liderado por bibliotecas de libros diversificaría y fortalecería el desarrollo de la IA. Las bibliotecas de investigación digitalizadas son más que lo suficientemente grandes y de sustancialmente mayor calidad como para ofrecer una alternativa convincente a los conjuntos de datos existentes dispersos. Estas instituciones e iniciativas ya han trabajado en muchos de los problemas de derechos de autor más desafiantes, al menos en lo que respecta a cómo se aplica el uso justo a usos de investigación sin fines de lucro como el análisis computacional. Si el uso justo también se aplica a la IA comercial, o a modelos construidos a partir de fuentes dudosas como Books3, aún está por verse.

Los textos digitales mantenidos por las bibliotecas provienen de libros adquiridos de manera legal, una inversión de miles de millones de dólares, cabe señalar, al igual que esos grandes centros de datos, y las bibliotecas tienen inherentemente un respeto por los intereses de los autores y titulares de derechos al tener en cuenta preocupaciones sobre el consentimiento, el crédito y la compensación. Además, tienen una disposición de interés público que puede tener en cuenta los desafíos sociales y éticos particulares del desarrollo de la IA. Un consorcio de bibliotecas podría distinguir entre las diferentes necesidades y responsabilidades de los investigadores académicos, los nuevos participantes en el mercado y los grandes actores comerciales.

Si no recurrimos a las bibliotecas para guiar el entrenamiento de la IA sobre el contenido profundo de los libros, veremos un refuerzo de los mismos oligopolios que dominan el sector tecnológico actual. Solo las empresas más grandes y mejor financiadas adquirirán estos valiosos textos, lo que conducirá a una mayor concentración en la industria. Otros serán impedidos de crear nuevas formas imaginativas de IA basadas en lo mejor que se ha pensado y dicho. Como siempre lo han hecho, al democratizar el acceso, las bibliotecas pueden apoyar el aprendizaje y la investigación para todos, asegurando que la IA se convierta en el producto de muchos en lugar de unos pocos

	Fernanda Guadalupe en Declaración de San Francisco s…
	La habilidad humana… en La habilidad humana que la IA…
	La “muerte” del inte… en Impacto real de la IA en el em…
	La IA en la revisión… en La IA en la revisión por …
	Google Ngram Viewer,… en Google Books Ngram Viewer: per…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca