Archivo de la etiqueta: Digitalización

Los libros como aliados: el impulso de las bibliotecas para democratizar la inteligencia artificial

Hansen, Dave. «Books Are Big AI’s Achilles Heel». Authors Alliance (blog), 13 de mayo de 2024. https://www.authorsalliance.org/2024/05/13/books-are-big-ais-achilles-heel/.


El avance rápido de la inteligencia artificial está transformando cómo trabajamos y vivimos, una revolución que nos afectará a todos. Mientras que el impacto de la IA sigue expandiéndose, la operación y los beneficios de la tecnología están cada vez más concentrados en un pequeño número de gigantescas corporaciones, incluyendo a OpenAI, Google, Meta, Amazon y Microsoft.

Desafiar este emergente oligopolio de la IA parece intimidante. Los últimos modelos de IA ahora cuestan miles de millones de dólares, más allá de los presupuestos de startups e incluso de las universidades de investigación de élite, que a menudo han generado las nuevas ideas e innovaciones que avanzan el estado de la inteligencia artificial.

Pero las universidades tienen un arma secreta que podría nivelar el campo de juego de la IA: sus bibliotecas. La potencia informática puede ser una parte importante de la IA, pero el otro ingrediente clave es los datos de entrenamiento. La inmensa escala es esencial para estos datos, pero también lo es su calidad.

Dada su voraz apetencia por el texto para alimentar sus grandes modelos de lenguaje, las principales compañías de IA han tomado todas las palabras que pueden encontrar, incluyendo de foros en línea, subtítulos de YouTube y documentos de Google. Esto no es exactamente «lo mejor que se ha pensado y dicho», para usar la frase punzante de Matthew Arnold. En la búsqueda caótica de la cantidad por parte de la Gran IA, la calidad ha quedado en un segundo plano. La frecuencia de «alucinaciones», inexactitudes actualmente endémicas en las salidas de la IA, es motivo de una preocupación aún mayor.

La manera obvia de rectificar esta falta de calidad y la tenue relación con la verdad es mediante el entrenamiento de los modelos a través de libros. Desde el advenimiento de la imprenta, los autores han publicado más de 100 millones de libros. Estos volúmenes, conservados durante generaciones en los estantes de las bibliotecas, son quizás el reflejo más sofisticado del pensamiento humano desde el principio de la historia registrada, conteniendo dentro de ellos algunas de nuestras mejores (y peores) ideas. En promedio, tienen una calidad editorial excepcional en comparación con otros textos, capturan una amplitud y diversidad de contenido, una mezcla vívida de estilos y utilizan la narrativa de larga extensión para comunicar argumentos y conceptos matizados.

Los principales proveedores de IA han buscado aprovechar esta fuente de inteligencia humana para alimentar lo artificial, aunque a menudo mediante métodos cuestionables. Algunas compañías han recurrido a un infame conjunto de miles de libros, aparentemente recuperados de sitios web piratas sin permiso, llamados «Books3». También han buscado licencias directamente de los editores, utilizando sus enormes presupuestos para comprar lo que no pueden recoger. Meta incluso consideró comprar uno de los mayores editores del mundo, Simon & Schuster.

Como piedra angular de nuestra cultura compartida y como posible base para una mejor inteligencia artificial, los libros son demasiado importantes para fluir a través de estos canales comprometidos o costosos. ¿Qué pasaría si hubiera una colección gestionada por bibliotecas disponible para una amplia gama de investigadores de IA, incluidos los de universidades, instituciones de investigación sin fines de lucro y pequeñas empresas, así como las grandes?

Tales colecciones vastas de libros digitalizados existen en la actualidad. Google, al invertir millones de dólares en su proyecto de escaneo de libros, tiene acceso a más de 40 millones de libros, un activo valioso que sin duda les gustaría mantener en exclusiva. Afortunadamente, esos libros digitalizados también son mantenidos por las bibliotecas asociadas de Google. Las bibliotecas de investigación y otras organizaciones sin fines de lucro tienen reservas adicionales de libros digitalizados derivados de sus propias operaciones de escaneo, provenientes de libros en sus propias colecciones. Juntos, representan una formidable agregación de textos.

Un conjunto de datos de entrenamiento liderado por bibliotecas de libros diversificaría y fortalecería el desarrollo de la IA. Las bibliotecas de investigación digitalizadas son más que lo suficientemente grandes y de sustancialmente mayor calidad como para ofrecer una alternativa convincente a los conjuntos de datos existentes dispersos. Estas instituciones e iniciativas ya han trabajado en muchos de los problemas de derechos de autor más desafiantes, al menos en lo que respecta a cómo se aplica el uso justo a usos de investigación sin fines de lucro como el análisis computacional. Si el uso justo también se aplica a la IA comercial, o a modelos construidos a partir de fuentes dudosas como Books3, aún está por verse.

Los textos digitales mantenidos por las bibliotecas provienen de libros adquiridos de manera legal, una inversión de miles de millones de dólares, cabe señalar, al igual que esos grandes centros de datos, y las bibliotecas tienen inherentemente un respeto por los intereses de los autores y titulares de derechos al tener en cuenta preocupaciones sobre el consentimiento, el crédito y la compensación. Además, tienen una disposición de interés público que puede tener en cuenta los desafíos sociales y éticos particulares del desarrollo de la IA. Un consorcio de bibliotecas podría distinguir entre las diferentes necesidades y responsabilidades de los investigadores académicos, los nuevos participantes en el mercado y los grandes actores comerciales.

Si no recurrimos a las bibliotecas para guiar el entrenamiento de la IA sobre el contenido profundo de los libros, veremos un refuerzo de los mismos oligopolios que dominan el sector tecnológico actual. Solo las empresas más grandes y mejor financiadas adquirirán estos valiosos textos, lo que conducirá a una mayor concentración en la industria. Otros serán impedidos de crear nuevas formas imaginativas de IA basadas en lo mejor que se ha pensado y dicho. Como siempre lo han hecho, al democratizar el acceso, las bibliotecas pueden apoyar el aprendizaje y la investigación para todos, asegurando que la IA se convierta en el producto de muchos en lugar de unos pocos

NISO publica un borrador sobre Práctica Recomendada del Sistema Interoperable de Préstamos Digitales Controlados (IS-CDL)

«Interoperable System of Controlled Digital Lending | NISO website». Accedido 25 de marzo de 2024. https://www.niso.org/standards-committees/is-cdl.

PDF

La Organización Nacional de Normas de Información estadounidense (NISO) anunció publica el borrador «Interoperable System of Controlled Digital Lending (IS-CDL) Recommended Practice» (IS-CDL) (NISO RP-44-202X) disponible para comentarios públicos hasta el 21 de abril en el sitio web del proyecto.

Las bibliotecas a menudo necesitan prestar copias digitales de contenido impreso de sus colecciones por diversas razones, incluyendo cuando el acceso a las colecciones físicas se interrumpe, como en la pandemia de COVID-19 o cuando ocurre un desastre natural, o cuando el artículo físico es demasiado frágil para circular. El Préstamo Digital Controlado (CDL) permite a las bibliotecas replicar el derecho de prestar sus elementos adquiridos legalmente en formato digital a los usuarios bajo condiciones «controladas», lo que significa que una biblioteca puede prestar solo el número de copias de un título específico que posee y que se implementan controles para evitar la copia o distribución del trabajo. El proceso de implementación del CDL puede ser bastante complejo y debe tener en cuenta varios escenarios y requisitos de sistemas.

Respaldado por una subvención de la Fundación Andrew W. Mellon y formado en 2022, el grupo de trabajo IS-CDL de NISO ha completado un esquema de los procesos técnicos y funcionales necesarios para que las bibliotecas implementen de manera interoperable el CDL en una variedad de situaciones. Su borrador de Práctica Recomendada incluye cuatro modelos arquitectónicos distintos que cubren tanto el CDL dentro de una sola institución como la infraestructura de CDL compartida: 1) Sistema de CDL independiente, 2) Sistema Integrado basado en la Institución, 3) Infraestructura de CDL compartida/Sistema Integrado basado en el Consorcio, y 4) CDL Distribuido/Descentralizado. Estos modelos se describen utilizando atributos comunes, lo que permite a los posibles adoptantes comparar y considerar aspectos prácticos de cómo podrían desarrollarse o implementarse en un entorno local. Las recomendaciones específicas del modelo permiten a los lectores comprender mejor los requisitos del sistema para varios tipos de escenarios de préstamo en una biblioteca individual o a través de un consorcio o conjunto de bibliotecas. El documento también incluye recomendaciones sobre consideraciones transversales al modelo, como las prácticas de conversión de texto, el uso de formatos de archivo, estándares de accesibilidad y descripciones bibliográficas. Se señala que las preguntas legales y de derechos de autor sobre el CDL no están incluidas en el alcance del grupo de trabajo; se recomienda a las bibliotecas que consulten a su asesor legal antes de implementar un programa de CDL.

Allen Jones, Co-Presidente del Grupo de Trabajo y Director de Bibliotecas Digitales y Servicios Técnicos en The New School, afirmó: «Esperamos que esta Práctica Recomendada ayude a las bibliotecas a diseñar servicios de préstamo digital. Este documento ilustra los requisitos de interoperabilidad para los diseñadores de sistemas de CDL para apoyar la circulación y el préstamo entre bibliotecas. Los comentarios de la comunidad mejorarán la publicación final y nos ayudarán a satisfacer las necesidades de tantas organizaciones como sea posible.»

«Después de muchos meses de trabajo colaborativo, estamos emocionados de lanzar el borrador de la Práctica Recomendada para comentarios públicos,» dijo Jennie Rose Halperin, Co-Presidenta del Grupo de Trabajo y Directora de Futuros de Biblioteca en el Centro Engelberg de la Ley de Innovación y Política de la Ley de la NYU. «Este documento contextualiza las muchas formas en que las bibliotecas y comunidades pueden utilizar el CDL, con especial atención a los grupos de interés y una visión general exhaustiva de los modelos potenciales tanto en el presente como en el futuro. El grupo de trabajo IS-CDL de NISO está comprometido con mejorar la accesibilidad de las colecciones de bibliotecas, y este conjunto de prácticas y normas proporciona la base para el futuro de la digitalización de bibliotecas.»

Criterios de éxito para la digitalización de registros permanentes

Success Criteria for Digizing Permanent Records.  National Archives and Records Administration (NARA), 2023

Texto completo

 National Archives and Records Administration (NARA) emitió regulaciones con estándares de digitalización para registros permanentes con un propósito específico: ayudar al gobierno federal en la transición hacia la gestión completamente electrónica de registros. Para lograr la visión de un gobierno completamente digital, es crucial que los registros digitales puedan cumplir las mismas funciones que sus equivalentes analógicos. Estos registros digitalizados se transferirán a las posesiones de los Archivos Nacionales de los Estados Unidos y se preservarán como una parte valiosa de la historia de nuestra nación.

Los beneficios de un gobierno totalmente digital son evidentes. Al convertir los procesos comerciales en flujos de trabajo completamente digitales y digitalizar registros en papel y analógicos para respaldar esos flujos de trabajo, las agencias podrán cumplir mejor con sus misiones y atender a sus clientes de manera más eficiente. La transición a procesos comerciales digitales ayuda a las agencias a satisfacer las necesidades de los clientes de manera más rápida y eficiente. Otros beneficios incluyen la reducción de la duplicación de esfuerzos y permitir que las agencias centren sus recursos en la gestión de registros digitales. Finalmente, también permite que las agencias interactúen con el público en línea y reduce la necesidad de realizar transacciones en persona o por correo.

Este documento tiene como objetivo apoyar a los funcionarios de la agencia responsables de la digitalización, gestión y transferencia de los registros permanentes de los Archivos Nacionales. Proporciona criterios de éxito de alto nivel para la digitalización de registros permanentes, los cuales se organizan en torno a cuatro conceptos clave: Políticas, Acceso, Sistemas y Disposición.

Si no se gestionan adecuadamente, la digitalización puede dar como resultado registros digitales que son incompletos o de calidad insuficiente para cumplir con todos los mismos propósitos comerciales que los originales. Algunos registros podrían pasarse por alto, cierta información podría no capturarse adecuadamente, o las relaciones entre registros que son evidentes cuando estos están organizados en cajas, carpetas o carpetas podrían perderse debido a prácticas deficientes de denominación de archivos, metadatos insuficientes o una gestión deficiente.

Poder digital

Estado de Poder 2023 : poder digital / Apoorva PG … [et al.]. – 1a ed. Ciudad Autónoma de Buenos Aires : CLACSO ; Amsterdam : TNI
Transnational Institute, 2023

Texto completo

Este volumen, una colaboración entre CLACSO, TNI y FUHEM, describe la manera en que los gigantes tecnológicos han concentrado un vastísimo poder económico, lo cual, sumado a la colusión de los Estados, ha traído como resultado una extendida vigilancia, una creciente desinformación y un debilitamiento de los derechos de trabajadores y trabajadoras. Esta traducción al español del reporte número 11 de Estado de Poder, publicado anualmente, expone los actores, las implicancias y las estrategias de este poder digital, y comparte ideas sobre cómo los movimientos podrían llevar esta tecnología para que esté bajo el control popular

Una nueva investigación revela que «digitalizar libros puede estimular la demanda de copias físicas»

Nagaraj, Abhishek, y Imke Reimers. «Digitization and the Market for Physical Works: Evidence from the Google Books Project». American Economic Journal: Economic Policy 15, n.o 4 (noviembre de 2023): 428-58. https://doi.org/10.1257/pol.20210702.

Los editores de libros pusieron el grito en el cielo -en forma de numerosos recursos judiciales- hace casi dos décadas, cuando el proyecto Google Books digitalizó y distribuyó gratuitamente más de 25 millones de obras. Los editores argumentaban que la distribución digital gratuita socavaba el mercado de los libros físicos, pero una nueva investigación de Imke Reimers, de Cornell, y un colaborador suyo revela que podría ocurrir lo contrario, es decir, que aumentara la demanda de libros físicos gracias al descubrimiento en línea.

Reimers, profesora asociada de la Charles H. Dyson School of Applied Economics and Management, de la Cornell SC Johnson College of Business, y Abhishek Nagaraj, profesor adjunto de la Haas School of Business de la Universidad de California, Berkeley, explotaron una condición de experimento natural para examinar el impacto del proyecto de digitalización masiva de libros de Google en las ventas físicas.

Su trabajo, «Digitization and the Market for Physical Works: Evidence from the Google Books Project«, publicado el 31 de octubre en American Economic Journal: Economic Policy. Sus principales conclusiones: La digitalización puede aumentar las ventas de libros físicos hasta un 8% al estimular la demanda mediante el descubrimiento en línea. El aumento de las ventas fue mayor en el caso de los libros menos populares e incluso se extendió a las obras no digitalizadas de un autor.

Los investigadores analizaron un total de 37.743 libros escaneados entre 2005 y 2009. Examinaron las ventas de los dos años anteriores a este periodo de digitalización en comparación con los dos años posteriores, y descubrieron marcadas diferencias en la probabilidad de aumento de las ventas entre las copias digitalizadas y no digitalizadas. Aproximadamente el 40% de los títulos digitalizados experimentaron un aumento de las ventas entre 2003-04 y 2010-11, en comparación con menos del 20% de los títulos no digitalizados.

Reimers afirma que el «efecto descubrimiento» -que incluso se extiende a los libros no digitalizados de un autor cuyas obras digitalizadas busca un usuario- es un fuerte impulsor del aumento de las ventas. «No es un salto enorme en las ventas», dijo, «pero sigue siendo una buena noticia para las editoriales».

Library Copyright Alliance apoya la exención de la Oficina de Derechos de Autor de EE.UU. para que bibliotecas, archivos y museos puedan crear copias de preservación

Association of Research Libraries. «Library Copyright Alliance Supports US Copyright Office Exemption for Libraries, Archives, and Museums Breaking Digital Locks to Create Preservation Copies». Accedido 27 de octubre de 2023. https://www.arl.org/news/library-copyright-alliance-supports-us-copyright-office-exemption-for-libraries-archives-and-museums-breaking-digital-locks-to-create-preservation-copies/.

Este artículo analiza el apoyo de la Library Copyright Alliance (LCA) a la exención de la Oficina de Derechos de Autor de los Estados Unidos que permite a las bibliotecas, archivos y museos desbloquear discos DVD y Blu-ray con el propósito de crear copias de preservación.

El cambio climático, los conflictos humanos y las catástrofes naturales suponen riesgos para la vida y la salud de las personas, así como para las colecciones de materiales del patrimonio cultural. Para proteger estas valiosas colecciones en previsión de pérdidas debidas a catástrofes o al deterioro normal, las bibliotecas y los archivos deben evitar los bloqueos digitales de las obras de sus colecciones con el fin de preservarlas.

La Oficina de Derechos de Autor de los EE.UU. está de acuerdo: en su reciente notificación de propuesta de normativa, la oficina anunció su intención de renovar una exención que permite a las bibliotecas, archivos y museos que cumplan los requisitos romper los bloqueos digitales de los DVD y discos Blu-ray de sus colecciones al crear copias de conservación o sustitución de películas, incluidos programas de televisión y vídeos. La oficina concedió esta exención por primera vez en 2021; el actual ciclo de reglamentación es la primera vez que la exención se renueva.

Como parte de la actual reglamentación trienal de la Ley de Derechos de Autor para el Milenio Digital (DMCA), la Library Copyright Alliance (LCA) solicitó a la Oficina de Derechos de Autor la renovación de esta exención, aportando el testimonio de que «las instituciones de patrimonio cultural de todo el país han confiado en la exención… para hacer copias de conservación y sustitución de las películas de sus colecciones almacenadas en DVD y discos Blu-ray», ya que muchas películas de las colecciones «no están disponibles para su compra o transmisión» y los discos «siguen deteriorándose».

El LCA agradece que esta exención ofrezca a bibliotecas, archivos y museos la certeza de que romper los candados digitales para preservar las películas de sus colecciones no infringe el artículo 1201 de la DMCA. Pero las licencias de obras académicas digitales y materiales del patrimonio cultural pueden seguir representando un obstáculo si prohíben la conservación, el uso justo o la elusión de las medidas técnicas de protección.

La intervención del Congreso puede ser necesaria para aclarar que las excepciones y limitaciones previstas en la Ley de Derechos de Autor de EE.UU., o a través de la reglamentación de la Sección 1201, prevalecen sobre los términos de licencia que son incompatibles con esas exenciones. Por ejemplo, la Oficina de Derechos de Autor de EE.UU. ha propuesto un modelo de texto que establece que las bibliotecas, archivos y museos no serán responsables de infracción de los derechos de autor si realizan copias de conservación de obras cubiertas por cláusulas contractuales no negociables que prohíben tales actividades. La Ley de Derechos de Autor de Estados Unidos también podría modificarse para establecer que dichas cláusulas contractuales no son ejecutables.

En resumen, el artículo destaca la importancia de la exención que permite a las bibliotecas, archivos y museos desbloquear bloqueos digitales con fines de preservación y la necesidad de protecciones legales y claridad ante posibles barreras impuestas por los términos de licencia. Puede ser necesaria una acción del Congreso para reforzar estas protecciones.

Guía de gestión de la calidad de la digitalización NARA 2023

Digitization Quality Management Guide”. National Archives and Records Administration, 2023

Texto completo

Esta guía proporciona información detallada sobre los diversos aspectos de la gestión de calidad (QM) en la digitalización, incluyendo la garantía de calidad y control de calidad, así como el papel de las pruebas objetivas y la automatización en la optimización del control de calidad y los procesos de inspección.

Esta guía respalda la normativa de la Administración Nacional de Archivos y Registros (NARA) relativa a las normas de digitalización para registros permanentes (36 CFR 1236 Subparte E) y las normas de digitalización para registros temporales (36 CFR 1236 Subparte D).

Evaluación de la estrategia digital de la Biblioteca del Congreso

“Assessment of the Library of Congress’s Digital Strategy” Office of the Inspector General, Library of Congress, 2023

Texto completo

A pesar de estos logros, aún queda trabajo por hacer para conectar claramente la Estrategia de Colecciones Digitales y la Estrategia de Digitalización con los procesos generales de planificación estratégica y gobernanza de la Biblioteca. De lo contrario, la Biblioteca corre un mayor riesgo de no alcanzar sus objetivos estratégicos generales.

La Biblioteca se beneficiaría de una conexión más clara de su estrategia de colecciones digitales y su estrategia de digitalización con sus esfuerzos generales de planificación estratégica.

La Estrategia de colecciones digitales y la Estrategia de digitalización desempeñan un papel importante en la capacidad de la Biblioteca para alcanzar sus objetivos estratégicos generales, pero la LCSG no ha seguido las directrices de planificación estratégica de la SPPM y no ha dejado claros los vínculos. Esto incluye los vínculos entre las metas estratégicas generales, las metas de desempeño en los planes direccionales 2019-2023 de LCSG y los objetivos en la Estrategia de Colecciones Digitales y la Estrategia de Digitalización.

Directrices de digitalización de imágenes de FADGI 3a. ed. 2023

Technical Guidelines for Digitizing Cultural Heritage Materials. Federal Agencies Digital Guidelines Initiative (FADGI) Still Image Working Group

Texto completo

Ver anteriores ediciones

Federal Agencies Digital Guidelines Initiative (FADGI) Still Image Working Group ha finalizado la tercera edición de sus influyentes Technical Guidelines for Digitizing Cultural Heritage Materials. En junio de 2022, el grupo de trabajo publicó una versión preliminar de las directrices en el sitio web de la FADGI para que el público la revisara y comentara.

El grupo de trabajo recibió docenas de comentarios y preguntas sobre la versión preliminar durante el periodo de comentarios públicos. Una vez cerrado el periodo de comentarios en agosto de 2022, el grupo de trabajo dedicó varios meses a realizar revisiones adicionales para mejorar la Tercera Edición en respuesta a la recepción pública del borrador. La versión final se publicó el 10 de mayo de 2023.

Esta última edición amplía y revisa el contenido incluido en ediciones anteriores de las Directrices publicadas en 2010 y 2016. Las Directrices incluyen información sobre los cuatro componentes de un programa de obtención de imágenes conforme a los FADGI: parámetros técnicos de obtención de imágenes, mejores prácticas, evaluación de la conformidad de las imágenes digitales y personal profesional (nuevo en esta edición de las Directrices).

RLUK ofrece un conjunto de herramientas comunitarias para el desarrollo y la creación de salas de lectura virtuales (VRR)

Virtual Reading Rooms (VRRs) Toolkit

Las salas de lectura virtuales (VRR) ofrecen acceso digital a distancia a colecciones que no dependen de la digitalización. Mediante la transmisión en directo a través de visualizadores de alta resolución colocados en espacios físicos de investigación, los académicos, profesores o miembros del público pueden ver las colecciones patrimoniales y culturales de una institución y relacionarse digitalmente con ellas, solicitando a un miembro del personal que las coloque y reposicione para facilitar su investigación a distancia. Se trata de servicios emergentes y personalizados que proporcionan otro medio de acceso a materiales no digitalizados.

Los VRR formaron parte de la respuesta de emergencia de bibliotecas y archivos a los retos impuestos por la pandemia de Covid-19. Gracias a los VRR, muchas instituciones pudieron proporcionar acceso geográficamente remoto a colecciones y materiales didácticos no digitalizados a un público mundial.

Desde entonces, los VRR se han integrado cada vez más en la oferta de servicios existente de las instituciones como forma de garantizar su sostenibilidad y desarrollo ulterior. Además, las bibliotecas y los archivos son cada vez más conscientes del potencial de las RVR para hacer accesibles diferentes tipos de colecciones a una variedad de grupos de audiencia.

El conjunto de herramientas para salas de lectura virtuales (VRR) es un recurso para todas las instituciones que albergan colecciones, incluidas bibliotecas, archivos y museos, que estén interesadas en crear un servicio de consulta de VRR o se encuentren en las primeras fases de desarrollo de VRR.

En octubre de 2022, RLUK, en colaboración con sus socios, celebró un simposio internacional de sobre la «Creación de un conjunto de herramientas impulsadas por la comunidad para el desarrollo y la prestación de servicios de salas de lectura virtuales». Este conjunto de herramientas impulsadas por la comunidad constituye el resultado colaborativo del simposio y se basa en la información recopilada a través de charlas, debates y sesiones interactivas en las que los delegados compartieron sus experiencias en el desarrollo y la gestión de las VRR en beneficio del sector.