Archivo de la etiqueta: Digitalización

Harvard publica un enorme conjunto de datos gratuitos de entrenamiento en IA del más de 1 millón de libros que tiene digitalizados

Leppert, Greg. «Harvard’s Library Innovation Lab Launches Institutional Data InitiativeHarvard Law School Today, December 12, 2024. https://hls.harvard.edu/today/harvards-library-innovation-lab-launches-initiative-to-use-public-domain-data-to-train-artificial-intelligence/.

La Iniciativa de Datos Institucionales (IDI, por sus siglas en inglés) es un nuevo programa lanzado por el Harvard Library Innovation Lab con el objetivo de mejorar la accesibilidad de los datos de dominio público para el entrenamiento de la inteligencia artificial (IA). Este programa tiene como foco hacer disponibles grandes cantidades de datos de instituciones de conocimiento, incluyendo casi un millón de libros digitalizados en la Biblioteca de la Facultad de Derecho de Harvard, para alimentar modelos

 Institutional Data Initiative (IDI), de la Biblioteca de la Facultad de Derecho de Harvard, lanzada el 12 de diciembre de 2024, tiene como objetivo ampliar y mejorar los recursos de datos disponibles para entrenar modelos de inteligencia artificial (IA). Este programa se centra en hacer accesibles los materiales de dominio público almacenados en instituciones como la Biblioteca de la Facultad de Derecho de Harvard, incluida una base de datos de casi un millón de libros digitalizados, para entrenar IA.

La iniciativa busca resolver la falta de diversidad y la subrepresentación de ciertos grupos en los conjuntos de datos utilizados actualmente para entrenar IA. Estos datos, proveniente de colecciones de instituciones académicas y bibliotecas públicas, son clave para desarrollar sistemas de IA más inclusivos y representativos. Según Greg Leppert, director ejecutivo de IDI, estos conjuntos de datos deben ser parte de la «dieta saludable» de datos para entrenar IA, ya que las IA solo son tan diversas como los datos con los que se entrenan.

Además, el proyecto busca garantizar que los datos de dominio público, como los obtenidos a través del Caselaw Access Project, no sean alterados ni omitidos, preservando la integridad de las colecciones institucionales. IDI también trabaja en colaboración con otras instituciones de conocimiento, como la Biblioteca Pública de Boston, y planea realizar un simposio para fomentar la cooperación y la liberación de datos entre diversas instituciones.

En general esta Iniciativa de Datos Institucionales de Harvard tiene como objetivo mejorar el acceso a los datos públicos y promover el uso ético de estos recursos para el entrenamiento de IA, con el fin de asegurar que las tecnologías futuras beneficien a la humanidad de manera más equitativa.

Documento de opinión sobre la digitalización avanzada de la investigación

European Commission, Directorate-General for Research and Innovation, Opinion paper on advanced digitalisation of research, Publications Office of the European Union, 2024, https://data.europa.eu/doi/10.2777/932733

El documento discute cómo la digitalización avanzada en la recolección, validación, análisis y simulación de datos puede mejorar la reproducibilidad de la investigación y la usabilidad de los datos. Resalta que, al aplicar principios y políticas de Ciencia Abierta, se puede crear una masa crítica de Datos FAIR evaluados por calidad (QAFAIRD) y objetos de investigación. Esto permitirá el desarrollo confiable y seguro de la Inteligencia Artificial, el Aprendizaje Automático y los Entornos Virtuales de Investigación.

El documento identifica el estado actual de la digitalización avanzada en la investigación y señala los cuellos de botella que deben abordarse para cumplir con estos objetivos. Además, busca contribuir a la plena operatividad del EOSC (European Open Science Cloud).

Música y medios digitales: Una antropología planetaria

Music and Digital Media: A planetary anthropology. UCL Press, 2022.

Texto completo

«Música y Medios Digitales» es el primer estudio etnográfico comparativo que explora el impacto global de los medios digitales en la música. Ofrece un marco teórico innovador para entender los medios digitales a través de la música, destacando cómo la música encapsula las promesas y desafíos de la era digital. El libro está estructurado en diez capítulos, con ocho etnografías originales exhaustivas, una introducción autorizada y un epílogo comparativo. Cinco capítulos se centran en varios géneros musicales del Sur y el Norte global, incluyendo Kenia, Argentina, India, Canadá y el Reino Unido. Los tres capítulos restantes exploran innovaciones digitales, incluyendo sitios de intercambio entre pares, la plataforma de streaming Spotify y el software interactivo de música Max.

Este libro integra de manera única la investigación etnográfica sobre diversos géneros musicales tanto del Norte como del Sur global en un marco comparativo a gran escala, creando un paradigma innovador para la antropología comparativa. Ilustra cómo la música expande el campo de la antropología mientras se involucra con temas clásicos de la teoría antropológica.

Proyecto de recuperación, digitalización y acceso a la colección de la Biblioteca del Instituto de Estudos Brasileiros

Thomé, Lúcia Elena, y Isabel Wilmers Bei. Coleção Alberto Lamego IEB/USP: recuperação, formação, digitalização e acesso. Portal de Livros Abertos da USP. Portal de Livros Abertos da USP, 2019. https://doi.org/10.11606/9788586748165

A lo largo de 2014 y 2015, el Laboratorio de Conservación y Restauración del IEB, bajo la coordinación de Lúcia Elena Thomé, desarrolló el proyecto de recuperación, digitalización y acceso a la «Colección Alberto Lamego» de la Biblioteca del Instituto. El trabajo, cuyo proceso se presenta en este número de Cadernos do IEB, se llevó a cabo también a través de tratamientos de conservación preventiva, restauración y formación técnica de especialistas adquirida durante un curso de extensión universitaria. El proyecto fue premiado en la convocatoria de Preservación de Colecciones y Patrimonio Cultural promovida por el Decanato de Cultura y Extensión. Implicó la integración profesional interdisciplinaria, tanto dentro del propio Instituto como con especialistas de otras instituciones.

Los libros como aliados: el impulso de las bibliotecas para democratizar la inteligencia artificial

Hansen, Dave. «Books Are Big AI’s Achilles Heel». Authors Alliance (blog), 13 de mayo de 2024. https://www.authorsalliance.org/2024/05/13/books-are-big-ais-achilles-heel/.


El avance rápido de la inteligencia artificial está transformando cómo trabajamos y vivimos, una revolución que nos afectará a todos. Mientras que el impacto de la IA sigue expandiéndose, la operación y los beneficios de la tecnología están cada vez más concentrados en un pequeño número de gigantescas corporaciones, incluyendo a OpenAI, Google, Meta, Amazon y Microsoft.

Desafiar este emergente oligopolio de la IA parece intimidante. Los últimos modelos de IA ahora cuestan miles de millones de dólares, más allá de los presupuestos de startups e incluso de las universidades de investigación de élite, que a menudo han generado las nuevas ideas e innovaciones que avanzan el estado de la inteligencia artificial.

Pero las universidades tienen un arma secreta que podría nivelar el campo de juego de la IA: sus bibliotecas. La potencia informática puede ser una parte importante de la IA, pero el otro ingrediente clave es los datos de entrenamiento. La inmensa escala es esencial para estos datos, pero también lo es su calidad.

Dada su voraz apetencia por el texto para alimentar sus grandes modelos de lenguaje, las principales compañías de IA han tomado todas las palabras que pueden encontrar, incluyendo de foros en línea, subtítulos de YouTube y documentos de Google. Esto no es exactamente «lo mejor que se ha pensado y dicho», para usar la frase punzante de Matthew Arnold. En la búsqueda caótica de la cantidad por parte de la Gran IA, la calidad ha quedado en un segundo plano. La frecuencia de «alucinaciones», inexactitudes actualmente endémicas en las salidas de la IA, es motivo de una preocupación aún mayor.

La manera obvia de rectificar esta falta de calidad y la tenue relación con la verdad es mediante el entrenamiento de los modelos a través de libros. Desde el advenimiento de la imprenta, los autores han publicado más de 100 millones de libros. Estos volúmenes, conservados durante generaciones en los estantes de las bibliotecas, son quizás el reflejo más sofisticado del pensamiento humano desde el principio de la historia registrada, conteniendo dentro de ellos algunas de nuestras mejores (y peores) ideas. En promedio, tienen una calidad editorial excepcional en comparación con otros textos, capturan una amplitud y diversidad de contenido, una mezcla vívida de estilos y utilizan la narrativa de larga extensión para comunicar argumentos y conceptos matizados.

Los principales proveedores de IA han buscado aprovechar esta fuente de inteligencia humana para alimentar lo artificial, aunque a menudo mediante métodos cuestionables. Algunas compañías han recurrido a un infame conjunto de miles de libros, aparentemente recuperados de sitios web piratas sin permiso, llamados «Books3». También han buscado licencias directamente de los editores, utilizando sus enormes presupuestos para comprar lo que no pueden recoger. Meta incluso consideró comprar uno de los mayores editores del mundo, Simon & Schuster.

Como piedra angular de nuestra cultura compartida y como posible base para una mejor inteligencia artificial, los libros son demasiado importantes para fluir a través de estos canales comprometidos o costosos. ¿Qué pasaría si hubiera una colección gestionada por bibliotecas disponible para una amplia gama de investigadores de IA, incluidos los de universidades, instituciones de investigación sin fines de lucro y pequeñas empresas, así como las grandes?

Tales colecciones vastas de libros digitalizados existen en la actualidad. Google, al invertir millones de dólares en su proyecto de escaneo de libros, tiene acceso a más de 40 millones de libros, un activo valioso que sin duda les gustaría mantener en exclusiva. Afortunadamente, esos libros digitalizados también son mantenidos por las bibliotecas asociadas de Google. Las bibliotecas de investigación y otras organizaciones sin fines de lucro tienen reservas adicionales de libros digitalizados derivados de sus propias operaciones de escaneo, provenientes de libros en sus propias colecciones. Juntos, representan una formidable agregación de textos.

Un conjunto de datos de entrenamiento liderado por bibliotecas de libros diversificaría y fortalecería el desarrollo de la IA. Las bibliotecas de investigación digitalizadas son más que lo suficientemente grandes y de sustancialmente mayor calidad como para ofrecer una alternativa convincente a los conjuntos de datos existentes dispersos. Estas instituciones e iniciativas ya han trabajado en muchos de los problemas de derechos de autor más desafiantes, al menos en lo que respecta a cómo se aplica el uso justo a usos de investigación sin fines de lucro como el análisis computacional. Si el uso justo también se aplica a la IA comercial, o a modelos construidos a partir de fuentes dudosas como Books3, aún está por verse.

Los textos digitales mantenidos por las bibliotecas provienen de libros adquiridos de manera legal, una inversión de miles de millones de dólares, cabe señalar, al igual que esos grandes centros de datos, y las bibliotecas tienen inherentemente un respeto por los intereses de los autores y titulares de derechos al tener en cuenta preocupaciones sobre el consentimiento, el crédito y la compensación. Además, tienen una disposición de interés público que puede tener en cuenta los desafíos sociales y éticos particulares del desarrollo de la IA. Un consorcio de bibliotecas podría distinguir entre las diferentes necesidades y responsabilidades de los investigadores académicos, los nuevos participantes en el mercado y los grandes actores comerciales.

Si no recurrimos a las bibliotecas para guiar el entrenamiento de la IA sobre el contenido profundo de los libros, veremos un refuerzo de los mismos oligopolios que dominan el sector tecnológico actual. Solo las empresas más grandes y mejor financiadas adquirirán estos valiosos textos, lo que conducirá a una mayor concentración en la industria. Otros serán impedidos de crear nuevas formas imaginativas de IA basadas en lo mejor que se ha pensado y dicho. Como siempre lo han hecho, al democratizar el acceso, las bibliotecas pueden apoyar el aprendizaje y la investigación para todos, asegurando que la IA se convierta en el producto de muchos en lugar de unos pocos

NISO publica un borrador sobre Práctica Recomendada del Sistema Interoperable de Préstamos Digitales Controlados (IS-CDL)

«Interoperable System of Controlled Digital Lending | NISO website». Accedido 25 de marzo de 2024. https://www.niso.org/standards-committees/is-cdl.

PDF

La Organización Nacional de Normas de Información estadounidense (NISO) anunció publica el borrador «Interoperable System of Controlled Digital Lending (IS-CDL) Recommended Practice» (IS-CDL) (NISO RP-44-202X) disponible para comentarios públicos hasta el 21 de abril en el sitio web del proyecto.

Las bibliotecas a menudo necesitan prestar copias digitales de contenido impreso de sus colecciones por diversas razones, incluyendo cuando el acceso a las colecciones físicas se interrumpe, como en la pandemia de COVID-19 o cuando ocurre un desastre natural, o cuando el artículo físico es demasiado frágil para circular. El Préstamo Digital Controlado (CDL) permite a las bibliotecas replicar el derecho de prestar sus elementos adquiridos legalmente en formato digital a los usuarios bajo condiciones «controladas», lo que significa que una biblioteca puede prestar solo el número de copias de un título específico que posee y que se implementan controles para evitar la copia o distribución del trabajo. El proceso de implementación del CDL puede ser bastante complejo y debe tener en cuenta varios escenarios y requisitos de sistemas.

Respaldado por una subvención de la Fundación Andrew W. Mellon y formado en 2022, el grupo de trabajo IS-CDL de NISO ha completado un esquema de los procesos técnicos y funcionales necesarios para que las bibliotecas implementen de manera interoperable el CDL en una variedad de situaciones. Su borrador de Práctica Recomendada incluye cuatro modelos arquitectónicos distintos que cubren tanto el CDL dentro de una sola institución como la infraestructura de CDL compartida: 1) Sistema de CDL independiente, 2) Sistema Integrado basado en la Institución, 3) Infraestructura de CDL compartida/Sistema Integrado basado en el Consorcio, y 4) CDL Distribuido/Descentralizado. Estos modelos se describen utilizando atributos comunes, lo que permite a los posibles adoptantes comparar y considerar aspectos prácticos de cómo podrían desarrollarse o implementarse en un entorno local. Las recomendaciones específicas del modelo permiten a los lectores comprender mejor los requisitos del sistema para varios tipos de escenarios de préstamo en una biblioteca individual o a través de un consorcio o conjunto de bibliotecas. El documento también incluye recomendaciones sobre consideraciones transversales al modelo, como las prácticas de conversión de texto, el uso de formatos de archivo, estándares de accesibilidad y descripciones bibliográficas. Se señala que las preguntas legales y de derechos de autor sobre el CDL no están incluidas en el alcance del grupo de trabajo; se recomienda a las bibliotecas que consulten a su asesor legal antes de implementar un programa de CDL.

Allen Jones, Co-Presidente del Grupo de Trabajo y Director de Bibliotecas Digitales y Servicios Técnicos en The New School, afirmó: «Esperamos que esta Práctica Recomendada ayude a las bibliotecas a diseñar servicios de préstamo digital. Este documento ilustra los requisitos de interoperabilidad para los diseñadores de sistemas de CDL para apoyar la circulación y el préstamo entre bibliotecas. Los comentarios de la comunidad mejorarán la publicación final y nos ayudarán a satisfacer las necesidades de tantas organizaciones como sea posible.»

«Después de muchos meses de trabajo colaborativo, estamos emocionados de lanzar el borrador de la Práctica Recomendada para comentarios públicos,» dijo Jennie Rose Halperin, Co-Presidenta del Grupo de Trabajo y Directora de Futuros de Biblioteca en el Centro Engelberg de la Ley de Innovación y Política de la Ley de la NYU. «Este documento contextualiza las muchas formas en que las bibliotecas y comunidades pueden utilizar el CDL, con especial atención a los grupos de interés y una visión general exhaustiva de los modelos potenciales tanto en el presente como en el futuro. El grupo de trabajo IS-CDL de NISO está comprometido con mejorar la accesibilidad de las colecciones de bibliotecas, y este conjunto de prácticas y normas proporciona la base para el futuro de la digitalización de bibliotecas.»

Criterios de éxito para la digitalización de registros permanentes

Success Criteria for Digizing Permanent Records.  National Archives and Records Administration (NARA), 2023

Texto completo

 National Archives and Records Administration (NARA) emitió regulaciones con estándares de digitalización para registros permanentes con un propósito específico: ayudar al gobierno federal en la transición hacia la gestión completamente electrónica de registros. Para lograr la visión de un gobierno completamente digital, es crucial que los registros digitales puedan cumplir las mismas funciones que sus equivalentes analógicos. Estos registros digitalizados se transferirán a las posesiones de los Archivos Nacionales de los Estados Unidos y se preservarán como una parte valiosa de la historia de nuestra nación.

Los beneficios de un gobierno totalmente digital son evidentes. Al convertir los procesos comerciales en flujos de trabajo completamente digitales y digitalizar registros en papel y analógicos para respaldar esos flujos de trabajo, las agencias podrán cumplir mejor con sus misiones y atender a sus clientes de manera más eficiente. La transición a procesos comerciales digitales ayuda a las agencias a satisfacer las necesidades de los clientes de manera más rápida y eficiente. Otros beneficios incluyen la reducción de la duplicación de esfuerzos y permitir que las agencias centren sus recursos en la gestión de registros digitales. Finalmente, también permite que las agencias interactúen con el público en línea y reduce la necesidad de realizar transacciones en persona o por correo.

Este documento tiene como objetivo apoyar a los funcionarios de la agencia responsables de la digitalización, gestión y transferencia de los registros permanentes de los Archivos Nacionales. Proporciona criterios de éxito de alto nivel para la digitalización de registros permanentes, los cuales se organizan en torno a cuatro conceptos clave: Políticas, Acceso, Sistemas y Disposición.

Si no se gestionan adecuadamente, la digitalización puede dar como resultado registros digitales que son incompletos o de calidad insuficiente para cumplir con todos los mismos propósitos comerciales que los originales. Algunos registros podrían pasarse por alto, cierta información podría no capturarse adecuadamente, o las relaciones entre registros que son evidentes cuando estos están organizados en cajas, carpetas o carpetas podrían perderse debido a prácticas deficientes de denominación de archivos, metadatos insuficientes o una gestión deficiente.

Poder digital

Estado de Poder 2023 : poder digital / Apoorva PG … [et al.]. – 1a ed. Ciudad Autónoma de Buenos Aires : CLACSO ; Amsterdam : TNI
Transnational Institute, 2023

Texto completo

Este volumen, una colaboración entre CLACSO, TNI y FUHEM, describe la manera en que los gigantes tecnológicos han concentrado un vastísimo poder económico, lo cual, sumado a la colusión de los Estados, ha traído como resultado una extendida vigilancia, una creciente desinformación y un debilitamiento de los derechos de trabajadores y trabajadoras. Esta traducción al español del reporte número 11 de Estado de Poder, publicado anualmente, expone los actores, las implicancias y las estrategias de este poder digital, y comparte ideas sobre cómo los movimientos podrían llevar esta tecnología para que esté bajo el control popular

Una nueva investigación revela que «digitalizar libros puede estimular la demanda de copias físicas»

Nagaraj, Abhishek, y Imke Reimers. «Digitization and the Market for Physical Works: Evidence from the Google Books Project». American Economic Journal: Economic Policy 15, n.o 4 (noviembre de 2023): 428-58. https://doi.org/10.1257/pol.20210702.

Los editores de libros pusieron el grito en el cielo -en forma de numerosos recursos judiciales- hace casi dos décadas, cuando el proyecto Google Books digitalizó y distribuyó gratuitamente más de 25 millones de obras. Los editores argumentaban que la distribución digital gratuita socavaba el mercado de los libros físicos, pero una nueva investigación de Imke Reimers, de Cornell, y un colaborador suyo revela que podría ocurrir lo contrario, es decir, que aumentara la demanda de libros físicos gracias al descubrimiento en línea.

Reimers, profesora asociada de la Charles H. Dyson School of Applied Economics and Management, de la Cornell SC Johnson College of Business, y Abhishek Nagaraj, profesor adjunto de la Haas School of Business de la Universidad de California, Berkeley, explotaron una condición de experimento natural para examinar el impacto del proyecto de digitalización masiva de libros de Google en las ventas físicas.

Su trabajo, «Digitization and the Market for Physical Works: Evidence from the Google Books Project«, publicado el 31 de octubre en American Economic Journal: Economic Policy. Sus principales conclusiones: La digitalización puede aumentar las ventas de libros físicos hasta un 8% al estimular la demanda mediante el descubrimiento en línea. El aumento de las ventas fue mayor en el caso de los libros menos populares e incluso se extendió a las obras no digitalizadas de un autor.

Los investigadores analizaron un total de 37.743 libros escaneados entre 2005 y 2009. Examinaron las ventas de los dos años anteriores a este periodo de digitalización en comparación con los dos años posteriores, y descubrieron marcadas diferencias en la probabilidad de aumento de las ventas entre las copias digitalizadas y no digitalizadas. Aproximadamente el 40% de los títulos digitalizados experimentaron un aumento de las ventas entre 2003-04 y 2010-11, en comparación con menos del 20% de los títulos no digitalizados.

Reimers afirma que el «efecto descubrimiento» -que incluso se extiende a los libros no digitalizados de un autor cuyas obras digitalizadas busca un usuario- es un fuerte impulsor del aumento de las ventas. «No es un salto enorme en las ventas», dijo, «pero sigue siendo una buena noticia para las editoriales».

Library Copyright Alliance apoya la exención de la Oficina de Derechos de Autor de EE.UU. para que bibliotecas, archivos y museos puedan crear copias de preservación

Association of Research Libraries. «Library Copyright Alliance Supports US Copyright Office Exemption for Libraries, Archives, and Museums Breaking Digital Locks to Create Preservation Copies». Accedido 27 de octubre de 2023. https://www.arl.org/news/library-copyright-alliance-supports-us-copyright-office-exemption-for-libraries-archives-and-museums-breaking-digital-locks-to-create-preservation-copies/.

Este artículo analiza el apoyo de la Library Copyright Alliance (LCA) a la exención de la Oficina de Derechos de Autor de los Estados Unidos que permite a las bibliotecas, archivos y museos desbloquear discos DVD y Blu-ray con el propósito de crear copias de preservación.

El cambio climático, los conflictos humanos y las catástrofes naturales suponen riesgos para la vida y la salud de las personas, así como para las colecciones de materiales del patrimonio cultural. Para proteger estas valiosas colecciones en previsión de pérdidas debidas a catástrofes o al deterioro normal, las bibliotecas y los archivos deben evitar los bloqueos digitales de las obras de sus colecciones con el fin de preservarlas.

La Oficina de Derechos de Autor de los EE.UU. está de acuerdo: en su reciente notificación de propuesta de normativa, la oficina anunció su intención de renovar una exención que permite a las bibliotecas, archivos y museos que cumplan los requisitos romper los bloqueos digitales de los DVD y discos Blu-ray de sus colecciones al crear copias de conservación o sustitución de películas, incluidos programas de televisión y vídeos. La oficina concedió esta exención por primera vez en 2021; el actual ciclo de reglamentación es la primera vez que la exención se renueva.

Como parte de la actual reglamentación trienal de la Ley de Derechos de Autor para el Milenio Digital (DMCA), la Library Copyright Alliance (LCA) solicitó a la Oficina de Derechos de Autor la renovación de esta exención, aportando el testimonio de que «las instituciones de patrimonio cultural de todo el país han confiado en la exención… para hacer copias de conservación y sustitución de las películas de sus colecciones almacenadas en DVD y discos Blu-ray», ya que muchas películas de las colecciones «no están disponibles para su compra o transmisión» y los discos «siguen deteriorándose».

El LCA agradece que esta exención ofrezca a bibliotecas, archivos y museos la certeza de que romper los candados digitales para preservar las películas de sus colecciones no infringe el artículo 1201 de la DMCA. Pero las licencias de obras académicas digitales y materiales del patrimonio cultural pueden seguir representando un obstáculo si prohíben la conservación, el uso justo o la elusión de las medidas técnicas de protección.

La intervención del Congreso puede ser necesaria para aclarar que las excepciones y limitaciones previstas en la Ley de Derechos de Autor de EE.UU., o a través de la reglamentación de la Sección 1201, prevalecen sobre los términos de licencia que son incompatibles con esas exenciones. Por ejemplo, la Oficina de Derechos de Autor de EE.UU. ha propuesto un modelo de texto que establece que las bibliotecas, archivos y museos no serán responsables de infracción de los derechos de autor si realizan copias de conservación de obras cubiertas por cláusulas contractuales no negociables que prohíben tales actividades. La Ley de Derechos de Autor de Estados Unidos también podría modificarse para establecer que dichas cláusulas contractuales no son ejecutables.

En resumen, el artículo destaca la importancia de la exención que permite a las bibliotecas, archivos y museos desbloquear bloqueos digitales con fines de preservación y la necesidad de protecciones legales y claridad ante posibles barreras impuestas por los términos de licencia. Puede ser necesaria una acción del Congreso para reforzar estas protecciones.