Archivo de la etiqueta: Digitalización

Las bibliotecas y los archivos están escaneando y subiendo a la red libros que están en el dominio público gracias a una laguna en los derechos de autor

 

 

1568125356491-gettyimages-576722836

 

Karl Bode. Libraries and Archivists Are Scanning and Uploading Books That Are Secretly in the Public Domain. MotherBoard, 2020

Texto completo

 

Millones de libros están secretamente en el dominio público gracias a una laguna en la ley de derechos de autor, un nuevo proyecto busca ponerlos en el Internet Archive. Un secreto de la industria editorial es que la mayoría de los libros americanos publicados antes de 1964 nunca renovaron sus derechos de autor, lo que significa que son de dominio público hoy en día. Basándose en ella bibliotecas y los archiveros están escaneando y subiendo libros publicados entre 1923 y 1964.

 

En su momento actual, todos los libros publicados en los Estados Unidos antes de 1924 son de dominio público, lo que significa que son de propiedad pública y pueden ser utilizados y copiados libremente. Los libros publicados en 1964 y después siguen estando bajo derecho de autor, y por ley lo estarán durante 95 años a partir de su fecha de publicación. Pero una laguna en el derecho de autor significa que hasta el 75 por ciento de los libros publicados entre 1923 y 1964 son de dominio público en secreto, lo que significa que son libres de leer y copiar. El problema es determinar qué libros son, debido a los arcaicos sistemas de registro de derechos de autor y a la enrevesada y cambiante ley de derechos de autor.

Por ello, una coalición de bibliotecas, voluntarios y archiveros han estado trabajando horas extras para identificar qué títulos son de dominio público, digitalizarlos y luego subirlos a Internet. La Biblioteca Pública de Nueva York encabeza el esfuerzo por identificar los títulos apropiados, digitalizarlos y subirlos a Internet Archive. Utilizando Python para automatizar partes del proceso, los organizadores y voluntarios se esfuerzan por hacer este trabajo a escala, incluyendo la verificación de que los derechos de autor no fueron renovados. Los voluntarios del Proyecto Gutenberg y otras organizaciones «tienen la tarea de localizar una copia del libro en cuestión, escanearlo, revisarlo y luego sacar ediciones en HTML y texto plano».

 

 

 

New York Times está utilizando Google Cloud para encontrar historias no contadas en millones de fotos archivadas

 

morgue7.max-2200x2200-1

 

Sam Greenfield. Picture what the cloud can do: How the New York Times is using Google Cloud to find untold stories in millions of archived photos. Google Cloud Blog, 2019

Ver completo

Durante más de 100 años, The Times ha archivado aproximadamente de cinco a siete millones de sus fotos antiguas en cientos de archivadores tres pisos debajo del nivel de la calle cerca de sus oficinas de Times Square en un lugar llamado «morgue». Muchas de las fotos han sido almacenadas en carpetas y no se habían visto en años. Aunque un catálogo de tarjetas proporciona una visión general del contenido del archivo, hay muchos detalles en las fotos que no se capturan en forma indexada.

El depósito contiene fotos de finales del siglo XIX, y muchos de sus contenidos tienen un gran valor histórico, algunos que no se almacenan en ningún otro lugar del mundo. En 2015, una tubería rota inundó la biblioteca de archivos, poniendo en riesgo toda la colección. Afortunadamente, solo se causaron daños menores, pero el evento planteó la pregunta: ¿cómo pueden almacenarse de manera segura algunos de los activos físicos más preciados de la compañía?

Google Cloud se ha asociado con The New York Times para ayudarlos a digitalizar su vasta colección de fotos. Está haciendo uso de numerosas herramientas dentro de Google Cloud Platform que les permiten almacenar de forma segura sus imágenes, proporcionarles una mejor interfaz para encontrar fotos y encontrar nuevos conocimientos incluso de los datos que aparecen en el reverso de las imágenes. No solo las imágenes de las fotos contienen información valiosa. En muchos casos, el reverso de las fotos incluye la hora y el lugar donde se tomó la foto.

Para preservar esta historia invaluable, y para darle a The Times la capacidad de mejorar sus informes con una historia visual y un contexto histórico aún más, The Times está digitalizando su archivo, utilizando Cloud Storage para almacenar escaneos de alta resolución de todas las imágenes del archivo.

Cloud Storage es un sistema duradero para almacenar objetos, y proporciona a los clientes como The Times una gestión automática del ciclo de vida, almacenamiento en regiones geográficamente distintas y una interfaz de administración y API fáciles de usar. Simplemente almacenar imágenes de alta resolución no es suficiente para crear un sistema que los editores de fotos puedan usar fácilmente. Un sistema de gestión de activos que funcione debe permitir que los usuarios puedan navegar y buscar fotos fácilmente. The Timesconstruyó una tubería de procesamiento que almacena y procesa las fotos y utilizará tecnología en la nube para procesar y reconocer texto, escritura a mano.

Así es como funciona. Una vez que una imagen se ingresa en el almacenamiento en la nube, The Times usa Cloud Pub / Sub para iniciar la canalización de procesamiento para realizar varias tareas. Las imágenes se redimensionan a través de servicios que se ejecutan en Google Kubernetes Engine (GKE) y los metadatos de la imagen se almacenan en una base de datos PostgreSQL que se ejecuta en Cloud SQL , la oferta de base de datos está totalmente administrada de Google.

En el caso de The Times, uno de los mayores desafíos en el escaneo de su archivo fotográfico ha sido agregar datos sobre el contenido de las imágenes. La API de Cloud Vision puede ayudar a llenar ese vacío. Si la parte posterior de las fotos contiene una gran cantidad de información útil, la API de Cloud Vision puede ayudarnos a procesarla, almacenarla y leerla. Este es solo el comienzo de lo que es posible para las empresas con archivos físicos. Pueden usar la API de Vision para identificar objetos, lugares e imágenes.

La API de lenguaje natural en la nube podría usarse para agregar información semántica adicional al texto reconocido. Por ejemplo, si pasamos el texto «The New York Time THE WAY IT WAY – Crowded Penn Station en 1942, una era en la que solo los valientes volaban – a Washington, Miami y varias estaciones de ruta» a través de Cloud Natural Language API, identifica correctamente «Penn Station», «Washington» y «Miami» como ubicaciones, y clasifica la oración completa en la categoría «viajes» y la subcategoría «autobús y ferrocarril». Es decir, utiliza un sistema de aprendizaje automático para obtener información adicional, de modo que es capaz a través de los datos obtenidos en la foto y de los contenidos en el sistema o web datos sobre la imagen que no estaban recogidos en la foto original a través de los datos masivos y la inteligencia artificial.

 

Editorialización: estructurando el espacio y la autoridad en la era digital

 

61i-gxrbftl

 

Vitali-Rosati,Marcello.  On Editorialization: Structuring Space and Authority in the Digital. Amsterdam:  Institute of Network Cultures, Amsterdam, 2018. ISBN: 978-94-92302-20-5.

Texto completo

PDF

ePub

 

En On Editorialization: Structuring Space and Authority in the Digital, Marcello Vitali-Rosati examina cómo cambia la autoridad en la era digital. La autoridad parece haberse desvanecido en la era de la web, ya que se cree que las relaciones espaciales de las que depende la autoridad se han nivelado: ya no hay límites ni fronteras, ni jerarquías ni estructuras organizadas. Vitali-Rosati afirma lo contrario: el espacio digital está bien estructurado y tiene formas específicas de autoridad. La editorialización es un proceso clave que organiza este espacio y, por lo tanto, da origen a la autoridad digital. Investigando este proceso de editorialización, Vitali-Rosati revela cómo se puede reconcebir la política en la era digital.

Las Bibliotecas de la Universidad Estatal de Louisiana han lanzado un laboratorio móvil de digitalización

 

leahforeground-1

 

 

Las Bibliotecas de la Universidad Estatal de Louisiana han lanzado el Laboratorio Móvil de Digitalización, una iniciativa que comparte equipos de digitalización y experiencia con pequeñas bibliotecas, archivos y museos de todo Louisiana. Para el proyecto piloto, finalizado en noviembre, los profesores y el personal de la LSU visitaron el Museo Jeanerette con escáneres y cámaras y pasaron una semana digitalizando los materiales históricos únicos del museo. El contenido creado durante esta iniciativa se agregará a la Biblioteca Digital de Louisiana. La tecnología y el personal limitado en muchas de las instituciones culturales del estado es una barrera para la participación en el LDL. El laboratorio les ayudará en ese esfuerzo.

El Laboratorio de Digitalización Móvil representa un importante paso adelante en los esfuerzos para proteger y presentar la historia de Louisiana.

 

 

 

 

120,000 libros de la colección de la Biblioteca Nacional de Israel estarán en línea gratis

2019-11-07_17-02-16

Ver noticia

 

La Biblioteca Nacional de Israel (NLI) y Google han anunciado que 120,000 libros de la colección NLI estarán en línea por primera vez, como parte de una colaboración histórica.

Los libros incluyen todos los libros sin derechos de autor de la NLI que aún no se han digitalizado. Alrededor del 45% de ellos están en hebreo y otros idiomas de letras hebreas, como el yiddish y el ladino, y el resto de las obras están en una variedad de idiomas, incluyendo latín, inglés, alemán, francés, árabe y ruso.

El proceso de digitalización ahora en curso es complejo. Los contenedores de envío de última generación que cumplen con los estrictos requisitos de control climático y seguridad transportan los libros desde la Biblioteca Nacional de Jerusalén hasta el centro de digitalización de Google en Alemania a través de Rotterdam.

Algunos de los libros de NLI digitalizados por Google como parte de la colaboración incluyen:

1. Phaedo o Sobre la inmortalidad de las almas , Prusia, ca. 1860
El primer libro de Moses Mendelssohn, publicado originalmente en alemán en 1767, fue uno de los libros más leídos de su tiempo. Esta es su primera traducción al hebreo.

2. La interpretación de los sueños , Zhovka, 1853
Según la portada, esta composición fue publicada originalmente por el rabino Manasseh ben Israel (1604-1657). Discute la importancia de los sueños desde una perspectiva judía, basándose en el Talmud, el Zohar y la filosofía occidental.

3. Cuentos de los sabios de Grecia, o, Palabras de los sabios , Vilna, 1864
Yehuda Leib Ben Zev, uno de los primeros seguidores del movimiento Haskalah, compiló breves biografías y resúmenes de las cosmovisiones de los antiguos filósofos griegos desde Solón hasta Zenón. El libro está escrito en hebreo, con una traducción yiddish vocalizada al lado «para las masas de nuestro pueblo que no entienden hebreo».

4. Sefer Me’Am Loez , Livorno, 1823
Sefer Me’Am Loez es una colección de Midrash, enseñanzas homiléticas de los sabios de la Biblia, escritas en ladino o judeoespañol. La primera edición se publicó en 1730 y la última en 1897. Gozó de una gran popularidad entre los judíos de habla ladina, y muchos la consideran la joya de la corona de la literatura ladina.

5. Los cinco libros de Moisés: Tzena U’rena , Sulzbach, 1785
La Tzena Urena es una traducción y adaptación yiddish de la Torá, escrita por primera vez en 1509, destinada principalmente a mujeres que generalmente no tenían la educación suficiente para estudiar el texto bíblico original. . Esta edición presenta hermosas ilustraciones en xilografía.

Profesiones Digitales 5. Teléfonos inteligentes. Abriendo las puertas al mundo digital

pd5

Rodríguez Cafranc, Pablo. Profesiones Digitales 5. Teléfonos inteligentes. Abriendo las puertas al mundo digital. Madrid:Fundación Telefónica, 2019

Texto completo

Nuestra vida digital cada vez pasa en mayor medida a través de los teléfonos inteligentes. El uso que hacemos de internet para trabajar, relacionarnos o entretenernos, se desvincula progresivamente de los dispositivos fijos, aquellos anclados a un lugar concreto, y se hace ubicuo. Y el smartphone es el terminal rey para acceder a las redes, preferido a otros como las tabletas o los wearables, los dispositivos que se incorporan a alguna parte de nuestro cuerpo e interactúan con él o con otros aparatos.

OCR: Herramienta moderna para textos antiguos

 

a1356571b0b538c5e7cceae228d7a52a

Página de una versión francesa del «Narrenschiff» (Barco de los Locos).

 

Original:
OCR: Modern tool for old texts
Eureka Alert 23-APR-2019
https://www.eurekalert.org/pub_releases/2019-04/uow-omt042319.php

 

Los historiadores y otros estudiosos de las Humanidades a menudo tienen que tratar con objetos de investigación difíciles: obras impresas de siglos de antigüedad que son difíciles de descifrar y a menudo se encuentran en un estado de conservación insatisfactorio. Muchos de estos documentos han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún queda un reto por superar: modernizar las fuentes antiguas digitalizadas con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Centro de Filología y Digitalidad de la Universidad Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una importante contribución al desarrollo de este campo.

Con OCR4all, el equipo de investigación de JMU pone a disposición de la comunidad científica una nueva herramienta. Convierte las impresiones históricas digitalizadas con una tasa de error inferior al uno por ciento en textos legibles por ordenador. Además, ofrece una interfaz gráfica de usuario que no requiere conocimientos de TI. Con herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que los usuarios tenían que trabajar con comandos de programación.

Desarrollado en cooperación con el Departamento de Humanidades

La nueva herramienta OCR4all fue desarrollada bajo la dirección de Christian Reul junto con sus colegas de informática, el profesor Frank Puppe (Catedrático de Inteligencia Artificial e Informática Aplicada) y Christoph Wick, así como Uwe Springmann (experto en Humanidades Digitales) y numerosos estudiantes y asistentes.

OCR4all tiene su origen en el proyecto JMU Kallimachos, financiado por el Ministerio Federal de Educación e Investigación de Alemania. Esta cooperación entre las Humanidades y la informática continuará y se institucionalizará en el recién fundado Centro de Filología y Digitalidad de la JMU.

En el desarrollo de OCR4all, los informáticos han colaborado con el departamento de Humanidades de JMU, incluyendo estudios alemanes y románticos y estudios literarios en el proyecto «Narragonien digital». El objetivo era digitalizar el «Narrenschiff», una sátira moral de Sebastian Brant, un bestseller del siglo XV que fue traducido a muchos idiomas. Además, OCR4all se ha utilizado con frecuencia en el Kolleg de la JMU «Medieval and Early Modern Times».

OCR4all está disponible gratuitamente para el público en la plataforma GitHub (con instrucciones y ejemplos): https://github.com/OCR4all

Cada imprenta tenía su propia fuente

Christian Reul explica los desafíos que implica el desarrollo de OCR4all: El reconocimiento automático de texto (OCR = Reconocimiento Óptico de Caracteres) ha estado funcionando muy bien para las fuentes modernas desde hace algún tiempo. Sin embargo, este no ha sido el caso de las fuentes históricas.

«Uno de los mayores problemas era la tipografía», dice Reul. Una de las razones es que las primeras imprentas del siglo XV no utilizaban fuentes uniformes. «Sus sellos de impresión fueron todos tallados por ellos mismos, cada imprenta tenía prácticamente sus propios caracteres»

Índices de error por debajo del uno por ciento

A menudo no es fácil distinguir las diferencias en impresiones antiguas, pero el software puede aprender a reconocer estas sutilezas. Para ello, debe recibir formación sobre el material de muestra. En su trabajo, Reul ha desarrollado métodos para hacer más eficiente la formación. En un estudio de caso con seis impresiones históricas de los años 1476 a 1572, la tasa media de errores en el reconocimiento automático de texto se redujo del 3,9 al 1,7 por ciento.

No sólo se mejoró la metodología, sino que el informático Christoph Wick, de la JMU, también perfeccionó decisivamente el componente técnico mediante el desarrollo de la herramienta Calamari OCR, que también está disponible de forma gratuita y que desde entonces se ha integrado completamente en OCR4all. Por lo tanto, se obtuvieron resultados aún mejores: Ahora, incluso para las obras impresas más antiguas, se pueden alcanzar tasas de error de menos del uno por ciento en general.

Proyectos léxicos

Reul también ha convencido a socios externos de la calidad de la investigación de OCR de Würzburg. En cooperación con el «Zentrum für digitale Lexikographie der deutschen Sprache» (Berlín), el «Wörterbuch der deutschen Sprache» (Diccionario de la Lengua Alemana) de Daniel Sanders ha sido indexado digitalmente y se está preparando una publicación científica sobre este trabajo. Las diferentes líneas de este texto a menudo contienen diferentes fuentes, que representan diferentes informaciones semánticas. Aquí, el enfoque existente para el reconocimiento de caracteres se amplió de tal manera que no sólo el texto, sino también la tipografía y, por lo tanto, la compleja estructura de contenido del léxico, pueden reproducirse con gran precisión.

Weblinks

OCR4all en GitHub (https://github.com/OCR4all)

Calamari en GitHub (https://github.com/Calamari-OCR)

Enlace a la publicación (estudio de caso con seis libros históricos) (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_1.pdf)

Publicación que combina mejoras metodológicas y técnicas (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_4.pdf)

 

 

Crowdfunding para financiar proyectos de digitalización y difusión del patrimonio en las instituciones

operator-preparing-to-digitize-1024x683

TIP10: Crowdfunding para financiar proyectos de digitalización y difusión del patrimonio en las instituciones. Madrid: Fesabid, 2019

Texto completo

La microfinanciación o “crowdfunding” es una forma de micromecenazgo entre múltiples personas que reúnen su dinero, generalmente a través de internet, para lograr un fin en común o apoyar los esfuerzos iniciados por otras personas u organizaciones. A cambio, las personas o “mecenas” que cofinancian un proyecto reciben una  compensación en función del importe aportado. Este modelo ha tenido buena acogida en la financiación de proyectos culturales. Existen también otros tipos de crowdfunding como de donaciones (altruista y sin compensación), préstamos (dinero prestado a bajo interés) e inversión (a cambio de participaciones). En el sector de las instituciones de la memoria (bibliotecas, archivos y museos) el crowdfunding se utiliza sobretodo para proyectos de restauración y difusión del patrimonio.

 

Recomendaciones para la producción de planes de preservación digital

eaba217baeabbfdbecfbc8ef75637eaf

Recomendações para a produção de planos de preservação digital, Lisboa: Direção Geral do Livro, dos Arquivos e das Bibliotecas, 2019

Descargar

Se acaba de publicar la segunda versión de las recomendaciones para producir planes de preservación digital. Esta versión se ha simplificado al facilitar el llenado de información y la toma de decisiones sobre estrategias de preservación digital. Las hojas de recopilación de datos también se han revisado con el fin de simplificar y acelerar su finalización.

 

¿Cómo digitalizar un archivo?: guía para llevar a cabo con éxito un proyecto de digitalización

9781783744763

Sutherland, P., J. Butterworth, et al. (). [e-Book] Remote Capture. Cambridge, Open Book Publishers, 2018

Texto completo

Se trata de una guía de lectura obligatoria si está planeando embarcarse en un proyecto académico de digitalización. Adaptado a las especificaciones de los proyectos EAP (Programa de Archivos en Peligro de Extinción) de la Biblioteca Británica, está lleno de consejos sólidos y prácticos sobre cómo planificar y llevar a cabo con éxito un proyecto de digitalización en condiciones potencialmente difíciles. Desde establecer el alcance del proyecto, pasando por consideraciones prácticas sobre el equipo, las rutinas de trabajo, el personal y la negociación de la política local, hasta realizar copias de seguridad de los datos y completar con éxito el trabajo, «Remote Capture» le guía a través de cada etapa. Rebosante de consejos, sugerencias y experiencias útiles de personas que han completado proyectos en todo el mundo, desde América Latina hasta África y Asia, este libro ofrece una muestra de los retos a los que se puede enfrentar y las mejores formas de encontrar soluciones. Será particularmente útil para aquellos que solicitan una subvención de EAP, pero el consejo en estas páginas es necesario para cualquiera que se pregunte cómo digitalizar un archivo.