Archivo de la etiqueta: Digitalización

Transformación digital para las bibliotecas públicas del Reino Unido: Cinco enfoques para una «Presencia Digital Única»

sdp-report-high-res-single-page_page_01

Connolly, Edmund. Digital Transformation for UK Public Libraries: Five approaches to a ‘Single Digital Presence. lonson: The British Library, 2019

Texto completo

Digital Transformation for UK Public Libraries: Five approaches to a ‘Single Digital Presence que fue publicado conjuntamente por la Biblioteca Británica, el Consejo de las Artes de Inglaterra y el Carnegie UK Trust, explora cómo podría ser una nueva plataforma en línea (o «presencia digital única») para las bibliotecas públicas del Reino Unido, para qué podría utilizarse y cómo podría encajar dicha oferta en los sistemas de bibliotecas digitales existentes.

Sobre la base de una investigación exhaustiva, el informe identifica y evalúa cinco posibles opciones para una nueva plataforma digital para las bibliotecas. Estas opciones reflejan una serie de consideraciones, entre ellas: la conveniencia, la complejidad, la viabilidad y la facilidad de aplicación.

Fomento de la ciudadanía digital mediante el uso seguro y responsable de las TIC

23501aa23a4b398319a14fd0792f0877

Fostering Digital Citizenship through Safe and Responsible Use of ICT: A review of current status in Asia and the Pacific as of December 2014. APEID-ICT in Education, UNESCO Asia-Pacific Regional Bureau of Education, 2015

Texto completo

La tecnología de la información y las comunicaciones (TIC) desempeña un papel fundamental en la facilitación de un desarrollo humano inclusivo y sostenible al proporcionar a las personas no sólo «acceso» a la información y los servicios, sino también oportunidades de participar y contribuir a la economía del conocimiento («establecimiento de redes»). El «potencial catalizador de las TIC para hacer avanzar los programas de desarrollo y prioridades», como se establece en los Objetivos de Desarrollo del Milenio (ODM), se ha destacado y se ha visto como vehículo para promover, posibilitar y apoyar los tres pilares del desarrollo sostenible, a saber crecimiento económico, inclusión social y sostenibilidad ambiental

España, nación digital 2020

naciondigital3

España, nación digital, 2020

Texto completo

A través del análisis de más de 80 indicadores clave, se examinan las posibilidades de liderazgo de España frente a otros países en la economía digital. Explora las principales categorías y la posición de España en cada una de ellas.

Las bibliotecas y los archivos están escaneando y subiendo a la red libros que están en el dominio público gracias a una laguna en los derechos de autor

1568125356491-gettyimages-576722836

Karl Bode. Libraries and Archivists Are Scanning and Uploading Books That Are Secretly in the Public Domain. MotherBoard, 2020

Texto completo

Millones de libros están secretamente en el dominio público gracias a una laguna en la ley de derechos de autor, un nuevo proyecto busca ponerlos en el Internet Archive. Un secreto de la industria editorial es que la mayoría de los libros americanos publicados antes de 1964 nunca renovaron sus derechos de autor, lo que significa que son de dominio público hoy en día. Basándose en ella bibliotecas y los archiveros están escaneando y subiendo libros publicados entre 1923 y 1964.

En su momento actual, todos los libros publicados en los Estados Unidos antes de 1924 son de dominio público, lo que significa que son de propiedad pública y pueden ser utilizados y copiados libremente. Los libros publicados en 1964 y después siguen estando bajo derecho de autor, y por ley lo estarán durante 95 años a partir de su fecha de publicación. Pero una laguna en el derecho de autor significa que hasta el 75 por ciento de los libros publicados entre 1923 y 1964 son de dominio público en secreto, lo que significa que son libres de leer y copiar. El problema es determinar qué libros son, debido a los arcaicos sistemas de registro de derechos de autor y a la enrevesada y cambiante ley de derechos de autor.

Por ello, una coalición de bibliotecas, voluntarios y archiveros han estado trabajando horas extras para identificar qué títulos son de dominio público, digitalizarlos y luego subirlos a Internet. La Biblioteca Pública de Nueva York encabeza el esfuerzo por identificar los títulos apropiados, digitalizarlos y subirlos a Internet Archive. Utilizando Python para automatizar partes del proceso, los organizadores y voluntarios se esfuerzan por hacer este trabajo a escala, incluyendo la verificación de que los derechos de autor no fueron renovados. Los voluntarios del Proyecto Gutenberg y otras organizaciones «tienen la tarea de localizar una copia del libro en cuestión, escanearlo, revisarlo y luego sacar ediciones en HTML y texto plano».

New York Times está utilizando Google Cloud para encontrar historias no contadas en millones de fotos archivadas

morgue7.max-2200x2200-1

Sam Greenfield. Picture what the cloud can do: How the New York Times is using Google Cloud to find untold stories in millions of archived photos. Google Cloud Blog, 2019

Ver completo

Durante más de 100 años, The Times ha archivado aproximadamente de cinco a siete millones de sus fotos antiguas en cientos de archivadores tres pisos debajo del nivel de la calle cerca de sus oficinas de Times Square en un lugar llamado «morgue». Muchas de las fotos han sido almacenadas en carpetas y no se habían visto en años. Aunque un catálogo de tarjetas proporciona una visión general del contenido del archivo, hay muchos detalles en las fotos que no se capturan en forma indexada.

El depósito contiene fotos de finales del siglo XIX, y muchos de sus contenidos tienen un gran valor histórico, algunos que no se almacenan en ningún otro lugar del mundo. En 2015, una tubería rota inundó la biblioteca de archivos, poniendo en riesgo toda la colección. Afortunadamente, solo se causaron daños menores, pero el evento planteó la pregunta: ¿cómo pueden almacenarse de manera segura algunos de los activos físicos más preciados de la compañía?

Google Cloud se ha asociado con The New York Times para ayudarlos a digitalizar su vasta colección de fotos. Está haciendo uso de numerosas herramientas dentro de Google Cloud Platform que les permiten almacenar de forma segura sus imágenes, proporcionarles una mejor interfaz para encontrar fotos y encontrar nuevos conocimientos incluso de los datos que aparecen en el reverso de las imágenes. No solo las imágenes de las fotos contienen información valiosa. En muchos casos, el reverso de las fotos incluye la hora y el lugar donde se tomó la foto.

Para preservar esta historia invaluable, y para darle a The Times la capacidad de mejorar sus informes con una historia visual y un contexto histórico aún más, The Times está digitalizando su archivo, utilizando Cloud Storage para almacenar escaneos de alta resolución de todas las imágenes del archivo.

Cloud Storage es un sistema duradero para almacenar objetos, y proporciona a los clientes como The Times una gestión automática del ciclo de vida, almacenamiento en regiones geográficamente distintas y una interfaz de administración y API fáciles de usar. Simplemente almacenar imágenes de alta resolución no es suficiente para crear un sistema que los editores de fotos puedan usar fácilmente. Un sistema de gestión de activos que funcione debe permitir que los usuarios puedan navegar y buscar fotos fácilmente. The Timesconstruyó una tubería de procesamiento que almacena y procesa las fotos y utilizará tecnología en la nube para procesar y reconocer texto, escritura a mano.

Así es como funciona. Una vez que una imagen se ingresa en el almacenamiento en la nube, The Times usa Cloud Pub / Sub para iniciar la canalización de procesamiento para realizar varias tareas. Las imágenes se redimensionan a través de servicios que se ejecutan en Google Kubernetes Engine (GKE) y los metadatos de la imagen se almacenan en una base de datos PostgreSQL que se ejecuta en Cloud SQL , la oferta de base de datos está totalmente administrada de Google.

En el caso de The Times, uno de los mayores desafíos en el escaneo de su archivo fotográfico ha sido agregar datos sobre el contenido de las imágenes. La API de Cloud Vision puede ayudar a llenar ese vacío. Si la parte posterior de las fotos contiene una gran cantidad de información útil, la API de Cloud Vision puede ayudarnos a procesarla, almacenarla y leerla. Este es solo el comienzo de lo que es posible para las empresas con archivos físicos. Pueden usar la API de Vision para identificar objetos, lugares e imágenes.

La API de lenguaje natural en la nube podría usarse para agregar información semántica adicional al texto reconocido. Por ejemplo, si pasamos el texto «The New York Time THE WAY IT WAY – Crowded Penn Station en 1942, una era en la que solo los valientes volaban – a Washington, Miami y varias estaciones de ruta» a través de Cloud Natural Language API, identifica correctamente «Penn Station», «Washington» y «Miami» como ubicaciones, y clasifica la oración completa en la categoría «viajes» y la subcategoría «autobús y ferrocarril». Es decir, utiliza un sistema de aprendizaje automático para obtener información adicional, de modo que es capaz a través de los datos obtenidos en la foto y de los contenidos en el sistema o web datos sobre la imagen que no estaban recogidos en la foto original a través de los datos masivos y la inteligencia artificial.

Editorialización: estructurando el espacio y la autoridad en la era digital

61i-gxrbftl

Vitali-Rosati,Marcello. On Editorialization: Structuring Space and Authority in the Digital. Amsterdam: Institute of Network Cultures, Amsterdam, 2018. ISBN: 978-94-92302-20-5.

Texto completo

PDF

ePub

En On Editorialization: Structuring Space and Authority in the Digital, Marcello Vitali-Rosati examina cómo cambia la autoridad en la era digital. La autoridad parece haberse desvanecido en la era de la web, ya que se cree que las relaciones espaciales de las que depende la autoridad se han nivelado: ya no hay límites ni fronteras, ni jerarquías ni estructuras organizadas. Vitali-Rosati afirma lo contrario: el espacio digital está bien estructurado y tiene formas específicas de autoridad. La editorialización es un proceso clave que organiza este espacio y, por lo tanto, da origen a la autoridad digital. Investigando este proceso de editorialización, Vitali-Rosati revela cómo se puede reconcebir la política en la era digital.

Las Bibliotecas de la Universidad Estatal de Louisiana han lanzado un laboratorio móvil de digitalización

leahforeground-1

Las Bibliotecas de la Universidad Estatal de Louisiana han lanzado el Laboratorio Móvil de Digitalización, una iniciativa que comparte equipos de digitalización y experiencia con pequeñas bibliotecas, archivos y museos de todo Louisiana. Para el proyecto piloto, finalizado en noviembre, los profesores y el personal de la LSU visitaron el Museo Jeanerette con escáneres y cámaras y pasaron una semana digitalizando los materiales históricos únicos del museo. El contenido creado durante esta iniciativa se agregará a la Biblioteca Digital de Louisiana. La tecnología y el personal limitado en muchas de las instituciones culturales del estado es una barrera para la participación en el LDL. El laboratorio les ayudará en ese esfuerzo.

El Laboratorio de Digitalización Móvil representa un importante paso adelante en los esfuerzos para proteger y presentar la historia de Louisiana.

120,000 libros de la colección de la Biblioteca Nacional de Israel estarán en línea gratis

2019-11-07_17-02-16

Ver noticia

La Biblioteca Nacional de Israel (NLI) y Google han anunciado que 120,000 libros de la colección NLI estarán en línea por primera vez, como parte de una colaboración histórica.

Los libros incluyen todos los libros sin derechos de autor de la NLI que aún no se han digitalizado. Alrededor del 45% de ellos están en hebreo y otros idiomas de letras hebreas, como el yiddish y el ladino, y el resto de las obras están en una variedad de idiomas, incluyendo latín, inglés, alemán, francés, árabe y ruso.

El proceso de digitalización ahora en curso es complejo. Los contenedores de envío de última generación que cumplen con los estrictos requisitos de control climático y seguridad transportan los libros desde la Biblioteca Nacional de Jerusalén hasta el centro de digitalización de Google en Alemania a través de Rotterdam.

Algunos de los libros de NLI digitalizados por Google como parte de la colaboración incluyen:

1. Phaedo o Sobre la inmortalidad de las almas , Prusia, ca. 1860
El primer libro de Moses Mendelssohn, publicado originalmente en alemán en 1767, fue uno de los libros más leídos de su tiempo. Esta es su primera traducción al hebreo.

2. La interpretación de los sueños , Zhovka, 1853
Según la portada, esta composición fue publicada originalmente por el rabino Manasseh ben Israel (1604-1657). Discute la importancia de los sueños desde una perspectiva judía, basándose en el Talmud, el Zohar y la filosofía occidental.

3. Cuentos de los sabios de Grecia, o, Palabras de los sabios , Vilna, 1864
Yehuda Leib Ben Zev, uno de los primeros seguidores del movimiento Haskalah, compiló breves biografías y resúmenes de las cosmovisiones de los antiguos filósofos griegos desde Solón hasta Zenón. El libro está escrito en hebreo, con una traducción yiddish vocalizada al lado «para las masas de nuestro pueblo que no entienden hebreo».

4. Sefer Me’Am Loez , Livorno, 1823
Sefer Me’Am Loez es una colección de Midrash, enseñanzas homiléticas de los sabios de la Biblia, escritas en ladino o judeoespañol. La primera edición se publicó en 1730 y la última en 1897. Gozó de una gran popularidad entre los judíos de habla ladina, y muchos la consideran la joya de la corona de la literatura ladina.

5. Los cinco libros de Moisés: Tzena U’rena , Sulzbach, 1785
La Tzena Urena es una traducción y adaptación yiddish de la Torá, escrita por primera vez en 1509, destinada principalmente a mujeres que generalmente no tenían la educación suficiente para estudiar el texto bíblico original. . Esta edición presenta hermosas ilustraciones en xilografía.

Profesiones Digitales 5. Teléfonos inteligentes. Abriendo las puertas al mundo digital

pd5

Rodríguez Cafranc, Pablo. Profesiones Digitales 5. Teléfonos inteligentes. Abriendo las puertas al mundo digital. Madrid:Fundación Telefónica, 2019

Texto completo

Nuestra vida digital cada vez pasa en mayor medida a través de los teléfonos inteligentes. El uso que hacemos de internet para trabajar, relacionarnos o entretenernos, se desvincula progresivamente de los dispositivos fijos, aquellos anclados a un lugar concreto, y se hace ubicuo. Y el smartphone es el terminal rey para acceder a las redes, preferido a otros como las tabletas o los wearables, los dispositivos que se incorporan a alguna parte de nuestro cuerpo e interactúan con él o con otros aparatos.

OCR: Herramienta moderna para textos antiguos

a1356571b0b538c5e7cceae228d7a52a

Página de una versión francesa del «Narrenschiff» (Barco de los Locos).

Original:
OCR: Modern tool for old texts
Eureka Alert 23-APR-2019
https://www.eurekalert.org/pub_releases/2019-04/uow-omt042319.php

Los historiadores y otros estudiosos de las Humanidades a menudo tienen que tratar con objetos de investigación difíciles: obras impresas de siglos de antigüedad que son difíciles de descifrar y a menudo se encuentran en un estado de conservación insatisfactorio. Muchos de estos documentos han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún queda un reto por superar: modernizar las fuentes antiguas digitalizadas con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Centro de Filología y Digitalidad de la Universidad Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una importante contribución al desarrollo de este campo.

Con OCR4all, el equipo de investigación de JMU pone a disposición de la comunidad científica una nueva herramienta. Convierte las impresiones históricas digitalizadas con una tasa de error inferior al uno por ciento en textos legibles por ordenador. Además, ofrece una interfaz gráfica de usuario que no requiere conocimientos de TI. Con herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que los usuarios tenían que trabajar con comandos de programación.

Desarrollado en cooperación con el Departamento de Humanidades

La nueva herramienta OCR4all fue desarrollada bajo la dirección de Christian Reul junto con sus colegas de informática, el profesor Frank Puppe (Catedrático de Inteligencia Artificial e Informática Aplicada) y Christoph Wick, así como Uwe Springmann (experto en Humanidades Digitales) y numerosos estudiantes y asistentes.

OCR4all tiene su origen en el proyecto JMU Kallimachos, financiado por el Ministerio Federal de Educación e Investigación de Alemania. Esta cooperación entre las Humanidades y la informática continuará y se institucionalizará en el recién fundado Centro de Filología y Digitalidad de la JMU.

En el desarrollo de OCR4all, los informáticos han colaborado con el departamento de Humanidades de JMU, incluyendo estudios alemanes y románticos y estudios literarios en el proyecto «Narragonien digital». El objetivo era digitalizar el «Narrenschiff», una sátira moral de Sebastian Brant, un bestseller del siglo XV que fue traducido a muchos idiomas. Además, OCR4all se ha utilizado con frecuencia en el Kolleg de la JMU «Medieval and Early Modern Times».

OCR4all está disponible gratuitamente para el público en la plataforma GitHub (con instrucciones y ejemplos): https://github.com/OCR4all

Cada imprenta tenía su propia fuente

Christian Reul explica los desafíos que implica el desarrollo de OCR4all: El reconocimiento automático de texto (OCR = Reconocimiento Óptico de Caracteres) ha estado funcionando muy bien para las fuentes modernas desde hace algún tiempo. Sin embargo, este no ha sido el caso de las fuentes históricas.

«Uno de los mayores problemas era la tipografía», dice Reul. Una de las razones es que las primeras imprentas del siglo XV no utilizaban fuentes uniformes. «Sus sellos de impresión fueron todos tallados por ellos mismos, cada imprenta tenía prácticamente sus propios caracteres»

Índices de error por debajo del uno por ciento

A menudo no es fácil distinguir las diferencias en impresiones antiguas, pero el software puede aprender a reconocer estas sutilezas. Para ello, debe recibir formación sobre el material de muestra. En su trabajo, Reul ha desarrollado métodos para hacer más eficiente la formación. En un estudio de caso con seis impresiones históricas de los años 1476 a 1572, la tasa media de errores en el reconocimiento automático de texto se redujo del 3,9 al 1,7 por ciento.

No sólo se mejoró la metodología, sino que el informático Christoph Wick, de la JMU, también perfeccionó decisivamente el componente técnico mediante el desarrollo de la herramienta Calamari OCR, que también está disponible de forma gratuita y que desde entonces se ha integrado completamente en OCR4all. Por lo tanto, se obtuvieron resultados aún mejores: Ahora, incluso para las obras impresas más antiguas, se pueden alcanzar tasas de error de menos del uno por ciento en general.

Proyectos léxicos

Reul también ha convencido a socios externos de la calidad de la investigación de OCR de Würzburg. En cooperación con el «Zentrum für digitale Lexikographie der deutschen Sprache» (Berlín), el «Wörterbuch der deutschen Sprache» (Diccionario de la Lengua Alemana) de Daniel Sanders ha sido indexado digitalmente y se está preparando una publicación científica sobre este trabajo. Las diferentes líneas de este texto a menudo contienen diferentes fuentes, que representan diferentes informaciones semánticas. Aquí, el enfoque existente para el reconocimiento de caracteres se amplió de tal manera que no sólo el texto, sino también la tipografía y, por lo tanto, la compleja estructura de contenido del léxico, pueden reproducirse con gran precisión.

Weblinks

OCR4all en GitHub (https://github.com/OCR4all)

Calamari en GitHub (https://github.com/Calamari-OCR)

Enlace a la publicación (estudio de caso con seis libros históricos) (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_1.pdf)

Publicación que combina mejoras metodológicas y técnicas (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_4.pdf)

	Google Ngram Viewer,… en Google Books Ngram Viewer: per…
	La persistente influ… en Declaración de San Francisco s…
	Estrategias innovado… en Comparación de gestores de ref…
	¿Quieres autopublica… en El 49% de los libros editados…
	Cuando la IA cruza l… en Confianza, actitudes y uso de…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca

Archivo de la etiqueta: Digitalización

Transformación digital para las bibliotecas públicas del Reino Unido: Cinco enfoques para una «Presencia Digital Única»

Fomento de la ciudadanía digital mediante el uso seguro y responsable de las TIC

España, nación digital 2020

Las bibliotecas y los archivos están escaneando y subiendo a la red libros que están en el dominio público gracias a una laguna en los derechos de autor

New York Times está utilizando Google Cloud para encontrar historias no contadas en millones de fotos archivadas

Editorialización: estructurando el espacio y la autoridad en la era digital

Las Bibliotecas de la Universidad Estatal de Louisiana han lanzado un laboratorio móvil de digitalización

120,000 libros de la colección de la Biblioteca Nacional de Israel estarán en línea gratis

Profesiones Digitales 5. Teléfonos inteligentes. Abriendo las puertas al mundo digital

OCR: Herramienta moderna para textos antiguos

Página de una versión francesa del «Narrenschiff» (Barco de los Locos).