Archivo de la categoría: Tecnologías de la información

OCR: Herramienta moderna para textos antiguos

 

a1356571b0b538c5e7cceae228d7a52a

Página de una versión francesa del «Narrenschiff» (Barco de los Locos).

 

Original:
OCR: Modern tool for old texts
Eureka Alert 23-APR-2019
https://www.eurekalert.org/pub_releases/2019-04/uow-omt042319.php

 

Los historiadores y otros estudiosos de las Humanidades a menudo tienen que tratar con objetos de investigación difíciles: obras impresas de siglos de antigüedad que son difíciles de descifrar y a menudo se encuentran en un estado de conservación insatisfactorio. Muchos de estos documentos han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún queda un reto por superar: modernizar las fuentes antiguas digitalizadas con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Centro de Filología y Digitalidad de la Universidad Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una importante contribución al desarrollo de este campo.

Con OCR4all, el equipo de investigación de JMU pone a disposición de la comunidad científica una nueva herramienta. Convierte las impresiones históricas digitalizadas con una tasa de error inferior al uno por ciento en textos legibles por ordenador. Además, ofrece una interfaz gráfica de usuario que no requiere conocimientos de TI. Con herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que los usuarios tenían que trabajar con comandos de programación.

Desarrollado en cooperación con el Departamento de Humanidades

La nueva herramienta OCR4all fue desarrollada bajo la dirección de Christian Reul junto con sus colegas de informática, el profesor Frank Puppe (Catedrático de Inteligencia Artificial e Informática Aplicada) y Christoph Wick, así como Uwe Springmann (experto en Humanidades Digitales) y numerosos estudiantes y asistentes.

OCR4all tiene su origen en el proyecto JMU Kallimachos, financiado por el Ministerio Federal de Educación e Investigación de Alemania. Esta cooperación entre las Humanidades y la informática continuará y se institucionalizará en el recién fundado Centro de Filología y Digitalidad de la JMU.

En el desarrollo de OCR4all, los informáticos han colaborado con el departamento de Humanidades de JMU, incluyendo estudios alemanes y románticos y estudios literarios en el proyecto «Narragonien digital». El objetivo era digitalizar el «Narrenschiff», una sátira moral de Sebastian Brant, un bestseller del siglo XV que fue traducido a muchos idiomas. Además, OCR4all se ha utilizado con frecuencia en el Kolleg de la JMU «Medieval and Early Modern Times».

OCR4all está disponible gratuitamente para el público en la plataforma GitHub (con instrucciones y ejemplos): https://github.com/OCR4all

Cada imprenta tenía su propia fuente

Christian Reul explica los desafíos que implica el desarrollo de OCR4all: El reconocimiento automático de texto (OCR = Reconocimiento Óptico de Caracteres) ha estado funcionando muy bien para las fuentes modernas desde hace algún tiempo. Sin embargo, este no ha sido el caso de las fuentes históricas.

«Uno de los mayores problemas era la tipografía», dice Reul. Una de las razones es que las primeras imprentas del siglo XV no utilizaban fuentes uniformes. «Sus sellos de impresión fueron todos tallados por ellos mismos, cada imprenta tenía prácticamente sus propios caracteres»

Índices de error por debajo del uno por ciento

A menudo no es fácil distinguir las diferencias en impresiones antiguas, pero el software puede aprender a reconocer estas sutilezas. Para ello, debe recibir formación sobre el material de muestra. En su trabajo, Reul ha desarrollado métodos para hacer más eficiente la formación. En un estudio de caso con seis impresiones históricas de los años 1476 a 1572, la tasa media de errores en el reconocimiento automático de texto se redujo del 3,9 al 1,7 por ciento.

No sólo se mejoró la metodología, sino que el informático Christoph Wick, de la JMU, también perfeccionó decisivamente el componente técnico mediante el desarrollo de la herramienta Calamari OCR, que también está disponible de forma gratuita y que desde entonces se ha integrado completamente en OCR4all. Por lo tanto, se obtuvieron resultados aún mejores: Ahora, incluso para las obras impresas más antiguas, se pueden alcanzar tasas de error de menos del uno por ciento en general.

Proyectos léxicos

Reul también ha convencido a socios externos de la calidad de la investigación de OCR de Würzburg. En cooperación con el «Zentrum für digitale Lexikographie der deutschen Sprache» (Berlín), el «Wörterbuch der deutschen Sprache» (Diccionario de la Lengua Alemana) de Daniel Sanders ha sido indexado digitalmente y se está preparando una publicación científica sobre este trabajo. Las diferentes líneas de este texto a menudo contienen diferentes fuentes, que representan diferentes informaciones semánticas. Aquí, el enfoque existente para el reconocimiento de caracteres se amplió de tal manera que no sólo el texto, sino también la tipografía y, por lo tanto, la compleja estructura de contenido del léxico, pueden reproducirse con gran precisión.

Weblinks

OCR4all en GitHub (https://github.com/OCR4all)

Calamari en GitHub (https://github.com/Calamari-OCR)

Enlace a la publicación (estudio de caso con seis libros históricos) (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_1.pdf)

Publicación que combina mejoras metodológicas y técnicas (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_4.pdf)

 

 

Smart Talk. Cómo las organizaciones y los consumidores están adoptando los asistentes de voz y chat

 

captura-4

Smart Talk. How organizations and consumers are embracing voice and chat assistants’. Capgemini Research Institute, 2019

Texto completo

 

Los asistentes de conversación están ganando los corazones y las mentes de los consumidores, están aquí para quedarse, haciendo que todo, desde hervir un huevo hasta hacer un pago mucho más fácil. Y los consumidores esperan más de ellos día a día. Si cumplen con estas expectativas crecientes, los asistentes de conversación están en condiciones de transformar el panorama de la experiencia del usuario. Pero, ¿tienen las organizaciones la centralidad en el cliente y las capacidades organizativas necesarias para desplegar estas tecnologías con éxito?

En el nuevo informe del Capgemini Research Institute, Smart Talk: How organizations and consumers are embracing voice and chat assistants, se recoge una encuesta a más de 12.000 consumidores que han usado y continúan usando asistentes de voz y/o chat y con 1.000 ejecutivos de productos de consumo y minoristas, servicios financieros y de automoción, incluyendo reproductores digitales de juego puro. Encontramos eso:

  • Los asistentes de conversación se están convirtiendo en parte de la corriente principal – tanto los consumidores como las organizaciones los consideran cruciales para el compromiso y la experiencia de los clientes.
  • La voz se está convirtiendo rápidamente en la forma preferida de los consumidores para interactuar en una serie de actividades, y está en aumento.
  • Muchas organizaciones ya están obteniendo beneficios significativos de los asistentes de conversación: el 76% ha obtenido beneficios cuantificables de ellos y el 58% dice que estos beneficios cumplieron o superaron sus expectativas.
  • Menos del 30% de las empresas muestran madurez en la interfaz conversacional, y los grupos pequeños que sí enfocan sus esfuerzos en factores relacionados con el consumidor, tales como ganar confianza, comprender las preferencias y satisfacer mejor las necesidades, así como las capacidades organizativas, tales como crear conciencia y capacitar a sus empleados.

 

 

La mayoría de los usuarios de Internet desconocen aspectos fundamentales sobre privacidad y seguridad en redes

hacker-robo-ruso-omn-

 “Americans and Digital Knowledge”. Pew Research, 2019

Texto completo

La mayoría de los adultos estadounidenses pueden responder correctamente a menos de la mitad de las preguntas en un cuestionario de conocimiento digital, y muchos desconocen aspectos fundamentales de ciberseguridad y privacidad.

 

Una nueva encuesta del Pew Research Center revela que la comprensión de los estadounidenses de los problemas relacionados con la tecnología varía mucho según el tema, el término o el concepto. Si bien la mayoría de los adultos de EE. UU. Puede responder correctamente preguntas sobre estafas de phishing o cookies de sitios web, otros elementos son más desafiantes. Por ejemplo, solo el 28% de los adultos puede identificar un ejemplo de autenticación de dos factores,  una de las formas más importantes en que los  expertos dicen que las personas pueden proteger su información personal en cuentas confidenciales. Además, aproximadamente una cuarta parte de los estadounidenses (24%) sabe que la navegación privada solo oculta el historial del navegador de otros usuarios de esa computadora, mientras que aproximadamente la mitad (49%) dice que no está seguro de lo que hace la navegación privada.

Esta encuesta constaba de 10 preguntas diseñadas para evaluar el conocimiento de los estadounidenses sobre una variedad de temas digitales, como la seguridad cibernética o el lado comercial de las empresas de redes sociales. La mediana del número de respuestas correctas fue cuatro. Solo el 20% de los adultos respondió a siete o más preguntas correctamente, y solo el 2% respondió correctamente las 10 preguntas.

Solo tres de cada diez adultos respondieron correctamente que comenzar una URL con «https: //» significa que la información ingresada en ese sitio está encriptada (30%). Un porcentaje similar (28%) identificó con precisión un ejemplo de autenticación de dos factores.

Solo el 29% de los estadounidenses nombraron correctamente a WhatsApp e Instagram como dos compañías propiedad de Facebook. Y cuando se le presentó una foto del cofundador y CEO de Twitter Jack Dorsey, solo el 15% de los adultos lo identificaron correctamente.

Artefactos digitales para la movilización de la sociedad civil: perspectivas para el avance de la democracia

 

Artefatosdigitais_estudocapa

José Antonio, G. d. P. (2016). [e-Book] Artefatos digitais para mobilização da sociedade civil : perspectivas para avanço da democracia. Brasilia, SciELO Books – EDUFBA, 2016

Texto completo

PDF

ePub

En una sociedad marcada por la presencia de artefactos tecnológicos, es posible pensar en los mecanismos digitales como herramientas para llenar los vacíos visibles de las democracias representativas contemporáneas. En este libro, varios investigadores presentan artículos sobre las posibilidades de configuración de lo que se ha denominado democracia digital. Se discuten temas relacionados con la evolución de Internet en la participación política de las organizaciones de la sociedad civil y su uso como una poderosa herramienta para suplir los déficits democráticos de nuestro tiempo.

Impresoras 3D

 

3ddruck

Dragan, C. [e-Book] 3D Printing, InTechOpen, 2018.

Texto completo

Este libro, «»3D Printing»», está dividido en dos partes: la primera parte está dedicada a la relación entre la impresión en 3D y la ingeniería, y la segunda parte muestra el impacto de la impresión en 3D en el sector médico en general. En la primera parte hay cinco secciones (las secciones están dedicadas a la estereolitografía, las nuevas técnicas de impresión 3D de alta resolución, la aplicación de impresoras 3D en arquitectura e ingeniería civil, la producción aditiva con los componentes metálicos y la gestión de la producción mediante el uso de la tecnología anteriormente mencionada de formas más complejas). En la segunda parte hay cuatro capítulos con los siguientes temas: formación del personal médico mediante simulaciones quirúrgicas, ingeniería de tejidos y posibles aplicaciones de la impresión en 3D en oftalmología y ortopedia.

Aplicaciones del grafeno

 

d7a286eb6d2fc278881611984319e89a

Sergey, M. (2011). [e-Book] Physics and Applications of Graphene – Theory, InTechOpen,. 2011.

Texto completo

La Edad de Piedra, la Edad de Bronce, la Edad de Hierro… Cada época global en la historia de la humanidad se caracteriza por los materiales utilizados en ella. En 2004 se abrió una nueva era en la ciencia de los materiales: la era del grafeno o, más en general, de los materiales bidimensionales. El grafeno es el material más fuerte y el más elástico conocido, tiene una conductividad térmica récord y una movilidad muy alta de los portadores de carga. Demuestra muchos efectos físicos fundamentales interesantes y promete muchas aplicaciones, entre las que se encuentran la tinta conductora, los transistores de terahercio, los fotodetectores ultrarrápidos y las pantallas táctiles flexibles. En 2010 Andre Geim y Konstantin Novoselov fueron galardonados con el Premio Nobel de Física «»por sus experimentos innovadores en relación con el material bidimensional grafeno»». Los dos volúmenes Física y Aplicaciones del Grafeno – Experimentos y Física y Aplicaciones del Grafeno – Teoría contienen una colección de artículos de investigación sobre diferentes aspectos de los estudios experimentales y teóricos de este nuevo material.

 

 

Informes de la Sociedad de la Información, las Telecomunicaciones y el Sector TIC en España

 

informes20ccaa

Informes de la Sociedad de la Información, las Telecomunicaciones y el Sector TIC y los Contenidos por CCAA. España. Edición 2019. Madrid: ONTSI, 2019

Texto completo

España

Comunidades Autónomas

 

Los informes examinan la evolución y el estado actual de los indicadores de la Sociedad de la Información y las Infraestructuras de Telecomunicaciones y el estado del Sector de las Tecnologías de la Información y la Comunicación y de los Contenidos (TICC) en España y por Comunidades Autónomas, atendiendo a la realidad de las empresas, los hogares y las infraestructuras.

Comienzan con un análisis para cada región de los indicadores de seguimiento de la sociedad de la información en las empresas españolas: infraestructuras y equipamiento, acceso a Internet, Administración electrónica, Big Data, Cloud Computing, comercio electrónico, negocio electrónico, medios sociales, seguridad y privacidad, robótica, impresión 3D y los profesionales y formación TIC. Por otra parte, los indicadores de seguimiento de la sociedad de la información en los hogares y ciudadanía que se analizan en el informe son: infraestructuras y equipamiento, acceso a Internet, uso de Internet, administración electrónica, Cloud Computing, comercio electrónico y situación de los menores. También se incluyen los indicadores de seguimiento de las infraestructuras de telecomunicaciones, que se centran en analizar el número de líneas y cuota de mercado te la telefonía de banda ancha, la telefonía fija y la telefonía móvil.

Aprendizaje automático: una máquina lee 3.5 millones de libros para caracterizar los adjetivos asociados a hombres y mujeres

medium_jsrnhtviwvejrnvmer-gfv20pekaqivvqa3p7akuqxw

Alexander Hoyle , Lawrence Wolf-Sonkin , Hanna Wallach , Isabelle Augenstein , Ryan Cotterell. Unsupervised Discovery of Gendered Language through Latent-Variable Modeling. In Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2019

Texto completo

 

Estudiar en qué medida el lenguaje que utilizamos es específico de género ha sido durante mucho tiempo un área de interés en sociolingüística. En este trabajo se analiza este fenómeno, para cuantificar el grado en que el lenguaje utilizado para describir a hombres y mujeres es diferente, y además, diferente de manera positiva o negativa. Encontramos que existen diferencias significativas entre la forma en que se describen los sustantivos masculinos y femeninos, lo que está en consonancia con los estereotipos de género más comunes: Los adjetivos positivos usados para describir a las mujeres tienen más probabilidades de estar relacionados con el cuerpo de una persona que los adjetivos que describen a los hombres.

 

Una máquina leyó 3.5 millones de libros y luego contó lo que pensaba sobre hombres y mujeres para descubrir que los adjetivos atribuidos a las mujeres tienden a describir la apariencia física, mientras que las palabras que se refieren al comportamiento se atribuyen a los hombres.

«Hermoso» y «sexy» son dos de los adjetivos más utilizados para describir a las mujeres. Los descriptores de uso común para los hombres incluyen justos, racionales y valientes.

Los investigadores revisaron una enorme cantidad de libros en un esfuerzo por descubrir si hay una diferencia entre los tipos de palabras que describen a hombres y mujeres en la literatura. Utilizando un nuevo modelo de computadora, los investigadores analizaron un conjunto de datos de 3.5 millones de libros, todos publicados en inglés entre 1900 y 2008. Los libros incluyen una mezcla de literatura de ficción y no ficción.

Podemos ver claramente que las palabras utilizadas para las mujeres se refieren mucho más a sus apariencias que las palabras utilizadas para describir a los hombres. Por lo tanto, hemos podido confirmar una percepción generalizada, solo que ahora a nivel estadístico ”, dice la científica informática y profesora asistente Isabelle Augenstein, del departamento de informática de la Universidad de Copenhague.

Iniciativa para una mayor interoperabilidad de los sistemas asistentes de voz de las diferentes compañías

 

img_npalou_20190130-115212_imagenes_lv_otras_fuentes_familia_echo_4_6_96135399-k8mi-u461432842830jgi-992x55840lavanguardia-web

Voice Interoperability Initiative

 

En un mundo con múltiples servicios de voz, cada uno con diferentes capacidades, los clientes deben tener la libertad de elegir su servicio preferido para cualquier tarea. El objetivo de este programa es ofrecer esta experiencia a través de servicios de voz múltiples y simultáneos en el mismo producto, cada uno con su propia «palabra de activación» o nombre de invocación, lo que permite a los clientes hablar con el servicio de su elección de forma segura, simplemente diciendo su nombre.

 

Los servicios y dispositivos de voz se configuran como una de las principales tecnologías de información del futuro. Por ejemplo Alexa, el dispositivo de voz de Amazon que funciona a través de un servicio de voz ubicado en la nube. Con Alexa, se crea una experiencia de voz natural que ofrecer una forma más intuitiva de interactuar con la tecnología que usamos a diario.

Sin embargo, todos los sistemas de voz de las diferentes compañías no funcionan de manera coordinada. De este modo Amazon y las principales empresas de tecnología acaban de presentar «Voice Interoperability Initiative», un nuevo programa para garantizar que los productos habilitados para voz ofrezcan a los clientes opciones y flexibilidad a través de múltiples servicios de voz interoperables. La iniciativa se basa en la creencia compartida de que los servicios de voz deben funcionar a la perfección entre sí en un único dispositivo, y que los productos habilitados para voz deben estar diseñados para soportar múltiples palabras de activación simultánea.

Más de 30 empresas apoyan el esfuerzo, entre las que se incluyen marcas globales como Amazon, Baidu, BMW, Bose, Cerence, ecobee, Harman, Logitech, Microsoft, Salesforce, Sonos, Sound United, Sony Audio Group, Spotify y Tencent; operadores de telecomunicaciones como Free, Orange, SFR y Verizon; proveedores de soluciones de hardware como Amlogic, InnoMedia, Intel, MediaTek, NXP Semiconductors, Qualcomm Technologies, Inc, SGW Global y Tonly; e integradores de sistemas como CommScope, DiscVision, Libre, Linkplay, MyBox, Sagemcom, StreamUnlimited y Sugr.

La Iniciativa de Interoperabilidad de la Voz se basa en cuatro prioridades:

  • Desarrollar servicios de voz que puedan funcionar a la perfección con otros, protegiendo al mismo tiempo la privacidad y la seguridad de los clientes.
  • Construir dispositivos habilitados para voz que promuevan la elección y la flexibilidad a través de palabras múltiples y simultáneas.
  • Lanzamiento de tecnologías y soluciones que facilitan la integración de múltiples servicios de voz en un solo producto.
  • Acelerar el aprendizaje automático y la investigación de la IA en conversaciones para mejorar la amplitud, la calidad y la interoperabilidad de los servicios de voz.

 

 

 

Impacto de las bibliotecas universitarias y de investigación en un mundo conformado por las nuevas tecnologías

2019.08.16-student-tries-virtual-reality-photo-by-brittany-hosea-small-for-uc-berkeley-library-600x450

 

La Asociación de Bibliotecas de Investigación (ARL), la Coalición de Información en Red (CNI) y EDUCAUSE están trabajando juntos para comprender mejor cómo las bibliotecas de investigación, como socios colaborativos en la empresa de investigación y aprendizaje, pueden avanzar mejor la investigación y el aprendizaje durante estos tiempos de cambios significativos en la producción, difusión y reutilización de contenido digital.

Las tres organizaciones asociadas se centran en comprender cómo las tecnologías de la información y las disciplinas emergentes como la ciencia de datos, la inteligencia artificial, la movilidad y las redes ubicuas, la computación en la nube, la realidad aumentada / virtual y la Internet de las cosas están transformando la forma en que ocurre la investigación y el aprendizaje. Más específicamente, los socios se centrarán en comprender el papel que juegan las bibliotecas de investigación y deben jugar en este contexto dinámico.

El proyecto desarrollará un conjunto de recomendaciones y posibles acciones para que las partes interesadas clave, la comunidad en general.

Relacionados con las siguientes preguntas:

  •  ¿Qué conocimientos y competencias necesitan los líderes y el personal de la biblioteca de investigación?
  • ¿Qué pueden hacer las bibliotecas de investigación ahora para avanzar en su conocimiento y práctica en estas tecnologías dado su impacto actual y potencial en la investigación y el aprendizaje? ¿Qué apoyo se necesita para hacerlo?
  • ¿Cómo deberían las bibliotecas de investigación permanecer estratégicamente alineadas y ser capaces de adoptar innovaciones digitales como socios colaborativos para avanzar en la investigación y el aprendizaje?