OCR: Herramienta moderna para textos antiguos

 

a1356571b0b538c5e7cceae228d7a52a

Página de una versión francesa del “Narrenschiff” (Barco de los Locos).

 

Original:
OCR: Modern tool for old texts
Eureka Alert 23-APR-2019
https://www.eurekalert.org/pub_releases/2019-04/uow-omt042319.php

 

Los historiadores y otros estudiosos de las Humanidades a menudo tienen que tratar con objetos de investigación difíciles: obras impresas de siglos de antigüedad que son difíciles de descifrar y a menudo se encuentran en un estado de conservación insatisfactorio. Muchos de estos documentos han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún queda un reto por superar: modernizar las fuentes antiguas digitalizadas con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Centro de Filología y Digitalidad de la Universidad Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una importante contribución al desarrollo de este campo.

Con OCR4all, el equipo de investigación de JMU pone a disposición de la comunidad científica una nueva herramienta. Convierte las impresiones históricas digitalizadas con una tasa de error inferior al uno por ciento en textos legibles por ordenador. Además, ofrece una interfaz gráfica de usuario que no requiere conocimientos de TI. Con herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que los usuarios tenían que trabajar con comandos de programación.

Desarrollado en cooperación con el Departamento de Humanidades

La nueva herramienta OCR4all fue desarrollada bajo la dirección de Christian Reul junto con sus colegas de informática, el profesor Frank Puppe (Catedrático de Inteligencia Artificial e Informática Aplicada) y Christoph Wick, así como Uwe Springmann (experto en Humanidades Digitales) y numerosos estudiantes y asistentes.

OCR4all tiene su origen en el proyecto JMU Kallimachos, financiado por el Ministerio Federal de Educación e Investigación de Alemania. Esta cooperación entre las Humanidades y la informática continuará y se institucionalizará en el recién fundado Centro de Filología y Digitalidad de la JMU.

En el desarrollo de OCR4all, los informáticos han colaborado con el departamento de Humanidades de JMU, incluyendo estudios alemanes y románticos y estudios literarios en el proyecto “Narragonien digital”. El objetivo era digitalizar el “Narrenschiff”, una sátira moral de Sebastian Brant, un bestseller del siglo XV que fue traducido a muchos idiomas. Además, OCR4all se ha utilizado con frecuencia en el Kolleg de la JMU “Medieval and Early Modern Times”.

OCR4all está disponible gratuitamente para el público en la plataforma GitHub (con instrucciones y ejemplos): https://github.com/OCR4all

Cada imprenta tenía su propia fuente

Christian Reul explica los desafíos que implica el desarrollo de OCR4all: El reconocimiento automático de texto (OCR = Reconocimiento Óptico de Caracteres) ha estado funcionando muy bien para las fuentes modernas desde hace algún tiempo. Sin embargo, este no ha sido el caso de las fuentes históricas.

“Uno de los mayores problemas era la tipografía”, dice Reul. Una de las razones es que las primeras imprentas del siglo XV no utilizaban fuentes uniformes. “Sus sellos de impresión fueron todos tallados por ellos mismos, cada imprenta tenía prácticamente sus propios caracteres”

Índices de error por debajo del uno por ciento

A menudo no es fácil distinguir las diferencias en impresiones antiguas, pero el software puede aprender a reconocer estas sutilezas. Para ello, debe recibir formación sobre el material de muestra. En su trabajo, Reul ha desarrollado métodos para hacer más eficiente la formación. En un estudio de caso con seis impresiones históricas de los años 1476 a 1572, la tasa media de errores en el reconocimiento automático de texto se redujo del 3,9 al 1,7 por ciento.

No sólo se mejoró la metodología, sino que el informático Christoph Wick, de la JMU, también perfeccionó decisivamente el componente técnico mediante el desarrollo de la herramienta Calamari OCR, que también está disponible de forma gratuita y que desde entonces se ha integrado completamente en OCR4all. Por lo tanto, se obtuvieron resultados aún mejores: Ahora, incluso para las obras impresas más antiguas, se pueden alcanzar tasas de error de menos del uno por ciento en general.

Proyectos léxicos

Reul también ha convencido a socios externos de la calidad de la investigación de OCR de Würzburg. En cooperación con el “Zentrum für digitale Lexikographie der deutschen Sprache” (Berlín), el “Wörterbuch der deutschen Sprache” (Diccionario de la Lengua Alemana) de Daniel Sanders ha sido indexado digitalmente y se está preparando una publicación científica sobre este trabajo. Las diferentes líneas de este texto a menudo contienen diferentes fuentes, que representan diferentes informaciones semánticas. Aquí, el enfoque existente para el reconocimiento de caracteres se amplió de tal manera que no sólo el texto, sino también la tipografía y, por lo tanto, la compleja estructura de contenido del léxico, pueden reproducirse con gran precisión.

Weblinks

OCR4all en GitHub (https://github.com/OCR4all)

Calamari en GitHub (https://github.com/Calamari-OCR)

Enlace a la publicación (estudio de caso con seis libros históricos) (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_1.pdf)

Publicación que combina mejoras metodológicas y técnicas (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_4.pdf)