OCR4all : software de reconocimiento de texto de código abierto de documentos históricos

csm_16ocr4all_3115d24d3a

OCR4all

Los historiadores y los estudiosos de humanidades a menudo tienen que lidiar con objetos de investigación difíciles: trabajos impresos de siglos de antigüedad que son difíciles de descifrar y, a menudo, en un estado de conservación insatisfactorio. Muchos de estos documentos ahora han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún hay un desafío que superar: llevar las fuentes antiguas digitalizadas a una forma de lectura moderna con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Center for Philology and Digitality del Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una contribución significativa para un mayor desarrollo en este campo.

Con OCR4all, el equipo de investigación de JMU está poniendo a disposición de la comunidad científica una nueva herramienta. Convierte impresiones históricas digitalizadas con una tasa de error de menos del uno por ciento en textos legibles por ordenador. Y ofrece una interfaz gráfica de usuario que no requiere experiencia en TICs. Con las herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que la mayoría de los usuarios tenían que trabajar con comandos de programación.