Archivo de la etiqueta: OCR

La IA marca un punto de inflexión en el reconocimiento de la escritura a mano

Cohen, Dan. “The Writing Is on the Wall for Handwriting Recognition.” Humane Ingenuity (newsletter), November 25, 2025. https://newsletter.dancohen.org/archive/the-writing-is-on-the-wall-for-handwriting-recognition

Uno de los problemas más difíciles en las humanidades digitales —el reconocimiento preciso de escritura a mano— parece haber sido finalmente resuelto gracias a los avances recientes en inteligencia artificial. Tradicionalmente, los sistemas de reconocimiento óptico de caracteres (OCR) alcanzaron casi un 99 % de precisión con texto impreso, pero los sistemas de reconocimiento de texto manuscrito (HTR) apenas rozaban un 80 % debido a la enorme variabilidad y complejidad de las escrituras humanas. Esto obligaba a historiadores y paleógrafos a invertir mucho tiempo descifrando documentos antiguos, como cartas de figuras históricas, antes de llegar a la etapa analítica de sus investigaciones.

Cohen ilustra el punto con ejemplos personales de su trabajo con cartas manuscritas del siglo XIX, mostrando cómo herramientas como Transkribus requerían extensas preparaciones y seguían generando transcripciones con errores persistentes. Sin embargo, al emplear modelos de IA avanzados como Gemini 3 Pro, constató transcripciones sorprendentemente precisas de textos complejos, con la capacidad adicional de generar explicaciones sobre cómo la IA llegó a ciertas interpretaciones al analizar rasgos gráficos específicos de la escritura. Esta evolución tecnológica sugiere que la IA puede transformar la forma en que los documentos manuscritos digitalizados se hacen buscables y legibles de manera automática.

Más allá de las implicaciones técnicas, Cohen reflexiona sobre el papel de estas herramientas en la investigación académica. Señala que, al reducir la monotonía y labor manual de transcripción, los estudiosos pueden dedicar más tiempo a la comprensión profunda de los textos y a la interacción humana que estos contienen. Aun así, advierte que el uso de IA debe ser equilibrado: útil para tareas que liberan tiempo, pero sin desplazar la apreciación humana por la escritura y la comunicación que subyacen en los documentos históricos.

Escanear un documento en linea con Online OCR

screenshot2b25283125292bcropped

OnlineOCR.net

https://www.onlineocr.net/

OnlineOCR.net es una web gratuita basada en software de Reconocimiento Óptico de Caracteres (OCR), que permite convertir documentos PDF escaneados (incluyendo archivos de múltiples páginas), faxes, fotografías o imágenes capturadas de una cámara digital en documentos electrónicos editables y de búsqueda, incluyendo Adobe PDF, Microsoft Word, Microsoft Excel, Rtf, Html y Txt. Para ello subes el documento en SELECT FILE, eliges el idioma, la salida a PDF, TXTX, etc. y pulsar en CONVERT.

Si tienes un documento escaneado y desea evitar volver a escribirlo, el servicio de Free Online OCR es la forma más rápida de hacerlo. Además OnlineOCR.net admite 46 idiomas, incluidos occidentales y asiáticos, como inglés, danés, holandés, francés, alemán, italiano, portugués, ruso, español, japonés, chino, coreano y otros.

El registro te dará acceso a las funciones adicionales que no están disponibles para usuarios invitados: reconocimiento de imágenes de gran tamaño, archivos ZIP y PDF de varias páginas, elegir idiomas de reconocimiento, convertir en formatos editables y otras opciones de configuración.

OnlineOCR.net también permite y soporta:

Rotación automática de la imagen
Vista de página completa en imágenes
Creación de imágenes en blanco y negro a partir de archivos de imagen a color y escala de grises
Retener las regiones de color sin texto para la reinserción en el documento de salida

OCR: Herramienta moderna para textos antiguos

a1356571b0b538c5e7cceae228d7a52a

Página de una versión francesa del «Narrenschiff» (Barco de los Locos).

Original:
OCR: Modern tool for old texts
Eureka Alert 23-APR-2019
https://www.eurekalert.org/pub_releases/2019-04/uow-omt042319.php

Los historiadores y otros estudiosos de las Humanidades a menudo tienen que tratar con objetos de investigación difíciles: obras impresas de siglos de antigüedad que son difíciles de descifrar y a menudo se encuentran en un estado de conservación insatisfactorio. Muchos de estos documentos han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún queda un reto por superar: modernizar las fuentes antiguas digitalizadas con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Centro de Filología y Digitalidad de la Universidad Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una importante contribución al desarrollo de este campo.

Con OCR4all, el equipo de investigación de JMU pone a disposición de la comunidad científica una nueva herramienta. Convierte las impresiones históricas digitalizadas con una tasa de error inferior al uno por ciento en textos legibles por ordenador. Además, ofrece una interfaz gráfica de usuario que no requiere conocimientos de TI. Con herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que los usuarios tenían que trabajar con comandos de programación.

Desarrollado en cooperación con el Departamento de Humanidades

La nueva herramienta OCR4all fue desarrollada bajo la dirección de Christian Reul junto con sus colegas de informática, el profesor Frank Puppe (Catedrático de Inteligencia Artificial e Informática Aplicada) y Christoph Wick, así como Uwe Springmann (experto en Humanidades Digitales) y numerosos estudiantes y asistentes.

OCR4all tiene su origen en el proyecto JMU Kallimachos, financiado por el Ministerio Federal de Educación e Investigación de Alemania. Esta cooperación entre las Humanidades y la informática continuará y se institucionalizará en el recién fundado Centro de Filología y Digitalidad de la JMU.

En el desarrollo de OCR4all, los informáticos han colaborado con el departamento de Humanidades de JMU, incluyendo estudios alemanes y románticos y estudios literarios en el proyecto «Narragonien digital». El objetivo era digitalizar el «Narrenschiff», una sátira moral de Sebastian Brant, un bestseller del siglo XV que fue traducido a muchos idiomas. Además, OCR4all se ha utilizado con frecuencia en el Kolleg de la JMU «Medieval and Early Modern Times».

OCR4all está disponible gratuitamente para el público en la plataforma GitHub (con instrucciones y ejemplos): https://github.com/OCR4all

Cada imprenta tenía su propia fuente

Christian Reul explica los desafíos que implica el desarrollo de OCR4all: El reconocimiento automático de texto (OCR = Reconocimiento Óptico de Caracteres) ha estado funcionando muy bien para las fuentes modernas desde hace algún tiempo. Sin embargo, este no ha sido el caso de las fuentes históricas.

«Uno de los mayores problemas era la tipografía», dice Reul. Una de las razones es que las primeras imprentas del siglo XV no utilizaban fuentes uniformes. «Sus sellos de impresión fueron todos tallados por ellos mismos, cada imprenta tenía prácticamente sus propios caracteres»

Índices de error por debajo del uno por ciento

A menudo no es fácil distinguir las diferencias en impresiones antiguas, pero el software puede aprender a reconocer estas sutilezas. Para ello, debe recibir formación sobre el material de muestra. En su trabajo, Reul ha desarrollado métodos para hacer más eficiente la formación. En un estudio de caso con seis impresiones históricas de los años 1476 a 1572, la tasa media de errores en el reconocimiento automático de texto se redujo del 3,9 al 1,7 por ciento.

No sólo se mejoró la metodología, sino que el informático Christoph Wick, de la JMU, también perfeccionó decisivamente el componente técnico mediante el desarrollo de la herramienta Calamari OCR, que también está disponible de forma gratuita y que desde entonces se ha integrado completamente en OCR4all. Por lo tanto, se obtuvieron resultados aún mejores: Ahora, incluso para las obras impresas más antiguas, se pueden alcanzar tasas de error de menos del uno por ciento en general.

Proyectos léxicos

Reul también ha convencido a socios externos de la calidad de la investigación de OCR de Würzburg. En cooperación con el «Zentrum für digitale Lexikographie der deutschen Sprache» (Berlín), el «Wörterbuch der deutschen Sprache» (Diccionario de la Lengua Alemana) de Daniel Sanders ha sido indexado digitalmente y se está preparando una publicación científica sobre este trabajo. Las diferentes líneas de este texto a menudo contienen diferentes fuentes, que representan diferentes informaciones semánticas. Aquí, el enfoque existente para el reconocimiento de caracteres se amplió de tal manera que no sólo el texto, sino también la tipografía y, por lo tanto, la compleja estructura de contenido del léxico, pueden reproducirse con gran precisión.

Weblinks

OCR4all en GitHub (https://github.com/OCR4all)

Calamari en GitHub (https://github.com/Calamari-OCR)

Enlace a la publicación (estudio de caso con seis libros históricos) (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_1.pdf)

Publicación que combina mejoras metodológicas y técnicas (https://jlcl.org/content/2-allissues/1-heft1-2018/jlcl_2018-1_4.pdf)

Copyfish extensión open source que permite traducir texto desde imágenes, vídeos o PDFs

43427482110_de784cbe88_o_d

Copyfish

Las razones más comunes para extraer texto de las imágenes son buscarlo en Google, almacenarlo, enviarlo por correo electrónico o traducirlo. Hasta ahora, la única opción para extraer el texto de una imagen o un vídeo era reescribirlo. Copyfish es una extensión para los navegadores Google Chrome y Firefox que permite a los usuarios copiar y pegar, o copiar y traducir texto desde imágenes. Funciona con texto de cualquier imagen, vídeo o PDF, tanto con fotografías, gráficos, diagramas, capturas de pantalla, documentos PDF, cómics, mensajes de error, memes, Flash, como con vídeos de Youtube. Solo debes ir a la página y añadir la extensión a tu navegador Chrome o FireFox

Copyfish se publica bajo la licencia GPL open-source. Como software de OCR, utiliza la API de OCR gratuita de https://ocr.space/

La última versión añade:

Teclas de acceso rápido para abrir y cerrar Copyfish, y para copiar el texto de OCR
El texto de OCR, ahora se puede editar y se puede reiniciar la traducción.
El texto copiado incluye la traducción (si la traducción está activa)
La selección funciona ahora con el zoom del navegador.
… y por último, pero no menos importante: Copyfish para Firefox

	¿Es el artículo cien… en OpenEval: la inteligencia arti…
	¿Es el artículo cien… en PaperOrchestra: cuando la inte…
	ATHENEA EGEA AHIJADO en Supuestos prácticos de oposici…
	Noticias IA y Educac… en Aprender para el futuro: educa…
	IA en bibliotecas: d… en Implementación de un chatbot d…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca