Archivo de la etiqueta: Paleografía

La inteligencia artificial como aliada de la paleografía: desafíos y oportunidades en la transcripción de manuscritos antiguos

Ampliar imagen

La IA ya es una gran aliada en paleografía y continuará mejorando. Lo ideal es que colabore con paleógrafos humanos, que aportan sensibilidad histórica, cultural y lingüística que todavía no puede igualarse del todo.

En los últimos años, la inteligencia artificial (IA) ha revolucionado múltiples ámbitos del conocimiento, y uno de los campos que comienza a beneficiarse de su aplicación es la paleografía: la ciencia que estudia las escrituras antiguas y su desciframiento. La transcripción de documentos manuscritos históricos, una tarea tradicionalmente reservada a especialistas entrenados durante años, está siendo cada vez más asistida —y en algunos casos parcialmente automatizada— gracias al desarrollo de sistemas de reconocimiento óptico de caracteres (OCR) adaptados a escritura manual, modelos de lenguaje entrenados en textos antiguos y redes neuronales capaces de interpretar caligrafías complejas.

¿Qué puede aportar la IA a la paleografía?

La IA tiene el potencial de acelerar y facilitar la laboriosa tarea de transcripción. Frente a documentos escritos en letra procesal, cortesana, itálica u otras variantes utilizadas entre los siglos XV y XIX, los modelos de IA pueden reconocer patrones gráficos, distinguir abreviaturas y sugerir lecturas plausibles. Esta capacidad no solo ahorra tiempo, sino que también democratiza el acceso a fuentes primarias, permitiendo que investigadores no especializados puedan explorar archivos históricos con mayor facilidad.

Limitaciones y desafíos

Sin embargo, la intervención de la IA en este campo no está exenta de desafíos. La variabilidad de las grafías, las condiciones físicas de los documentos (manchas, desgastes, rupturas), y la presencia de símbolos y abreviaturas que no se usan en la actualidad dificultan una transcripción completamente automática. Además, muchos modelos aún no están entrenados con corpus suficientemente amplios de escritura antigua, lo que limita su precisión.

Colaboración hombre-máquina

Más que reemplazar al experto, la IA se perfila como una aliada del paleógrafo. Puede realizar una primera lectura que luego será revisada y corregida por el investigador humano, combinando la rapidez de los algoritmos con el conocimiento contextual del especialista. Esta sinergia no solo mejora la eficiencia, sino que también permite abordar proyectos de gran escala, como la digitalización de archivos parroquiales, notariales o judiciales.

Hacia un nuevo paradigma en la investigación histórica

El uso de la inteligencia artificial en la transcripción de documentos paleográficos forma parte de un cambio más amplio en las humanidades digitales. Abre nuevas posibilidades para el análisis masivo de fuentes, el estudio de redes sociales del pasado, o la evolución de la lengua y la escritura. En definitiva, representa una puerta hacia una historia más accesible, más colaborativa y tecnológicamente avanzada.

Prueba con un Documento del siglo XVII

Como ejemplo le he pedido a CHATGPT que me haga una transcripción de un documento del siglo XVII (1677). La escritura del documento es un ejemplo de escritura procesal encadenada, también conocida como procesal cortesana, un estilo caligráfico común en los siglos XV al XVII en los territorios de la Monarquía Hispánica.

Este es el resultado:

Yo no se Paleografía. Si hay alguien que conozca paleografía que lo valore y nos deje los comentarios. Gracias !!


Transcripción paleográfica:

… y darle de comer y beber y todo lo
que fuere menester por ser criatura
huérfana, y no tiene otra persona que
le socorra, por amor de Dios y por
razón de ser deudos.
Y mando que no se me saque de
la dicha sepultura ni a mí ni a
ninguno de los míos sin licencia
del cura o del concejo.
Y bien mando que se me rece el
rosario por mi alma y se me diga
treinta misas rezadas.
Y se me hagan tres ofrendas:
una de pan, otra de vino y otra
de carne.
Y que se me den por amor de
Dios a los pobres, si no se
hallaren pobres en la villa, que
se les dé a otras personas que
estén necesitadas.
Y que se me pongan cera y
lumbre al cuerpo el día de mi
entierro, y que se me entierren
con mis vestidos limpios.
Y que si el dicho mi hermano no
quisiere hacer lo contenido
en este mi testamento, que
no le toque de mi herencia
más de lo que le manda el
consejo.
Y se cumpla en todo lo que se
dice en este testamento, el
cual hice y otorgué en esta
villa de Ledesma, en veinte
y dos días del mes de junio
de este presente año del Señor
de mil y seiscientos y setenta
y siete años.

Notas:

  • Muchas palabras están abreviadas o deformadas por la caligrafía antigua.
  • Algunas frases son ilegibles debido al deterioro del papel y la escritura confusa.
  • El documento parece ser un testamento o acta de últimas voluntades, en el que se detalla cómo deben realizarse misas y rituales religiosos por el alma del difunto.

La IA está descifrando textos antiguos y podría reescribir la historia

Jo Marchant, «How AI is Unlocking Ancient Texts — and Could Rewrite HistoryNature (October 18, 2023). https://www.nature.com/articles/d41586-024-04161-z.

La inteligencia artificial (IA) está revolucionando el estudio de textos antiguos, permitiendo a los investigadores acceder a información que ha permanecido inaccesible durante siglos. Desde pergaminos carbonizados por la erupción del Vesubio hasta tabletas de escritura cuneiforme desmoronadas, los avances en redes neuronales están proporcionando a los estudiosos datos valiosos que podrían redefinir nuestra comprensión de la historia antigua.

En octubre de 2023, Federica Nicolardi, papirologista de la Universidad de Nápoles, recibió un correo electrónico con una imagen que transformaría su investigación. Mostraba un fragmento de un pergamino quemado durante la erupción del Vesubio en el año 79 d.C., que hasta entonces había sido ilegible. Este descubrimiento fue posible gracias al proyecto Vesuvius Challenge, que utiliza técnicas avanzadas de IA para revelar el contenido de estos textos carbonizados. Con el uso de redes neuronales, los investigadores han logrado leer líneas completas de textos griegos que habían estado inaccesibles durante 2,000 años.

El proyecto del Vesubio es solo un ejemplo de cómo las redes neuronales están redefiniendo el estudio de textos antiguos. Estas tecnologías se están utilizando para descifrar lenguas clásicas como el griego y el latín, así como lenguajes menos conocidos como el Script de Hueso de Oráculo de China. Los modelos de redes neuronales están ayudando a interpretar archivos demasiado vastos para que los humanos los lean, completando caracteres faltantes y descifrando lenguas raras y perdidas.

La colaboración entre historiadores antiguos y científicos informáticos ha dado lugar a modelos como Pythia e Ithaca, que pueden sugerir palabras o caracteres faltantes en inscripciones griegas. Estas herramientas no solo aceleran tareas tediosas, sino que también permiten realizar conexiones que antes eran imposibles para los especialistas humanos. Por ejemplo, Ithaca ha demostrado ser capaz de restaurar textos antiguos con una precisión del 62%, superando el 25% de los expertos humanos y elevando esa precisión al 72% cuando los expertos utilizan las sugerencias de IA.

En Corea del Sur, los investigadores están utilizando redes neuronales para abordar uno de los archivos históricos más grandes del mundo: los registros detallados de los reyes coreanos, que datan desde el siglo XIV hasta el XX. Estos registros están escritos en Hanja, un sistema de escritura basado en caracteres chinos antiguos. Las técnicas de IA están acelerando la traducción de estos textos a un ritmo que de otro modo llevaría décadas.

El éxito en la lectura de los pergaminos de Herculano es solo el comienzo. Los investigadores están explorando la posibilidad de utilizar estas técnicas en otros textos inaccesibles, como los manuscritos egipcios antiguos y los papiros de Petra, Jordania. Sin embargo, este flujo de nuevos datos plantea desafíos éticos y metodológicos. ¿Cómo se garantiza la precisión y la reproducibilidad en el análisis de estos textos? ¿Quién debería tener acceso a estos datos?

Los expertos enfatizan la necesidad de trabajar en equipos multidisciplinarios que incluyan a especialistas en humanidades y ciencias computacionales. Además, proponen que todos los datos, incluidos los textos sin procesar y los algoritmos utilizados, se hagan de código abierto para garantizar la transparencia y la confianza en los resultados.

La IA está proporcionando a los papirologistas y otros especialistas en estudios antiguos herramientas sin precedentes para acceder a textos históricos. Esta tecnología no solo está haciendo su trabajo más importante que nunca, sino que también está planteando nuevas preguntas y posibilidades para la investigación histórica. A medida que los algoritmos de IA continúan evolucionando, el potencial para descubrir y entender textos antiguos nunca antes leídos se está convirtiendo en una realidad emocionante para el campo de las humanidades.

Este resumen amplía el artículo original, proporcionando un panorama detallado de cómo la IA está revolucionando la forma en que los investigadores abordan los textos antiguos, destacando los proyectos clave, los avances tecnológicos, los desafíos éticos y las colaboraciones interdisciplinarias necesarias para aprovechar al máximo estas innovaciones.

Práctica de la Paleografía en la era digital

Núñez Chávez, Jorge. Práctica de la Paleografía en la era digital.— México: Adabi de México, A.C., 2020

Texto completo

La Paleografía es una materia que surgió en la Edad Media, junto con la Diplomática su compañera inseparable y en México se incorporó en los planes y programas de estudios profesionales de Historia y Archivonomía desde hace más de 50 años. Isidro García Tato nos ilustra el origen, la evolución y las tendencias que ha tenido la Paleografía desde el ámbito de la Historia y su contribución al desarrollo de ésta última

Introducción a la paleografía: herramientas para la lectura y análisis de documentos antiguos

Vassallo, Rosana Laura. Introducción a la paleografía: Herramientas para la lectura y análisis de documentos antiguos. Editorial de la Universidad Nacional de La Plata (EDULP), 2019.

Texto completo

El presente libro aborda el estudio de la documentación paleográfica de los siglos XIII-XVII desde varias perspectivas complementarias, con el objetivo de ofrecer las herramientas básicas para la iniciación a la investigación histórica en el área de Historia Medieval y Moderna española y en el de la Historia Americana Colonial. El libro consta de dos partes: la primera, aborda el estudio de la escritura gótica en España a través de una serie documentos conservados en el Archivo Catedralicio de Salamanca; en la segunda, se analiza la escritura procesal, procesal encadenada y Humanista, que dominó en América durante los siglos XVI y XVII, a través de la documentación notarial del Archivo General de la Nación (Argentina). Ambas partes poseen una introducción general sobre los fondos conservados en ambos archivos, un estudio sobre los tipos de escritura y un análisis histórico-diplomático de los documentos.

Traducir los idiomas perdidos utilizando el aprendizaje automático

Photo of an ancient tablet showing the language of Ugaritic

Translating lost languages using machine learning System developed at MIT CSAIL aims to help linguists decipher languages that have been lost to history. Adam Conner-Simons | MIT CSAIL Publication Date:October 21, 2020

Ver noticia

El sistema desarrollado en el MIT CSAIL tiene como objetivo ayudar a los lingüistas a descifrar las lenguas que se han perdido en la historia.

Investigaciones recientes sugieren que la mayoría de los idiomas que han existido ya no se hablan. Docenas de estas lenguas muertas también se consideran perdidas o «no descifradas», es decir, no sabemos lo suficiente sobre su gramática, vocabulario o sintaxis para poder entender realmente sus textos.

Las lenguas perdidas son más que una mera curiosidad académica; sin ellas, perdemos todo un importante corpus de conocimiento sobre las personas que las hablaban. Desafortunadamente, la mayoría de ellas tienen registros tan mínimos que los científicos no pueden descifrarlas usando algoritmos de traducción automática. Algunas no tienen un lenguaje «relativo» bien investigado con el que compararse, y a menudo carecen de los divisores tradicionales como los espacios en blanco y la puntuación.

Sin embargo, los investigadores del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT han realizado recientemente un importante avance en este ámbito: un nuevo sistema que ha demostrado ser capaz de descifrar automáticamente un idioma perdido, sin necesidad de un conocimiento avanzado de su relación con otros idiomas. También demostraron que su sistema puede determinar por sí mismo las relaciones entre las lenguas, y lo usaron para corroborar la reciente investigación que sugiere que la lengua ibérica no está realmente relacionada con el vasco.

El objetivo final del equipo es que el sistema sea capaz de descifrar las lenguas perdidas usando sólo unos pocos miles de palabras. Encabezado por la profesora del MIT Regina Barzilay, el sistema se basa en varios principios fundamentados en los conocimientos de la lingüística histórica, como el hecho de que las lenguas generalmente sólo evolucionan de ciertas maneras predecibles. Por ejemplo, si bien un idioma determinado rara vez añade o elimina un sonido entero, es probable que se produzcan ciertas sustituciones de sonidos. Una palabra con una «p» en la lengua materna puede cambiar a una «b» en la lengua descendiente, pero es menos probable que cambie a una «k» debido a la importante diferencia de pronunciación.

Al incorporar estas y otras limitaciones lingüísticas, Barzilay y el estudiante de doctorado del MIT Jiaming Luo desarrollaron un algoritmo de desciframiento que puede manejar el vasto espacio de las posibles transformaciones y la escasez de una señal de guía en la entrada. El algoritmo aprende a incrustar los sonidos del lenguaje en un espacio multidimensional donde las diferencias de pronunciación se reflejan en la distancia entre los vectores correspondientes. Este diseño les permite capturar patrones pertinentes de cambio de lenguaje y expresarlos como restricciones computacionales. El modelo resultante puede segmentar las palabras en un idioma antiguo y mapearlas a sus contrapartes en un idioma relacionado.

El proyecto se basa en un documento que Barzilay y Luo escribieron el año pasado en el que se descifraban las lenguas muertas de la Ugárica y la Lineal B, esta última había tardado décadas en ser descifrada por los humanos. Sin embargo, una diferencia clave con ese proyecto era que el equipo sabía que estas lenguas estaban relacionadas con las primeras formas del hebreo y el griego, respectivamente.

Con el nuevo sistema, la relación entre los idiomas es inferida por el algoritmo. Esta cuestión es uno de los mayores desafíos en el desciframiento. En el caso del Líneal B, tomó varias décadas descubrir el descendiente correcto conocido. En el caso del ibérico, los estudiosos aún no se ponen de acuerdo sobre la lengua relacionada: Algunos argumentan a favor del vasco, mientras que otros refutan esta hipótesis y afirman que el ibérico no se relaciona con ninguna lengua conocida.

El algoritmo propuesto puede evaluar la proximidad entre dos idiomas; de hecho, cuando se prueba en idiomas conocidos, puede incluso identificar con precisión familias de idiomas. El equipo aplicó su algoritmo al ibérico considerando el vasco, así como candidatos menos probables de las familias romance, germánica, turca y urálica. Mientras que el vasco y el latín estaban más cerca del ibérico que otros idiomas, eran todavía demasiado diferentes para ser considerados parientes.

En el futuro, el equipo espera ampliar su trabajo más allá del acto de conectar textos con palabras relacionadas en un idioma conocido, un enfoque que se conoce como «desciframiento basado en la relación». Este paradigma asume que tal lenguaje conocido existe, pero el ejemplo del ibérico muestra que no siempre es así. El nuevo enfoque del equipo implicaría la identificación del significado semántico de las palabras, incluso si no saben cómo leerlas.

«Por ejemplo, podemos identificar todas las referencias a personas o lugares en el documento, que luego pueden ser investigadas más a fondo a la luz de las pruebas históricas conocidas», dice Barzilay. «Estos métodos de ‘reconocimiento de entidades’ se utilizan comúnmente en diversas aplicaciones de procesamiento de textos hoy en día y son muy precisos, pero la cuestión clave de la investigación es si la tarea es factible sin ningún tipo de datos de formación en el idioma antiguo». .

El proyecto fue apoyado, en parte, por la Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA).

Paleografía e investigación en archivos. Planeta Biblioteca 2020/03/11

 

bf131f74f7201ceaec6d8023770a88d4

Ir a descargar

En el programa de hoy hemos tenido el placer de contar con Baltasar Cuart Moner, ex profesor y aún investigador de Historia Moderna de la Universidad de Salamanca, quien nos ha hablado de la investigación en archivos y la utilidad de conocer los diferentes tipos de escritura, el valor de la Paleografía y su relación con otras ciencias como la Diplomática, Peigrafía, Codicología, etc.

 

 

Filología, Codicología, Paleografía en un mundo digital.

 

Among Digitized Manuscripts. Philology, Codicology, Paleography in a Digital World - Buscar con Google

 

Lit, L.C. (2020). Among Digitized Manuscripts. Philology, Codicology, Paleography in a Digital World. Leiden, The Netherlands: Brill. doi: https://doi.org/10.1163/9789004400351

Texto completo

El trabajo con manuscritos se ha transformado gracias al proceso digital. Pero, ¿hay desventajas en las imágenes digitales? ¿Y cómo se puede aprovechar la increíble potencia que la informática nos pone al alcance de la mano?

Cornelis van Lit explica en detalle lo que sucede cuando los estudios de manuscritos se unen a las humanidades digitales. En “Entre los manuscritos digitalizados” aprenderá por qué es importante incluir una nota sobre la calidad de la foto en su descripción codicológica, cómo dibujar, recopilar y publicar glifos de interés paleográfico, qué estándares (como TEI y IIIF) debe cumplir al transcribir un texto, cómo escribir software personalizado para el reconocimiento de imágenes y mucho más.

OCR4all : software de reconocimiento de texto de código abierto de documentos históricos

csm_16ocr4all_3115d24d3a

OCR4all

Los historiadores y los estudiosos de humanidades a menudo tienen que lidiar con objetos de investigación difíciles: trabajos impresos de siglos de antigüedad que son difíciles de descifrar y, a menudo, en un estado de conservación insatisfactorio. Muchos de estos documentos ahora han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún hay un desafío que superar: llevar las fuentes antiguas digitalizadas a una forma de lectura moderna con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Center for Philology and Digitality del Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una contribución significativa para un mayor desarrollo en este campo.

Con OCR4all, el equipo de investigación de JMU está poniendo a disposición de la comunidad científica una nueva herramienta. Convierte impresiones históricas digitalizadas con una tasa de error de menos del uno por ciento en textos legibles por ordenador. Y ofrece una interfaz gráfica de usuario que no requiere experiencia en TICs. Con las herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que la mayoría de los usuarios tenían que trabajar con comandos de programación.

Una aplicación (Apps) capaz de transcribir los manuscritos más ilegibles

 

 

Fuente «El Mercurio Salmantino»

Transcribus es una plataforma creada para el proyecto READ de la UE. Permite a los académicos transcribir rápidamente complicados manuscritos, una tarea que de otra forma llevaría años realizar. 

VER VIDEO

El archivo del estado de Tirol en Innsbruck, Austria, conserva innumerables documentos desde el siglo XI. La mayoría, documentos oficiales y otros importantes registros del pasado. No resultaba fácil transcribir estos libros. La institución trabaja ahora con científicos para automatizar el proceso empleando tecnología punta.

Christoph Haidacher, director del archivo del estado de Tirol, afirma: “Con cursivas difíciles creo que la nueva técnica tendrá problemas. Pero con caligrafía relativamente bonita, el nuevo sistema tiene muchas ventajas y nos ayuda mucho”.

Para digitalizar libros como estos, los científicos que trabajan en el proyecto de investigación europeo READ diseñaron un sistema fácil de utilizar basado en una aplicación para teléfonos inteligentes desarrollada especialmenten para la tarea. Detecta cuando se pasan las páginas y auomáticamente saca fotos de alta definición de cada una de ellas. Guenter Muehlberger coordinador del proyecto nos explica:

“Esto es una combinación de alta y baja tecnología. Es relativamente simple, un accesorio de baja tecnología. Pero trabaja con una aplicación de alta tecnología que está conectada con la plataforma Transkribus: la aplicación sube la imagen al servidor que realiza el reconocimiento del texto manuscrito”.

Transkribus simplifica las tareas que de otra manera llevarían años de trabajo. Ayuda a los académicos con manuscritos complejos y disposiciones gráficas poco habituales. Mario Klarer, profesor de literatura e historia cultural de la Universidad de Innsbruck, lo emplea para transcribir “El libro del héroe”, de 500 páginas, la antología más significativa de textos medievales germanos encargada por Maximiliano I a comienzos del siglo XVI.

“La gran ventaja de este sistema es que ofrece una conexión entre imagen y texto, y lo hace de una forma muy simple, gracias a que el transcriptor tiene la imagen completa de manera inmediata. Es una manera de reducir los errores al mínimo, algo que no se puede conseguir con ningún otro sistema”, afirma.

 

1280x720_cmsv2_44fdfae0-cda3-59f1-be6b-78f2fd93b870-3365890

¡A los libros!: el impulso del investigador hacia sus fuentes

 

51yy2buxldkl-_sx334_bo1204203200_

Jean-François Cottier, M. G. S. R. (2010). [e-Book] Ad libros ! Montréal, Presses de l’Université de Montréal, 2010

Texto completo

«¡Ad libros!» ¡A los libros! Este grito atribuido a Dom Guillaume de Raynald en el momento en que el fuego asoló la Gran Cartuja durante el incendio de 1371 es a la vez un mandato y un impulso que cualquier medievalista puede retomar: el impulso del investigador hacia sus fuentes, el mandato del profesor hacia sus pupilos. Estas dos palabras latinas, que han servido de lema para Denise Angers y Joseph-Claude Poulin, forman un título ideal para el titulo del libro de esta pareja apasionada de humanistas.

Este mantra es también un credo que explica la importancia que Denise Angers y Joseph-Claude Poulin dieron en su pedagogía a este aspecto de la formación de los jóvenes medievalistas en Ottawa, Quebec City o Montreal: cursos sobre fuentes, introducción a la paleografía, codicología o arqueología medieval. Los estudios incluidos en este libro rinden homenaje a su compromiso científico irreprochable, en un conjunto de contribuciones que abarca la totalidad de la Edad Media, desde el siglo VIII al XV -con progresión hasta la Nueva Francia- pero cuyo punto en común es la atención a las fuentes.