Archivo de la etiqueta: Paleografía

Traducir los idiomas perdidos utilizando el aprendizaje automático

Photo of an ancient tablet showing the language of Ugaritic

Translating lost languages using machine learning System developed at MIT CSAIL aims to help linguists decipher languages that have been lost to history. Adam Conner-Simons | MIT CSAIL Publication Date:October 21, 2020

Ver noticia

El sistema desarrollado en el MIT CSAIL tiene como objetivo ayudar a los lingüistas a descifrar las lenguas que se han perdido en la historia.

Investigaciones recientes sugieren que la mayoría de los idiomas que han existido ya no se hablan. Docenas de estas lenguas muertas también se consideran perdidas o “no descifradas”, es decir, no sabemos lo suficiente sobre su gramática, vocabulario o sintaxis para poder entender realmente sus textos.

Las lenguas perdidas son más que una mera curiosidad académica; sin ellas, perdemos todo un importante corpus de conocimiento sobre las personas que las hablaban. Desafortunadamente, la mayoría de ellas tienen registros tan mínimos que los científicos no pueden descifrarlas usando algoritmos de traducción automática. Algunas no tienen un lenguaje “relativo” bien investigado con el que compararse, y a menudo carecen de los divisores tradicionales como los espacios en blanco y la puntuación.

Sin embargo, los investigadores del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT han realizado recientemente un importante avance en este ámbito: un nuevo sistema que ha demostrado ser capaz de descifrar automáticamente un idioma perdido, sin necesidad de un conocimiento avanzado de su relación con otros idiomas. También demostraron que su sistema puede determinar por sí mismo las relaciones entre las lenguas, y lo usaron para corroborar la reciente investigación que sugiere que la lengua ibérica no está realmente relacionada con el vasco.

El objetivo final del equipo es que el sistema sea capaz de descifrar las lenguas perdidas usando sólo unos pocos miles de palabras. Encabezado por la profesora del MIT Regina Barzilay, el sistema se basa en varios principios fundamentados en los conocimientos de la lingüística histórica, como el hecho de que las lenguas generalmente sólo evolucionan de ciertas maneras predecibles. Por ejemplo, si bien un idioma determinado rara vez añade o elimina un sonido entero, es probable que se produzcan ciertas sustituciones de sonidos. Una palabra con una “p” en la lengua materna puede cambiar a una “b” en la lengua descendiente, pero es menos probable que cambie a una “k” debido a la importante diferencia de pronunciación.

Al incorporar estas y otras limitaciones lingüísticas, Barzilay y el estudiante de doctorado del MIT Jiaming Luo desarrollaron un algoritmo de desciframiento que puede manejar el vasto espacio de las posibles transformaciones y la escasez de una señal de guía en la entrada. El algoritmo aprende a incrustar los sonidos del lenguaje en un espacio multidimensional donde las diferencias de pronunciación se reflejan en la distancia entre los vectores correspondientes. Este diseño les permite capturar patrones pertinentes de cambio de lenguaje y expresarlos como restricciones computacionales. El modelo resultante puede segmentar las palabras en un idioma antiguo y mapearlas a sus contrapartes en un idioma relacionado.

El proyecto se basa en un documento que Barzilay y Luo escribieron el año pasado en el que se descifraban las lenguas muertas de la Ugárica y la Lineal B, esta última había tardado décadas en ser descifrada por los humanos. Sin embargo, una diferencia clave con ese proyecto era que el equipo sabía que estas lenguas estaban relacionadas con las primeras formas del hebreo y el griego, respectivamente.

Con el nuevo sistema, la relación entre los idiomas es inferida por el algoritmo. Esta cuestión es uno de los mayores desafíos en el desciframiento. En el caso del Líneal B, tomó varias décadas descubrir el descendiente correcto conocido. En el caso del ibérico, los estudiosos aún no se ponen de acuerdo sobre la lengua relacionada: Algunos argumentan a favor del vasco, mientras que otros refutan esta hipótesis y afirman que el ibérico no se relaciona con ninguna lengua conocida.

El algoritmo propuesto puede evaluar la proximidad entre dos idiomas; de hecho, cuando se prueba en idiomas conocidos, puede incluso identificar con precisión familias de idiomas. El equipo aplicó su algoritmo al ibérico considerando el vasco, así como candidatos menos probables de las familias romance, germánica, turca y urálica. Mientras que el vasco y el latín estaban más cerca del ibérico que otros idiomas, eran todavía demasiado diferentes para ser considerados parientes.

En el futuro, el equipo espera ampliar su trabajo más allá del acto de conectar textos con palabras relacionadas en un idioma conocido, un enfoque que se conoce como “desciframiento basado en la relación”. Este paradigma asume que tal lenguaje conocido existe, pero el ejemplo del ibérico muestra que no siempre es así. El nuevo enfoque del equipo implicaría la identificación del significado semántico de las palabras, incluso si no saben cómo leerlas.

“Por ejemplo, podemos identificar todas las referencias a personas o lugares en el documento, que luego pueden ser investigadas más a fondo a la luz de las pruebas históricas conocidas”, dice Barzilay. “Estos métodos de ‘reconocimiento de entidades’ se utilizan comúnmente en diversas aplicaciones de procesamiento de textos hoy en día y son muy precisos, pero la cuestión clave de la investigación es si la tarea es factible sin ningún tipo de datos de formación en el idioma antiguo”. .

El proyecto fue apoyado, en parte, por la Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA).

Paleografía e investigación en archivos. Planeta Biblioteca 2020/03/11

 

bf131f74f7201ceaec6d8023770a88d4

Ir a descargar

En el programa de hoy hemos tenido el placer de contar con Baltasar Cuart Moner, ex profesor y aún investigador de Historia Moderna de la Universidad de Salamanca, quien nos ha hablado de la investigación en archivos y la utilidad de conocer los diferentes tipos de escritura, el valor de la Paleografía y su relación con otras ciencias como la Diplomática, Peigrafía, Codicología, etc.

 

 

Filología, Codicología, Paleografía en un mundo digital.

 

Among Digitized Manuscripts. Philology, Codicology, Paleography in a Digital World - Buscar con Google

 

Lit, L.C. (2020). Among Digitized Manuscripts. Philology, Codicology, Paleography in a Digital World. Leiden, The Netherlands: Brill. doi: https://doi.org/10.1163/9789004400351

Texto completo

El trabajo con manuscritos se ha transformado gracias al proceso digital. Pero, ¿hay desventajas en las imágenes digitales? ¿Y cómo se puede aprovechar la increíble potencia que la informática nos pone al alcance de la mano?

Cornelis van Lit explica en detalle lo que sucede cuando los estudios de manuscritos se unen a las humanidades digitales. En “Entre los manuscritos digitalizados” aprenderá por qué es importante incluir una nota sobre la calidad de la foto en su descripción codicológica, cómo dibujar, recopilar y publicar glifos de interés paleográfico, qué estándares (como TEI y IIIF) debe cumplir al transcribir un texto, cómo escribir software personalizado para el reconocimiento de imágenes y mucho más.

OCR4all : software de reconocimiento de texto de código abierto de documentos históricos

csm_16ocr4all_3115d24d3a

OCR4all

Los historiadores y los estudiosos de humanidades a menudo tienen que lidiar con objetos de investigación difíciles: trabajos impresos de siglos de antigüedad que son difíciles de descifrar y, a menudo, en un estado de conservación insatisfactorio. Muchos de estos documentos ahora han sido digitalizados, generalmente fotografiados o escaneados, y están disponibles en línea en todo el mundo. Para fines de investigación, esto ya es un paso adelante.

Sin embargo, aún hay un desafío que superar: llevar las fuentes antiguas digitalizadas a una forma de lectura moderna con un software de reconocimiento de texto que sea legible tanto para los no especialistas como para los ordenadores. Los científicos del Center for Philology and Digitality del Julius-Maximilians-Universität Würzburg (JMU) en Baviera, Alemania, han hecho una contribución significativa para un mayor desarrollo en este campo.

Con OCR4all, el equipo de investigación de JMU está poniendo a disposición de la comunidad científica una nueva herramienta. Convierte impresiones históricas digitalizadas con una tasa de error de menos del uno por ciento en textos legibles por ordenador. Y ofrece una interfaz gráfica de usuario que no requiere experiencia en TICs. Con las herramientas anteriores de este tipo, la facilidad de uso no siempre se daba, ya que la mayoría de los usuarios tenían que trabajar con comandos de programación.

Una aplicación (Apps) capaz de transcribir los manuscritos más ilegibles

 

 

Fuente “El Mercurio Salmantino”

Transcribus es una plataforma creada para el proyecto READ de la UE. Permite a los académicos transcribir rápidamente complicados manuscritos, una tarea que de otra forma llevaría años realizar. 

VER VIDEO

El archivo del estado de Tirol en Innsbruck, Austria, conserva innumerables documentos desde el siglo XI. La mayoría, documentos oficiales y otros importantes registros del pasado. No resultaba fácil transcribir estos libros. La institución trabaja ahora con científicos para automatizar el proceso empleando tecnología punta.

Christoph Haidacher, director del archivo del estado de Tirol, afirma: “Con cursivas difíciles creo que la nueva técnica tendrá problemas. Pero con caligrafía relativamente bonita, el nuevo sistema tiene muchas ventajas y nos ayuda mucho”.

Para digitalizar libros como estos, los científicos que trabajan en el proyecto de investigación europeo READ diseñaron un sistema fácil de utilizar basado en una aplicación para teléfonos inteligentes desarrollada especialmenten para la tarea. Detecta cuando se pasan las páginas y auomáticamente saca fotos de alta definición de cada una de ellas. Guenter Muehlberger coordinador del proyecto nos explica:

“Esto es una combinación de alta y baja tecnología. Es relativamente simple, un accesorio de baja tecnología. Pero trabaja con una aplicación de alta tecnología que está conectada con la plataforma Transkribus: la aplicación sube la imagen al servidor que realiza el reconocimiento del texto manuscrito”.

Transkribus simplifica las tareas que de otra manera llevarían años de trabajo. Ayuda a los académicos con manuscritos complejos y disposiciones gráficas poco habituales. Mario Klarer, profesor de literatura e historia cultural de la Universidad de Innsbruck, lo emplea para transcribir “El libro del héroe”, de 500 páginas, la antología más significativa de textos medievales germanos encargada por Maximiliano I a comienzos del siglo XVI.

“La gran ventaja de este sistema es que ofrece una conexión entre imagen y texto, y lo hace de una forma muy simple, gracias a que el transcriptor tiene la imagen completa de manera inmediata. Es una manera de reducir los errores al mínimo, algo que no se puede conseguir con ningún otro sistema”, afirma.

 

1280x720_cmsv2_44fdfae0-cda3-59f1-be6b-78f2fd93b870-3365890

¡A los libros!: el impulso del investigador hacia sus fuentes

 

51yy2buxldkl-_sx334_bo1204203200_

Jean-François Cottier, M. G. S. R. (2010). [e-Book] Ad libros ! Montréal, Presses de l’Université de Montréal, 2010

Texto completo

“¡Ad libros!” ¡A los libros! Este grito atribuido a Dom Guillaume de Raynald en el momento en que el fuego asoló la Gran Cartuja durante el incendio de 1371 es a la vez un mandato y un impulso que cualquier medievalista puede retomar: el impulso del investigador hacia sus fuentes, el mandato del profesor hacia sus pupilos. Estas dos palabras latinas, que han servido de lema para Denise Angers y Joseph-Claude Poulin, forman un título ideal para el titulo del libro de esta pareja apasionada de humanistas.

Este mantra es también un credo que explica la importancia que Denise Angers y Joseph-Claude Poulin dieron en su pedagogía a este aspecto de la formación de los jóvenes medievalistas en Ottawa, Quebec City o Montreal: cursos sobre fuentes, introducción a la paleografía, codicología o arqueología medieval. Los estudios incluidos en este libro rinden homenaje a su compromiso científico irreprochable, en un conjunto de contribuciones que abarca la totalidad de la Edad Media, desde el siglo VIII al XV -con progresión hasta la Nueva Francia- pero cuyo punto en común es la atención a las fuentes.

 

 

Paleografía y Diplomática. Planeta Biblioteca 2018/01/10

27835795439_3b632e1a4d_b_d

ESCUCHAR EL PROGRAMA

Ir a descargar

 

Gregorio del Ser Quijano, “Goyo” es profesor de la Facultad de Traducción y Documentación de la Universidad de Salamanca, especialista en Paleografía y Diplomática con una extensa trayectoria de investigación en archivos. Goyo nos ha hablado de que es la Paleografía, su relación con la Diplomática, y con otras ciencias como la Epigrafía, Numismática, Grafología. Codicología, Heráldica y Silografía. La importancia de esta disciplina para la investigación histórica. Distintos tipos de escrituras pleográficas. La evolución en el tiempo de los tipos de escritura y la llegada de las Humanidades Digitales

Fuentes  paleográficas  latinas: scriptorium medieval.

mio_cid_manuscrito

Marcos García, J. J. (2017). [e-Book]  Fuentes  paleográficas  latinas: scriptorium medieval. Plasencia, Juan José Marcos García. Texto completo: http://guindo.pntic.mec.es/jmag0042/manual_paleograf.pdf

 

Capitalis elegans, capitalis rustica, capitalis monumentalis, uncialis, semiuncialis, antiqua cursiva romana, nova cursiva romananuevo, merovingia, insularis majuscula, insularis minuscula, visigothica, beneventana, carolingia, gothica textura prescissa, gothica textura quadrata, gothica rotunda, gothica bastarda, gothica cursiva, bastarda anglicananuevo y humanistica antiqua: grupo de 20 fuentes tipográficas ttf con aspecto clásico para ordenador. Fuentes para paleografía latina.

 Introducción a la Paleografía y Diplomática Hispanoamericana.

35803168040_1881f299c7_o_d

Caamaño-Dones, J. (2012.). [e-Book]  Introducción a la Paleografía y Diplomática Hispanoamericana. San José, Iniciativas de Investigación y Actividad Creativa Subgraduadas (iINAS) Universidad de Puerto Rico, 2012.

Texto completo

 

La diplomática o ciencia de los diplomas es el estudio de los documentos, cualquiera que sea su autor, teniendo en cuenta sus caracteres extrínsecos e intrínsecos, es decir, el soporte, escritura, lenguaje, formulismo y demás elementos integrantes para formar juicio de su autenticidad e interpretarlos debidamente. La diplomática al estudiar los documentos, en cierto modo, los crítica, es decir, no solamente equivale a juzgar su autenticidad o falsedad, sino también a conocer su valor en vista de los caracteres intrínsecos y extrínsecos que ofrece.

I. Introducción a la Peleografía
II. Tipología escrituraria
III. Signos de abeviación
IV. Signos numerales
V. Introducción a la Diplomática
VI. Clasificación y tipología documental
VII. Génesis documental
VIII.1 El estudio del documento: caracteres
extrínsecos del documento
VIII.2 El estudio del documento: caracteres
intrínsecos del documento
IX. La datación cronológica
X. Sigilografía
XI. Transcripción de documentos