Traducir los idiomas perdidos utilizando el aprendizaje automático

Photo of an ancient tablet showing the language of Ugaritic

Translating lost languages using machine learning System developed at MIT CSAIL aims to help linguists decipher languages that have been lost to history. Adam Conner-Simons | MIT CSAIL Publication Date:October 21, 2020

Ver noticia

El sistema desarrollado en el MIT CSAIL tiene como objetivo ayudar a los lingüistas a descifrar las lenguas que se han perdido en la historia.

Investigaciones recientes sugieren que la mayoría de los idiomas que han existido ya no se hablan. Docenas de estas lenguas muertas también se consideran perdidas o «no descifradas», es decir, no sabemos lo suficiente sobre su gramática, vocabulario o sintaxis para poder entender realmente sus textos.

Las lenguas perdidas son más que una mera curiosidad académica; sin ellas, perdemos todo un importante corpus de conocimiento sobre las personas que las hablaban. Desafortunadamente, la mayoría de ellas tienen registros tan mínimos que los científicos no pueden descifrarlas usando algoritmos de traducción automática. Algunas no tienen un lenguaje «relativo» bien investigado con el que compararse, y a menudo carecen de los divisores tradicionales como los espacios en blanco y la puntuación.

Sin embargo, los investigadores del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT han realizado recientemente un importante avance en este ámbito: un nuevo sistema que ha demostrado ser capaz de descifrar automáticamente un idioma perdido, sin necesidad de un conocimiento avanzado de su relación con otros idiomas. También demostraron que su sistema puede determinar por sí mismo las relaciones entre las lenguas, y lo usaron para corroborar la reciente investigación que sugiere que la lengua ibérica no está realmente relacionada con el vasco.

El objetivo final del equipo es que el sistema sea capaz de descifrar las lenguas perdidas usando sólo unos pocos miles de palabras. Encabezado por la profesora del MIT Regina Barzilay, el sistema se basa en varios principios fundamentados en los conocimientos de la lingüística histórica, como el hecho de que las lenguas generalmente sólo evolucionan de ciertas maneras predecibles. Por ejemplo, si bien un idioma determinado rara vez añade o elimina un sonido entero, es probable que se produzcan ciertas sustituciones de sonidos. Una palabra con una «p» en la lengua materna puede cambiar a una «b» en la lengua descendiente, pero es menos probable que cambie a una «k» debido a la importante diferencia de pronunciación.

Al incorporar estas y otras limitaciones lingüísticas, Barzilay y el estudiante de doctorado del MIT Jiaming Luo desarrollaron un algoritmo de desciframiento que puede manejar el vasto espacio de las posibles transformaciones y la escasez de una señal de guía en la entrada. El algoritmo aprende a incrustar los sonidos del lenguaje en un espacio multidimensional donde las diferencias de pronunciación se reflejan en la distancia entre los vectores correspondientes. Este diseño les permite capturar patrones pertinentes de cambio de lenguaje y expresarlos como restricciones computacionales. El modelo resultante puede segmentar las palabras en un idioma antiguo y mapearlas a sus contrapartes en un idioma relacionado.

El proyecto se basa en un documento que Barzilay y Luo escribieron el año pasado en el que se descifraban las lenguas muertas de la Ugárica y la Lineal B, esta última había tardado décadas en ser descifrada por los humanos. Sin embargo, una diferencia clave con ese proyecto era que el equipo sabía que estas lenguas estaban relacionadas con las primeras formas del hebreo y el griego, respectivamente.

Con el nuevo sistema, la relación entre los idiomas es inferida por el algoritmo. Esta cuestión es uno de los mayores desafíos en el desciframiento. En el caso del Líneal B, tomó varias décadas descubrir el descendiente correcto conocido. En el caso del ibérico, los estudiosos aún no se ponen de acuerdo sobre la lengua relacionada: Algunos argumentan a favor del vasco, mientras que otros refutan esta hipótesis y afirman que el ibérico no se relaciona con ninguna lengua conocida.

El algoritmo propuesto puede evaluar la proximidad entre dos idiomas; de hecho, cuando se prueba en idiomas conocidos, puede incluso identificar con precisión familias de idiomas. El equipo aplicó su algoritmo al ibérico considerando el vasco, así como candidatos menos probables de las familias romance, germánica, turca y urálica. Mientras que el vasco y el latín estaban más cerca del ibérico que otros idiomas, eran todavía demasiado diferentes para ser considerados parientes.

En el futuro, el equipo espera ampliar su trabajo más allá del acto de conectar textos con palabras relacionadas en un idioma conocido, un enfoque que se conoce como «desciframiento basado en la relación». Este paradigma asume que tal lenguaje conocido existe, pero el ejemplo del ibérico muestra que no siempre es así. El nuevo enfoque del equipo implicaría la identificación del significado semántico de las palabras, incluso si no saben cómo leerlas.

«Por ejemplo, podemos identificar todas las referencias a personas o lugares en el documento, que luego pueden ser investigadas más a fondo a la luz de las pruebas históricas conocidas», dice Barzilay. «Estos métodos de ‘reconocimiento de entidades’ se utilizan comúnmente en diversas aplicaciones de procesamiento de textos hoy en día y son muy precisos, pero la cuestión clave de la investigación es si la tarea es factible sin ningún tipo de datos de formación en el idioma antiguo». .

El proyecto fue apoyado, en parte, por la Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA).

1 comentario en “Traducir los idiomas perdidos utilizando el aprendizaje automático

  1. Pingback: Aprendizaje automático para descifrar idiomas “perdidos”. – El Mercurio salmantino

Los comentarios están cerrados.