
Salian, Isha. «Sweden’s National Library Turns Page to AI». NVIDIA Blog, 23 de enero de 2023.
Ver completo
La biblioteca está entrenando modelos de IA de última generación en medio milenio de textos suecos para apoyar la investigación en humanidades, historia, lingüística, medios de comunicación y otros campos.
Durante los últimos 500 años, la Biblioteca Nacional de Suecia ha recopilado prácticamente todas las palabras publicadas en sueco, desde manuscritos medievales de incalculable valor hasta menús de pizza actuales.
Gracias a una ley centenaria que obliga a entregar a la biblioteca un ejemplar de todo lo publicado en sueco -también conocida como Kungliga biblioteket, o KB-, sus colecciones abarcan desde lo más obvio a lo más oscuro: libros, periódicos, emisiones de radio y televisión, contenidos de Internet, tesis doctorales, postales, menús y videojuegos. Se trata de una colección muy diversa de casi 26 petabytes de datos, ideal para entrenar la IA más avanzada. «Podemos crear modelos de IA de última generación para la lengua sueca porque tenemos los mejores datos», afirma Love Börjeson, directora de KBLab, el laboratorio de datos de la biblioteca.
Utilizando NVIDIA DGX systems, el grupo ha desarrollado más de dos docenas de modelos de transformadores de código abierto, disponibles en Hugging Face. Los modelos, descargados por hasta 200.000 desarrolladores al mes, permiten la investigación en la biblioteca y otras instituciones académicas.
«Antes de que se creara nuestro laboratorio, los investigadores no podían acceder a un conjunto de datos en la biblioteca, sino que tenían que mirar un solo objeto digital cada vez», explica Börjeson. «Era necesario que la biblioteca creara conjuntos de datos que permitieran a los investigadores realizar investigaciones orientadas a la cantidad».
De este modo, los investigadores pronto podrán crear conjuntos de datos hiperespecializados, por ejemplo, para buscar todas las postales suecas que representen una iglesia, todos los textos escritos en un estilo concreto o todas las menciones de un personaje histórico en libros, artículos de prensa y programas de televisión.
Los conjuntos de datos de la biblioteca representan toda la diversidad de la lengua sueca, incluidas sus variaciones formales e informales, los dialectos regionales y los cambios a lo largo del tiempo. «Nuestro flujo de entrada es continuo y creciente: cada mes recibimos más de 50 terabytes de datos nuevos», explica Börjeson.
Además de los modelos de transformación que comprenden el texto sueco, KBLab cuenta con una herramienta de IA que transcribe sonido a texto, lo que permite a la biblioteca transcribir su vasta colección de emisiones de radio para que los investigadores puedan buscar contenidos específicos en los registros de audio.
KBLab también está empezando a desarrollar modelos de texto generativo y trabaja en un modelo de IA que podría procesar vídeos y crear descripciones automáticas de su contenido.
«También queremos vincular todas las modalidades», afirma Börjeson. «Cuando se busque un término concreto en las bases de datos de la biblioteca, deberíamos ser capaces de devolver resultados que incluyan texto, audio y vídeo».
KBLab se ha asociado con investigadores de la Universidad de Gotemburgo, que están desarrollando aplicaciones que utilizan los modelos del laboratorio para realizar investigaciones lingüísticas, incluido un proyecto de apoyo a la labor de la Academia Sueca para modernizar sus técnicas basadas en datos para crear diccionarios suecos.