Archivo de la etiqueta: Lingüística

La Biblioteca Nacional de Suecia recurre a la Inteligencia Artificial para analizar siglos de datos

Salian, Isha. «Sweden’s National Library Turns Page to AI». NVIDIA Blog, 23 de enero de 2023.

Ver completo

La biblioteca está entrenando modelos de IA de última generación en medio milenio de textos suecos para apoyar la investigación en humanidades, historia, lingüística, medios de comunicación y otros campos.

Durante los últimos 500 años, la Biblioteca Nacional de Suecia ha recopilado prácticamente todas las palabras publicadas en sueco, desde manuscritos medievales de incalculable valor hasta menús de pizza actuales.

Gracias a una ley centenaria que obliga a entregar a la biblioteca un ejemplar de todo lo publicado en sueco -también conocida como Kungliga biblioteket, o KB-, sus colecciones abarcan desde lo más obvio a lo más oscuro: libros, periódicos, emisiones de radio y televisión, contenidos de Internet, tesis doctorales, postales, menús y videojuegos. Se trata de una colección muy diversa de casi 26 petabytes de datos, ideal para entrenar la IA más avanzada. «Podemos crear modelos de IA de última generación para la lengua sueca porque tenemos los mejores datos», afirma Love Börjeson, directora de KBLab, el laboratorio de datos de la biblioteca.

Utilizando NVIDIA DGX systems, el grupo ha desarrollado más de dos docenas de modelos de transformadores de código abierto, disponibles en Hugging Face. Los modelos, descargados por hasta 200.000 desarrolladores al mes, permiten la investigación en la biblioteca y otras instituciones académicas.

«Antes de que se creara nuestro laboratorio, los investigadores no podían acceder a un conjunto de datos en la biblioteca, sino que tenían que mirar un solo objeto digital cada vez», explica Börjeson. «Era necesario que la biblioteca creara conjuntos de datos que permitieran a los investigadores realizar investigaciones orientadas a la cantidad».

De este modo, los investigadores pronto podrán crear conjuntos de datos hiperespecializados, por ejemplo, para buscar todas las postales suecas que representen una iglesia, todos los textos escritos en un estilo concreto o todas las menciones de un personaje histórico en libros, artículos de prensa y programas de televisión.

Los conjuntos de datos de la biblioteca representan toda la diversidad de la lengua sueca, incluidas sus variaciones formales e informales, los dialectos regionales y los cambios a lo largo del tiempo. «Nuestro flujo de entrada es continuo y creciente: cada mes recibimos más de 50 terabytes de datos nuevos», explica Börjeson.

Además de los modelos de transformación que comprenden el texto sueco, KBLab cuenta con una herramienta de IA que transcribe sonido a texto, lo que permite a la biblioteca transcribir su vasta colección de emisiones de radio para que los investigadores puedan buscar contenidos específicos en los registros de audio.

KBLab también está empezando a desarrollar modelos de texto generativo y trabaja en un modelo de IA que podría procesar vídeos y crear descripciones automáticas de su contenido.

«También queremos vincular todas las modalidades», afirma Börjeson. «Cuando se busque un término concreto en las bases de datos de la biblioteca, deberíamos ser capaces de devolver resultados que incluyan texto, audio y vídeo».

KBLab se ha asociado con investigadores de la Universidad de Gotemburgo, que están desarrollando aplicaciones que utilizan los modelos del laboratorio para realizar investigaciones lingüísticas, incluido un proyecto de apoyo a la labor de la Academia Sueca para modernizar sus técnicas basadas en datos para crear diccionarios suecos.

Knowledge Unlatched renueva acceso abierto a los 60 libros de Language Science Press (LSP) y a las 16 revistas de Humanidades

001

 

Knowledge Unlatched Renews Two Successful Open Access Collections, Ensuring Sustainability of Open Research Worldwide

Language Sciences Press

Ver anuncio

 

Knowledge Unlatched (KU), la iniciativa internacional de acceso abierto (OA), se complace en anunciar la renovación de dos colecciones exitosas de acceso abierto a partir de 2017, ambas lanzadas como proyectos piloto para modelos de financiación de tres años: Language Science Press (LSP) ) y KU Select 2017 HSS Journals.

Las dos colecciones obtuvieron un apoyo significativo de las bibliotecas de todo el mundo, asegurando que los 90 libros en el campo de la lingüística (LSP) y 16 revistas de Humanidades y Ciencias Sociales (HSS) pudieran desbloquearse durante el período de tres años de 2018-2020,y ser puestos a disposición de los investigadores para todo el mundo. Ahora KU ha ha renovado la propuesta para garantizar que esta colección de libros y revistas relevantes de HSS continúe durante al menos otros tres años.

KU Select 2018 Libros STEM

Desarrollo de recursos lingüísticos vinculados de datos abiertos para la investigación intensiva

3fcollid3dbooks_covers_026isbn3d978026253625726type3d

Pareja-Lora, Antonio — Lust, Barbara — Blume, Maria — Chiarcos, Christian. Development of Linguistic Linked Open Data Resources for Collaborative Data-Intensive Research in the Language Sciences. Knowledge Unlatched, 2020.

Texto completo

 

Este libro es el producto de un taller internacional dedicado a abordar la accesibilidad a los datos en el campo de la lingüística. Por lo tanto, es vital para la misión del libro que su contenido sea de acceso abierto. La lingüística como campo queda por detrás de muchos otros en lo que respecta a la gestión de datos y las estrategias de accesibilidad. El problema es particularmente agudo en el subcampo de la adquisición de lenguas, donde se necesitan archivos de sonido lingüísticos internacionales como referencia. Las preocupaciones de los lingüistas están muy ligadas a la cantidad de información acumulada por los investigadores individuales a lo largo de los años, que sigue siendo fragmentada e inaccesible para la comunidad en general. Estas preocupaciones son compartidas por otros campos, pero la lingüística hasta la fecha ha visto pocos esfuerzos para abordarlas. Esta colección, realizada por una serie de expertos líderes en el campo, representa un gran paso adelante. Su alcance internacional y la combinación interdisciplinaria de académicos/bibliotecarios/consultores de datos proporcionarán una importante contribución al campo.

 

El libro de los libros de Traducción: 315 libros e informes de Lingüística, Traducción e Interpretación

 

24956753655_f739e7b4e5_d

El libro de los libros de Traducción: 315 libros e informes de Lingüística, traducción e Interpretación

Compilado por Julio Alonso Arévalo

EDICIONES DEL UNIVERSO

Febrero 2016

Descargar PDF

La bibliografía que tienes entre manos es parte del trabajo de compilación de Fuentes de Información llevado a cabo por la Biblioteca de Traducción y Documentación de la Universidad de Salamanca, es una obra que iremos enriqueciendo con más títulos durante las próximas ediciones.

Probablemente algunos de los 260 títulos que aquí recopilamos hayan cambiado su ubicación. Si estás muy interesado en el documento probablemente siga estándo activo en Internet, ya que a veces quienes ponen esta información cambian de servidor, y cuando a los pcos meses vamos a entrar a ese enlace se ha perdido y nos da un error 404, es decir que ese documento ya no está en esa dirección en la que anteriormente estaba. Si ocurre esto puedes buscar el documento entrecomillando el título y poniendo a continuación dos puntos filetype:PDF, de esta manera te aparecerá el texto completo en PDF, de este modo:

“Traducción del humor” filetype:PDF

Te rogamos que si esto sucede te pongas en contacto con nosotros (alar@usal.es) y nos cuentes que no puedes acceder, o que el título aparece en una nueva dirección. Cada año se calcula que “caen” un 14% de las direcciones. Ya algunos editores utilizan direcciones URL persistentes basadas en Handle o en números DOI (Document Object Identificator).

Agradecemos a todas las personas y organizaciones que han puesto esta información en la red de manera abierta y libre, una forma de comunicación que favorece la visibilidad de los autores y las instituciones.

Cada título contiene la referencia bibliográfica en formato ANNOTATED modificado y adaptado a nuestra biblioteca, el enlace al texto completo y un resumen analítico del contenido. Sería deseable hacer índices temáticos, pero es un proceso laborioso. Si buscas alguna información relativa a esta información, puedes hacerla en la búsqueda en las palabras de todo el texto que ofrece Adobe o cualquier otro programa. De todos modos también os facilito un archivo en formato RIS para que quienes lo consideréis podáis incorporar los libros a vuestro gestor de referencias (Zotero, EndNote, Mendeley) Tenéis tutoriales de como hacerlo en mi slideshare (allí hay unos 62 tutoriales)*

Un saludo afectuoso

Julio Alonso Arévalo

alar@usal.es

Fuentes de Información para Traducción e Interpretación

Fuentes de Información para Traducción e Interpretación

 

Asociaciones Profesionales

 

Bases de datos

 

Diccionarios y Glosarios

 

Directorios de Traductotres

 

Listas de Correo

 

Revistas electrónicas

Busca palabra: recurso en castellano para buscar palabras con letras

 

Buscapalabra

El diccionario de la Real Academia de la Lengua contiene unas 88.000 palabras, pero si recopilara todas las derivaciones esa cifra se multiplicaría por 10. Eso es lo que hace Buscapalabra, el primer diccionario en Internet que recoge más de 740.000 palabras  en español y las clasifica para ofrecer a sus usuarios todo tipo de diccionarios y herramientas de búsqueda para que encuentren la palabra que están buscando.  Por ejemplo  buscar todas las palabras que se pueden construir a partir de una serie de letras. También buscar una palabra con determinadas letras usando  asterisco (*) como comodín, que sustituye a cualquier letra. Para encontrar encontrar todas las palabras en español que se pueden formar con esas letras, tal como harías en los juegos Scrable y Apalabrados. También posibilita encontrar sinónimos y antónimos, rimas, conjugar verbos, palabras que empiezan con, palabras que terminan con, además de buscar palabras por patrón o categoría gramatical. En su primer año de vida ha superado los 25 millones de consultas.