Shearer, Kathleen. «Multilingual and Non-English Content». COAR. Accedido 2 de noviembre de 2022. https://www.coar-repositories.org/news-updates/what-we-do/multilingual-and-non-english-content/.
El 1 de noviembre de 2022, el Grupo de Trabajo COAR publicó su recomendación inicial para mejorar el descubrimiento de contenidos de los repositorios en una variedad de idiomas, junto con una guía de implementación para la comunidad de repositorios.
El multilingüismo es una característica fundamental de un panorama de comunicaciones de investigación saludable, inclusivo y diverso. Publicar en una lengua local garantiza que el público de diferentes países tenga acceso a la investigación que financian, y también nivela el terreno de juego para los investigadores que hablan diferentes lenguas. La Iniciativa de Helsinki sobre el Multilingüismo en la Comunicación Académica afirma que la descalificación de las lenguas locales o nacionales en la publicación académica es el factor más importante -y a menudo olvidado- que impide a las sociedades utilizar y aprovechar la investigación realizada en el lugar donde viven.
El multilingüismo supone un reto especial para el descubrimiento de los resultados de la investigación. Aunque los investigadores y otros buscadores de información sólo puedan leer en una o dos lenguas, quieren conocer toda la investigación relevante en su área, independientemente de la lengua en la que esté publicada. Sin embargo, los sistemas de búsqueda como Google Scholar y otros índices académicos tienden a proporcionar acceso sólo al contenido disponible en la lengua del usuario. Además, el idioma de un recurso académico a menudo no está etiquetado adecuadamente, lo que significa que una gran parte de los recursos no ingleses quedan excluidos de los resultados de la búsqueda. Por otra parte, muchas infraestructuras de comunicación académica no son óptimas en su apoyo a una variedad de idiomas, ya que se prestó poca atención a esta cuestión durante su proceso de diseño.
En agosto de 2022, el COAR puso en marcha el Grupo de Trabajo del COAR sobre el apoyo al multilingüismo y a los contenidos no ingleses en los repositorios para desarrollar y promover buenas prácticas para los repositorios en la gestión de contenidos multilingües y no ingleses. El grupo de trabajo se centra en la identificación de buenas prácticas para los metadatos, las palabras clave multilingües, las interfaces de usuario, las traducciones, los formatos, las licencias y la indexación que mejorarán la visibilidad del contenido multilingüe y no inglés en todo el mundo. Algunos de los casos de uso que están impulsando las prácticas recomendadas son los siguientes.
- Quiero encontrar todos los artículos que sean relevantes para mi interés, independientemente del idioma en el que estén publicados
- Quiero saber si existe una traducción de un artículo o si este documento es una traducción de otro documento
- Quiero saber cuál es la mejor manera de etiquetar los artículos, tesis o disertaciones que están escritos en más de un idioma para que los lectores sean conscientes de las distintas lenguas
- Quiero ofrecer metadatos tanto en mi idioma local como en inglés para que el contenido forme parte del registro académico internacional y sea visible para todos
- Quiero exponer el idioma del artículo en OAI-PMH
- Quiero saber cuál es el idioma del documento de texto completo que estoy indexando, para poder ayudar a los usuarios a encontrar el contenido en su idioma preferido
Recomendación 1 (Ver)
Todos los registros del repositorio deberían incluir una etiqueta en el campo de metadatos de idioma que identifique el idioma del recurso, y una etiqueta que identifique el idioma de los metadatos (incluso si los recursos están en inglés).
¿Por qué? Se trata de una recomendación muy sencilla, pero extremadamente poderosa. Cuando la lengua de los metadatos y la del recurso se atribuyen correctamente, los servicios de localización e indexación pueden procesar y analizar el texto de forma adecuada. La indexación implica prácticas de análisis de texto como la separación de palabras, la lematización (agrupación de las formas flexionadas de una palabra para que puedan analizarse como un solo elemento) y el tratamiento adecuado de las palabras de parada, todas ellas específicas de cada idioma. La inclusión de la etiqueta lingüística permite a los buscadores de información, agregadores y otros servicios de búsqueda identificar correctamente el idioma de los metadatos y del texto completo y tratar los elementos en consecuencia.
En los próximos meses se publicarán otras recomendaciones que abordan los diferentes casos de uso.