¿Qué es la evaluación de metadatos?

Hannah Tarver y Steven Gentry. What is Metadata Assessment? DLF 2021

Esta entrada del blog ha sido redactada por Hannah Tarver y Steven Gentry, miembros del Grupo de Trabajo de Evaluación de Metadatos del Grupo de Interés de la Biblioteca Digital (DLF AIG MWG). Su objetivo es proporcionar una visión general resumida de la evaluación de metadatos en las bibliotecas digitales, incluyendo su importancia y beneficios.

La evaluación de metadatos consiste en valorar los metadatos para mejorar su utilidad tanto para los usuarios internos como externos. Hay tres categorías principales de metadatos:

[1] Los metadatos administrativos proporcionan información sobre la gestión o la conservación de los objetos digitales, como por ejemplo cuándo se archivó, qué acceso o restricciones tiene un elemento, un identificador único/permanente para un objeto, cuándo se migraron/copiaron/revisaron los archivos por última vez, etc.

2] Los metadatos descriptivos son el texto legible por el ser humano que describe la creación y el contenido de un elemento, como por ejemplo quién lo hizo, de qué trata y cuándo se hizo/publicó. Esta información se muestra en una interfaz de usuario de acceso público y con capacidad de búsqueda (mientras que los metadatos administrativos y estructurales pueden ser menos visibles o sólo accesibles internamente).

3] Los metadatos estructurales nombran todos los archivos asociados a un elemento (por ejemplo, un único PDF o varios archivos de imágenes individuales, archivos de metadatos, archivos OCR, etc.) y describen la relación entre ellos. Por ejemplo, si hay imágenes para páginas de texto individuales, o múltiples vistas de un objeto físico, los metadatos estructurales expresarían cuántas imágenes hay y el orden en que deben mostrarse.

En función del sistema local, pueden almacenarse datos específicos en distintos tipos de metadatos (por ejemplo, parte de la información de acceso puede estar en los metadatos descriptivos de cara al público, o parte de la información de preservación puede estar incorporada en los metadatos estructurales). Una organización podría evaluar varias características de cualquiera de estos tipos de metadatos o de todos ellos para asegurarse de que una biblioteca digital funciona correctamente; sin embargo, la mayoría de los investigadores y profesionales se centran en los metadatos descriptivos porque esta información determina si los usuarios pueden encontrar los materiales que se ajustan a sus intereses personales o académicos.

Errores en los metadatos

La evaluación de los metadatos es necesaria porque los errores y/o incoherencias se cuelan inevitablemente en los registros. Las colecciones suelen construirse a lo largo del tiempo, lo que significa que muchas personas diferentes participan en el ciclo de vida de los metadatos; las normas o directrices pueden cambiar; y la información puede trasladarse o combinarse. Hay una serie de aspectos de calidad que las organizaciones pueden querer evaluar dentro de los valores de los metadatos; he aquí algunos ejemplos:

Precisión

Errores tipográficos. Los errores ortográficos o de formato pueden producirse por accidente o debido a un malentendido sobre las reglas de formato. Incluso cuando se utilizan listas controladas, los valores pueden copiarse o seleccionarse incorrectamente.
Identificación errónea. Los creadores de metadatos pueden nombrar incorrectamente a personas o lugares representados o descritos en un elemento. Esto es especialmente problemático en el caso de las imágenes.

Registros erróneos.

Dependiendo de cómo se emparejen los ítems y sus registros de metadatos en un sistema concreto, un registro que describa un ítem puede aplicarse a un ítem totalmente diferente

Integridad

Información que falta. Ya sea por falta de recursos o simplemente por accidente, puede faltar información en los registros de metadatos. Puede tratarse de datos necesarios que afectan a la funcionalidad del sistema o de información opcional que podría ayudar a los usuarios a encontrar un elemento.

Información desconocida. Especialmente en el caso de los objetos del patrimonio cultural -como las fotos y los documentos históricos- puede faltar información que beneficiaría a los investigadores (por ejemplo, detalles sobre la creación de un elemento o personas o lugares importantes).

Conformidad con las expectativas

Terminología inadecuada. A veces, el lenguaje utilizado en los registros no se ajusta a los términos que podría preferir un grupo de usuarios primario (por ejemplo, un valor de materia para «gatitos» en lugar de «felinos» en un registro de una base de datos científica). Esto puede deberse a un uso incoherente de las palabras (por ejemplo, «coches» frente a «automóviles») o a la falta de conocimiento de un editor sobre los descriptores más apropiados o precisos (por ejemplo, «broche de flores» para ramillete, o «tejado en forma de caricia» para tejados a dos aguas).

Lenguaje anticuado. Las colecciones que describen a determinados grupos de personas -como los grupos históricamente subrepresentados o marginados- pueden utilizar un lenguaje inapropiado y perjudicial. Esto es especialmente importante en el caso de los registros que se basan en vocabularios que cambian lentamente y que son compartidos por todos, como los Congress Subject Headings

Coherencia

Diferencias de formato. Si la coincidencia de cadenas exactas es importante, o si los campos utilizan vocabularios controlados, cualquier diferencia de formato (por ejemplo, «FBI» frente a «F.B.I.») podría afectar a la búsqueda o a los filtros de búsqueda de la interfaz pública.

Variaciones del nombre. El mismo nombre puede introducirse de forma diferente en distintos registros en función de cómo se escriba en los artículos (por ejemplo, «tía Betty» frente a «Beatrice»), de los cambios de nombre (por ejemplo, nombres de soltera o fusiones organizativas), de la información disponible a lo largo del tiempo o del uso incoherente de una autoridad de nombres.

Oportunidad

Datos heredados o recolectados. Si las reglas de formateo han cambiado con el tiempo, o si la información ha sido migrada o importada desde otro sistema, puede haber valores incoherentes o artefactos en los registros. Entre ellos se encuentran las subdivisiones MARC en los valores de nombre/sujeto (véase la figura 4), el marcado técnico de las bases de datos (por ejemplo, «. pi. /sup +/, p»), o codificaciones de caracteres rotas (por ejemplo, «‘» en lugar de un apóstrofe).

Beneficios

La evaluación y mejora de los metadatos a lo largo del tiempo tiene una serie de beneficios para los usuarios y las organizaciones. Por ejemplo:

Los usuarios:

Los registros con metadatos completos, precisos y coherentes son más fáciles de encontrar en las búsquedas en línea.
Los materiales descritos de forma similar permiten que los elementos relevantes se coloquen más fácilmente.
Unos buenos metadatos pueden permitir que las interfaces públicas mejoren la experiencia del usuario (por ejemplo, mediante el filtrado de los resultados de las búsquedas).

Organizaciones que mantienen colecciones digitales:

Los metadatos sin errores son más fáciles de migrar de un sistema a otro o de integrar con otros recursos (por ejemplo, una capa de descubrimiento).
Los registros completos facilitan al personal la búsqueda y la promoción/anuncio de artículos especiales cuando surgen oportunidades.
Los registros de metadatos bien formados se comparten más fácilmente con otras organizaciones (por ejemplo, la Digital Public Library of America), lo que hace que esos materiales sean más accesibles.
Los buenos registros dan buena imagen de la organización, ya que los usuarios podrían desanimarse por la ortografía, la gramática o los problemas relacionados.

Métodos/Recursos

Aunque la evaluación de los metadatos es tremendamente beneficiosa, a menudo requiere un apoyo organizativo, como un compromiso amplio o continuo de personas y otros recursos. En primer lugar, el personal con conocimientos es crucial para el éxito de la evaluación y la mejora de los metadatos; los profesionales formados aportan su experiencia en metadatos (por ejemplo, la capacidad de determinar qué valores deben ser revisados o modificados) y las especialidades temáticas necesarias para el éxito de los esfuerzos de evaluación de los metadatos (en particular para los proyectos más grandes). Además, la evaluación y la mitigación o mejora de las colecciones requieren un tiempo considerable del personal para evaluar y editar los metadatos.

Otro componente importante de las actividades de evaluación de metadatos son las herramientas, que pueden incluir recursos basados en hojas de cálculo (por ejemplo, OpenRefine), o scripts especializados escritos en una variedad de lenguajes de programación. Es importante tener en cuenta que, aunque las herramientas pueden agilizar los esfuerzos de evaluación de metadatos, pueden requerir experiencia técnica y formación para ser utilizadas con eficacia.

Aparte del uso de herramientas para un análisis amplio, un método de evaluación popular es la evaluación manual de los registros (es decir, mirar un registro individual y revisar todos los valores). El empleo de este tipo de flujo de trabajo resulta atractivo para los profesionales por varias razones:

La evaluación manual de los metadatos requiere la menor cantidad de formación tecnológica.
Especialmente en el caso de las colecciones más pequeñas, la comprobación de todos los valores de un registro puede permitir menos ediciones y revisiones (es decir, los registros no se «tocan» tan a menudo).
Algunos aspectos de la calidad de los metadatos (por ejemplo, la precisión) sólo pueden determinarse mediante una evaluación manual.

Sin embargo, hay que tener en cuenta algunos retos a la hora de evaluar los metadatos. Una evaluación manual eficaz, por ejemplo, puede ser difícil de escalar a medida que aumentan los registros, y puede no proporcionar información a nivel de colección. Además, a medida que las colecciones aumentan de tamaño, la evaluación exhaustiva se vuelve más difícil y requiere mayores recursos para revisar y corregir errores o valores obsoletos. Por último, es importante reconocer que la mejora de los registros es un proceso continuo y a menudo iterativo. En general, la evaluación de los metadatos es un ejercicio de equilibrio de recursos.

Más información

Los siguientes recursos proporcionan información adicional si quiere saber más sobre varios aspectos de la evaluación de metadatos:

Papers/Publications

Noted by members of DLF AIG MWG as an early influential work regarding quality:
Bruce, Thomas R., and Diane I. Hillmann. (2004). The continuum of metadata quality: Defining, expressing, exploiting. https://ecommons.cornell.edu/handle/1813/7895.
Overview comparing metadata assessment frameworks and metrics:
Ochoa, X., & Duval, E. (2009). Automatic evaluation of metadata quality in digital repositories. International Journal on Digital Libraries, 10(67). https://doi.org/10.1007/s00799-009-0054-4
White paper documenting the results of the MWG’s benchmarks survey about how organizations evaluate their own metadata:
Gentry, S., Hale, M. L., Payant, A., Tarver, H., White, R., & Wittmann, R. (2020). Survey of Benchmarks in Metadata Quality: Initial Findings. http://dlfmetadataassessment.github.io/assets/WhitePaper_SurveyofBenchmarksinMetadataQuality.pdf
An overview about equitable, anti-oppressive, and inclusive metadata: Sunshine State Digital Network. (2020). Introduction to conscious editing series. Retrieved February 23, 2021, from https://sunshinestatedigitalnetwork.wordpress.com/2020/09/16/introduction-to-conscious-editing-series/
A bibliography of resources about harmful description as it pertains to archival description: Digital Collections and Archives. (n.d.) Additional reading: Potentially harmful language in archival description. Retrieved February 23, 2021, from https://dca.tufts.edu/about/policies/Additional-Reading-Potentially-Harmful-Language-in-Archival-Description

Metadata Assessment Working Group Resources

Environmental scan documenting publications, presentations, tools, and organizations related to assessment: http://dlfmetadataassessment.github.io/EnvironmentalScan
Metadata Assessment Framework & Guidance: http://dlfmetadataassessment.github.io/Framework
Metadata Assessment Workshop materials, which intended to introduce “basic skills and knowledge needed to assess metadata quality using data analysis tools”: http://dlfmetadataassessment.github.io/MetadataWorkshop

Example images come from the Digital Collections at the University of North Texas (UNT) — https://digital2.library.unt.edu/search — and from the Digital Public Library of America (DPLA) — https://dp.la/

	Astra es la respuest… en OpenAI lanza GPT-4o, su nuevo…
	Los acuerdos transfo… en Revisión de los acuerdos trans…
	Leer a su lado… en Leer a su lado
	Datos compartidos: U… en Datos compartidos: Un análisis…
	Inteligencia artific… en Inteligencia artificial: ¿impo…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca

¿Qué es la evaluación de metadatos?

Comparte esto: