Inteligencia Artificial, aprendizaje automático y WorldCat: mejora de los registros para catalogación e identificación

Proffitt, Merrilee. «Machine Learning and WorldCat: Improving Records for Cataloging and Discovery Hanging Together». Hanging Together (blog), 14 de agosto de 2023. https://hangingtogether.org/machine-learning-and-worldcat-improving-records-for-cataloging-and-discovery/.

Cualquier sistema que agregue datos de miles de fuentes necesita procesos sofisticados que mitiguen la duplicación* y garanticen que permanezcan los datos correctos. WorldCat es uno de estos sistemas, que recibe miles de registros bibliográficos de bibliotecas de todo el mundo todos los días. Ya sea en forma manual o automatizada, se ha realizado algún tipo de de duplicación en los registros bibliográficos desde principios de la década de 1980. Si bien el personal de OCLC y los trabajadores bibliotecarios de las instituciones que participan en el Member Merge Program realizan diariamente algunas revisiones manuales de datos, la mayoría de los registros de WorldCat dependen de programas automatizados de de duplicación. Los procesos automatizados introducidos en la década de 1990, conocidos como Duplicate Detection and Resolution (DDR) han madurado. Actualmente, se elimina un promedio de 11.000 registros manualmente y 1 millón mediante la automatización por mes. Además, todos los meses fusionamos millones de registros recién ingresados con registros existentes de WorldCat, lo que significa que también trabajamos para mitigar los registros duplicados antes de su creación.

Las reglas e instrucciones de catalogación han evolucionado muchas veces a lo largo de las décadas. Esto significa que las reglas que tratan la duplicación deben evolucionar continuamente para mantenerse al día con lo último y lo mejor. A lo largo de la vida de nuestros procesos de fusión, el personal de OCLC ha revisado cuidadosamente los resultados para mejorar los procesos, especialmente con fusiones inapropiadas o fallidas, y ha actualizado el sistema basado en reglas en consecuencia. Si bien esto funciona bien en muchos casos, los registros duplicados siguen llegando a WorldCat, lo que afecta a los catalogadores, los investigadores y los flujos de trabajo del personal bibliotecario.

Afortunadamente, la tecnología sigue avanzando y podemos incorporar nuevas tecnologías a los procesos automatizados. En los últimos años, el aprendizaje automático (Machine Learning, ML) se ha hecho un hueco en la corriente dominante, después de haber existido durante varias décadas. Una excelente definición de ML es «…algoritmos [que] construyen un modelo basado en datos de muestra, conocidos como datos de entrenamiento, con el fin de hacer predicciones o tomar decisiones sin ser explícitamente programados para ello».

Se investigaron diferentes algoritmos de ML, pero el obstáculo más importante era reunir un conjunto de datos de entrenamiento para ejecutar el algoritmo elegido. El equipo de Ciencia de Datos se puso en contacto con el equipo de Calidad de Datos para encontrar conjuntos de datos. Calidad de Datos pudo proporcionar información para los conjuntos iniciales de revisiones.

A mediados de 2022, se perfeccionó el modelo ML con análisis continuos y aportaciones del equipo de Calidad de Datos. También se construyó y probó una interfaz de usuario para el ejercicio de etiquetado de datos. La interfaz permitía a los usuarios recuperar un par de registros bibliográficos que fueran posibles duplicados. Los usuarios podían generar el par seleccionando valores para la lengua de catalogación, el tipo de material y la antigüedad del registro

En noviembre, se presentó la herramienta a los participantes del Programa de fusión de miembros, que se implementó para todos los miembros de OCLC a principios de diciembre. La herramienta estuvo abierta hasta mediados de abril de 2023. Para entonces, se habían evaluado poco más de 34.000 pares de posibles registros duplicados. Si bien no se realizaron tres revisiones de cada par, se recopilaron muchos datos para entrenar el modelo ML. Descubrimos que más del 95% de los pares que recibieron varias revisiones no presentaban desacuerdos entre los revisores. Esto demostró que el modelo estaba a la par con los humanos en la identificación de duplicados. Estos datos se utilizaron para perfeccionar el modelo, y el equipo de Calidad de Datos revisó los nuevos resultados para comprobar su precisión.

A partir de fines de agosto de 2023, se procesará una serie inicial de un (1) millón de registros -500.000 pares- a través del algoritmo de aprendizaje automático. Como resultado, se fusionarán 500 000 registros duplicados en WorldCat, lo que mejorará y agilizará las experiencias de catalogación, identificación y préstamo interbibliotecario tanto para el personal de la biblioteca como para los usuarios finales.