Archivo de la etiqueta: Duplicados

OCLC implementa un modelo de Inteligencia Artificial para la detección y eliminación de duplicados en los registros bibliográficos de WorldCat

OCLC. «Implementing AI to Further Scale and Accelerate WorldCat De-Duplication.» Última modificación 4 de febrero de 2025. https://www.oclc.org/en/news/announcements/2025/ai-worldcat-deduplication.html.

OCLC ha implementado un modelo de aprendizaje automático para la detección y eliminación de duplicados en los registros bibliográficos de WorldCat, como parte de sus esfuerzos continuos para mejorar la calidad de los datos y la experiencia de búsqueda para los usuarios de la red global de bibliotecas. La iniciativa comenzó en agosto de 2023, cuando se introdujo el primer modelo de aprendizaje automático para identificar duplicados de libros impresos en inglés, con el apoyo de la comunidad de catalogadores, quienes participaron en ejercicios de etiquetado de datos. Este proceso resultó en la eliminación de alrededor de 5,4 millones de registros duplicados de libros impresos en varios idiomas como inglés, francés, alemán, italiano y español.

El modelo de inteligencia artificial de OCLC se ha optimizado y extendido para abarcar todos los formatos, lenguajes y escrituras de WorldCat, utilizando los datos etiquetados por la comunidad para entrenar y ajustar el algoritmo. Tras una extensa fase de pruebas internas y la colaboración de bibliotecas miembros de WorldCat, se iniciará el 11 de febrero de 2025 una prueba piloto que involucrará la fusión de 500,000 pares de registros duplicados de libros impresos en inglés, que son la categoría más numerosa y la que ha recibido más pruebas hasta ahora.

Después de este primer ensayo, se evaluarán los resultados antes de realizar nuevas pasadas de eliminación de duplicados para los libros impresos en inglés. Una vez completada esta fase, OCLC continuará con la eliminación de duplicados en otros formatos, como materiales no bibliográficos y libros en idiomas distintos al inglés. Se recomienda a las bibliotecas que no usen WorldShare Management Services habilitar las actualizaciones de WorldCat en WorldShare Collection Manager para garantizar que reciban los registros actualizados.

Este esfuerzo, que combina la labor manual de los bibliotecarios con la tecnología avanzada de inteligencia artificial, ha logrado importantes avances en la reducción de duplicados en WorldCat. La eliminación de duplicados es una de las formas más efectivas de mejorar la calidad de WorldCat, y este enfoque automatizado permitirá a las bibliotecas ahorrar tiempo valioso y proporcionar una experiencia más precisa y eficiente para los usuarios, además de avanzar en la misión global de las bibliotecas.

Inteligencia Artificial, aprendizaje automático y WorldCat: mejora de los registros para catalogación e identificación

Proffitt, Merrilee. «Machine Learning and WorldCat: Improving Records for Cataloging and Discovery Hanging Together». Hanging Together (blog), 14 de agosto de 2023. https://hangingtogether.org/machine-learning-and-worldcat-improving-records-for-cataloging-and-discovery/.

Cualquier sistema que agregue datos de miles de fuentes necesita procesos sofisticados que mitiguen la duplicación* y garanticen que permanezcan los datos correctos. WorldCat es uno de estos sistemas, que recibe miles de registros bibliográficos de bibliotecas de todo el mundo todos los días. Ya sea en forma manual o automatizada, se ha realizado algún tipo de de duplicación en los registros bibliográficos desde principios de la década de 1980. Si bien el personal de OCLC y los trabajadores bibliotecarios de las instituciones que participan en el Member Merge Program realizan diariamente algunas revisiones manuales de datos, la mayoría de los registros de WorldCat dependen de programas automatizados de de duplicación. Los procesos automatizados introducidos en la década de 1990, conocidos como Duplicate Detection and Resolution (DDR) han madurado. Actualmente, se elimina un promedio de 11.000 registros manualmente y 1 millón mediante la automatización por mes. Además, todos los meses fusionamos millones de registros recién ingresados con registros existentes de WorldCat, lo que significa que también trabajamos para mitigar los registros duplicados antes de su creación.

Las reglas e instrucciones de catalogación han evolucionado muchas veces a lo largo de las décadas. Esto significa que las reglas que tratan la duplicación deben evolucionar continuamente para mantenerse al día con lo último y lo mejor. A lo largo de la vida de nuestros procesos de fusión, el personal de OCLC ha revisado cuidadosamente los resultados para mejorar los procesos, especialmente con fusiones inapropiadas o fallidas, y ha actualizado el sistema basado en reglas en consecuencia. Si bien esto funciona bien en muchos casos, los registros duplicados siguen llegando a WorldCat, lo que afecta a los catalogadores, los investigadores y los flujos de trabajo del personal bibliotecario.

Afortunadamente, la tecnología sigue avanzando y podemos incorporar nuevas tecnologías a los procesos automatizados. En los últimos años, el aprendizaje automático (Machine Learning, ML) se ha hecho un hueco en la corriente dominante, después de haber existido durante varias décadas. Una excelente definición de ML es «…algoritmos [que] construyen un modelo basado en datos de muestra, conocidos como datos de entrenamiento, con el fin de hacer predicciones o tomar decisiones sin ser explícitamente programados para ello».

Se investigaron diferentes algoritmos de ML, pero el obstáculo más importante era reunir un conjunto de datos de entrenamiento para ejecutar el algoritmo elegido. El equipo de Ciencia de Datos se puso en contacto con el equipo de Calidad de Datos para encontrar conjuntos de datos. Calidad de Datos pudo proporcionar información para los conjuntos iniciales de revisiones.

A mediados de 2022, se perfeccionó el modelo ML con análisis continuos y aportaciones del equipo de Calidad de Datos. También se construyó y probó una interfaz de usuario para el ejercicio de etiquetado de datos. La interfaz permitía a los usuarios recuperar un par de registros bibliográficos que fueran posibles duplicados. Los usuarios podían generar el par seleccionando valores para la lengua de catalogación, el tipo de material y la antigüedad del registro

En noviembre, se presentó la herramienta a los participantes del Programa de fusión de miembros, que se implementó para todos los miembros de OCLC a principios de diciembre. La herramienta estuvo abierta hasta mediados de abril de 2023. Para entonces, se habían evaluado poco más de 34.000 pares de posibles registros duplicados. Si bien no se realizaron tres revisiones de cada par, se recopilaron muchos datos para entrenar el modelo ML. Descubrimos que más del 95% de los pares que recibieron varias revisiones no presentaban desacuerdos entre los revisores. Esto demostró que el modelo estaba a la par con los humanos en la identificación de duplicados. Estos datos se utilizaron para perfeccionar el modelo, y el equipo de Calidad de Datos revisó los nuevos resultados para comprobar su precisión.

A partir de fines de agosto de 2023, se procesará una serie inicial de un (1) millón de registros -500.000 pares- a través del algoritmo de aprendizaje automático. Como resultado, se fusionarán 500 000 registros duplicados en WorldCat, lo que mejorará y agilizará las experiencias de catalogación, identificación y préstamo interbibliotecario tanto para el personal de la biblioteca como para los usuarios finales.