Archivo de la etiqueta: Catálogos colectivos

Inteligencia Artificial, aprendizaje automático y WorldCat: mejora de los registros para catalogación e identificación

Proffitt, Merrilee. «Machine Learning and WorldCat: Improving Records for Cataloging and Discovery Hanging Together». Hanging Together (blog), 14 de agosto de 2023. https://hangingtogether.org/machine-learning-and-worldcat-improving-records-for-cataloging-and-discovery/.

Cualquier sistema que agregue datos de miles de fuentes necesita procesos sofisticados que mitiguen la duplicación* y garanticen que permanezcan los datos correctos. WorldCat es uno de estos sistemas, que recibe miles de registros bibliográficos de bibliotecas de todo el mundo todos los días. Ya sea en forma manual o automatizada, se ha realizado algún tipo de de duplicación en los registros bibliográficos desde principios de la década de 1980. Si bien el personal de OCLC y los trabajadores bibliotecarios de las instituciones que participan en el Member Merge Program realizan diariamente algunas revisiones manuales de datos, la mayoría de los registros de WorldCat dependen de programas automatizados de de duplicación. Los procesos automatizados introducidos en la década de 1990, conocidos como Duplicate Detection and Resolution (DDR) han madurado. Actualmente, se elimina un promedio de 11.000 registros manualmente y 1 millón mediante la automatización por mes. Además, todos los meses fusionamos millones de registros recién ingresados con registros existentes de WorldCat, lo que significa que también trabajamos para mitigar los registros duplicados antes de su creación.

Las reglas e instrucciones de catalogación han evolucionado muchas veces a lo largo de las décadas. Esto significa que las reglas que tratan la duplicación deben evolucionar continuamente para mantenerse al día con lo último y lo mejor. A lo largo de la vida de nuestros procesos de fusión, el personal de OCLC ha revisado cuidadosamente los resultados para mejorar los procesos, especialmente con fusiones inapropiadas o fallidas, y ha actualizado el sistema basado en reglas en consecuencia. Si bien esto funciona bien en muchos casos, los registros duplicados siguen llegando a WorldCat, lo que afecta a los catalogadores, los investigadores y los flujos de trabajo del personal bibliotecario.

Afortunadamente, la tecnología sigue avanzando y podemos incorporar nuevas tecnologías a los procesos automatizados. En los últimos años, el aprendizaje automático (Machine Learning, ML) se ha hecho un hueco en la corriente dominante, después de haber existido durante varias décadas. Una excelente definición de ML es «…algoritmos [que] construyen un modelo basado en datos de muestra, conocidos como datos de entrenamiento, con el fin de hacer predicciones o tomar decisiones sin ser explícitamente programados para ello».

Se investigaron diferentes algoritmos de ML, pero el obstáculo más importante era reunir un conjunto de datos de entrenamiento para ejecutar el algoritmo elegido. El equipo de Ciencia de Datos se puso en contacto con el equipo de Calidad de Datos para encontrar conjuntos de datos. Calidad de Datos pudo proporcionar información para los conjuntos iniciales de revisiones.

A mediados de 2022, se perfeccionó el modelo ML con análisis continuos y aportaciones del equipo de Calidad de Datos. También se construyó y probó una interfaz de usuario para el ejercicio de etiquetado de datos. La interfaz permitía a los usuarios recuperar un par de registros bibliográficos que fueran posibles duplicados. Los usuarios podían generar el par seleccionando valores para la lengua de catalogación, el tipo de material y la antigüedad del registro

En noviembre, se presentó la herramienta a los participantes del Programa de fusión de miembros, que se implementó para todos los miembros de OCLC a principios de diciembre. La herramienta estuvo abierta hasta mediados de abril de 2023. Para entonces, se habían evaluado poco más de 34.000 pares de posibles registros duplicados. Si bien no se realizaron tres revisiones de cada par, se recopilaron muchos datos para entrenar el modelo ML. Descubrimos que más del 95% de los pares que recibieron varias revisiones no presentaban desacuerdos entre los revisores. Esto demostró que el modelo estaba a la par con los humanos en la identificación de duplicados. Estos datos se utilizaron para perfeccionar el modelo, y el equipo de Calidad de Datos revisó los nuevos resultados para comprobar su precisión.

A partir de fines de agosto de 2023, se procesará una serie inicial de un (1) millón de registros -500.000 pares- a través del algoritmo de aprendizaje automático. Como resultado, se fusionarán 500 000 registros duplicados en WorldCat, lo que mejorará y agilizará las experiencias de catalogación, identificación y préstamo interbibliotecario tanto para el personal de la biblioteca como para los usuarios finales.

OCLC presenta una demanda contra Clarivate Analytics por apropiarse indebidamente de registros de catálogo y metadatos creados por OCLC

OCLC files suit against Clarivate PLC and its subsidiaries, Clarivate Analytics, Ex Libris, and ProQuest. OCLC 2022

Ver noticia

OCLC, Inc. por y a través de su abogado, acaba de presentar una demanda para obtener una orden de restricción temporal, medidas cautelares y daños y perjuicios contra Clarivate, Plc, Clarivate Analytics (US) LLC, ProQuest LLC, y Ex Libris (USA).

La demanda fue presentada por OCLC a principios de esta semana en el Tribunal Federal de los Estados Unidos, Distrito Sur de Ohio. En marzo de 2022, OCLC tuvo conocimiento de que Clarivate está trabajando en una plataforma llamada MetaDoor, que los demandados reconocieron públicamente que competirá directamente con WorldCat® de OCLC. La demanda dice que «En lugar de dedicar el tiempo y otros recursos sustanciales que OCLC ha invertido para crear su WorldCat, líder en la industria, los Demandados han optado por tomar atajos utilizando la plataforma MetaDoor para apropiarse indebidamente de registros de catálogo y metadatos creados por OCLC, sus miembros y otros».

Además OCLC alega que sin poder sustraer valiosos registros de WorldCat, MetaDoor no podría ser una realidad, y que toda la estructura de MetaDoor se basa en WorldCat y en los más de cinco décadas de trabajo y los cientos de millones de dólares invertidos por OCLC para crearlo.

OCLC Library Holdings: Evaluación de la disponibilidad de libros académicos en las bibliotecas en formato impreso y electrónico en comparación con las citas y Altmetrics

Maleki, A. OCLC library holdings: assessing availability of academic books in libraries in print and electronic compared to citations and altmetricsScientometrics (2021). https://doi.org/10.1007/s11192-021-04220-6

Texto completo

Aunque los datos de las existencias de la biblioteca se construyen sobre el formato de trabajo de los libros, se sabe menos sobre la contribución de los libros impresos y electrónicos en las bibliotecas a los recuentos de las existencias de la biblioteca. En respuesta, esta investigación es un intento de explorar la distribución de los datos de las existencias de la biblioteca a través de los formatos de trabajo e investigar la disponibilidad de las existencias impresas de la biblioteca y las existencias electrónicas de la biblioteca para los libros como constituyentes de la métrica de las existencias de la biblioteca a través de los campos y en el tiempo y en comparación con otras métricas de los libros.

Se examinaron los ISBN, los títulos y los nombres de los autores de 119.794 títulos de libros indexados en Scopus en 26 campos para catorce variables que incluyen las existencias de la biblioteca de OCLC, las citas de Scopus, las citas de Google Books, los compromisos de Goodreads y los indicadores de Altmetric. Hay tres conclusiones principales: (a) las existencias de las bibliotecas son una métrica más completa para los libros (más del 97%) que cualquier otra métrica y podría ser útil después de un corto período de tiempo tras la publicación de la primera edición, seguida por Google Books, Goodreads y Scopus, respectivamente; (b) en promedio, las existencias electrónicas son siete veces (mediana tres veces) más numerosas que las existencias impresas y su proporción está creciendo considerablemente para los libros más recientes; (c) hay una tendencia consistente a la baja en el promedio de las existencias de libros impresos, lo que sugiere que los datos de las existencias impresas en las bibliotecas son de naturaleza acumulativa y estadísticamente comparables a las citas formales; sin embargo, la adquisición de libros electrónicos en las bibliotecas es inconsistente en la parcela de distribución, así como en el tiempo. En resumen, las diferencias entre los datos de existencias de libros impresos y electrónicos son amplias, lo que las convierte en métricas distintas, y sugiere que es necesario seguir investigando para comprender sus implicaciones en la evaluación del impacto de los libros.

Worldcat Identities: identifica los libros disponibles de cada autor en las bibliotecas, identidades personales, corporativas y temáticas

Un servicio que proporciona identidades personales, corporativas y temáticas (escritores, autores, personajes, corporaciones, caballos, barcos, etc.) basadas en la información de WorldCat. Dispone de una API  WorldCat Identities API 

  • Enlaces directos a la información de identidad basada en el LCCN o en un
    nombre personal
  • Acceso a la información de identidad mediante OpenURL
  • Búsqueda de acceso a la información de identidad
  • Los metadatos relacionados con las identidades, incluyendo
    – Trabaja para..
    – Trabaja sobre…
    – Nombres asociados…
    – Autoridades relacionadas…

La Red de identidades de WorldCat utiliza el Servicio Web de identidades de WorldCat y la API de búsqueda de WorldCat para crear un mapa interactivo de la Red de identidades relacionadas para cada identidad de la base de datos de identidades de WorldCat. Los Identity Maps pueden utilizarse para explorar la interconectividad entre las Identidades de WorldCat. La Red de Identidades de WorldCat está disponible en http://experimental.worldcat.org/IDNetwork/.

Exploración de las identidades de WorldCat como fuente de información Altmetric: Un experimento de análisis del catálogo de la biblioteca en el campo de la Cienciometría

New Interface for WorldCat: Dec 18 | Indiana University Libraries

Torres-Salinas, D., Arroyo-Machado, W., & Thelwall, M. (2020). Exploring WorldCat Identities as an altmetric information source: A library catalog analysis experiment in the field of Scientometrics. (Preprint). ArXiv, https://doi.org/10.1007/s11192-020-03814-w

Evaluar el impacto de los libros académicos es un difícil problema de evaluación de la investigación. El análisis del catálogo de la biblioteca facilita el estudio cuantitativo, a diferentes niveles, del impacto y la difusión de los libros académicos sobre la base de los datos acerca de su disponibilidad en las bibliotecas. El catálogo mundial de WorldCat recopila datos sobre las existencias de las bibliotecas y ofrece una serie de herramientas, entre las que se encuentra la novedosa WorldCat Identities. Se basa en los perfiles de los autores y proporciona indicadores relativos a la disponibilidad de sus libros en los catálogos de las bibliotecas. Se investiga esta nueva herramienta para identificar sus fortalezas y debilidades en base a una muestra de autores de Bibliometría y Cienciometría. Se revisan los problemas que esto conlleva y comparamos los indicadores del Análisis de catálogos de bibliotecas con las citas de Google Scholar y Web of Science. Los resultados muestran que WorldCat Identities puede ser una herramienta útil para la evaluación del impacto de los libros, pero el valor de sus datos se ve socavado por la provisión de colecciones masivas de libros electrónicos a las bibliotecas académicas.

¿Qué obras forman parte del Catálogo Colectivo del Patrimonio Bibliográfico?

p1godsi8q31nk13nid2e1ccf19ef5

La fuente de información que nos permite conocer que obras son parte del patrimonio nacional es el Catálogo Colectivo del Patrimonio Bibliográfico (CCPB) que recoge la descripción y localización de libros y otros fondos bibliográficos, depositados en bibliotecas e instituciones españolas públicas o privadas, que por su antigüedad, singularidad o riqueza forman parte del Patrimonio Bibliográfico Español.

El CCPB responde a un programa conjunto del Ministerio de Educación, Cultura y Deporte y las Comunidades Autónomas, de acuerdo con la Ley 16/1985 de Patrimonio Histórico.

Catálogo colectivo de las Bibliotecas de Investigación del Reino Unido (RLUK)

 

strength-rluk-cover

Malpas, C. and B. Lavoie. [e-Book] Strength in Numbers: The Research Libraries UK (RLUK) Collective Collection. Dublin, Ohio: OCLC Research, 2016.

 Texto completo

Las bibliotecas de investigación están explorando oportunidades para abordar cooperativamente las áreas de mutua necesidad, incluyendo la gestión de la colección y la administración a largo plazo de la inversión de legado ompreso. El análisis de colecciones colectivas es una valiosa fuente de información y de inteligencia para apoyar la planificación en un entorno en el que las bibliotecas buscan crear valor a través de acciones colectivas y capacidades compartidas. En colaboración con Research Libraries UK (RLUK), OCLC Research ha producido una caracterización detallada de la colección colectiva de miembros de RLUK, con especial énfasis en libros impresos. Este informe examina el tamaño, el alcance y los patrones de superposición de la colección colectiva RLUK, complementada con una perspectiva adicional de la comparación con la colección colectiva de la Asociación de Bibliotecas de Investigación (ARL) y el sistema global de bibliotecas en su conjunto. Este estudio es de particular interés para los miembros de RLUK, pero también es relevante para cualquier grupo de instituciones de educación superior que participan o planean esfuerzos cooperativos alrededor de sus colecciones.