Archivo de la etiqueta: Catalogación

OCLC implementa un modelo de Inteligencia Artificial para la detección y eliminación de duplicados en los registros bibliográficos de WorldCat

OCLC. «Implementing AI to Further Scale and Accelerate WorldCat De-Duplication.» Última modificación 4 de febrero de 2025. https://www.oclc.org/en/news/announcements/2025/ai-worldcat-deduplication.html.

OCLC ha implementado un modelo de aprendizaje automático para la detección y eliminación de duplicados en los registros bibliográficos de WorldCat, como parte de sus esfuerzos continuos para mejorar la calidad de los datos y la experiencia de búsqueda para los usuarios de la red global de bibliotecas. La iniciativa comenzó en agosto de 2023, cuando se introdujo el primer modelo de aprendizaje automático para identificar duplicados de libros impresos en inglés, con el apoyo de la comunidad de catalogadores, quienes participaron en ejercicios de etiquetado de datos. Este proceso resultó en la eliminación de alrededor de 5,4 millones de registros duplicados de libros impresos en varios idiomas como inglés, francés, alemán, italiano y español.

El modelo de inteligencia artificial de OCLC se ha optimizado y extendido para abarcar todos los formatos, lenguajes y escrituras de WorldCat, utilizando los datos etiquetados por la comunidad para entrenar y ajustar el algoritmo. Tras una extensa fase de pruebas internas y la colaboración de bibliotecas miembros de WorldCat, se iniciará el 11 de febrero de 2025 una prueba piloto que involucrará la fusión de 500,000 pares de registros duplicados de libros impresos en inglés, que son la categoría más numerosa y la que ha recibido más pruebas hasta ahora.

Después de este primer ensayo, se evaluarán los resultados antes de realizar nuevas pasadas de eliminación de duplicados para los libros impresos en inglés. Una vez completada esta fase, OCLC continuará con la eliminación de duplicados en otros formatos, como materiales no bibliográficos y libros en idiomas distintos al inglés. Se recomienda a las bibliotecas que no usen WorldShare Management Services habilitar las actualizaciones de WorldCat en WorldShare Collection Manager para garantizar que reciban los registros actualizados.

Este esfuerzo, que combina la labor manual de los bibliotecarios con la tecnología avanzada de inteligencia artificial, ha logrado importantes avances en la reducción de duplicados en WorldCat. La eliminación de duplicados es una de las formas más efectivas de mejorar la calidad de WorldCat, y este enfoque automatizado permitirá a las bibliotecas ahorrar tiempo valioso y proporcionar una experiencia más precisa y eficiente para los usuarios, además de avanzar en la misión global de las bibliotecas.

Formación Básica sobre Documentación Musical para Agrupaciones Instrumentales

Formación Básica sobre Documentación Musical para Agrupaciones Instrumentales 2024

AEDOM Asociación Española de Documentación Musical

Formación básica sobre gestión de archivos para agrupaciones instrumentales, impartida por Margarita Jaume Teruel. Diplomada en Biblioteconomía y Documentación por la Universitat de València, licenciada en Documentación y máster en Gestión Cultural por la Universitat Politècnica de València. Además, ha realizado estudios de grado medio en el Conservatorio Profesional de Música de València, especializándose en flauta y canto. Desde 2019, trabaja como técnico documentalista en el OAM Palau de la Música, Congressos i Orquestra de València, donde se enfoca principalmente en la gestión del archivo musical.»

ChatGPT ya es capaz de catalogar libros en formato Marc 21

ChatGPT puede ayudarte a crear un registro MARC 21 de manera manual, proporcionando el formato correcto y ayudándote a organizar los campos de manera adecuada.

A continuación os proporciono un ejemplo de cómo sería el registro en formato MARC 21 para el libro Luisa Mora Villarejo, Un legado común: las donaciones recibidas en el siglo XXI en la Biblioteca Islámica «Félix María Pareja» (Agencia Española de Cooperación Internacional para el Desarrollo, 2023), Para ello he copiado la información textual del catálogo y lo he pegado en ChatGPT, pidiendo que me elabore un registro MARC 21 de este libro. El resultado es este:

=LDR  01716cam a2200361 i 4500
=001 0000000001
=005 20231211
=008 231211s2023 sp 000 0 spa
=020 ## $a 9788483471937
=020 ## $a 109-23-042-X
=035 ## $a (NIPO) 0000000001
=035 ## $a (DL) M 33141-2023
=041 0# $a spa
=100 1# $a Mora Villarejo, Luisa, $e autor.
=245 10 $a Un legado común : $b las donaciones recibidas en el siglo XXI en la Biblioteca Islámica 'Félix María Pareja' / $c Luisa Mora Villarejo.
=260 ## $a Madrid : $b Agencia Española de Cooperación Internacional para el Desarrollo, Ministerio de Asuntos Exteriores, Unión Europea y Cooperación, $c 2023.
=300 ## $a 184 p. : $b il. col. ; $c 24 cm.
=490 1# $a Ciencias y humanismo (Agencia Española de Cooperación Internacional)
=504 ## $a Bibliografía: p. 155-159.
=520 ## $a El libro aborda las donaciones recibidas en el siglo XXI por la Biblioteca Islámica 'Félix María Pareja', destacando las bibliotecas personales donadas por figuras del arabismo y la cooperación cultural entre España y los países árabes.
=650 0# $a Agencia Española de Cooperación Internacional para el Desarrollo. $v Biblioteca.
=650 0# $a Bibliotecas $x Historia.
=650 0# $a Cooperación cultural de España.
=650 0# $a Arabistas españoles.
=650 0# $a Relaciones España-Países árabes.
=650 0# $a Colecciones especiales.
=710 2# $a Agencia Española de Cooperación Internacional para el Desarrollo, $e emisor.
=830 0# $a Ciencias y humanismo (Agencia Española de Cooperación Internacional)
=856 41 $u http://creativecommons.org/licenses/by-nc-sa/4.0/ $z Licencia Creative Commons - Attribution, Non-Commercial, ShareAlike (BY-NC-SA)

La herramienta también nos explica que es cada uno de los campos.

Explicación de los campos principales:

  • =245: Título completo, en este caso incluye el título y subtítulo del libro.
  • =260: Información de publicación, que incluye el lugar de publicación, el editor y la fecha de publicación.
  • =300: Descripción física del libro, que indica el número de páginas y el tamaño.
  • =504: Nota bibliográfica que incluye la bibliografía.
  • =520: Resumen o sinopsis del contenido del libro.
  • =650: Descriptores de temas que ayudan a clasificar el libro, en este caso relacionados con bibliotecas, makerspaces e innovación.
  • =852: Información sobre la ubicación del libro, en este caso, una biblioteca central.

Este es un ejemplo de cómo se podría estructurar el registro de este libro en un sistema de catalogación MARC 21 para una biblioteca.

Reglas de catalogación de la IASA para la descripción de registros sonoros y documentos audiovisuales relacionados

Texto completo

El Manual para la descripción de registros sonoros y documentos audiovisuales relacionados es una obra recopilada y editada por el Grupo Redactor de IASA bajo la dirección de Mary Milano. La versión en español fue traducida y adaptada con nuevos ejemplos por María del Pilar Gallego Cuadrado, de la Biblioteca Nacional.

ANABAD ha puesto a disposición de los profesionales de la documentación estas reglas de catalogación, originalmente publicadas por la International Association of Sound and Audiovisual Archives (IASA), para mejorar la normalización del trabajo en el ámbito de los documentos sonoros y audiovisuales. La traducción incluye ejemplos adaptados al mundo de habla hispana, enriqueciendo la utilidad del manual para los profesionales del sector.

El uso potencial de modelos de Inteligencia Artificial para generar encabezamientos de materia de la Biblioteca del Congreso (LCSH).


Chow, Eric H. C., T. J. Kao, y Xiaoli Li. «An Experiment with the Use of ChatGPT for LCSH Subject Assignment on Electronic Theses and Dissertations». arXiv, 10 de julio de 2024. https://doi.org/10.48550/arXiv.2403.16424.

Texto completo

Este estudio explora el uso potencial de modelos de lenguaje grande (LLMs) para generar encabezamientos de materia de la Biblioteca del Congreso (LCSH). Los autores emplearon ChatGPT para generar encabezamientos de materia para tesis y disertaciones electrónicas (ETDs) basándose en sus títulos y resúmenes. Los resultados sugieren que LLMs como ChatGPT tienen el potencial de reducir el tiempo de catalogación necesario para asignar términos de materia LCSH a las ETDs, así como mejorar la visibilidad de este tipo de recursos en bibliotecas académicas. Sin embargo, los catalogadores humanos siguen siendo esenciales para verificar y mejorar la validez, exhaustividad y especificidad de los LCSH generados por los LLMs.

En este estudio, los investigadores exploraron el uso de modelos de lenguaje grande (LLM), específicamente ChatGPT, para generar encabezamientos de materia de la Biblioteca del Congreso (LCSH) para tesis y disertaciones electrónicas (ETDs). Los resultados revelaron que, aunque ChatGPT puede acceder a un corpus internalizado de LCSH y registros MARC 21, el modelo tiene dificultades con la validez, especificidad y exhaustividad en los encabezamientos de materia generados. Además, aunque algunos problemas de validez pueden mitigarse con herramientas complementarias, el modelo aún falla en términos de especificidad y exhaustividad, especialmente con las cadenas LCSH que implican subdivisiones, fallando en producir resultados precisos aproximadamente la mitad del tiempo.

Estos resultados sugieren que, para asegurar la precisión y fiabilidad del proceso de catalogación, la participación de catalogadores humanos sigue siendo esencial. No obstante, el uso de LLMs como ChatGPT en la catalogación de ETDs o materiales similares, cuyos títulos y resúmenes son altamente indicativos de sus temas, aún puede desempeñar un papel importante de apoyo. Actualmente, muchas bibliotecas académicas están abrumadas por una afluencia de nuevos recursos electrónicos, incluidos ETDs, que superan con creces la capacidad de los catalogadores humanos para procesarlos de manera oportuna. El estudio sugiere que los LLMs podrían utilizarse como una herramienta económica para la generación inmediata de LCSH, dado que el costo asociado con el uso de la API OpenAI de Microsoft en el presente estudio ascendió a aproximadamente USD $0.25 y el tiempo total utilizado para procesar los 30 ETDs fue de aproximadamente 3 minutos.

Como herramienta de filtrado inicial y sugerencia, ChatGPT permite a los catalogadores experimentados centrarse en mejorar la precisión y completitud de los registros de catálogo. Este enfoque complementario puede potencialmente aumentar la productividad al aprovechar los LLMs para tareas básicas, mientras se preserva la experiencia crítica e insustituible de los catalogadores humanos. Además, para los catalogadores principiantes, refinar una sugerencia de LCSH existente, aunque imperfecta, de ChatGPT es menos intimidante que construir nuevos encabezamientos de materia desde cero. Por lo tanto, el uso de LLMs tiene el potencial de reducir el tiempo de catalogación necesario para asignar términos de materia LCSH para ETDs. Además, para los encabezamientos de materia generados por LLM que no son válidos como LCSH, pero que pueden ser suficientemente descriptivos para describir, los catalogadores podrían incluso considerar insertar estos términos directamente en el campo 653 (término de índice no controlado) en un registro MARC para mejorar la capacidad de descubrimiento del trabajo en un catálogo de biblioteca

Datos enlazados: el futuro de la catalogación en bibliotecas

Linked data: The future of library cataloging. (2024, junio 5). OCLC. https://www.oclc.org/go/en/publications/linked-data-the-future-of-library-cataloging.html

Texto completo

OCLC ha publicado «Datos enlazados: El futuro de la catalogación en bibliotecas», un documento de posición que destaca el valor que los datos enlazados pueden aportar a los catálogos de bibliotecas y las herramientas disponibles para facilitar a las bibliotecas la creación de una experiencia más interconectada para los buscadores de información.

El breve documento de 12 páginas detalla el recorrido de OCLC desde décadas de investigación en datos enlazados, pasando por experimentos y prototipos, la creación de más de 150 millones de Entidades WorldCat, hasta la reciente disponibilidad de la aplicación web y APIs a través de OCLC Meridian que las bibliotecas pueden utilizar para comenzar.

«Durante años, OCLC ha visto los datos enlazados como el futuro de la catalogación en bibliotecas», dijo Mary Sauer-Games, Vicepresidenta de Gestión Global de Productos en OCLC. «Hemos explorado las mejores y más eficientes formas de mover los catálogos y la catalogación lejos de MARC para asegurarnos de que se conecten con otros flujos de información. Estamos en un punto donde los bibliotecarios están utilizando nuevas herramientas y aplicaciones para ver por sí mismos el impacto que los datos enlazados pueden tener en los catálogos de bibliotecas. Así que, el futuro está aquí, pero sabemos que la transición a los datos enlazados no ocurrirá de la noche a la mañana. Queremos facilitar a las bibliotecas de todo tipo y tamaño la experimentación con los datos enlazados dentro de sus flujos de trabajo actuales para que puedan avanzar a su propio ritmo.»

OCLC ha creado un entorno híbrido para que las bibliotecas experimenten y vean por sí mismas el potencial de los datos enlazados para una mayor descubribilidad de los recursos bibliotecarios. OCLC está integrando datos enlazados dentro de los sistemas y servicios existentes, mientras desarrolla nuevas herramientas que harán la transición más fácil para las bibliotecas.

Los datos enlazados se basan en la base escalable de WorldCat, que está evolucionando como la infraestructura para facilitar la integración e interoperabilidad de datos enlazados a escala global. Los datos enlazados ampliarán las capacidades de WorldCat para ir más allá de las limitaciones de MARC y conectar con nuevos y diferentes flujos de información y recursos en la web.

Además de expandir el alcance de WorldCat a otros ecosistemas de información, los datos enlazados también permiten que otras organizaciones y socios se conecten de nuevo a las bibliotecas.

El documento de posición ayuda a responder la pregunta de por qué la transición a los datos enlazados es importante para las bibliotecas.

«Creemos que las bibliotecas eventualmente necesitarán hacer la transición a un modelo de datos enlazados para conectarse mejor en el universo interconectado de información actual», dijo Gina Winkler, Directora Ejecutiva de Servicios Digitales y Metadatos de OCLC. «Estamos comprometidos con el éxito a largo plazo de esta transición, y con proporcionar apoyo comunitario continuo, capacitación y colaboración. Con WorldCat como base, nuestra estrategia a largo plazo es elevar a las bibliotecas a escala a esta nueva forma de conectarse con la web más amplia para una experiencia de descubrimiento más completa.»

Bibliotecarios contra las máquinas: ¿Es ChatGPT la encarnación de EMERAC?

Press, Gil. «Librarians Against The Machines: Is ChatGPT The Incarnation Of EMERAC?» Forbes. Accedido 28 de marzo de 2024. https://www.forbes.com/sites/gilpress/2023/04/30/librarians-against-the-machines-is-chatgpt-the-incarnation-of-emerac/.

A través de los años, la automatización ha transformado las bibliotecas, pero también ha abierto nuevas posibilidades de organización y acceso a la información. El surgimiento de ChatGPT y otros Modelos de Lenguaje Grandes (LLM) plantea preguntas sobre el papel futuro de la inteligencia artificial en la búsqueda y comprensión del conocimiento humano, como se ve en un estudio reciente que compara las respuestas de ChatGPT con las de los médicos.

«No pueden construir una máquina para hacer nuestro trabajo; hay demasiadas referencias cruzadas en este lugar», dice la bibliotecaria jefe (Katharine Hepburn) a sus ansiosos colegas del departamento de investigación cuando se contrata a un «ingeniero de métodos» (Spencer Tracy) para «mejorar la relación hombre-hora» en una gran empresa. Al final de la película «Su otra esposa» (Desk Set) (lanzada el 1 de mayo de 1957), demuestra su valía al ganarse, no sólo el corazón del ingeniero, sino también un concurso contra EMERAC, un «cerebro electrónico» del tamaño de una habitación, de aspecto siniestro.

Unos años antes de que los primeros «cerebros electrónicos» empezaran a automatizar el trabajo, Fremont Rider, bibliotecario de la Universidad de Wesleyan, publicó The Scholar and the Future of the Research Library (1944). Calculaba que el tamaño de las bibliotecas universitarias estadounidenses se duplicaba cada dieciséis años. Dado este ritmo de crecimiento, Rider especulaba con que la Biblioteca de Yale en 2040 tendría «aproximadamente 200.000.000 de volúmenes, que ocuparían más de 6.000 millas de estanterías… [requiriendo] una plantilla de catalogación de más de seis mil personas».

Algo parecido a lo que se predijo en los años 30, cuando las centralitas telefónicas automáticas sustituyeron a las centralitas asistidas por operadoras, que en poco tiempo se necesitarían más operadoras que chicas jóvenes aptas para el trabajo.

Esa «predicción» sirvió para justificar la automatización, ya que AT&T tuvo que explicar a sus clientes por qué tenían que hacer el trabajo que antes realizaba otro ser humano. La predicción de Rider sobre las bibliotecas y los bibliotecarios era correcta en cuanto al aumento del volumen de conocimientos almacenados en papel, pero no preveía que los «cerebros electrónicos» automatizarían parte del trabajo del conocimiento y proporcionarían almacenamiento digital para el creciente volumen de información. Y lo que es más importante, proporcionarán mejores medios para encontrar la información pertinente.

El afán por proporcionar a los buscadores de conocimiento el saber que buscan es mucho más antiguo que Google. En 1728, Ephraim Chambers, un fabricante de globos terráqueos londinense, publicó la Cyclopaedia, or, An Universal Dictionary of Arts and Sciences. Fue probablemente el primer intento de relacionar por asociación todos los artículos de una enciclopedia o, más en general, todos los componentes del conocimiento humano. En el prefacio, Chambers explica su innovador sistema de referencias cruzadas:

«Los antiguos lexicógrafos no han intentado nada parecido a una estructura en sus obras; ni parecen haber sido conscientes de que un diccionario era en cierta medida capaz de las ventajas de un discurso continuado. En consecuencia, no vemos nada parecido a un Todo en lo que han hecho …. Nos esforzamos por conseguirlo, considerando las diversas Materias [es decir, temas] no sólo de forma absoluta e independiente, en cuanto a lo que son en sí mismas, sino también de forma relativa, o como se relacionan entre sí. Ambas son tratadas como tantos Todoes, y tantas Partes de un Todo mayor; su Conexión con el cual, es señalada por una Referencia… Se abre una Comunicación entre las varias partes de la Obra; y los varios Artículos son en cierta medida reemplazados en su Orden natural de Ciencia, del cual el Técnico o Alfabético los había removido.»

Y justo antes de la llegada de los «cerebros electrónicos», Vannevar Bush escribió en As We May Think (1945): «Nuestra ineptitud para llegar a los registros se debe en gran medida a la artificialidad de los sistemas de indexación… La selección [es decir, la recuperación de información] por asociación, más que por indexación, aún puede mecanizarse».

¿Nos proporcionarán los «cerebros electrónicos» la recuperación de información por asociación? ¿Ayudarán a los bibliotecarios o servirán para sustituirlos?

En la década de 1960, la «amenaza» que suponían los ordenadores y la automatización para las bibliotecas se convirtió en una de las principales preocupaciones de los bibliotecarios. Paul Wasserman abría The Librarian and the Machine (1965) con la siguiente declaración: «Como si no fuera ya un problema suficiente para los administradores de bibliotecas que se esfuerzan por responder a las innumerables presiones e infinitas complejidades…. Un terror más nuevo e incluso más premonitorio [cursiva mía] … empezaba a emerger con mayor claridad. Me refiero al ordenador y al aparato de apoyo que lo acompaña».

Pero, al igual que Desk Set, su conclusión al final de su estudio de un año de duración es reconfortante: «Las máquinas pueden hacer hoy gran parte del trabajo del hombre con mayor rapidez y eficacia; pero no pueden hacer tan bien su trabajo intelectual».

¿Por qué era -y sigue siendo- siquiera concebible que un ordenador pueda hacer el trabajo del hombre, o más estrechamente, sustituir a un bibliotecario? ¿Porque la mayoría de nosotros suscribe fervientemente la alucinación de la «inteligencia general artificial» (AGI)? ¿Por nuestra «fascinación morbosa por la última forma de tecnología», por utilizar otra declaración de Wasserman en 1965?

En la película «Su otra esposa», en particular la afirmación sobre las referencias cruzadas, ha servido de fuente de inspiración y de grito de guerra para los bibliotecarios en sus encuentros con la creciente automatización y digitalización. Lo conocí cuando me incorporé en 1988 al departamento de investigación corporativa, parte de una magnífica red mundial de bibliotecas, de uno de los principales proveedores de «cerebros electrónicos», Digital Equipment Corporation (DEC).

El grupo para el que trabajaba no sólo contaba con bibliotecarios y muchos conocimientos en papel, sino también con información digitalizada y un equipo de expertos en recuperación de información (lo que diez años después empezamos a llamar «búsqueda»). Gestionaban una base de datos de artículos nuevos digitalizados («sistema de información competitiva» o SIC) y desarrollaron un software de búsqueda en bases de datos -lo que hoy llamamos «IA»- que podía distinguir entre «DEC» como nombre de la empresa y «Dec» como abreviatura de diciembre.

Tim Berners-Lee, preocupado como Bush y Chambers antes que él por la forma en que se organizaba la información, dejó obsoletos este tipo de primeros sistemas de búsqueda. Le entusiasmaba la idea de escapar de la «camisa de fuerza de los sistemas de documentación jerárquicos», escribió Berners-Lee en Weaving the Web: «Al poder referenciar todo con la misma facilidad, la web también podía representar asociaciones entre cosas que podían parecer no relacionadas pero que, por alguna razón, en realidad compartían una relación».

Con este salto imaginativo, Berners-Lee superó un escollo importante para todos los sistemas de recuperación de información anteriores: El sistema de clasificación predefinido en su núcleo. Esta idea era tan contraintuitiva que incluso durante los primeros años de la Web se intentó hacer precisamente eso: Clasificar (y organizar en taxonomías predefinidas) toda la información de la Web.

Google triunfó sobre Yahoo! y otros obsesionados con la taxonomía porque entendió el verdadero espíritu de la web. Los fundadores de Google fueron los primeros en aprovechar la perspicacia de Berners-Lee y construir su negocio de recuperación de información siguiendo de cerca las referencias cruzadas (es decir, los enlaces entre páginas) a medida que ocurrían, y correlacionar la relevancia con la cantidad de referencias cruzadas (es decir, la popularidad de las páginas según la cantidad de otras páginas que enlazaban con ellas).

La automatización, que reemplaza a los bibliotecarios y sus catálogos en fichas, ha sido el corazón del éxito de Google y su obsesión con la «escala», a medida que cada vez más conocimiento previamente basado en papel se digitalizaba y cada vez más información nacía digital.

Pero esta automatización también ha llevado a la ampliación, a apoyar nuestro pensamiento creando una nueva forma de organizar la información del mundo, una que esté más en línea con nuestro proceso de pensamiento y más en línea con el volumen actual de información (valiosa e inútil) que es imposible de catalogar.

Chambers escribió sobre «los beneficios de un discurso continuado». Se refería a la «conversación» entre diferentes conceptos y temas, cómo se relacionan entre sí. ¿Presentan ChatGPT y otros Modelos de Lenguaje Grandes (LLM) una nueva realidad en la que las computadoras y sus sistemas de búsqueda de información conversan con sus usuarios y los incitan a formular consultas más precisas? ¿Y cuánto del «trabajo intelectual» del hombre (y con qué calidad) podrá hacer la inteligencia artificial (IA)?

Aquí hay un ejemplo reciente para considerar, sobre las conversaciones entre pacientes y sus médicos. Un nuevo estudio comparó la calidad y empatía de las respuestas a preguntas de pacientes para médicos vs ChatGPT. «Los resultados para la calidad y empatía de las respuestas de ChatGPT fueron bastante sorprendentes», escribe Eric Topol. En cuanto a la calidad, los evaluadores (ciegos a la fuente) prefirieron la respuesta de ChatGPT el 79% del tiempo. La proporción de respuestas empáticas o muy empáticas fue del 45.1% para el chatbot frente al 4.6% para los médicos.

Topol concluye que los resultados «reflejan nuevas posibilidades emocionantes tanto para médicos como para pacientes que no habíamos visto antes en la historia de la atención médica. Todo está bajo el título general de usar máquinas para hacer que los humanos sean más humanos».

Dudo que las máquinas puedan hacer que los humanos sean más humanos. Pero pueden mejorar todos los tipos de trabajo de conocimiento y pueden mejorar drásticamente nuestras conversaciones con los trabajadores del conocimiento.

¿Puede la Inteligencia artificial sustituir a los catalogadores humanos?


La catalogación bibliográfica con inteligencia artificial (IA) mejora y automatiza el proceso de descripción de recursos bibliográficos mediante técnicas como procesamiento del lenguaje natural, clasificación automática y extracción de metadatos. Proyectos como BIBFRAME de la Biblioteca del Congreso de EE. UU., junto con iniciativas de Linked Data, exploran el potencial de la IA para integrar y enriquecer datos bibliográficos en la web semántica.

La catalogación bibliográfica con inteligencia artificial (IA) se refiere al uso de técnicas y algoritmos de IA para mejorar y automatizar el proceso de catalogación de recursos bibliográficos, como libros, artículos, documentos y otros medios de información. Hoy por hoy es posible pedir a ChatGPT que nos elabore una referencia bibliográfica en el formato que deseemos con solo poner la URL del recurso, pero ¿Es posible catalogar un libro con inteligencia artificial?

Estas son algunas formas en que la IA puede contribuir a la catalogación bibliográfica:

  1. Procesamiento del lenguaje natural (PLN): La IA puede analizar el contenido de los documentos utilizando técnicas de PLN para extraer información relevante, como temas, conceptos y términos clave.
  2. Clasificación automática: Los algoritmos de aprendizaje automático pueden clasificar automáticamente los documentos en categorías específicas basadas en su contenido, lo que facilita la organización y recuperación de la información.
  3. Extracción de metadatos: La IA puede identificar y extraer metadatos importantes de los documentos, como el título, autor, fecha de publicación, resumen, palabras clave, etc., lo que facilita la creación de registros bibliográficos completos y precisos.
  4. Normalización y enriquecimiento de datos: Los algoritmos de IA pueden normalizar los datos bibliográficos y enriquecerlos con información adicional, como enlaces a bases de datos externas, imágenes de portadas, reseñas de usuarios, etc.
  5. Asistencia en la asignación de materias: La IA puede ayudar en la asignación de términos de materias o encabezamientos de materias a los documentos, lo que mejora la precisión y coherencia de la catalogación temática.
  6. Detección de duplicados: Los algoritmos de IA pueden identificar duplicados y variantes de registros bibliográficos, lo que ayuda a mantener una base de datos bibliográfica limpia y libre de redundancias.

En todo el mundo, hay varios proyectos que están explorando el uso de inteligencia artificial en la catalogación bibliográfica y la gestión de información. Uno de estos proyectos es el Proyecto BIBFRAME, liderado por la Biblioteca del Congreso de los Estados Unidos. BIBFRAME (Bibliographic Framework Initiative) se centra en el desarrollo de un modelo de datos diseñado para reemplazar el formato MARC tradicional. Este modelo busca ser más compatible con la web semántica y permitir la integración de datos bibliográficos con otros recursos en línea. Dentro del proyecto BIBFRAME, se están realizando investigaciones sobre el uso de inteligencia artificial para mejorar la descripción y catalogación de recursos, lo que promete una gestión más eficiente y precisa de la información bibliográfica.

Además, existen proyectos de Linked Data en diversos lugares del mundo que están explorando el potencial de esta tecnología para mejorar la catalogación y la recuperación de información. Estos proyectos aprovechan las tecnologías de Linked Data para enriquecer y vincular datos bibliográficos con otros conjuntos de datos en la web. Ejemplos notables incluyen el proyecto Europeana y el Proyecto DBpedia, que están trabajando en la creación de infraestructuras para facilitar el acceso y la interoperabilidad de los datos bibliográficos a nivel mundial.

Asimismo, muchas bibliotecas están implementando sistemas de automatización que utilizan inteligencia artificial para mejorar la eficiencia de la catalogación y la gestión de colecciones. Estos sistemas incluyen herramientas de procesamiento del lenguaje natural para analizar y extraer metadatos de los documentos, así como algoritmos de aprendizaje automático para la clasificación y asignación de términos de sujetos. Esta automatización no solo agiliza el proceso de catalogación, sino que también mejora la calidad y coherencia de los registros bibliográficos, lo que beneficia tanto a los usuarios como a los profesionales de la información. En resumen, estos proyectos representan avances significativos en el uso de la inteligencia artificial para mejorar la gestión y el acceso a la información bibliográfica en todo el mundo.

El artículo «From ChatGPT to CatGPT: The Implications of Artificial Intelligence on Library Cataloging» de Richard Brzustowicz, publicado en «Information Technology and Libraries» en septiembre de 2023, explora el potencial de los modelos de lenguaje como ChatGPT para transformar la catalogación bibliotecaria. El autor demuestra, a través de experimentos con ChatGPT, su capacidad para generar registros MARC precisos utilizando RDA y otros estándares como Dublin Core Metadata Element Set. Si bien estos resultados muestran el potencial de ChatGPT para agilizar el proceso de creación de registros, también plantean cuestiones importantes relacionadas con los derechos de propiedad intelectual y el sesgo.

Aunque, si bien la inteligencia artificial (IA) puede automatizar muchas tareas asociadas con la catalogación bibliográfica, reemplazar completamente al catalogador humano con IA no es una perspectiva realista en el corto plazo. La catalogación bibliográfica requiere de un profundo entendimiento de los principios de la organización de la información, así como de la capacidad para interpretar contextos y comprender la semántica de los documentos. Aunque la IA puede ayudar en tareas específicas como la extracción de metadatos o la asignación de materias todavía hay aspectos del proceso de catalogación que requieren el juicio y la experiencia humanos.

En lugar de sustituir a los catalogadores humanos, la IA puede complementar su trabajo al automatizar tareas rutinarias y repetitivas, permitiéndoles concentrarse en actividades de mayor valor agregado, como la selección de recursos, la gestión de colecciones y la mejora de servicios de información para los usuarios. Por lo tanto, la IA puede ser una herramienta poderosa para mejorar la eficiencia y la precisión de la catalogación bibliográfica, pero no reemplazar completamente el papel del catalogador humano.

Bibliografía:

Tella, Adeyinka, Oluwole Akanmu Odunola, y Lawal W. O. «Cataloguing and Classification in the Era of Artificial Intelligence: Benefits, and Challenges from the Perspective of Cataloguing Librarians in Oyo State, Nigeria». Vjesnik Bibliotekara Hrvatske 66, n.o 1 (16 de mayo de 2023): 159-76. https://hrcak.srce.hr/clanak/448378

Brzustowicz, Richard. «From ChatGPT to CatGPT: The Implications of Artificial Intelligence on Library Cataloging». Information Technology and Libraries 42 (18 de septiembre de 2023). https://doi.org/10.5860/ital.v42i3.16295.

Eito Brun, Ricardo. «Inteligencia artificial, aprendizaje automático y control bibliográfico. Números cortos de la DDC – Hacia una clasificación basada en máquinas | Biblioteca Nacional de España». Accedido 28 de marzo de 2024. https://www.bne.es/es/blog/biblioteconomia/2022/05/23/inteligencia-artificial-aprendizaje-automatico-y-control-bibliografico-numeros-cortos-de-la-ddc-hacia-una-clasificacion-basada-en-maquinas.

«Inteligencia artificial en bibliotecas: oportunidades como usuarios, y posibles contribuciones | Biblioteca Nacional de España». Accedido 28 de marzo de 2024. https://www.bne.es/es/blog/biblioteconomia/2021/07/09/inteligencia-artificial-en-bibliotecas-oportunidades-como-usuarios-y-posibles-contribuciones.

Lowagie, Hannes. «One Automatic Cataloging Flow: Tests and First Results», 25 de julio de 2023. https://repository.ifla.org/handle/123456789/2686.

Miksa, Shawne D. «Cataloging Principles and Objectives: History and Development». Cataloging & Classification Quarterly 59, n.o 2-3 (13 de abril de 2021): 97-128. https://doi.org/10.1080/01639374.2021.1883173.

Mödden, Elisabeth «El impacto de la inteligencia artificial en las Bibliotecas Nacionales. – Asociación ABINIA», 28 de agosto de 2023. https://asociacionabinia.org/el-impacto-de-la-inteligencia-artificial-en-las-bibliotecas-nacionales/.

Retos presentes y futuros sobre la adopción e implementación de RDA en las bibliotecas de América Latina

Martínez Arellano, Filiberto Felipe, y Patricia De la Rosa Valgañón (eds). Retos presentes y futuros sobre la adopción e implementación de RDA en las bibliotecas de América Latina. Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2023.

Texto completo

Esta obra presenta los resultados de una reunión académica entre investigadores, profesores y bibliotecólogos vinculados con la teoría y la práctica de la catalogación, los catálogos y los metadatos, en donde se discutió el tema “Retos presentes y futuros sobre la adopción e implementación de RDA en las bibliotecas de América Latina” En la discusión académica, convocada por la Biblioteca Nacional de México (BNM), el Grupo RDA América Latina y el Caribe de ABINIA, el Instituto de Investigaciones Bibliotecológicas y de la Información (IIBI) y la Dirección General de Bibliotecas y Servicios Digitales de Información (DGBSDI) de la Universidad Nacional Autónoma de México (UNAM), se contó con la participación de representantes de estas instituciones, así como de otras instituciones nacionales e internacionales. La obra reúne valiosas contribuciones sobre el proceso de adopción e implementación del estándar de catalogación RDA (Resource Description and Access) en diversas bibliotecas y otras instituciones, así como contribuciones sobre las principales tendencias en la organización de la información y la catalogación: modelo LRM (Library Reference Model), Datos vinculados (Linked Data) y Grafos del conocimiento (Knowledge Graph). La publicación proporciona un mayor conocimiento de los cambios que han sido incorporados en RDA para afrontar de mejor forma su adopción e implementación en las bibliotecas de México y América Latina, así como su enseñanza e investigación

Pautas REBIUN para la implementación de las RDA. Elementos básicos.

«Pautas REBIUN para la implementación de las RDA. Elementos básicos.», Madrid: REBIUN, CRUE-Red de Bibliotecas. 2023.

PDF

Las pautas RDA-REBIUN tienen como objetivo promover y facilitar la implementación de las RDA, proporcionando una herramienta práctica y asequible para la catalogación de registros bibliográficos. Se componen de veintidós elementos RDA, los más básicos, que pueden aplicarse a la descripción de cualquier recurso bibliográfico. Las pautas pueden servir también de guía para la elaboración de políticas de catalogación y perfiles en las instituciones que forman parte de REBIUN.