Datos enlazados: el futuro de la catalogación en bibliotecas

Linked data: The future of library cataloging. (2024, junio 5). OCLC. https://www.oclc.org/go/en/publications/linked-data-the-future-of-library-cataloging.html

Texto completo

OCLC ha publicado «Datos enlazados: El futuro de la catalogación en bibliotecas», un documento de posición que destaca el valor que los datos enlazados pueden aportar a los catálogos de bibliotecas y las herramientas disponibles para facilitar a las bibliotecas la creación de una experiencia más interconectada para los buscadores de información.

El breve documento de 12 páginas detalla el recorrido de OCLC desde décadas de investigación en datos enlazados, pasando por experimentos y prototipos, la creación de más de 150 millones de Entidades WorldCat, hasta la reciente disponibilidad de la aplicación web y APIs a través de OCLC Meridian que las bibliotecas pueden utilizar para comenzar.

«Durante años, OCLC ha visto los datos enlazados como el futuro de la catalogación en bibliotecas», dijo Mary Sauer-Games, Vicepresidenta de Gestión Global de Productos en OCLC. «Hemos explorado las mejores y más eficientes formas de mover los catálogos y la catalogación lejos de MARC para asegurarnos de que se conecten con otros flujos de información. Estamos en un punto donde los bibliotecarios están utilizando nuevas herramientas y aplicaciones para ver por sí mismos el impacto que los datos enlazados pueden tener en los catálogos de bibliotecas. Así que, el futuro está aquí, pero sabemos que la transición a los datos enlazados no ocurrirá de la noche a la mañana. Queremos facilitar a las bibliotecas de todo tipo y tamaño la experimentación con los datos enlazados dentro de sus flujos de trabajo actuales para que puedan avanzar a su propio ritmo.»

OCLC ha creado un entorno híbrido para que las bibliotecas experimenten y vean por sí mismas el potencial de los datos enlazados para una mayor descubribilidad de los recursos bibliotecarios. OCLC está integrando datos enlazados dentro de los sistemas y servicios existentes, mientras desarrolla nuevas herramientas que harán la transición más fácil para las bibliotecas.

Los datos enlazados se basan en la base escalable de WorldCat, que está evolucionando como la infraestructura para facilitar la integración e interoperabilidad de datos enlazados a escala global. Los datos enlazados ampliarán las capacidades de WorldCat para ir más allá de las limitaciones de MARC y conectar con nuevos y diferentes flujos de información y recursos en la web.

Además de expandir el alcance de WorldCat a otros ecosistemas de información, los datos enlazados también permiten que otras organizaciones y socios se conecten de nuevo a las bibliotecas.

El documento de posición ayuda a responder la pregunta de por qué la transición a los datos enlazados es importante para las bibliotecas.

«Creemos que las bibliotecas eventualmente necesitarán hacer la transición a un modelo de datos enlazados para conectarse mejor en el universo interconectado de información actual», dijo Gina Winkler, Directora Ejecutiva de Servicios Digitales y Metadatos de OCLC. «Estamos comprometidos con el éxito a largo plazo de esta transición, y con proporcionar apoyo comunitario continuo, capacitación y colaboración. Con WorldCat como base, nuestra estrategia a largo plazo es elevar a las bibliotecas a escala a esta nueva forma de conectarse con la web más amplia para una experiencia de descubrimiento más completa.»

¿Cómo están usando los profesores la IA Generativa en el aula?

Ruediger, Dylan, et al. «Generative AI and Postsecondary Instructional Practices: Findings from a National Survey of Instructors.» Ithaka S+R
. Ithaka S+R. 20 June 2024. Web. 24 June 2024. https://doi.org/10.18665/sr.320892

Para obtener información sobre cómo están evolucionando las prácticas de enseñanza, Ithaka S+R realizó su encuesta trienal a profesores de educación superior, centrándose en la instrucción y con una sección dedicada específicamente a la IA generativa. Hoy publicamos los resultados de la encuesta, con respuestas de 2.654 instructores universitarios de una amplia variedad de disciplinas e instituciones—la mayor encuesta sobre este tema de la que tenemos conocimiento.

El informe proporciona una instantánea de las prácticas de enseñanza dos semestres después de la aparición dramática de la IA generativa, y ofrece evidencia convincente de que los instructores están explorando el uso de la IA generativa en gran número. También destaca la incertidumbre continua sobre cómo usar mejor esta tecnología. Nuestros hallazgos clave son:

  • La mayoría de los instructores tienen al menos un conocimiento superficial de las herramientas de IA generativa. Pero muchos, especialmente los instructores mayores, no confían en sus habilidades para usarlas con fines pedagógicos o en su valor en contextos educativos.
  • Una gran mayoría (72 por ciento) de los instructores ha experimentado con el uso de la IA generativa como herramienta de enseñanza. Sin embargo, aunque los instructores están utilizando la IA generativa de muchas maneras diferentes, ningún caso de uso individual se ha establecido particularmente bien.
  • La mayoría de los instructores desean algún tipo de apoyo institucional para ayudarlos a integrar la IA generativa en sus cursos. Pero solo una minoría busca algún servicio de apoyo específico, lo que probablemente crea un dilema para quienes invierten en proporcionar dichos servicios.
  • Muchos profesores, especialmente en las humanidades, aún prohíben el uso de la IA generativa por parte de los estudiantes.

Encuesta Internacional sobre Préstamo Interbibliotecario de STARS

2023 ALA RUSA STARS. International Interlibrary Loan Survey Executive Report

Texto completo

El 21 de junio de 2024, se anunció la disponibilidad del Informe Ejecutivo de la Encuesta Internacional sobre Préstamo Interbibliotecario, realizada por American Library Association (ALA) Reference & User Services Association (RUSA) Sharing and Transforming Access to Resources Section (STARS) International ILL Committee. Esta encuesta cuatrienal, iniciada en 2007, ha alcanzado su quinta edición en 2023.

La encuesta de 2023 se distribuyó globalmente y fue la primera en estar disponible en los siete idiomas oficiales de la IFLA: árabe, chino, inglés, francés, alemán, ruso y español.

Utilizando la plataforma Qualtrics, el instrumento de la encuesta de 2023 se basó en las ediciones de 2019 y 2015, manteniendo la mayoría de las preguntas para facilitar comparaciones longitudinales. El comité comenzó a trabajar en esta edición en el verano de 2022, refinando las preguntas para mejorar su claridad y precisión, y colaborando con expertos en idiomas para asegurar traducciones comprensibles. También revisaron y actualizaron las preguntas basándose en sugerencias del resumen ejecutivo de la encuesta de 2019 e incorporaron nuevas preguntas sobre el impacto de la pandemia de COVID-19 en las operaciones internacionales de préstamo interbibliotecario de las bibliotecas.

La encuesta se distribuyó a través de listas de correo, información de contacto de bibliotecas obtenida del International ILL Toolkit y redes sociales, alcanzando a instituciones en más de 85 países. Estuvo abierta durante doce semanas, desde el 14 de junio de 2023 hasta el 10 de septiembre de 2023.

El estado del préstamo interbibliotecario internacional sigue siendo fuerte, aunque con algunas regiones más activas y conectadas que otras. Un desafío importante es fomentar conexiones más profundas de intercambio de recursos. Existe una conciencia renovada sobre la importancia de alternativas al acceso impreso y las dificultades continuas con el préstamo de artículos físicos, como los altos costos de envío o la complejidad de las regulaciones aduaneras internacionales. La negociación de acuerdos de licencia que permitan el suministro internacional a través de préstamos interbibliotecarios de recursos electrónicos sigue siendo crucial. Del mismo modo, más bibliotecas están investigando las posibilidades de utilizar el Préstamo Digital Controlado (CDL) como complemento o alternativa al envío de libros físicos a nivel internacional.

Las dificultades con los pagos internacionales podrían aliviarse con la introducción de una versión electrónica del ampliamente utilizado bono IFLA, y el comité recomienda que la Sección de Entrega de Documentos y Compartir Recursos de IFLA (DDRS) investigue la posibilidad de crear tal funcionalidad para facilitar el proceso de pago internacional.

Las preocupaciones presupuestarias y la escasez de personal son también impedimentos frecuentes tanto para el préstamo como para el préstamo internacional. Muchos encuestados señalaron la importancia de las redes de intercambio de recursos, establecer conexiones fuera de la propia región y encontrar recursos que ayuden en el descubrimiento y la solicitud. El International ILL Toolkit y la nueva aplicación IFLA RSCVD son dos recursos cuyo crecimiento y desarrollo continuos pueden ayudar en el descubrimiento, la solicitud y en la creación de conexiones a través de fronteras.

Internet Archive forzado a eliminar 500.000 libros tras la victoria de los editores en los tribunales

Belanger, Ashley. «Internet Archive Forced to Remove 500,000 Books after Publishers’ Court Win». Ars Technica, 21 de junio de 2024. https://arstechnica.com/tech-policy/2024/06/internet-archive-forced-to-remove-500000-books-after-publishers-court-win/.

Debido a una demanda exitosa de los editores de libros contra Internet Archive , la biblioteca en línea gratuita ha tenido que eliminar aproximadamente 500.000 títulos. Internet Archive informó que esta medida provocó una «pérdida devastadora» para los lectores que dependen de su acceso.

Internet Archive está apelando la decisión del tribunal, esperando revertirla al argumentar que el préstamo digital controlado de sus libros físicos debería considerarse uso justo bajo la ley de derechos de autor. Chris Freeland, director de servicios bibliotecarios de Internet Archive, defendió que utilizan tecnología estándar de la industria para evitar la redistribución de los libros prestados y que los editores no han demostrado daño al mercado de libros electrónicos.

Los seguidores de Internet Archive han pedido a los editores que reconsideren y restauren el acceso a los libros eliminados. Argumentan que esta acción afecta negativamente a comunidades educativas y marginadas, limitando su acceso a materiales esenciales para el aprendizaje y la investigación.

Por su parte, la Asociación de Editores Americanos (AAP) defendió las solicitudes de eliminación, afirmando que Internet Archive estaba transmitiendo obras literarias a nivel mundial sin licenciar los derechos necesarios. Internet Archive continúa su lucha legal, destacando que su préstamo digital no comercial sirve a misiones bibliotecarias importantes y no perjudica el mercado.

La resolución del caso podría tardar meses o más de un año, mientras tanto, IA sigue ofreciendo otros servicios bibliotecarios y prestando libros fuera de impresión y de dominio público.

En el Reino Unido se espera que la IA consuma un 500% más de energía en la próxima década

«AI’s Insatiable Need for Energy Is Straining Global Power Grids». Accedido 24 de junio de 2024. https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/.



En el Reino Unido, se espera que la IA consuma un 500% más de energía en la próxima década. Y en los EE. UU., se proyecta que los centros de datos utilicen el 8% del total de energía para 2030, en comparación con el 3% en 2022, según Goldman Sachs, que lo describió como «el tipo de crecimiento en el consumo de electricidad que no se ha visto en una generación».

Loudoun County, en el norte de Virginia, anteriormente conocido por sus granjas de caballos y sitios de batallas de la Guerra Civil, ha sido transformado en los últimos 15 años. Sus campos y bosques se han despejado para construir centros de datos, esenciales para nuestras vidas digitales. El auge de la inteligencia artificial (IA) está acelerando la demanda de centros de datos más grandes, cambiando aún más el paisaje y sobrecargando las redes eléctricas de la región.

Esta primavera, una nueva instalación de 200,000 pies cuadrados estaba casi terminada. Una vez operativa, podría consumir tanta energía como 30,000 hogares en EE.UU. DataBank, el proveedor de centros de datos que posee la instalación, tiene un cliente «grande de tecnología» que ya ha instalado servidores antes de que DataBank tenga electricidad disponible para ellos.

James Mathes, quien administra algunas instalaciones de DataBank, comentó que la IA necesita mucha energía y la demanda es inmediata una vez disponible. El aumento repentino en la demanda eléctrica de los centros de datos supera la oferta en muchas partes del mundo, lo que genera largas esperas para acceder a la red, preocupaciones por cortes de energía y aumentos de precios en los mercados de centros de datos más densos.

El aumento dramático en la demanda de energía debido al enfoque de crecimiento a cualquier costo de Silicon Valley para la IA también amenaza los planes de transición energética de países enteros y los objetivos de energía limpia de las compañías tecnológicas multimillonarias. En algunos países, como Arabia Saudita, Irlanda y Malasia, la energía requerida para operar todos los centros de datos planificados excede la oferta disponible de energía renovable.

En Suecia, la demanda de energía de los centros de datos podría duplicarse en esta década y volver a duplicarse para 2040. En el Reino Unido, se espera que la IA consuma un 500% más de energía en la próxima década. En EE.UU., se proyecta que los centros de datos utilicen el 8% del total de energía para 2030, frente al 3% en 2022, según Goldman Sachs, que lo describió como “el tipo de crecimiento en el consumo de electricidad que no se ha visto en una generación”.

Sistema de Clasificación Dewey adaptado para niños

«Kid-Friendly Dewey». ALSC Blog (blog), 28 de mayo de 2024. https://www.alsc.ala.org/blog/2024/05/kid-friendly-dewey/.



Un bibliotecario escolar descubrió que la clasificación Dewey no funcionaba bien para los niños, por lo que creó un sistema modificado en contenedores, facilitando la búsqueda y organización de libros. Este método utiliza etiquetas visuales y es flexible, adaptándose mejor a las necesidades de los estudiantes. El resultado ha sido una mayor comprensión y uso de la colección de no ficción por parte de los niños.

Uno de los primeros descubrimientos de un bibliotecario escolar fue que la clasificación Dewey no funciona para los niños. Entre las alternativas a las que podemos recurrir es un tablero de Pinterest con diferentes enfoques que otras bibliotecas han probado. Asistió a un programa «Dewey-Lite» en el Instituto Nacional de ALSC, lo cual le dio muchas ideas que finalmente le llevaron a crear su propio sistema Dewey modificado en contenedores, que resultó ser muy efectivo tanto para los estudiantes como para él mismo. Comenzó el proyecto a principios de 2023 y lo completó en octubre de 2023, observando un cambio significativo en el uso del área de no ficción por parte de los estudiantes.

El bibliotecario revisó recientemente una publicación de Dave Saia sobre la clasificación de la no ficción por géneros, algo que siempre había imaginado hacer. Sin embargo, le intimidaban ciertos elementos de esta tarea, como cambiar el catálogo y las etiquetas de los lomos, y romper con la uniformidad de catalogación de su distrito escolar.

Su solución fue colocar todos los libros de no ficción en contenedores, lo cual no requiere actualizar el catálogo ni cambiar las etiquetas de los lomos, y es fiel a Dewey. Además, esto elimina la necesidad de sujetalibros y facilita mucho la organización. Como bibliotecario solitario, encontró que este sistema reduce a la mitad el tiempo de reordenamiento.

Ventajas del Sistema

El sistema permite que la colección sea buscable y navegable para los niños. Las estanterías y los contenedores tienen etiquetas con imágenes, para que los no lectores puedan encontrar los temas fácilmente. Las etiquetas se enfocan más en la descripción del contenido que en el número Dewey. Las señales visuales son muy útiles para orientar a los estudiantes, permitiendo que incluso los más pequeños encuentren los libros por sí mismos. Se añadieron tiras de velcro de colores con números en los pasillos para mejorar aún más la orientación.

Desafíos y Soluciones

Algunos desafíos específicos de Dewey, como la separación de los animales domésticos de los otros animales, se manejan con señalización clara. También hay algunas categorizaciones poco claras entre temas de libros y números Dewey, pero se prioriza la flexibilidad y la facilidad de uso para los estudiantes.

El bibliotecario siguió un proceso de cuatro pasos para organizar cada estante:

  1. Agrupación: Agrupar los libros por números Dewey o por temas naturales.
  2. Tema: Verificar la descripción de los números Dewey y ajustarla según sea necesario.
  3. Etiqueta: Crear una etiqueta con el número, el tema y una imagen representativa.
  4. Flexibilidad: Ajustar las etiquetas y los contenedores según el crecimiento de la colección.

Ejemplos y Resultados

Un ejemplo de flexibilidad fue con el número 560 de Dewey, donde agrupó libros sobre fósiles y dinosaurios bajo una sola etiqueta, ya que los estudiantes no distinguen entre especies de dinosaurios. Otro ejemplo fue con el número 624, que técnicamente es «ingeniería civil», pero todos los libros eran sobre construcción, así que lo etiquetó como «Construcción».

El resultado final fue que los estudiantes comprendieron la organización de la no ficción de una manera que no lograban con el sistema Dewey tradicional. Tanto los estudiantes como los profesores y voluntarios aprecian el nuevo sistema de contenedores.

El aumento de los precios de publicación de artículos de Acceso Abierto


Staines, Dan Pollock and Heather. «News & Views: The Realities of Increasing Open Access Charges». Delta Think, 18 de junio de 2024. https://deltathink.com/news-views-the-realities-of-increasing-open-access-charges/.


A principios de este año, Pollock y Staines examinaron los últimos Cargos por Procesamiento de Artículos (APCs). Este mes, analizan cómo han aumentado en comparación con la inflación. Observaron incrementos de precios superiores al promedio al entrar en 2024. La pregunta es si esto sugiere que los precios están subiendo o si los APCs están reduciéndose en términos reales.

Antecedentes

Cada año, encuestan la lista de APCs de más de 30 editoriales importantes. Desde 2015, el conjunto de datos incluye más de 20.000 títulos únicos y más de 130.000 combinaciones título/año. Al entrar en 2024, notaron aumentos significativos de precios. Los precios de lista de acceso completamente abierto (OA) en su muestra aumentaron alrededor del 9.5% en comparación con el año anterior. Los precios de lista híbridos aumentaron un promedio del 4.2% en el mismo período. Los APCs máximos para revistas totalmente OA se mantuvieron en $8,900, pero los de revistas híbridas ahora aumentaron a 12,290$ (un aumento de $600 respecto al año anterior).

En los últimos años, la inflación ha superado sus promedios a largo plazo. Como exploraron en su análisis «¿Está disminuyendo el valor real de nuestra industria?», los ingresos del mercado de revistas académicas en general han caído en términos reales. Entonces, los precios de publicación en general han disminuido ligeramente. La pregunta es si esto se aplica a los precios de los APCs.

Usan nuevamente el Índice de Precios al Consumidor (IPC) global como su índice de inflación, ya que consideran que representa la visión más realista de su mercado. Los precios excluyen APCs cero, para ver los efectos cuando los editores eligen cobrar APCs.

¿Los APCs están volviéndose más baratos o más caros?

El gráfico compara los cambios anuales promedio en los APCs según lo declarado (línea azul superior) con aquellos ajustados por inflación (línea roja inferior).

  • Números positivos significan que los precios están aumentando; los negativos significan que están cayendo.
  • En la mayoría de los años, los APCs han caído en términos reales, aumentando más lentamente que la inflación.
  • La excepción fue en 2021, cuando vieron grandes aumentos pero una tasa de inflación modesta.
  • La inflación promedio es de alrededor del 4%, pero en 2022 se disparó a poco más del 8%. Probablemente sea alrededor del 6% en 2024.

Precios de OA Total

El gráfico compara los cambios anuales promedio en los APCs de revistas completamente OA según lo declarado (línea azul superior) con aquellos ajustados por inflación (línea roja inferior).

  • Los números positivos significan que los precios están aumentando; los negativos significan que están cayendo.
  • Aquí, los APCs de OA total han aumentado en términos reales al menos tan a menudo como han caído.
  • Los aumentos de precios por encima de la inflación fueron especialmente notables al entrar en 2021 y 2024.

Conclusión

En general, los precios de OA están aumentando por debajo de la inflación. El análisis sugiere un crecimiento en términos reales en el valor del mercado de OA, impulsado por la demanda.

A medida que los autores utilizan más acceso abierto, no es sorprendente que el gasto total en él esté aumentando. Sin embargo, los datos sugieren que están obteniendo un valor moderadamente creciente por su dinero, ya que los aumentos de precios están cayendo en términos reales. Los precios de las revistas totalmente OA están creciendo más rápido que la inflación en promedio, pero no tan rápido como la demanda.

Es importante tener en cuenta la realidad y los efectos en términos reales en las discusiones sobre el costo y la asequibilidad del OA.

Contratos en la publicación: Kit de herramientas para autores y editores

Contracts in Publishing: A Toolkit for Authors and Publishers”. World Intellectual Property Organization (WIPO) 2024

Texto completo

El documento proporciona información sobre aspectos relacionados con los derechos de autor y opciones contractuales en el sector editorial. Con un enfoque equilibrado que considera los intereses tanto de los autores como de los editores, esta publicación ofrece orientación para construir conocimientos y habilidades básicas para acuerdos exitosos de publicación, coedición y licencias. Está dirigida a autores, artistas visuales, traductores y editores, especialmente en países en desarrollo.

Pequeñas Bibliotecas Libres con Marlene Quinde. Planeta Biblioteca 2024/06/19.

Pequeñas Bibliotecas Libres

Planeta Biblioteca 2024/06/19.

ESCUCHAR

Ir a descargar

Hoy, Marlene Quinde Cordero nos habla de su proyecto «Tambo Libro», desarrollado en la Biblioteca Universitaria de Cuenca (Ecuador) en torno al fenómeno de las Pequeñas Bibliotecas Libres. Este es un movimiento global basado en la comunidad que promueve el intercambio gratuito de libros. Estas pequeñas bibliotecas suelen ser cajas o estructuras similares a casitas que se colocan en lugares accesibles al público, como parques, jardines, frentes de casas, escuelas y otros espacios comunitarios. La idea principal es «toma un libro, deja un libro», lo que permite a las personas acceder a libros de forma gratuita y contribuir al intercambio dejando libros que ya no necesitan.

Artículo

Quinde Cordero, Marlene. Tambo libro: pequeñas Bibliotecas Libres en Ecuador. Mi Biblioteca, vol. 18, n. 70 (2022) Texto completo

¿Por qué alucina la inteligencia artificial?


MIT Technology Review. «Why Does AI Hallucinate?» Accedido 19 de junio de 2024. https://www.technologyreview.com/2024/06/18/1093440/what-causes-ai-hallucinate-chatbots/.



El artículo «¿Por qué la inteligencia artificial alucina?» de Will Douglas Heaven, publicado en junio de 2024 por MIT Technology Review, profundiza en los desafíos que enfrentan los chatbots y los modelos de lenguaje como GPT-3.5 debido a su propensión a generar respuestas incorrectas, un fenómeno conocido como alucinación. Este problema no solo afecta la precisión de los chatbots, sino que también influye en la confianza que las personas depositan en ellos.

El artículo comienza ilustrando el problema con el caso del chatbot SARAH de la Organización Mundial de la Salud, diseñado para proporcionar consejos de salud en varios idiomas las 24 horas del día. SARAH, respaldado por el modelo GPT-3.5, fue lanzado con buenas intenciones pero rápidamente se descubrió que daba información incorrecta, incluyendo direcciones y nombres ficticios de clínicas en San Francisco. Este ejemplo subraya cómo incluso organizaciones prestigiosas pueden enfrentar desafíos con la precisión de los chatbots.

El efímero chatbot científico Galactica de Meta inventó artículos académicos y generó artículos wiki sobre la historia de los osos en el espacio. En febrero, Air Canada recibió la orden de cumplir una política de reembolso inventada por su chatbot de atención al cliente. El año pasado, un abogado fue multado por presentar documentos judiciales llenos de opiniones judiciales falsas y citas legales inventadas por ChatGPT. Estos ejemplos destacan cómo la alucinación puede llevar a errores significativos y potencialmente costosos.

El problema es que los grandes modelos lingüísticos son tan buenos en lo que hacen que lo que inventan parece correcto la mayoría de las veces. Y eso hace que sea difícil confiar en ellos. Esta tendencia a inventar -conocida como alucinación- es uno de los mayores obstáculos que impiden la adopción generalizada de los chatbots. ¿Por qué lo hacen? ¿Y por qué no podemos solucionarlo?

Para entender por qué los grandes modelos lingüísticos alucinan, tenemos que ver cómo funcionan. Lo primero que hay que tener en cuenta es que inventar cosas es exactamente para lo que están diseñados estos modelos. Cuando se hace una pregunta a un chatbot, éste extrae su respuesta del gran modelo lingüístico que lo sustenta. Pero no es como buscar información en una base de datos o utilizar un motor de búsqueda en Internet.

A diferencia de buscar información en una base de datos o en la web, estos modelos utilizan números para calcular respuestas desde cero. Cada modelo está compuesto por billones de parámetros que ajustan sus predicciones con base en patrones lingüísticos encontrados en grandes cantidades de datos textuales de internet. Cuando se les hace una pregunta, estos modelos generan secuencias de palabras nuevas basadas en probabilidades estadísticas, no en conocimiento específico almacenado.

Los grandes modelos lingüísticos generan texto prediciendo la siguiente palabra de una secuencia. Si un modelo ve «el gato se sentó», puede adivinar «en». Esa nueva secuencia se vuelve a introducir en el modelo, que ahora puede adivinar «el». Si da otra vuelta, puede adivinar «mat», y así sucesivamente. Este truco es suficiente para generar casi cualquier tipo de texto que se pueda imaginar, desde listados de Amazon hasta haiku, pasando por ficción de fans, código informático, artículos de revistas y mucho más. Como dice Andrej Karpathy, informático y cofundador de OpenAI: los grandes modelos lingüísticos aprenden a soñar con documentos de Internet.

Para adivinar una palabra, el modelo simplemente ejecuta sus números. Calcula una puntuación para cada palabra de su vocabulario que refleja la probabilidad de que esa palabra sea la siguiente en la secuencia en juego. La palabra con la mejor puntuación gana. En resumen, los grandes modelos lingüísticos son máquinas tragaperras estadísticas. Gire la palanca y saldrá una palabra.

¿Podemos controlar lo que generan los grandes modelos lingüísticos para que produzcan un texto cuya exactitud esté garantizada? Estos modelos son demasiado complicados para que sus números puedan manipularse a mano. Pero algunos investigadores creen que entrenarlos con aún más texto seguirá reduciendo su tasa de error. Es una tendencia que hemos observado a medida que los grandes modelos lingüísticos han ido creciendo y mejorando. Pero, ninguna técnica puede eliminar completamente la alucinación. Debido a su naturaleza probabilística, siempre existe un elemento de riesgo en lo que producen estos modelos.

El artículo concluye destacando la importancia de gestionar las expectativas sobre las capacidades de estos modelos. A medida que mejoren en precisión, será crucial mantener una vigilancia constante para identificar y corregir los errores que puedan surgir. Además, subraya la necesidad de una mayor investigación y desarrollo en métodos que mitiguen la alucinación en los modelos de lenguaje.

Otro método consiste en pedir a los modelos que comprueben su trabajo sobre la marcha, desglosando las respuestas paso a paso. Este método, conocido como «cadena de pensamiento», ha demostrado aumentar la precisión de los resultados de un chatbot. Todavía no es posible, pero en el futuro los grandes modelos lingüísticos podrán comprobar los hechos del texto que producen e incluso rebobinar cuando empiecen a descarrilar.