
Ehrenpreis, Michelle, y John DeLooper. “Chatbot Assessment: Best Practices for Artificial Intelligence in the Library.” portal: Libraries and the Academy 25, n.º 4 (2025): 669-701. https://preprint.press.jhu.edu/portal/sites/default/files/06_25.4ehrenpreis.pdf
El estudio representa una evaluación pionera de un chatbot de biblioteca que incorpora la API de ChatGPT, proporcionando evidencia práctica de sus capacidades y limitaciones, así como recomendaciones operativas para maximizar su utilidad en entornos académicos.
Evaluación detallada de un chatbot utilizado en una biblioteca universitaria, específicamente Ivy.ai (“IvyQuantum”) en la Lehman College Library (parte del sistema CUNY). Este chatbot fue inicialmente implementado en otoño de 2019, usando un modelo basado en reglas (rules-based), y más adelante, desde abril de 2023, se integró con la API de ChatGPT para convertirse en un sistema híbrido de generación más inteligente (modelo generativo + base de conocimiento local).
Para evaluar el desempeño tras esta actualización, los autores analizaron una muestra aleatoria de 101 interacciones de chatbot durante el semestre de primavera de 2023 (de un total de 816) más las 39 “tickets” generados cuando el chatbot no pudo contestar (es decir, casos en los que el usuario solicitaba asistencia humana). Cada interacción fue valorada mediante un rúbrica desarrollada por los autores que incluyó criterios como confianza del chatbot (respuestas “low confidence”, “no confidence”), si el usuario rechazó generar un ticket, la evaluación del usuario (pulgar arriba/abajo) y variables de comportamiento del usuario (por ejemplo, desconexión prematura, satisfacción explícita, solicitud de agente humano). Además, las respuestas fueron codificadas según temas (por ejemplo, libros, artículos, solicitudes de agente, investigación) para identificar los tipos de preguntas con menor desempeño.
Los resultados muestran que el chatbot tiene un rendimiento moderado: en la muestra aleatoria, aproximadamente el 39 % de las respuestas recibieron una calificación 1 (correctas pero incompletas) según la rúbrica, mientras que el 42 % fueron calificadas como respuestas completas pero incorrectas (puntuación 2). En comparación con la tasa de éxito atribuida a bibliotecarios humanos en servicios de referencia (alrededor del 55 %), su desempeño es destacable para una herramienta automatizada, aunque con limitaciones claras. Las preguntas más problemáticas para el chatbot fueron aquellas que solicitaban hablar con un agente humano, consultas sobre libros (incluyendo disponibilidad, edición o reservas) y peticiones para investigación o artículos académicos. Tras la integración del ChatGPT, se observó una reducción en el número total de consultas sin ticket (−45 %) pero un aumento significativo en el número de tickets generados (+190 %) en comparación con el periodo anterior.
A partir de sus hallazgos, los autores proponen una serie de mejores prácticas para bibliotecas que consideren adoptar chatbots: revisión periódica de las transcripciones y las preguntas de los usuarios para ajustar respuestas personalizadas, mantener actualizada y estructurada la base de conocimiento de la biblioteca (por ejemplo, mediante archivos CSV con datos limpios), diseñar la interfaz para que los usuarios comprendan el propósito del chatbot (por ejemplo, distinguiendo claramente cuándo derivar al chat humano), y asegurar que haya personal bibliotecario dedicado al mantenimiento y mejora del sistema.
También destacan que la participación institucional y el compromiso de los bibliotecarios son factores clave para el éxito, y que la adopción de sistemas híbridos (reglas + generación) puede ofrecer un equilibrio entre control y flexibilidad.