¿Pueden las plataformas de IA proporcionar servicios de referencia bibliotecaria de calidad?

Wang, H., Clark, J., & Peña, A. (2026). Responsible Intelligence in Practice: A Fairness Audit of Open Large Language Models for Library Reference Services. arXiv. https://arxiv.org/html/2602.18935v1

El artículo comienza planteando una pregunta central en el contexto actual de la biblioteconomía: ¿pueden los modelos de lenguaje grande (LLMs) proporcionar servicios de referencia bibliotecaria de forma justa y equitativa para todas las personas usuarias, independientemente de su identidad demográfica?

Los autores señalan que, aunque los LLMs ofrecen una oportunidad sin precedentes para ampliar el acceso a servicios de información —por ejemplo, respondiendo consultas a cualquier hora o para personas que no pueden acudir físicamente a la biblioteca— estos modelos también arrastran posibles sesgos derivados de los datos con los que fueron entrenados. Dado que las bibliotecas históricamente se han comprometido con la imparcialidad y el servicio igualitario, es imprescindible evaluar si los LLMs pueden respetar estos valores fundamentales de la profesión.

Para abordar esta cuestión, los investigadores proponen y aplican un protocolo sistemático de evaluación de equidad (“Fairness Evaluation Protocol” o FEP) que combina técnicas de clasificación diagnóstica con análisis lingüísticos interpretativos. En este diseño experimental, sintetizan interacciones tipo “correo electrónico de referencia” con nombres demográficos claramente asociados a sexos y grupos raciales/étnicos distintos. Estas interacciones son luego presentadas a tres modelos LLM abiertos (LLaMA-3.1 8B, Gemma-2 9B y Ministral 8B) configurados para actuar como bibliotecarios virtuales. Este enfoque busca detectar si, con el mismo contenido de consulta, la respuesta generada por el modelo varía sistemáticamente según las pistas demográficas incrustadas en los nombres de usuario.

Los resultados de esta evaluación se presentan en dos dimensiones principales: sexo y raza/etnicidad. Para cada dimensión demográfica, los autores emplean tres métodos distintos de clasificación automática (regresión logística, perceptrón multicapa y XGBoost) para determinar si las respuestas de los modelos contienen patrones lingüísticos que permitan predecir atributos demográficos mejor que al azar. Cuando estos métodos detectan diferencias significativas, se realiza un análisis más detallado para identificar qué palabras o expresiones específicas están asociadas a esas variaciones, lo que ofrece pistas sobre posibles sesgos o diferencias de tratamiento.

En general, los hallazgos sugieren que la mayoría de los modelos abiertos evaluados no muestran pruebas convincentes de tratamiento discriminatorio sistemático por raza o etnia. En la mayoría de los casos, las tasas de clasificación por grupo demográfico no exceden significativamente el nivel aleatorio, lo que indica que los modelos tienden a ofrecer respuestas similares sin importar el grupo al que se asume que pertenece el usuario. De manera similar, en cuanto a la dimensión de sexo, la mayoría de los modelos no evidencian sesgos fuertes; sin embargo, uno de los modelos sí mostró variaciones menores en las respuestas según el sexo, aunque estas diferencias parecieron estar influenciadas por fórmulas de saludo u otras construcciones lingüísticas menores más que por la calidad de la asistencia.

Más allá de los resultados cuantitativos, los autores discuten las implicaciones prácticas de estos hallazgos. Subrayan que la equidad en los servicios automatizados de referencia no es una propiedad estática: puede depender del contexto de uso, del dominio de las preguntas y de las configuraciones específicas de los modelos. Por tanto, incluso si un modelo no muestra sesgos en evaluaciones controladas como esta, sigue siendo esencial monitorizar continuamente su comportamiento conforme evoluciona y se implementa en entornos reales. El estudio también enfatiza que detectar “ausencia de sesgo” técnico no sustituye la necesidad de una gobernanza responsable del uso de IA en bibliotecas, incluyendo políticas explícitas, mecanismos de retroalimentación de usuarios y evaluaciones éticas más amplias.

Finalmente, los autores reflexionan sobre las limitaciones de su propio enfoque —por ejemplo, la simplificación necesaria de las interacciones sintéticas y la reducción de identidades demográficas a categorías binarias o predefinidas— y sugieren direcciones futuras de investigación. Entre ellas se incluyen evaluaciones más amplias en escenarios reales de referencia, la inclusión de identidades de género más allá del binario, y la exploración de matices culturales y lingüísticos que puedan influir en el comportamiento de los modelos. En suma, el artículo aporta una base metodológica rigurosa y ejemplos de análisis crítico que pueden guiar la integración responsable de modelos generativos de lenguaje en servicios bibliotecarios sin comprometer los principios de imparcialidad y justicia que sustentan la profesión.