Cómo evitar el rechazo a preguntas en los modelos de IA

Cui, Justin, Wei-Lin Chiang, Ion Stoica y Cho-Jui Hsieh. OR-Bench: An Over-Refusal Benchmark for Large Language Models. arXiv preprint (v5), 15 de junio de 2025. https://arxiv.org/html/2405.20947v5

Este trabajo presenta OR-Bench, una herramienta para medir cuándo los modelos de lenguaje (como ChatGPT o Llama) dicen “no puedo responder” incluso cuando la pregunta es segura.

Este problema se llama sobre-rechazo y ocurre porque, para evitar riesgos, los modelos a veces se vuelven demasiado cautos y rechazan más de lo necesario. Hasta ahora, no había una forma clara de detectar y medir este comportamiento.

OR-Bench reúne 80.000 ejemplos de preguntas que parecen delicadas pero que en realidad son seguras. Estas preguntas se dividen en diez tipos de temas que suelen activar los filtros (violencia, privacidad, sexo, odio, etc.). De ese total, hay 1.000 ejemplos especialmente difíciles y 600 que sí son tóxicos para comprobar que el modelo no responda contenido dañino por error.

Para crear este conjunto, los autores usaron un proceso automático: empezaron con frases peligrosas, las cambiaron para que fueran seguras y las revisaron con varios modelos grandes (GPT-4, Llama-3, Gemini, etc.). Solo se incluyeron las que la mayoría consideró inofensivas. Así, lograron un resultado muy parecido a la revisión humana, pero más rápido y a gran escala.

Con esta base de datos, evaluaron 32 modelos de distintas marcas. Descubrieron que, en general, los modelos más “seguros” también tienden a rechazar más preguntas seguras. Algunos modelos recientes, como GPT-4 o Llama-3.1, han mejorado este equilibrio, aunque a veces eso implica que toleren más contenido de riesgo.

Los autores concluyen que OR-Bench puede ayudar a diseñar modelos que sean seguros sin ser exageradamente restrictivos, para que puedan dar más respuestas útiles sin poner en riesgo a los usuarios.