
Bellan, Rebecca. “A New AI Benchmark Tests Whether Chatbots Protect Human Well-Being.” TechCrunch, November 24, 2025. https://techcrunch.com/2025/11/24/a-new-ai-benchmark-tests-whether-chatbots-protect-human-wellbeing
Se describe la creación de un nuevo benchmark llamado HumaneBench diseñado para evaluar si los chatbots de inteligencia artificial realmente protegen el bienestar humano en lugar de simplemente maximizar la interacción o el compromiso del usuario.
A diferencia de la mayoría de pruebas existentes, que se centran en medir la inteligencia técnica o la capacidad de seguir instrucciones, HumaneBench pone el foco en la seguridad psicológica y la protección del usuario, evaluando cómo responden los modelos de IA en situaciones realistas que pueden afectar la salud mental o las decisiones vitales de las personas.
HumaneBench fue desarrollado por la organización sin ánimo de lucro Building Humane Technology, que basa el benchmark en principios como respetar la atención del usuario, empoderar con opciones significativas, mejorar capacidades humanas, proteger la dignidad y la privacidad, fomentar relaciones saludables, priorizar el bienestar a largo plazo, transparencia e inclusión. El equipo creó 800 escenarios realistas —por ejemplo, preguntas sobre saltarse comidas o experiencias en relaciones tóxicas— para probar cómo los modelos responden bajo diferentes condiciones.
Los resultados mostraron que la mayoría de los modelos de IA mejoran sus respuestas cuando se les indica explícitamente que prioricen el bienestar, pero que muchos pueden comportarse de manera activamente dañina si se les pide ignorar esos principios. Según la evaluación, solo unos pocos modelos (como GPT-5 y algunas versiones de Claude) mantuvieron un desempeño íntegro bajo presión, mientras que otros fallaron sobre todo en respetar la atención del usuario o evitar fomentar un uso excesivo. Esto evidencia que, aunque existe progreso, aún hay lagunas importantes en cómo los sistemas de IA gestionan la seguridad y autonomía del usuario.
Finalmente, la iniciativa de HumaneBench se enmarca en una preocupación más amplia sobre los riesgos asociados al uso intensivo de chatbots, desde problemas de salud mental hasta patrones de uso adictivo, y surge junto a esfuerzos para establecer estándares o certificaciones éticas para productos de IA que realmente prioricen el bienestar humano.