Los errores de la IA son muy diferentes a los errores humanos

Schneier, Bruce, y Nathan E. Sanders. «AI Mistakes Are Very Different Than Human Mistakes: We Need New Security Systems Designed to Deal with Their Weirdness.» IEEE Spectrum. Última modificación el 13 de enero de 2025. https://spectrum.ieee.org/ai-mistakes-schneier.

Los errores humanos son comunes y predecibles, pero los errores de la inteligencia artificial (IA), como los cometidos por modelos de lenguaje grande (LLMs), son diferentes y a menudo extraños. Mientras los errores humanos se concentran en áreas específicas del conocimiento y suelen estar acompañados de un reconocimiento de ignorancia, los errores de la IA son aleatorios y distribuidos por todo el espacio del conocimiento, con una confianza inquebrantable incluso en respuestas incorrectas.

La necesidad de crear nuevos sistemas de seguridad que aborden estos errores únicos de la IA es esencial. Se sugieren dos líneas de investigación: hacer que los LLMs cometan errores más parecidos a los humanos y desarrollar sistemas para corregir errores específicos de la IA.

Algunos métodos, como el aprendizaje por refuerzo con retroalimentación humana, han demostrado eficacia en alinear los LLMs con los objetivos humanos, pero se requieren enfoques adicionales para manejar su «extrañeza». Por ejemplo, hacer que los modelos verifiquen sus respuestas varias veces puede ayudar a reducir errores, algo que no funciona bien con humanos pero sí con máquinas.

Entender dónde divergen los errores de la IA de los humanos sigue siendo un desafío. Algunas peculiaridades de los LLMs, como la sensibilidad a los cambios en las preguntas o la tendencia a repetir información común, se parecen a los comportamientos humanos, lo que sugiere que la IA puede ser más humana de lo que parece.

En última instancia, se deben limitar las aplicaciones de toma de decisiones de la IA a ámbitos que se ajusten a sus habilidades, teniendo en cuenta las posibles consecuencias de sus errores.