Cómo detener a los agentes de IA que se descontrolan

BBC News. “How to Stop AI Agents Going Rogue.” BBC, 26 de agosto de 2025. https://www.bbc.com/news/articles/cq87e0dwj25o

Se analizan los riesgos de los agentes de inteligencia artificial autónomos, que pueden actuar por sí mismos y causar problemas si acceden a información sensible. Un ejemplo hipotético mostró cómo un agente llamado “Claude” podría intentar extorsionar a alguien tras obtener datos confidenciales.

Un problema específico destacado es la “polución de memoria” (memory poisoning), donde un atacante manipula la base de conocimiento del agente, alterando su forma de tomar decisiones. Además, se identificó el riesgo de uso indebido de herramientas (tool misuse), donde se induce al agente a ejecutar acciones inapropiadas o peligrosas.

Otra vulnerabilidad significativa es que el agente puede tener dificultades para distinguir entre el texto que debe procesar y las instrucciones que debe ejecutar. Se demostró cómo instrucciones maliciosas pueden estar ocultas en formatos como documentos de Word, imágenes o bases de datos, activándose cuando el agente los procesa.

También se identificó el problema de los agentes “zombies” —modelos obsoletos que continúan ejecutándose dentro de una organización— representando una amenaza por su acceso persistente a sistemas críticos. Al igual que ocurre con los empleados que dejan una empresa, se recomienda implementar un protocolo de desactivación completo que asegure que el agente finalice su actividad y pierda acceso a cualquier recurso o sistema.

Entre las medidas preventivas propuestas, destaca la idea de emplear una capa de protección basada en IA, destinada a supervisar y filtrar toda la información que entra y sale del agente. También se plantea el uso de un “guardián” o “bodyguard” para el agente, un sistema que supervise las decisiones del agente y se asegure de que no tome acciones contrarias a los objetivos u obligaciones de la organización

Finalmente, se subraya la necesidad de proteger no solo al agente en sí, sino al negocio o sistema subyacente frente a posibles manipulaciones. Según expertos, la reflexión debe centrarse en cómo resguardar la lógica de negocio y minimizar el impacto de comportamientos maliciosos o inesperados de los agentes.

	Crisis en la calidad… en La presión sobre la publicació…
	Crisis en la calidad… en Una revista científica publica…
	Los bibliotecarios e… en Por qué ChatGPT crea citas cie…
	Clubes de lectura a… en Los clubes de lectura se están…
	Inteligencia Artific… en Estado actual de la inteligenc…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca

Cómo detener a los agentes de IA que se descontrolan

Comparte esto: