
Lynch, A., Wright, B., Larson, C., Troy, K. K., Ritchie, S. J., Mindermann, S., Perez, E., & Hubinger, E. (2025). Agentic Misalignment: How LLMs Could Be Insider Threats. Anthropic. Recuperado de https://www.anthropic.com/research/agentic-misalignment
En la película “Terminator”, la computadora Skynet adquiere conciencia propia y decide que la mayor amenaza para la humanidad es la propia humanidad. Como resultado, programa su exterminio y desata una guerra entre humanos y robots asesinos tipo androides. Aunque esta historia es una obra de ciencia ficción, la idea de una amenaza robótica ha trascendido el cine y se ha convertido en un tema de gran preocupación para organismos internacionales, gobiernos y universidades de prestigio. Hoy en día, la posibilidad de que las máquinas autónomas puedan representar un riesgo real está siendo seriamente analizada y debatida en diversos ámbitos académicos y políticos.
Este año se han publicado innumerables comentarios y análisis sobre la IA, especialmente sobre los grandes modelos lingüísticos (LLM). Una de las últimas revelaciones procede de Anthropic, la empresa que creó el LLM Claude. En la empresa, los investigadores sometieron a pruebas de estrés a 16 de los principales modelos para identificar comportamientos potencialmente arriesgados que se producían cuando los modelos se utilizaban como agentes que actuaban en nombre de humanos. Y las pruebas se centraron en si los modelos actuarían en contra de sus supervisores humanos cuando tuvieran que ser sustituidos. En otras palabras, ¿qué harían los modelos si se dieran cuenta de que van a ser despedidos?
Las pruebas descubrieron que algunos de los modelos recurrían a comportamientos maliciosos, como amenazar a sus supervisores humanos con chantajes y filtrar información sensible a la competencia. Los modelos «a menudo desobedecían órdenes directas de evitar tales comportamientos».
La empresa dijo que no había visto pruebas de este tipo de «desalineación agencial» en despliegues reales, pero sí dijo que los resultados mostraban que había que tener precaución en esos despliegues reales.