
Coldewey, Devin. «Anthropic Researchers Wear down AI Ethics with Repeated Questions». TechCrunch (blog), 2 de abril de 2024. https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/.
Un equipo de investigadores de Anthropic ha descubierto una nueva técnica de «jailbreak» en la que un modelo de lenguaje grande (LLM) puede ser convencido para decir cómo construir una bomba si se le alimenta primero con unas pocas docenas de preguntas menos dañinas. Llamado «jailbreaking de múltiples tomas», este enfoque ha sido documentado en un artículo y compartido con la comunidad de IA para su mitigación.
La vulnerabilidad es resultado de la ventana de contexto expandida de las últimas generaciones de LLMs, permitiéndoles almacenar miles de palabras e incluso libros enteros en memoria a corto plazo.
Los investigadores observaron que estos modelos tienden a desempeñarse mejor en tareas si hay muchos ejemplos de esa tarea en la consulta. Sin embargo, también descubrieron que los modelos mejoran en responder preguntas inapropiadas a medida que se les hace más preguntas triviales.
El equipo ha compartido esta técnica con la comunidad de IA, promoviendo la cultura de compartir abiertamente exploits entre proveedores e investigadores de LLMs.
Para mitigar esta vulnerabilidad, están trabajando en clasificar y contextualizar las consultas antes de enviarlas al modelo. Sin embargo, este enfoque solo mueve el problema a otro modelo.