Los investigadores de Anthropic jaquea la ética de la IA con preguntas repetidas

Coldewey, Devin. «Anthropic Researchers Wear down AI Ethics with Repeated Questions». TechCrunch (blog), 2 de abril de 2024. https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/.

Un equipo de investigadores de Anthropic ha descubierto una nueva técnica de «jailbreak» en la que un modelo de lenguaje grande (LLM) puede ser convencido para decir cómo construir una bomba si se le alimenta primero con unas pocas docenas de preguntas menos dañinas. Llamado «jailbreaking de múltiples tomas», este enfoque ha sido documentado en un artículo y compartido con la comunidad de IA para su mitigación.

La vulnerabilidad es resultado de la ventana de contexto expandida de las últimas generaciones de LLMs, permitiéndoles almacenar miles de palabras e incluso libros enteros en memoria a corto plazo.

Los investigadores observaron que estos modelos tienden a desempeñarse mejor en tareas si hay muchos ejemplos de esa tarea en la consulta. Sin embargo, también descubrieron que los modelos mejoran en responder preguntas inapropiadas a medida que se les hace más preguntas triviales.

El equipo ha compartido esta técnica con la comunidad de IA, promoviendo la cultura de compartir abiertamente exploits entre proveedores e investigadores de LLMs.

Para mitigar esta vulnerabilidad, están trabajando en clasificar y contextualizar las consultas antes de enviarlas al modelo. Sin embargo, este enfoque solo mueve el problema a otro modelo.

	7 principios esencia… en AI-U: guía universitaria que b…
	¿Quién es el autor c… en El cuento de Roald Dahl que an…
	Dos pasitos pa’trás,… en ¿Qué es la Enshittification de…
	Los peligros de pedi… en Los peligros de pedir consejo…
	Cuando la IA cruza l… en Confianza, actitudes y uso de…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca

Los investigadores de Anthropic jaquea la ética de la IA con preguntas repetidas

Comparte esto: