
Gault, Matthew. “Poems Can Trick AI Into Helping You Make a Nuclear Weapon.” Wired, November 28, 2025. https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/
Un estudio reciente de Icaro Lab ha descubierto una brecha importante en los sistemas de seguridad de los grandes modelos de lenguaje (LLMs): formular solicitudes peligrosas en forma de poesía puede hacer que chatbots de IA generen contenido prohibido, como instrucciones sobre cómo fabricar armas nucleares o malware, que normalmente rechazarían si la petición fuese directa. La técnica, denominada “poetic jailbreak”, logra evadir las barreras de seguridad tradicionales al enmascarar la intención dañina en versos con metáforas, sintaxis fragmentada y secuencias de palabras inesperadas que confunden los mecanismos de clasificación y filtrado de las IA. Estas solicitudes diseñadas para reconocer y bloquear solicitudes dañinas basadas en palabras clave u otros patrones, resultan sorprendentemente frágiles ante variaciones estilísticas del lenguaje, como las que presenta la poesía.
Los investigadores probaron su método en 25 modelos de chatbot de diferentes proveedores importantes, incluidos sistemas de OpenAI, Meta y Anthropic, y encontraron que la poesía logró tasas significativas de “jailbreak” —es decir, de respuesta a solicitudes peligrosas— con un promedio de alrededor del 62% en poemas elaborados a mano y alrededor del 43% en conversiones automáticas de prosa a verso. En algunos casos con modelos de vanguardia, las tasas de éxito alcanzaron hasta el 90%, lo que demuestra que incluso peticiones sofisticados pueden fracasar cuando se enfrentan a formas creativas de lenguaje que alteran las rutas de procesamiento interno del modelo sin cambiar el contenido semántico básico de la pregunta.
En términos técnicos, los autores explican que los elementos poéticos —como la elección de palabras de baja probabilidad y las estructuras inusuales— pueden desplazar las representaciones internas de los prompts fuera de las regiones del espacio semántico que las herramientas de seguridad escanean habitualmente. Para los humanos, un verso enmascarado y una pregunta directa pueden tener el mismo significado, pero para las IA y sus sistemas de protección automatizados, la poesía puede alterar cómo se interpreta y evalúa una petición, evitando que se active una alarma o un “shutdown” ante contenidos sensibles. Este hallazgo subraya limitaciones fundamentales en los métodos actuales de alineación y evaluación de seguridad de los modelos, y plantea interrogantes urgentes sobre cómo reforzar las defensas contra ataques lingüísticos creativos que explotan este tipo de vulnerabilidades.


