La MIT desarrolla un método para que los modelos de lenguaje de IA se autocorrijan y generen respuestas más seguras y ética

Hinkel, Lauren. 2025. «Training LLMs to Self-Detoxify Their LanguageMIT News, April 14, 2025. https://news.mit.edu/2025/training-llms-self-detoxify-their-language-0414

Un nuevo método del laboratorio de IA MIT-IBM Watson ayuda a los grandes modelos lingüísticos a dirigir sus propias respuestas hacia resultados más seguros, éticos y alineados con los valores.

Un equipo del MIT-IBM Watson AI Lab ha desarrollado un nuevo método llamado Self-Disciplined Autoregressive Sampling (SASA) que permite a los modelos de lenguaje de gran tamaño (LLMs) reducir por sí mismos la generación de contenido tóxico o no deseado. Lo novedoso de esta técnica es que no requiere modificar el modelo base, ni reentrenarlo, ni usar sistemas externos de recompensa. En cambio, SASA actúa directamente durante el proceso de generación del texto, evaluando cada palabra potencial antes de seleccionarla para asegurar que el resultado final se mantenga dentro de un lenguaje seguro y éticamente aceptable.

Los modelos de lenguaje se entrenan con grandes cantidades de datos tomados de internet, lo que implica que inevitablemente absorben lenguaje ofensivo, sesgado o perjudicial. Esto puede llevar a que generen respuestas tóxicas incluso a partir de solicitudes inocentes. SASA aborda este problema mediante un enfoque innovador: establece una frontera entre el lenguaje tóxico y el no tóxico dentro del espacio interno del modelo (específicamente, en su representación de palabras o embeddings). Cuando el modelo va generando una frase palabra por palabra, SASA calcula qué tan cercana está cada palabra candidata a cruzar esa frontera, y favorece aquellas que mantienen el contenido en el lado no tóxico.

Para lograr esto, los investigadores crearon un clasificador lineal que analiza el contexto de las frases a partir de datos etiquetados con niveles de toxicidad. De esta forma, pueden determinar si una frase parcial (por ejemplo, los primeros 11 términos de una oración) se acerca a un resultado problemático cuando se le añade una determinada palabra número 12. SASA ajusta entonces las probabilidades de elección de esa palabra, penalizando las opciones que aumentarían la toxicidad y premiando las más seguras, pero sin perder la coherencia gramatical o semántica del texto.

Los investigadores probaron SASA en varios modelos populares como GPT-2 Large, LLaMA 2-7B y LLaMA 3.1-8B-Instruct, usando conjuntos de datos diseñados para evaluar toxicidad, sesgos y lenguaje ofensivo. En los experimentos, SASA logró reducir notablemente tanto la cantidad como la intensidad del lenguaje tóxico generado, sin afectar demasiado la fluidez del texto. Además, mostró ser útil para equilibrar desigualdades, como cuando los modelos tendían a generar más contenido tóxico en respuestas asociadas a mujeres que a hombres.

Una de las principales ventajas de SASA es que es un método ligero, rápido y adaptable. A diferencia de otras técnicas que requieren modificar o reentrenar el modelo —algo costoso y que puede afectar su rendimiento general—, SASA simplemente actúa como una especie de “guía interna” durante la generación de texto. Además, puede extenderse fácilmente para alinear los modelos con otros valores humanos, como la veracidad, la ayuda o la lealtad. Según su autora principal, Irene Ko, la idea no es evitar que los modelos conozcan el lenguaje dañino, sino que aprendan a reconocerlo y elegir no usarlo, del mismo modo que hacemos los seres humanos.

SASA representa un paso importante hacia modelos de lenguaje más seguros, éticos y controlables, permitiendo que mantengan su poder expresivo sin dejar de respetar principios fundamentales de convivencia y responsabilidad comunicativa.