
Lavoué, Alix. “AI Inbreeding: The Phenomenon Threatening Artificial Intelligence.” Worldcrunch, 7 de septiembre de 2025. https://worldcrunch.com/tech-science/ai-inbreeding-the-phenomenon-threatening-artificial-intelligence/
La «endogamia» en la inteligencia artificial ocurre cuando los modelos se entrenan utilizando contenido generado por otros modelos de IA, en lugar de datos originales creados por humanos. Este ciclo de retroalimentación puede llevar a una degradación progresiva de la calidad y diversidad de los resultados producidos por los modelos.
La endogamia de la IA, o colapso del modelo, se produce cuando un modelo de IA generativa se entrena con datos que han sido generados por una IA, lo que provoca una degradación de la calidad, la precisión y la diversidad de los resultados futuros del modelo, lo que a menudo da lugar a contenidos sin sentido, repetitivos o sesgados.
Lo que conlleva a que los sesgos se amplifiquen, la diversidad de información se colapse y las respuestas se vuelvan cada vez más ruidosas e imprecisas. Un ejemplo de este fenómeno se observó en un estudio publicado en la revista Nature, donde investigadores británicos y canadienses entrenaron un modelo de IA para dibujar números manuscritos basándose en un conjunto de datos real. Al repetir el proceso utilizando los números generados por la IA en cada etapa, se observó que después de 20 generaciones, los números se volvían borrosos, y después de 30 generaciones, convergían en una forma indistinta. Este estudio demuestra que en solo cinco generaciones de entrenamiento con datos autogenerados, los sesgos y fallos del sistema ya se amplifican, disminuyendo la variación y la precisión de las respuestas.
Este proceso degenerativo se debe a la falta de diversidad en los datos de entrenamiento, lo que lleva a que el sistema se enfoque en respuestas promedio y elimine las excepciones. Esto se conoce como colapso temprano, seguido de un colapso tardío, donde las respuestas se vuelven agotadas y, a veces, muy alejadas de la realidad.
El problema es que los atajos sintéticos no solo amplían la cantidad de datos, sino que los distorsionan. Cuando un sistema se entrena principalmente con su propio output, termina siendo una versión “promedio potenciada” de sí mismo: segura, insípida y progresivamente incorrecta. Para las empresas que dependen de mejoras continuas de modelos, esto significa que cada nueva generación puede resultar menos confiable. Al mismo tiempo, las compañías con grandes reservas de datos originales podrían convertirse en los únicos guardianes reales de la ventaja competitiva.
Para mitigar este problema, es esencial diversificar las fuentes de datos utilizadas para entrenar los modelos de IA, asegurando que incluyan una variedad de perspectivas y contextos. Además, se deben implementar técnicas de validación y monitoreo para