
AP News. «AI “gold Rush” for Chatbot Training Data Could Run out of Human-Written Text», 6 de junio de 2024. https://apnews.com/article/ai-artificial-intelligence-training-data-running-out-9676145bac0d30ecce1513c20561b87d.
Los sistemas de inteligencia artificial, como ChatGPT, dependen de grandes cantidades de texto escrito por humanos disponible en línea para mejorar su rendimiento. Sin embargo, un estudio de Epoch AI advierte que las empresas tecnológicas podrían agotar el suministro de estos datos públicos entre 2026 y 2032. Esta situación se compara con una «fiebre del oro» que podría dificultar el progreso continuo en el campo de la IA.
A corto plazo, empresas como OpenAI y Google están buscando asegurar fuentes de datos de alta calidad, incluso pagando por ellos, como es el caso de los datos provenientes de foros como Reddit y medios de comunicación. Sin embargo, a largo plazo, no habrá suficientes nuevos blogs, artículos de noticias y comentarios en redes sociales para sostener el desarrollo de la IA. Esto podría llevar a depender de datos sensibles considerados privados, como correos electrónicos o mensajes de texto, o recurrir a datos sintéticos generados por los propios chatbots, los cuales son menos confiables.
Algunos expertos, como Nicolas Papernot, creen que no es necesario seguir entrenando modelos cada vez más grandes, sino enfocarse en modelos más especializados. Además, existe preocupación por el uso de datos generados por IA para entrenar más IA, lo que podría llevar a la «degradación del rendimiento» o «colapso del modelo». Sitios como Reddit y Wikipedia, así como editores de noticias y libros, están reconsiderando cómo se utilizan sus datos. Wikipedia, por ejemplo, permite el uso de sus entradas por parte de empresas de IA, pero subraya la necesidad de mantener incentivos para la creación de contenido humano.
Sam Altman, CEO de OpenAI, mencionó que aunque se está experimentando con datos sintéticos, es crucial que estos sean de alta calidad para evitar ineficiencias en el entrenamiento de modelos de IA. En resumen, el campo de la inteligencia artificial enfrenta un posible agotamiento de textos escritos por humanos para el entrenamiento de sus modelos, lo que plantea importantes desafíos y la necesidad de buscar soluciones alternativas para mantener el progreso tecnológico.