Las herramientas de IA generativa se están quedando rápidamente ‘sin texto’ para entrenarse advierte un experto de la UC Berkeley

Rivera, Gabriel. «Generative AI Tools Are Quickly “running out of Text” to Train Themselves on, UC Berkeley Professor Warns». Business Insider. Accedido 14 de julio de 2023. https://www.businessinsider.com/ai-could-run-out-text-train-chatbots-chatgpt-llm-2023-7.

Según el profesor Stuart Russell, experto en inteligencia artificial y profesor de la Universidad de California en Berkeley, existe una preocupación creciente de que los modelos de inteligencia artificial, como ChatGPT, estén alcanzando un límite en cuanto a la cantidad de texto disponible en el universo que los entrena para generar respuestas.

Los LLM (modelos lingüísticos de gran escala) que impulsan las herramientas de IA generativa más populares en la actualidad se entrenaron con cantidades masivas de texto publicado extraído de fuentes en línea públicas, incluidas fuentes de noticias digitales y sitios de redes sociales. Elon Musk, por ejemplo, ha mencionado que la «extracción de datos» de estos últimos es lo que lo llevó a limitar la cantidad de tweets que los usuarios pueden ver diariamente.

Un estudio realizado en noviembre pasado por Epoch, un grupo de investigadores de IA, estima que es probable que los conjuntos de datos de aprendizaje automático agoten todo el «texto de alta calidad» antes de 2026. Según el estudio, los conjuntos de datos de «alta calidad» provienen de fuentes como «libros, artículos de noticias, papers científicos, Wikipedia y contenido web filtrado».

Russell afirma en una entrevista que la tecnología utilizada para entrenar a estos bots de inteligencia artificial está empezando a enfrentarse a un desafío significativo. En otras palabras, estos bots no pueden absorber todo el texto digital necesario para su entrenamiento, lo cual fue mencionado en una entrevista con la Unión Internacional de Telecomunicaciones, una agencia de comunicaciones de la ONU, la semana pasada.

Este problema podría tener implicaciones en la forma en que los desarrolladores de inteligencia artificial generativa recopilen datos y entrenen sus tecnologías en el futuro. Sin embargo, Russell sigue sosteniendo la opinión de que la inteligencia artificial reemplazará a los humanos en muchas tareas relacionadas con el lenguaje, según lo describió en la entrevista como «lenguaje dentro, lenguaje fuera».

Russell afirmó en la entrevista que OpenAI, en particular, tuvo que «complementar» sus datos de lenguaje público con «fuentes de archivos privados» para crear GPT-4, el modelo de IA más avanzado y sólido de la compañía hasta la fecha. Sin embargo, reconoció en el correo electrónico a Insider que OpenAI aún no ha detallado los conjuntos de datos exactos utilizados en el entrenamiento de GPT-4. Varias demandas presentadas contra OpenAI en las últimas semanas alegan que la compañía utilizó conjuntos de datos que contenían información personal y materiales con derechos de autor para entrenar a ChatGPT. Una de las demandas más importantes fue presentada por 16 demandantes no identificados, quienes afirman que OpenAI utilizó datos sensibles como conversaciones privadas y registros médicos.

El último desafío legal, presentado por los abogados de la comediante Sarah Silverman y otros dos autores, acusa a OpenAI de infracción de derechos de autor debido a la capacidad de ChatGPT para escribir resúmenes precisos de su trabajo. Mona Awad y Paul Tremblay, dos autores adicionales, presentaron una demanda contra OpenAI a finales de junio que hace acusaciones similares. OpenAI ha evitado hacer comentarios públicos sobre el conjunto de demandas presentadas en su contra. Su CEO, Sam Altman, también se ha abstenido de discutir las acusaciones, aunque en el pasado ha expresado su deseo de evitar problemas legales.