
«With Robots.Txt, Websites Halt AI Companies’ Web Crawlers – IEEE Spectrum». Accedido 3 de septiembre de 2024. https://spectrum.ieee.org/web-crawling.
El informe de la Data Provenance Initiative, un grupo de investigadores voluntarios especializados en inteligencia artificial (IA), revela una creciente preocupación sobre la disminución de la disponibilidad de datos públicos utilizados para entrenar modelos de IA generativa. Estos modelos, como los desarrollados por empresas líderes como OpenAI y Anthropic, dependen de enormes conjuntos de datos extraídos de la web, que incluyen información recopilada de sitios públicos como blogs, redes sociales y foros. Sin embargo, muchas organizaciones están tomando medidas para proteger sus datos de estos rastreadores, utilizando el archivo robots.txt, que impide que los bots accedan a determinadas partes de sus sitios web.
El informe, titulado “Consent in Crisis: The Rapid Decline of the AI Data Commons” destaca que esta tendencia de restringir el acceso a datos es particularmente notable en sitios monetizados como los de noticias, artistas y otros contenidos protegidos por derechos de autor. Estos sitios están preocupados por cómo la IA generativa podría afectar sus ingresos y, por tanto, están implementando barreras para proteger su contenido.
Shayne Longpre, uno de los investigadores principales del informe, explicó que este cambio tiene serias implicaciones para el futuro de la IA. A medida que más sitios bloquean a los rastreadores, los modelos de IA se verán forzados a entrenarse con datos de menor calidad o menos actualizados, lo que podría comprometer su rendimiento y precisión. Además, aunque algunas grandes empresas de IA podrían superar este desafío al negociar acuerdos exclusivos para acceder a datos de alta calidad, esto podría generar problemas de competencia y aumentar la barrera de entrada para nuevas empresas en el campo de la IA.
El informe también menciona la creciente preocupación por el uso de datos sintéticos como alternativa, que aunque tiene potencial, podría llevar a problemas como la «degradación del modelo» si se basa en datos de baja calidad.