Una filtración revela los sitios web usados para entrenar modelos de Anthropic sin supervisión directa

Rollet, C. (2025, 23 de julio). Here’s the list of websites gig workers used to fine‑tune Anthropic’s AI models. Its contractor left it wide open. Business Insider. Recuperado de Business Insider: https://www.businessinsider.com/anthropic-surge-ai-leaked-list-sites-2025-7

Se ha publicado un documento interno, filtrado de Surge AI (contratista de Anthropic), que detallaba qué sitios web estaban permitidos y cuáles estaban prohibidos para el entrenamiento mediante fine‑tuning de modelos de IA. Esta hoja de cálculo estaba expuesta de forma pública en Google Drive hasta que fue eliminada tras la consulta de Business Insider

La hoja incluía más de 120 sitios autorizados, entre ellos fuentes de prestigio como Harvard, Mayo Clinic, Bloomberg, Cornell University o el New England Journal of Medicine. En cambio, se bloqueaban más de 50 fuentes comunes como The New York Times, The Wall Street Journal, Reddit, Wiley, Stanford University y Harvard Business Review.

Los trabajadores de Surge utilizaban estos sitios aprobados para realizar tareas de RLHF (Reinforcement Learning from Human Feedback): copiaban fragmentos de texto, pedían al modelo que los resumiera y seleccionaban las mejores respuestas. La hoja de cálculo se empleaba como guía tanto para contenidos permitidos como para evitar aquellos no autorizados.

Anthropic aseguró que no estaba al tanto del documento, afirmando que había sido creado de forma independiente por Surge. Surge, por su parte, declaró que la filtración fue un error y que ya tomó medidas para restringir el acceso a esos materiales.

Varias de las fuentes bloqueadas, como Reddit, han presentado acciones legales contra Anthropic o competidores, acusando uso de datos sin permiso. Aunque algunos argumentan que la RLHF podría entrar en uso justo, expertos legales advierten que esa distinción entre pre-entrenamiento y RLHF puede no ser significativa en tribunales. Además, este incidente se suma a ejemplos precedentes, como en Scale AI, donde se filtraron documentos internos similares al caer expuestos en Google Drive

Esta filtración revela cómo una empresa externa pudo influir directamente en qué fuentes alimentaron el entrenamiento de un modelo sofisticado, poniendo en evidencia vulnerabilidades en la seguridad de datos y decisiones de proveedores. El incidente refuerza el debate sobre la transparencia en las prácticas de entrenamiento de IA, el uso justo de datos web y el manejo responsable de información sensible por parte de terceros.