Cómo los modelos de Inteligencia Artificial amenazan la sostenibilidad de Wikipedia

Vetter, Matthew A., Jialei Jiang, y Zachary J. McDowell. «An Endangered Species: How LLMs Threaten Wikipedia’s SustainabilityAI & Society, 2024. https://doi.org/10.1007/s00146-025-02199-9.

El estudio de Matthew A. Vetter, Jialei Jiang y Zachary J. McDowell analiza el impacto de los modelos de lenguaje a gran escala (LLMs) en la sostenibilidad de Wikipedia. Aunque la enciclopedia abierta es una fuente clave para entrenar inteligencia artificial, su uso plantea desafíos éticos en cuanto a la procedencia de los datos, la producción de conocimiento y el trabajo digital. Mediante entrevistas con expertos, la investigación destaca la falta de claridad sobre el papel de Wikipedia en el entrenamiento de LLMs, así como los riesgos de sesgos sistémicos y sostenibilidad. Los autores abogan por mayor transparencia y responsabilidad en el uso de bases de datos abiertas por parte de las grandes tecnológicas, promoviendo marcos colaborativos que prioricen la ética y la representación equitativa.

A partir de entrevistas con expertos en la intersección entre Wikimedia y la IA, la investigación identifica tres desafíos clave:

  1. Falta de transparencia en el uso de Wikipedia: No está claro en qué medida Wikipedia es utilizada en el entrenamiento de los LLMs, lo que impide evaluar su impacto en la generación de conocimiento automatizado.
  2. Problemas éticos y de sesgo sistémico: Los modelos de IA pueden amplificar desigualdades existentes en la producción de conocimiento, reproduciendo sesgos presentes en Wikipedia y en los datos utilizados en su entrenamiento.
  3. Sostenibilidad y reconocimiento del trabajo colaborativo: La creciente dependencia de Wikipedia por parte de las empresas de IA sin un retorno claro a la comunidad plantea desafíos para su mantenimiento a largo plazo.

El estudio subraya la necesidad de mayor transparencia y responsabilidad en el uso de bases de datos abiertas como Wikipedia por parte de grandes empresas tecnológicas. Los autores proponen marcos colaborativos que prioricen principios éticos, equidad en la representación y mecanismos para asegurar que el valor generado por la IA también beneficie a la comunidad que sustenta Wikipedia.