
MIT News | Massachusetts Institute of Technology. «Study: Transparency Is Often Lacking in Datasets Used to Train Large Language Models», 30 de agosto de 2024. https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830.
Un equipo de investigadores del MIT ha desarrollado una herramienta llamada Data Provenance Explorer para mejorar la transparencia en los conjuntos de datos utilizados para entrenar grandes modelos de lenguaje. Esta herramienta permite a los practicantes de IA seleccionar datos adecuados para su modelo, mejorando la precisión y reduciendo el sesgo.
Los investigadores analizaron más de 1,800 conjuntos de datos textuales y descubrieron que más del 70% carecían de información de licencia, mientras que alrededor del 50% contenían errores en los datos de origen. Esto plantea problemas éticos y legales, y puede afectar el rendimiento del modelo, ya que el uso de datos incorrectos o sesgados puede llevar a predicciones injustas.
Data Provenance Explorer genera resúmenes de los creadores, fuentes, licencias y usos permitidos de los conjuntos de datos, ayudando a los investigadores a tomar decisiones más informadas y mejorar la precisión de los modelos en situaciones reales, como evaluaciones de préstamos o consultas de clientes.
Además, el estudio reveló que la mayoría de los creadores de conjuntos de datos se concentran en el norte global, lo que podría limitar las capacidades de los modelos en otras regiones. Los investigadores también notaron un aumento en las restricciones de los conjuntos de datos creados entre 2023 y 2024, debido a preocupaciones sobre su uso comercial no intencionado.
Los investigadores planean expandir su análisis para incluir datos multimodales, como video y audio, y seguir colaborando con reguladores para mejorar la transparencia en el uso de datos.