Llama 3 de Meta se ha entrenado con una cantidad récord de datos, lo que podría dar lugar a un replanteamiento de toda la industria de la IA y producir mejores modelos.

Schreiner, Maximilian. «Current LLMs “Undertrained by a Factor of Maybe 100-1000X or More” Says OpenAI Co-Founder». THE DECODER, 24 de abril de 2024. https://the-decoder.com/current-llms-undertrained-by-a-factor-of-maybe-100-1000x-or-more-says-openai-co-founder/.

El reciente lanzamiento del modelo de lenguaje Llama 3 por parte de Meta ha desencadenado una reflexión sobre el estado actual de los modelos de inteligencia artificial (IA). Este nuevo modelo, entrenado con una cantidad récord de datos, ha superado significativamente las capacidades de otros modelos en algunas áreas clave.

Según Meta, el aumento en el rendimiento se debe principalmente al considerable aumento en los datos de entrenamiento y al ajuste fino con 10 millones de ejemplos de alta calidad.

Mientras que ya se sabía que los datos de alta calidad pueden mejorar el rendimiento incluso de modelos de lenguaje más pequeños, la cantidad de datos utilizados para el preentrenamiento es sorprendente. Incluso el modelo de 8 mil millones de parámetros fue entrenado con alrededor de 15 billones de tokens. Esto no solo supera con creces la cantidad de datos utilizados para Llama 2, sino también la cantidad de datos considerada óptima según las leyes de escala de Chinchilla, desarrolladas por DeepMind.

Estas leyes establecen que, para un modelo de 8 mil millones de parámetros, alrededor de 200 mil millones de tokens de entrenamiento se consideran óptimos para utilizar eficientemente la potencia informática. Llama 3 fue entrenado con 75 veces esa cantidad de datos. A pesar de la enorme cantidad de datos de entrenamiento, Meta descubrió que los modelos de «8B y 70B de parámetros continuaron mejorando de manera logarítmica después de entrenarlos con hasta 15T de tokens», según una publicación en el blog de la compañía.

El investigador de IA Andrej Karpathy, miembro fundador de OpenAI y ex jefe de IA de Tesla, señala que esto podría sugerir que la mayoría de los modelos de lenguaje actualmente en uso «están significativamente subentrenados por un factor de tal vez 100-1000 veces o más, muy lejos de su punto de convergencia». Karpathy espera que otras empresas de IA sigan el ejemplo de Meta y lancen modelos más largos y entrenados, pero de menor tamaño.

Aunque aún no está claro hasta dónde se puede aumentar el rendimiento de un modelo de lenguaje a través de entrenamientos más largos antes de que las ganancias sean demasiado pequeñas, Meta ha demostrado que aún no se han alcanzado los límites de lo posible en este campo.