
«Why Bigger Is Not Always Better in AI», MIT Technology Review, accedido 2 de octubre de 2024, https://www.technologyreview.com/2024/10/01/1104744/why-bigger-is-not-always-better-in-ai/.
La creencia de que «más grande es mejor» en inteligencia artificial (IA) ha dominado la investigación en este campo, impulsada por la idea de que la cantidad de datos, la potencia de cómputo y el número de parámetros son los principales determinantes del rendimiento de un modelo. Esta mentalidad se consolidó con un artículo de 2017 de Google, que introdujo la arquitectura de transformer, y ha llevado a las grandes empresas tecnológicas a competir por la escala de sus modelos.
Sin embargo, expertos como Sasha Luccioni, líder de IA y clima en la startup Hugging Face, argumentan que los modelos actuales son “demasiado grandes”. Estos modelos no solo son difíciles de descargar y manipular, incluso si son de código abierto, sino que también presentan problemas significativos. Entre estos se encuentran prácticas invasivas de recolección de datos y la inclusión de contenido inapropiado en los conjuntos de datos, además de tener una mayor huella de carbono debido al alto consumo de energía necesario para su funcionamiento.
La escalabilidad de los modelos también conduce a una concentración extrema de poder en manos de unas pocas empresas tecnológicas grandes. Solo estas compañías tienen los recursos financieros y técnicos necesarios para desarrollar y operar modelos de gran escala, lo que crea un «cuello de botella» en el acceso a tecnologías de IA avanzadas y limita la diversidad de enfoques en el campo.
En contraposición a esta tendencia, el Allen Institute for Artificial Intelligence (Ai2) ha desarrollado un nuevo modelo de lenguaje multimodal llamado Molmo, que demuestra que se puede lograr un rendimiento impresionante utilizando modelos mucho más pequeños. Su modelo más grande, que cuenta con 72 mil millones de parámetros, supera en rendimiento a GPT-4, que se estima tiene más de un billón de parámetros, en tareas como la comprensión de imágenes, gráficos y documentos. Además, un modelo más pequeño de Molmo, con solo 7 mil millones de parámetros, se acerca al rendimiento de los modelos de vanguardia, gracias a métodos de recolección de datos y entrenamiento más eficientes.
Los investigadores de Ai2 han enfrentado el desafío de romper con la mentalidad de «más es mejor». Al iniciar el proyecto, el equipo se propuso pensar fuera de lo convencional y encontrar formas más efectivas de entrenar modelos que fueran accesibles y económicos. La filosofía detrás de Molmo subraya que «menos es más, lo pequeño es grande, y lo abierto es tan bueno como lo cerrado».
Otro argumento a favor de reducir la escala de los modelos es que los modelos más grandes suelen ser capaces de realizar una amplia gama de tareas, muchas de las cuales pueden no ser necesarias para los usuarios finales. Luccioni sostiene que, a menudo, los usuarios solo necesitan un modelo diseñado para tareas específicas, y que los modelos más grandes no siempre ofrecen ventajas en estos casos.
Para avanzar en la investigación y aplicación de IA, es fundamental cambiar las métricas utilizadas para evaluar el rendimiento de los modelos, enfocándose en factores relevantes como la precisión, la privacidad y la confiabilidad de los datos utilizados en su entrenamiento. Esto requiere un mayor nivel de transparencia en la industria, ya que muchos investigadores no comprenden completamente cómo y por qué sus modelos producen ciertos resultados, ni qué datos se han utilizado para entrenarlos.
Finalmente, se sugiere que es hora de reevaluar la suposición de que los modelos de IA son soluciones mágicas que resolverán todos los problemas. En lugar de seguir la tendencia de la escalabilidad, la comunidad de investigación y las empresas deben crear incentivos para fomentar un enfoque más consciente y sostenible en el desarrollo de inteligencia artificial, buscando hacer más con menos y utilizando recursos de manera más responsable.