
METR. «Measuring AI Ability to Complete Long Tasks.» METR, March 19, 2025. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/?utm_source=superhuman&utm_medium=newsletter&utm_campaign=claude-finally-gets-search&_bhlid=a3d8e301d66bd7aba2dd5de5253b42c092fb3f57
Este enfoque destaca la necesidad de medir la capacidad de la IA no solo en términos de sus habilidades de predicción o conocimiento, sino también en la capacidad para realizar tareas complejas a lo largo del tiempo. Los resultados de este estudio tienen implicaciones significativas tanto para las predicciones sobre el futuro de la IA como para la gestión de riesgos asociados a su adopción.
Un estudio reciente ha revelado que los modelos de inteligencia artificial (IA) de vanguardia podrían estar mejorando a un ritmo mucho más rápido de lo que se pensaba. El grupo de investigación METR ha descubierto que el tiempo que los Modelos de Lenguaje Grande (LLMs) pueden abordar tareas parece duplicarse cada siete meses, lo que es incluso más rápido que la Ley de Moore, que establece que la capacidad de los chips se duplica aproximadamente cada dos años.
Para ponerlo en perspectiva, el modelo Claude Sonnet 3.7 ahora puede realizar tareas que a los humanos les tomarían una hora, mientras que modelos como el GPT-4 de 2023 solo podían realizar tareas de cinco minutos, como buscar un hecho específico en la web. Modelos anteriores como el GPT-3.5 de 2022 solo podían hacer tareas que nos tomarían menos de un minuto, como recordar algo previamente conocido.
Si esta tendencia continúa, en uno o dos años los modelos de IA podrían ser capaces de realizar tareas de cuatro horas. Se espera que para 2029 la IA sea capaz de realizar tareas que le tomarían a los humanos un mes entero, como iniciar un negocio o hacer un nuevo descubrimiento científico. Sin embargo, dado que los LLMs son relativamente nuevos, solo se dispone de cuatro o cinco años de datos, por lo que estos resultados deben tomarse con cautela.