
Chen, Lingjiao, Matei Zaharia, y James Zou. «How Is ChatGPT’s Behavior Changing Over Time?» Harvard Data Science Review, 12 de marzo de 2024. https://doi.org/10.1162/99608f92.5317da47.
En este estudio exhaustivo, se realiza una comparación detallada entre las versiones de GPT-3.5 y GPT-4 en marzo y junio de 2023, centrándose en una variedad de tareas para evaluar su desempeño y comportamiento a lo largo del tiempo. Esto implica una evaluación minuciosa en áreas como matemáticas, preguntas sensibles, encuestas de opinión, conocimiento intensivo, generación de código, pruebas de licencia médica en EE. UU. y razonamiento visual. Los resultados revelan una variabilidad significativa en el rendimiento de ambos modelos, lo que sugiere que su comportamiento está sujeto a cambios en un corto período.
Por ejemplo, se observa que el desempeño de GPT-4 en la identificación de números primos vs. compuestos disminuyó drásticamente de marzo a junio, lo que indica una posible pérdida de precisión en esta tarea específica. Además, se encuentra que GPT-4 se muestra menos dispuesto a abordar preguntas sensibles y de encuestas de opinión en junio en comparación con marzo, lo que sugiere un cambio en su capacidad para manejar ciertos tipos de consultas.
Asimismo, se destaca una mejora en el desempeño de GPT-4 en preguntas multi-paso en junio en comparación con marzo, mientras que GPT-3.5 muestra un rendimiento decreciente en esta área. Este hallazgo indica que la evolución del comportamiento de los modelos puede no seguir una tendencia lineal y puede verse influenciada por diversos factores.

Además, se evidencia que ambos modelos presentaron más errores de formato en la generación de código en junio que en marzo, lo que sugiere una posible degradación en la calidad de la salida generada. La disminución en la capacidad de GPT-4 para seguir instrucciones del usuario a lo largo del tiempo también se señala como un factor clave detrás de varios cambios en el comportamiento observado.
Estos resultados destacan la importancia de monitorear continuamente el desempeño y comportamiento de los modelos de lenguaje para comprender cómo evolucionan con el tiempo y para abordar posibles cambios o degradaciones en su rendimiento. Este estudio proporciona una visión valiosa sobre la dinámica de los modelos de lenguaje y resalta la necesidad de una evaluación continua para garantizar su efectividad y fiabilidad en diversas aplicaciones.