PaLM + RLHF: una alternativa de código abierto a ChatGPT

Wiggers, Kyle. «There’s Now an Open Source Alternative to ChatGPT, but Good Luck Running It». TechCrunch (blog), 30 de diciembre de 2022. https://techcrunch.com/2022/12/30/theres-now-an-open-source-alternative-to-chatgpt-but-good-luck-running-it/

Esta semana, Philip Wang, el desarrollador responsable de la ingeniería inversa de sistemas de IA de código cerrado, como Make-A-Video de Meta, ha lanzado PaLM + RLHF, un modelo de generación de texto que se comporta de forma similar a ChatGPT. El sistema combina PaLM, un gran modelo lingüístico de Google, y una técnica llamada Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) para crear un sistema capaz de realizar prácticamente cualquier tarea que ChatGPT pueda realizar, incluida la redacción de correos electrónicos y la sugerencia de código informático.

Pero PaLM + RLHF no está preentrenado. Es decir, el sistema no ha sido entrenado con los datos de ejemplo de la web necesarios para que realmente funcione. Descargar PaLM + RLHF no te proporcionará por arte de magia una experiencia similar a la de ChatGPT, ya que para ello sería necesario compilar gigabytes de texto a partir de los cuales el modelo pueda aprender y encontrar un hardware lo suficientemente potente como para soportar la carga de trabajo del entrenamiento.

Al igual que ChatGPT, PaLM + RLHF es esencialmente una herramienta estadística para predecir palabras. Cuando se le alimenta con un enorme número de ejemplos de datos de entrenamiento -por ejemplo, entradas de Reddit, artículos de noticias y libros electrónicos-, PaLM + RLHF aprende la probabilidad de que aparezcan palabras basándose en patrones como el contexto semántico del texto circundante.

ChatGPT y PaLM + RLHF comparten una salsa especial en el Aprendizaje por Refuerzo con Retroalimentación Humana, una técnica que pretende alinear mejor los modelos lingüísticos con lo que los usuarios desean que logren. RLHF consiste en entrenar un modelo lingüístico -en el caso de PaLM + RLHF, PaLM- y afinarlo en un conjunto de datos que incluye preguntas (por ejemplo, «Explica el aprendizaje automático a un niño de seis años») junto con lo que los voluntarios humanos esperan que diga el modelo (por ejemplo, «El aprendizaje automático es una forma de IA…»). A continuación, los voluntarios clasifican todas las respuestas de mejor a peor. Por último, las clasificaciones se utilizan para entrenar un «modelo de recompensa» que toma las respuestas del modelo original y las clasifica por orden de preferencia, filtrando las mejores respuestas a una pregunta determinada.

Recopilar los datos de entrenamiento es un proceso costoso. Y el entrenamiento en sí no es barato. PaLM tiene un tamaño de 540.000 millones de parámetros, entendiendo por «parámetros» las partes del modelo lingüístico aprendidas a partir de los datos de entrenamiento. Un estudio de 2020 cifraba en 1,6 millones de dólares los gastos de desarrollo de un modelo de generación de texto con sólo 1.500 millones de parámetros. Y para entrenar el modelo de código abierto Bloom, que tiene 176.000 millones de parámetros, se necesitaron tres meses utilizando 384 GPU Nvidia A100; una sola A100 cuesta miles de dólares.

Ejecutar un modelo entrenado del tamaño de PaLM + RLHF tampoco es trivial. Bloom requiere un PC dedicado con unas ocho GPU A100. Las alternativas en la nube son caras: según los cálculos aproximados, el coste de ejecutar el GPT-3 de generación de texto de OpenAI (que tiene unos 175.000 millones de parámetros) en una única instancia de Amazon Web Services es de unos 87.000 dólares al año.