¿Cuánto texto pueden generar las diferentes herramientas de Inteligencia Artificial?

Los modelos de inteligencia artificial basados en lenguaje natural, como ChatGPT, no trabajan directamente con palabras o caracteres completos, sino con tokens, que son unidades básicas de texto. Esta estrategia permite a los modelos manejar y procesar el lenguaje de manera más eficiente y granular. Un token puede corresponder a una palabra completa, una parte de una palabra (como un prefijo o sufijo), un signo de puntuación o incluso espacios. Por ejemplo, la palabra «inteligencia» podría dividirse en varios tokens si el modelo utiliza un método de tokenización subpalabra (como Byte Pair Encoding o WordPiece).

¿Por qué usar tokens?

La tokenización ayuda a los modelos a lidiar con la variedad infinita de combinaciones en el lenguaje natural, permitiendo que puedan aprender patrones y predecir la siguiente unidad con mayor precisión. Según OpenAI, la tokenización es crucial para que los modelos de lenguaje puedan generar texto coherente y fluido, ya que cada token representa un fragmento manejable para los algoritmos de predicción estadística y aprendizaje profundo.

Límite de tokens y generación de texto

La capacidad para generar texto en modelos como GPT está limitada por un máximo de tokens por interacción o llamada al modelo. Esto significa que la suma de los tokens de entrada (el texto que proporcionas) y de salida (el texto generado) no puede superar ese límite. Por ejemplo, el modelo GPT-3.5 tiene un límite de aproximadamente 4,096 tokens por solicitud, mientras que modelos más recientes pueden manejar hasta 8,000 tokens o incluso más, dependiendo de la versión y configuración

Este límite es importante porque afecta la longitud y la complejidad del texto que el modelo puede procesar y generar de manera coherente. Si se excede el límite, el texto de entrada o el de salida deben ser truncados o segmentados, lo que puede afectar la continuidad y calidad del contenido generado.

¿Qué es un token en detalle?

Los tokens no coinciden necesariamente con palabras, especialmente en idiomas con palabras compuestas o con conjugaciones complejas. Por ejemplo, la palabra inglesa «unhappiness» puede dividirse en tokens como «un», «happi», «ness». De forma similar, en español, las terminaciones verbales o sufijos se tratan como tokens separados para que el modelo aprenda mejor las reglas gramaticales y las relaciones semánticas.

Según la explicación de Jurafsky y Martin en su libro Speech and Language Processing, la tokenización es un paso fundamental en el procesamiento del lenguaje natural (PLN) y puede ser tan simple como dividir por espacios o tan complejo como aplicar modelos de segmentación que respeten la morfología del idioma.

Por ejemplo, la frase:

«Hola, ¿cómo estás?»

Podría dividirse en tokens como:

«Hola»

«,»

«¿»

«cómo»

«estás»

«?»

Cada uno de estos es un token para el modelo.

Herramienta / Modelo	Límite tokens (entrada + salida)	Aproximación de palabras generadas en una sola respuesta
GitHub Copilot	~2048 tokens	~1000-1500 palabras (para código y texto combinados)
ChatGPT (GPT-3.5)	4096 tokens	~1500-3000 palabras
ChatGPT (GPT-4)	8192 tokens	~3000-6000 palabras
Claude (Anthropic)	~9000 tokens	~3500-6500 palabras
Gemini (Google DeepMind)	8192 – 32768 tokens	Desde ~3000 hasta ~12,000-25,000 palabras (según versión)
Perplexity AI	Depende del modelo que use	Varía según modelo (ej., GPT-4: hasta ~6000 palabras)

Aproximación de cantidad de texto generado según límite de tokens

	La ciencia se está a… en Citas fantasma y ciencia cread…
	La ciencia se está a… en Citas invisibles y métricas fa…
	Fraude y Mala Praxis… en Las autocitas en una docena de…
	Anthropic y Teach Fo… en Claude: asistente de inteligen…
	Cómo integrar el Con… en Consensus: motor de búsqueda i…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca

¿Cuánto texto pueden generar las diferentes herramientas de Inteligencia Artificial?

Comparte esto: