Tokenización: qué es y cómo la IA procesa el lenguaje

Cuando escribes un mensaje en ChatGPT, lo primero que hace el modelo no es leer tus palabras como tú lo harías. Las convierte en tokens. Este proceso de tokenización es fundamental para entender cómo funcionan los modelos de lenguaje y por qué a veces se comportan de formas inesperadas.

Table of Contents

Qué es la tokenización en inteligencia artificial

La tokenización es el proceso de dividir un texto en unidades más pequeñas llamadas tokens, que son las unidades básicas que los modelos de lenguaje procesan. Un token puede ser una palabra completa, parte de una palabra, un carácter o incluso un signo de puntuación, dependiendo del sistema de tokenización que use cada modelo.

Por ejemplo, la palabra «inteligencia» podría tokenizarse como un solo token o dividirse en varios: «inteli» + «gencia». La palabra «ChatGPT» probablemente se divide en «Chat» + «G» + «PT». Y la palabra «IA» podría ser un único token.

Esta distinción importa porque los modelos de lenguaje no procesan palabras, procesan tokens. Y el número de tokens que puede procesar un modelo en una sola conversación, su ventana de contexto, define cuánto texto puede considerar al mismo tiempo.

Por qué la tokenización importa para los usuarios

Entender los límites de contexto

Cuando un modelo de IA tiene un límite de 100.000 tokens de contexto, eso no significa 100.000 palabras. En español, la relación entre palabras y tokens varía, pero aproximadamente una palabra equivale a entre 1,3 y 1,8 tokens. Así que 100.000 tokens equivalen a unas 60.000-75.000 palabras.

Entender esto te ayuda a calcular cuánto texto puedes incluir en una conversación antes de que el modelo empiece a «olvidar» las partes más antiguas.

Por qué la IA a veces falla con palabras raras

Los modelos de lenguaje tienen más dificultades con palabras inusuales, nombres propios poco frecuentes o términos técnicos muy específicos, precisamente porque estos se dividen en más tokens y la relación entre sus partes es menos frecuente en los datos de entrenamiento.

Una palabra como «supercalifragilisticoespialidoso» se tokenizará en muchos fragmentos pequeños, y el modelo tendrá menos ejemplos de entrenamiento que le ayuden a entender su significado.

El coste de los tokens

En las APIs de IA comerciales, el coste se cobra por token procesado, no por palabra o caracteres. Esto significa que textos en español pueden costar más que en inglés para la misma cantidad de información, porque el español tiende a producir más tokens por palabra que el inglés en muchos sistemas de tokenización.

Cómo funciona la tokenización en la práctica

Los sistemas de tokenización modernos más usados son BPE (Byte Pair Encoding) y sus variantes. Estos sistemas analizan grandes corpus de texto y aprenden qué secuencias de caracteres aparecen juntas con más frecuencia, creando tokens para esas secuencias.

El resultado es un vocabulario de decenas de miles de tokens que equilibra la eficiencia de representación con la capacidad del modelo para manejar texto nuevo. Puedes explorar el tokenizador de OpenAI de forma interactiva en platform.openai.com/tokenizer.

Tokenización y calidad de las respuestas

La forma en que se tokeniza el input del usuario puede afectar sutilmente a la calidad de las respuestas del modelo. Los prompts que usan vocabulario común y bien representado en los datos de entrenamiento tienden a producir mejores resultados que los que usan terminología muy específica o inusual.

Esta es una de las razones por las que el prompt engineering, la práctica de diseñar instrucciones efectivas para los modelos de IA, es una habilidad con impacto real en los resultados.

Conclusión

La tokenización es uno de esos conceptos técnicos que parece abstracto pero tiene consecuencias prácticas muy concretas: en cuánto texto puedes incluir en una conversación, en qué le cuesta más al modelo y en por qué a veces responde mejor con unas palabras que con otras.

Entender cómo los modelos de IA procesan el lenguaje, empezando por la tokenización, te convierte en un usuario más eficaz de estas herramientas. En ExplicaIA seguimos explicando los conceptos fundamentales de la inteligencia artificial de forma clara y útil.

Tokenización: qué es y cómo los modelos de IA procesan el lenguaje