Hay un momento concreto que divide la historia de la inteligencia artificial en un antes y un después. Fue en 2017, cuando un equipo de investigadores de Google publicó un paper titulado «Attention Is All You Need». En él presentaban una nueva arquitectura de red neuronal llamada transformer, y sin saberlo todavía, estaban lanzando la revolución tecnológica que definiría la década siguiente.
Qué es un transformer y por qué importa tanto
Un transformer es un tipo de arquitectura de red neuronal diseñada específicamente para procesar secuencias de datos, como texto, audio o código, de forma paralela y con un mecanismo especial llamado atención que le permite considerar el contexto completo de una secuencia al procesar cada elemento.
Antes de los transformers, los modelos de lenguaje usaban arquitecturas recurrentes que procesaban el texto palabra por palabra, de forma secuencial. Esto tenía una limitación crítica: al procesar la última palabra de un párrafo largo, el modelo había «olvidado» en gran medida el contexto de las primeras palabras.
Los transformers resuelven este problema procesando toda la secuencia de forma paralela y usando el mecanismo de atención para determinar qué partes del contexto son más relevantes para entender cada elemento. El resultado es una capacidad de comprensión contextual radicalmente superior.
El mecanismo de atención: el corazón del transformer
El mecanismo de atención es lo que hace especial a los transformers. Para cada elemento de una secuencia, calcula un peso de atención respecto a todos los demás elementos, indicando cuánta «atención» debe prestar a cada parte del contexto para entender ese elemento.
Por ejemplo, al procesar la palabra «ella» en la frase «María fue al mercado porque ella necesitaba verduras», el mecanismo de atención aprende que debe prestar mucha atención a «María» para resolver correctamente que «ella» se refiere a María y no a otra persona.
Esta capacidad de resolver referencias, capturar dependencias a larga distancia y considerar el contexto completo es lo que hace que los modelos basados en transformers sean tan potentes para el lenguaje.
De los transformers a ChatGPT: la cadena de innovación
La arquitectura transformer fue la base sobre la que se construyeron los grandes modelos de lenguaje que conocemos hoy. GPT-1, GPT-2 y GPT-3 de OpenAI, BERT de Google, T5 y sus sucesores, todos están basados en transformers. ChatGPT, que democratizó el acceso a la IA generativa en 2022, está construido sobre GPT-4, que a su vez es un transformer de escala masiva.
Lo que diferencia a los modelos actuales no es un cambio fundamental en la arquitectura transformer, sino la escala: más parámetros, más datos de entrenamiento y más potencia de cómputo. El paper original de 2017 propuso un modelo con 65 millones de parámetros. GPT-4 tiene estimados entre 1 y 1,8 billones de parámetros.
Puedes leer el paper original de los transformers en arxiv.org.
Los transformers más allá del texto
Aunque estos nacieron para el procesamiento de texto, su arquitectura ha demostrado ser sorprendentemente versátil. Vision Transformers o ViT aplican la arquitectura transformer a imágenes con resultados que compiten con las redes convolucionales tradicionales. Los transformers también se usan para audio, vídeo, código de programación y datos científicos de todo tipo.
Esta versatilidad es una de las razones por las que los transformers han dominado el campo del deep learning desde su introducción.
Conclusión
El transformer es la arquitectura tecnológica que hace posible ChatGPT, Gemini, Claude y prácticamente toda la IA generativa actual. Entender sus principios básicos, especialmente el mecanismo de atención, es entender el fundamento de la revolución de la IA que estamos viviendo.
No es necesario entender las matemáticas detrás para apreciar su importancia. El transformer es al software de IA lo que el transistor fue a la electrónica: la unidad básica sobre la que se construye todo lo demás. En ExplicaIA seguimos explicando los fundamentos de la IA con la claridad que merecen.
