"Todo lo que necesitas es atención", el paper que cambió la IA

Hoy hablamos de un paper en el que me habría gustado tener parte. Junio de 2017. Ocho investigadores de Google publican en NeurIPS quince páginas con un título medio chulo, «Attention Is All You Need». Cero promesas comerciales. Proponen una arquitectura nueva — el Transformer — que cambia cómo las máquinas procesan secuencias. Ese paper es el origen del 99% de las inteligencias artificiales que usas hoy. ChatGPT, Claude, Gemini, DeepSeek — todas vienen de ahí. Y la explicación sin matemáticas cabe en cinco minutos. ¿Te apetece reconstruir el momento bisagra de los últimos veinte años en tecnología?

Lo que había antes (y por qué me importa)

En 2005 yo empecé a trabajar con lenguaje natural en una empresa. Lo que se hacía entonces eran motores léxicos. Calculaban la probabilidad de que la siguiente palabra fuera de un tipo o de otro. Solo identificar el idioma del texto ya era tarea de varias semanas. Separar frases, reconocer entidades, entender contexto. Trabajamos con esto intensivamente entre 2007 y 2009. Doy fe de que era agotador para las máquinas — las estructuras de cálculo no cabían en la RAM disponible. Faltaba potencia, faltaba algoritmo, faltaba arquitectura.

Mientras tanto, en Estados Unidos pasaba algo distinto. Las redes neuronales recurrentes — RNN — y su variante LSTM se habían convertido en estándar para procesar secuencias. Funcionaban así: una palabra entra a la red, la red actualiza su «estado interno», sale a la siguiente palabra. Una a una. En orden estricto. Como un humano leyendo.

Tres problemas estructurales con ese diseño.

Era lento. Cada palabra dependía del estado producido por la anterior. No se podía paralelizar. Si tu frase tenía cincuenta palabras, eran cincuenta pasos secuenciales.

Era olvidadiza. A las veinte o treinta palabras de distancia, el «estado interno» había olvidado lo importante de las primeras. Los contextos largos se perdían.

Era cara de escalar. Para mejorar había que apilar más capas o usar variantes más complejas (LSTM, GRU, atención parcial), y cada mejora rendía menos.

La traducción automática estaba estancada. La comprensión de texto, estancada. El sector llevaba años empujando un techo y no se rompía.

La idea que rompió el techo

Ocho personas del equipo de Google Brain pensaron lo contrario.

¿Y si en vez de procesar las palabras en orden, las miramos todas a la vez y dejamos que cada palabra decida qué otras palabras importan para entenderse a sí misma?

Eso es «attention». Atención.

Imagina la frase «el banco estaba lleno de gente porque pagaban el subsidio». La palabra «banco» es ambigua — banco de sentarse o banco financiero. Para resolverla, una persona mira a las palabras «pagaban» y «subsidio», ignora «lleno» y «gente». La frase se entiende porque cada palabra presta atención selectiva a las que la desambiguan.

El Transformer hace exactamente eso. Cada palabra del texto se compara con todas las demás. Para cada par, calcula cuánto «atiende» una a la otra. El resultado es una nueva representación de cada palabra que incorpora el contexto relevante de las otras.

Sin orden estricto. Sin paso a paso. Todo a la vez.

Por eso se llama Transformer — transforma las palabras de entrada en representaciones contextualizadas mediante atención.

Lo que cambió en la práctica

Aquí es donde el paper hace explosión.

Paralelizable. Como ya no necesitas procesar en orden, todas las palabras se calculan a la vez. En GPU, eso significa entrenar mucho más rápido. Lo que en una RNN tomaba semanas, en un Transformer toma días u horas.

Captura dependencias largas. Como cada palabra puede atender a cualquier otra, da igual si están al lado o a diez mil palabras de distancia. La «memoria» del modelo deja de tener decaimiento exponencial.

Escalable. Si quieres más capacidad, apilas más capas de atención. Los resultados mejoran con la escala. Más datos, más cómputo, mejor modelo. Es una receta predecible. No infinita — el coste sube como un misil — pero predecible.

El paper original mostró estos resultados en traducción automática. Pero la arquitectura era tan general que en los meses siguientes se aplicó a casi todo. BERT (Google, 2018) la usó para comprensión de texto. GPT (OpenAI, 2018) la usó para generación. GPT-2 (2019), GPT-3 (2020), GPT-4 (2023), Claude, Gemini, DeepSeek — todos descendientes directos del Transformer original.

ChatGPT no existe sin ese paper. Toda la conversación pública sobre IA generativa que oyes hoy descansa sobre quince páginas publicadas en junio de 2017.

Los ocho autores y dónde están ahora

El paper lleva ocho firmas. Todos contribuyentes a partes iguales. El orden de aparición fue aleatorizado — detalle inusual que ya decía algo de la cultura del grupo. Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin.

La diáspora posterior es por sí misma una historia del sector.

Ashish Vaswani lidera Essential AI. La empresa cerró en mayo de 2026 una Serie B de 175 millones de dólares a valoración de 1.000 millones, y publicó la familia Rnj-1 (Ramanujan) en pesos abiertos.

Noam Shazeer regresó a Google en agosto de 2024 para colíderar el proyecto Gemini, junto con Jeff Dean y Oriol Vinyals. Antes había fundado Character.AI — una de las historias incómodas de los acompañantes de IA — y Google estructuró la operación como una licencia de la tecnología de Character.AI valorada, según la prensa, en unos 2.700 millones de dólares, un acuerdo que llegó a atraer la atención de las autoridades antimonopolio.

Niki Parmar está en Anthropic.

Jakob Uszkoreit fundó Inceptive — IA aplicada a diseño de moléculas, ARN, vacunas.

Llion Jones cofundó Sakana AI en Tokio, con foco en arquitecturas inspiradas en biología.

Aidan Gomez cofundó Cohere — modelos para empresas, especialmente con foco no estadounidense.

Łukasz Kaiser está en OpenAI, donde es el único de los ocho que no ha fundado empresa y ha seguido en investigación, ligado a la línea de modelos de razonamiento.

Illia Polosukhin fundó NEAR Protocol — blockchain con tropismo IA.

Ocho personas, ocho rutas, ocho empresas. Todas en la frontera del sector. Es como si los ocho coautores se hubieran repartido el sector entero y cada uno se hubiera quedado un trozo.

La ironía del que sembró y no cosechó

Google publicó el paper. Ciencia abierta. Sin restricciones de uso. Cualquiera podía implementar la arquitectura.

OpenAI implementó la arquitectura y la escaló con un modelo de financiación distinto. GPT-1 salió en 2018, GPT-2 en 2019, GPT-3 en 2020 — todos basados en el Transformer del paper de Google. En 2022 ChatGPT estalló comercialmente. En 2023 OpenAI ya era percibida globalmente como la empresa que «inventó» la IA generativa.

Google, mientras tanto, mantuvo internamente avances importantes — LaMDA, PaLM — pero el reflejo defensivo de no lanzar productos hasta tenerlos «pulidos» le costó la ventaja narrativa. Cuando lanzó Bard en marzo de 2023, ya iba tarde frente a ChatGPT. La carrera por Gemini se aceleró durante 2023-2024. La compra-incorporación de Noam Shazeer en agosto de 2024 fue parte de esa aceleración.

Hoy Google compite contra OpenAI con modelos descendientes de un paper que sus propios investigadores publicaron como ciencia abierta hace nueve años. La empresa que inventó la arquitectura corre por detrás de la empresa que la usó primero. El cuento moral lo lee cada uno.

Por qué importa leerlo

Si trabajas en tecnología y nunca leíste el paper original, dedícale una tarde. No vas a entender las matemáticas si no tienes base previa. Vas a entender la idea central, la motivación, las decisiones de diseño y las preguntas que dejaron abiertas. Eso te da contexto para todo lo que ha pasado después.

Hay una sensación que solo aparece leyendo el paper original: las ideas geniales son sorprendentemente sencillas. La arquitectura del Transformer no es matemáticamente espectacular. Es elegante. Es minimalista. Cabe en quince páginas. La grandeza está en haber tirado lo que sobraba — convolución, recurrencia, complicaciones acumuladas — y haberse quedado con el mecanismo mínimo que hacía falta.

«Attention is all you need» es título y es tesis. Atención es lo único que necesitas. El resto puede tirarse a la basura.

Quien lea el paper hoy con esa lente entiende mejor por qué el sector se mueve como se mueve. Y por qué las arquitecturas alternativas que aparecen cada año — Mamba, RWKV, espacios de estados — pelean tanto por desplazar al Transformer y le cuesta tanto cualquier desplazamiento.

Definiciones rápidas

Transformer: arquitectura de red neuronal basada en mecanismos de atención, sin recurrencia ni convolución. Propuesta en Attention Is All You Need (2017).
Attention / atención: mecanismo que permite a cada elemento de una secuencia ponderar la importancia relativa de los demás elementos para construir su propia representación.
RNN / LSTM: redes neuronales recurrentes y su variante con memoria de largo plazo. Estado del arte antes del Transformer.
NeurIPS: Neural Information Processing Systems. Una de las tres conferencias principales del sector (junto con ICML e ICLR).
BERT: modelo de comprensión de texto basado en Transformer, Google 2018.
GPT: Generative Pre-trained Transformer. Familia de modelos de OpenAI iniciada en 2018.
Pesos abiertos (open weights): parámetros del modelo accesibles públicamente, lo que permite descargar y ejecutar el modelo localmente.

Referencias

Vaswani, A. et al. — Attention Is All You Need (NeurIPS 2017, arXiv:1706.03762).
Devlin et al. — BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018).
Brown et al. — Language Models are Few-Shot Learners (GPT-3) (2020).
Wikipedia — entrada Attention Is All You Need (incluye biografías actualizadas de los ocho autores).
Páginas oficiales de Essential AI, Cohere, Sakana AI, NEAR Protocol, Inceptive, Anthropic.
CNBC (2 de agosto de 2024) — Ex-Google engineers from Character.AI re-join company with AI partnership (cnbc.com/2024/08/02/ex-google-engineers-from-characterai-re-join-company-with-ai-partnership-.html): reincorporación de Noam Shazeer y unos 30 miembros del equipo a Google y la licencia no exclusiva de la tecnología de Character.AI.
Calcalist — Google's $2.7B AI deal with Noam Shazeer's Character.AI draws DOJ attention (calcalistech.com/ctechnews/article/sy06wllflg): cifra del acuerdo en unos 2.700 millones de dólares y escrutinio del Departamento de Justicia.
Calcalist — Noam Shazeer returns to Google to co-lead Gemini AI project (calcalistech.com/ctechnews/article/rksxmxsj0): reincorporación en agosto de 2024 para colíderar Gemini junto a Jeff Dean y Oriol Vinyals.

También te interesa

En otros sitios

#transformers #papers #inteligencia #openai

"Todo lo que necesitas es atención", el paper que cambió la IA

Lo que había antes (y por qué me importa)

La idea que rompió el techo

Lo que cambió en la práctica

Los ocho autores y dónde están ahora

La ironía del que sembró y no cosechó

Por qué importa leerlo

Definiciones rápidas

Referencias

También te interesa

En otros sitios

Relacionados — Mente

El problema de definir inteligencia. Si no sabemos qué es, ¿qué estamos llamando inteligencia artificial?

Pensamiento y lenguaje. Hablar bien no es lo mismo que pensar bien

Memoria RAM vs memoria humana. Dos cosas distintas con la misma palabra

Aún sin comentarios

Deja un comentario