Qué es un LLM y sus parámetros

En el escalón anterior dejé al chat construyendo la respuesta trozo a trozo, eligiendo cada vez la palabra más probable. A ese motor le llamé "el modelo" sin más. Ahora le pongo nombre y miro un poco por dentro, lo justo para entender de qué está hecho lo que sabe. No hace falta una sola fórmula.

El motor tiene nombre

Eso que predice la siguiente palabra es un LLM, siglas inglesas de large language model: un modelo grande de lenguaje. Y los tres adjetivos cuentan. Es de lenguaje porque trabaja con texto; es grande por una razón que enseguida veremos; y es un modelo en el sentido de que no es una base de datos ni un buscador, sino un programa que ha leído cantidades enormes de texto y, de tanto leerlo, ha aprendido a continuarlo.

Cuando me di cuenta de que detrás de cualquier chat —da igual la marca— hay siempre una de estas cosas, varios misterios se deshicieron a la vez. No hablo con una web ni con un cerebro: hablo con un LLM. Lo que cambia de un chat a otro es, sobre todo, qué LLM tienen puesto y cómo está afinado.

Millones de mandos diminutos

¿Y dónde está lo que el modelo "sabe"? En sus parámetros. La palabra asusta, pero la idea es sencilla: imagina millones de mandos minúsculos, como los tornillos de afinar de una guitarra. Durante el entrenamiento, el modelo lee y se equivoca al predecir; cada vez que falla, se reajusta un poco cada mando para acertar mejor la próxima. Repetido una cantidad descomunal de veces, esos mandos acaban en una posición concreta. Esa posición, ya fijada, es todo lo que el modelo sabe.

No hay nada más. No hay una carpeta de datos al lado: el conocimiento es la posición de los mandos. Por eso decimos que sabe cosas sin tener ninguna apuntada, tal como vimos en el escalón anterior.

Si te asomas a cómo se guardan esos mandos por dentro, te topas con la palabra tensor. Otro nombre que intimida para algo modesto: un tensor es una tabla de números con varias dimensiones. Una lista de números es de una dimensión; una hoja de cálculo, con sus filas y columnas, es de dos; apila varias hojas y tienes tres, y así sucesivamente. Los parámetros viven ordenados en esas tablas, y todo el trabajo del modelo se reduce a multiplicar y sumar tensores a gran velocidad. No necesitas saber hacer esas cuentas; basta con saber que ahí dentro no hay magia, hay aritmética repetida muchísimas veces.

2017, el año del que cuelga casi todo

Estos modelos no salieron de la nada. El salto llegó en 2017, cuando un equipo de Google publicó un trabajo con un título que ya era una declaración: Attention Is All You Need. Ahí presentaron una forma nueva de organizar el modelo, la arquitectura transformer, que es la que siguen usando hoy casi todos los LLM, incluido el del chat que tengas abierto.

¿Qué traía de nuevo? Antes, los modelos leían el texto en fila, palabra por palabra y en orden, lo que los hacía lentos y olvidadizos con las frases largas. El transformer le dio al modelo la capacidad de mirar todas las palabras de un texto a la vez y decidir a cuáles prestar atención para entender cada una —de ahí lo de attention, atención—. Eso permitió entrenar con mucho más texto y captar relaciones entre palabras alejadas entre sí. Casi todo lo que vino después, el auge de los chats que conoces, cuelga de aquella idea de 2017.

Qué quiere decir "70B"

Con esto entiendes una etiqueta que aparece por todas partes. Cuando lees que un modelo es "de 7B" o "de 70B", esa B es de billions en inglés, miles de millones. Son los parámetros: 70B significa setenta mil millones de mandos. Es, sencillamente, una medida del tamaño del modelo. Ya sabes por qué se llaman grandes.

Y aquí conviene desmontar el malentendido más extendido: más parámetros no es automáticamente "más listo". Tener más mandos ayuda a captar patrones más finos, sí, pero el tamaño es solo una pieza. Pesan tanto o más la calidad del texto con que se entrenó y cómo se hizo ese entrenamiento. Un modelo más pequeño y bien cocinado puede dar mejor resultado que uno enorme y descuidado. El número de la etiqueta no es una nota de inteligencia; es una talla.

Los mandos se quedan quietos

Queda un detalle que tiene más cola de lo que parece. Esos mandos se ajustan una vez, durante el entrenamiento, y luego se quedan quietos. Cuando chateas, el modelo usa la posición en la que quedaron, pero no la cambia: tu conversación no reajusta ni un tornillo.

De ahí salen dos cosas que veremos pronto. Una, que el modelo sabe del mundo hasta el día en que terminó su entrenamiento y ni un minuto más: su fecha de corte. Y dos, que no guarda tus charlas dentro de sus parámetros, así que, por defecto, no te recuerda de una conversación a otra. Los dos hechos nacen de lo mismo: unos mandos que, una vez puestos, ya no se mueven.

Definiciones

- LLM (modelo grande de lenguaje): el programa que hay detrás de un chat de IA. Ha leído enormes cantidades de texto y, con ello, aprendido a predecir qué palabra sigue. "Grande" se refiere a su número de parámetros. - Parámetro: cada uno de los millones de "mandos" internos del modelo. Se ajustan durante el entrenamiento y, ya fijados, son lo que el modelo sabe. - Tensor: una tabla de números de varias dimensiones donde se guardan los parámetros. El modelo funciona multiplicando y sumando tensores. - Transformer: la arquitectura, presentada por Google en 2017, que permite al modelo mirar todas las palabras de un texto a la vez y decidir a cuáles atender. Es la base de los LLM actuales. - Parámetros (la "B"): la cifra como "7B" o "70B" indica los miles de millones (billions) de parámetros del modelo, es decir, su tamaño. Más tamaño no equivale por sí solo a más acierto.

Para saber más

- Deepchecks, What are LLM Parameters? Explained Simply — glosario divulgativo, directo al grano. https://deepchecks.com/glossary/llm-parameters/ - Wikipedia, Large language model — panorámica general del concepto, qué son y cómo se entrenan. https://en.wikipedia.org/wiki/Large_language_model - Chema Alonso, "Attention is all you need": la investigación que revolucionó la Inteligencia Artificial con los Transformers — divulgativo en español sobre el trabajo de 2017. https://www.elladodelmal.com/2024/01/attention-is-all-you-need-la_01380413382.html

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.