El razonamiento

En los dos escalones anteriores quedó claro que un chat construye la respuesta trozo a trozo, eligiendo cada vez la palabra más probable, y que ese motor es un LLM. Si es así, queda una pregunta incómoda: ¿cómo "razona" algo que solo predice el siguiente trozo de texto? Cuando entendí el truco, dejó de parecerme magia y empecé a saber cuándo pedirlo. Eso es lo que quiero que veas ya.

El problema de soltar la respuesta de golpe

Empiezo por dónde duele. Si el modelo solo predice qué viene después, tiene un punto débil claro: las cosas que exigen varios pasos. Una cuenta encadenada, un problema con trampa, una pregunta de lógica donde el orden importa. Ahí, intentar acertar el resultado de una sola tacada es pedirle que adivine el final sin recorrer el camino.

Piensa en un acertijo del estilo "tengo el doble de años que tú tenías cuando yo tenía los que tú tienes". Un modelo que dispara la respuesta a bocajarro suele meter la pata, porque no hay un patrón fuerte que vaya directo del enunciado al número correcto. Hay que ir despejando. Y un motor que predice texto, si no se da margen para desplegar ese despeje, se queda sin sitio donde poner las cuentas intermedias.

Pensar en un papel en sucio

Aquí está el truco, y es de una sencillez que casi decepciona. En lugar de soltar la solución, el modelo escribe primero los pasos intermedios y solo al final da el resultado. Como quien no contesta de cabeza sino que coge un papel en sucio, apunta lo que va sacando y llega ordenado al número. Eso es la cadena de pensamiento, en inglés chain of thought.

Lo bonito es por qué funciona, y conecta de lleno con el primer escalón. El modelo predice cada trozo apoyándose en todo el texto que ya hay escrito antes. Si lo que hay escrito antes es el enunciado pelado, tiene poco donde agarrarse. Pero si se obliga a escribir "primero calculo esto, que da tanto; con eso saco lo otro…", cada paso que pone se convierte en contexto para el siguiente. Se va dando a sí mismo los apoyos que necesita. No es que entienda más: es que, al generar el camino, cada eslabón vuelve más probable el eslabón correcto que viene después.

La técnica se describió en un trabajo de investigadores de Google en 2022, que mostró que dejar al modelo desplegar esos pasos intermedios mejoraba mucho sus respuestas en problemas de aritmética y de lógica. No es una intuición de andar por casa; está medido.

Pedírselo tú o que lo haga solo

Hay dos maneras de que esto ocurra, y conviene distinguirlas porque cambian cómo trabajas con la herramienta.

La primera es pedírselo tú. Basta añadir a tu mensaje algo como "piénsalo paso a paso antes de responder". Esa frase tan tonta —en los experimentos famosos era literalmente "Let's think step by step", piensa paso a paso— basta para que el modelo deje de disparar y empiece a desplegar el razonamiento. Es de las cosas más rentables que aprendí: una línea de más en la pregunta y la respuesta mejora en lo que tiene varias etapas.

La segunda es que el propio modelo lo haga sin que se lo pidas, porque viene entrenado para ello. De ahí nacen los modelos razonadores: variantes que, antes de contestarte, dedican un rato a "pensar" por su cuenta, generando ese papel en sucio internamente. A veces te lo muestran resumido, a veces lo esconden y solo ves la conclusión, pero por dentro están haciendo lo mismo, encadenar pasos antes del destino.

El "pensar" que no es pensar

Llega el malentendido que hay que tumbar, y es el mismo de siempre con otra cara. Ese "pensar" no es conciencia, ni comprensión, ni que dentro haya alguien dándole vueltas a tu problema. Sigue siendo, palabra por palabra, predicción del siguiente trozo de texto. Lo único que ha cambiado es lo que predice: antes generaba solo el destino, la respuesta; ahora genera también el camino, los pasos. Más texto visible, exactamente el mismo mecanismo por debajo.

Por eso me gusta la imagen del papel en sucio mejor que la de "razonar". Cuando una persona razona, hay una comprensión que sostiene los pasos. Cuando el modelo "razona", hay una secuencia de tokens probables, cada uno apoyado en los anteriores, que casualmente traza un camino que suele llevar al buen sitio. Funciona muy bien, y aun así no hay nadie dentro entendiendo el problema. Es cálculo que aparenta deliberación, no deliberación.

Tenerlo claro te ahorra disgustos. Verás al modelo escribir "déjame pensarlo con cuidado" y sentirás que se está esforzando de verdad. No lo hace en el sentido humano; está generando el tipo de texto que en sus datos venía antes de una buena respuesta. Reproduce la forma de pensar, igual que en el primer escalón reproducía la forma de sentir.

Razonar mejora, pero no cura

Y aquí la parte práctica, la que cambia cómo lo usas. Razonar paso a paso sube la fiabilidad, pero tiene dos costes que conviene asumir desde ya.

El primero es que cuesta más. Todos esos pasos intermedios son texto que el modelo genera, y generar texto consume tiempo y, cuando pagas por uso, dinero: más tokens por respuesta. Por eso un modelo razonador tarda más en contestarte que uno que dispara. Estás comprando acierto con paciencia. Para una pregunta simple es derrochar; para un problema con varias etapas, es justo lo que necesitas.

El segundo es más sutil y enlaza con un escalón que viene: razonar no elimina los errores. Un modelo razonador puede recorrer un camino impecable en apariencia, equivocarse en un paso intermedio sin avisar y llegar tan campante a una conclusión falsa, afirmándola con el mismo aplomo de siempre. Ver los pasos ayuda a pillar el fallo, pero no lo impide. El aplomo al equivocarse no se cura razonando; le dedico el escalón E006.

Cuándo querrás cada cosa

De todo esto sale una consecuencia que vas a usar mucho: existen modelos "rápidos" y modelos "que piensan", y no hay uno mejor en abstracto. Para una respuesta sencilla, un dato, una reformulación, el rápido te sirve y no te hace esperar. Para algo con varias piezas que encajar, el razonador rinde lo que cuesta. Saber qué tienes delante y para qué te conviene es, ya, parte del oficio.

Y eso abre justo el siguiente escalón: cuántos modelos hay ahí fuera y en qué se diferencian, más allá de si piensan o disparan. Lo de elegir bien la herramienta empieza aquí.

Definiciones

- Cadena de pensamiento (chain of thought): el truco por el que el modelo escribe los pasos intermedios antes de dar la respuesta, en vez de soltarla de golpe. Como resolver en un papel en sucio. Al generar el camino, cada paso le sirve de apoyo para el siguiente y acierta más. - Modelo razonador: una variante de LLM entrenada para desplegar esa cadena de pensamiento por su cuenta antes de contestar, sin que se lo pidas. "Piensa" un rato y luego responde; a cambio tarda más y consume más. - Modelo rápido: el que compone la respuesta directamente, sin detenerse a desplegar pasos. Responde antes y gasta menos, a costa de fallar más en lo que tiene varias etapas. - "Piénsalo paso a paso": la instrucción que puedes añadir a tu mensaje para provocar la cadena de pensamiento en un modelo que no la haría solo. Una línea de más que mejora las respuestas con varias etapas.

Para saber más

- IBM, What is chain of thought (CoT) prompting? — explicación clara del razonamiento paso a paso y por qué mejora las respuestas. https://www.ibm.com/think/topics/chain-of-thoughts - AltexSoft, Chain-of-Thought (CoT): Prompting and LLM Reasoning Explained — divulgativo, con ejemplos del antes y el después. https://www.altexsoft.com/blog/chain-of-thought-prompting/ - Fundación Innovación Bankinter, Cadena de pensamiento: cómo la IA descompone un problema complejo — divulgativo en español, directo al concepto. https://www.fundacionbankinter.org/noticias/cadena-de-pensamiento-como-la-ia-descompone-un-problema-complejo/ - IFEMA Madrid, LLM: evolución hacia modelos razonadores — en español, sobre la diferencia entre LLM normales y razonadores. https://www.ifema.es/noticias/tecnologia/que-es-un-llm-modelos-razonadores

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.