Cómo funciona el chat en distintos modelos

En el escalón anterior quedó claro que hay muchos modelos ahí fuera, no uno solo. Ahora me toca contarte lo que descubrí cuando dejé de leer sobre ellos y empecé a usarlos en serio: que, aunque por dentro hacen lo mismo, el chat se siente distinto según con cuál hables. Eso me cambió la manera de trabajar, y quiero que lo veas tú ya.

Por dentro, el mismo motor

Empecemos por lo que no cambia. Da igual que abras ChatGPT, Claude o Gemini: por debajo, los tres hacen lo que vimos en el primer escalón. Predicen el siguiente trozo de texto, una y otra vez, hasta componer la respuesta. No hay un mecanismo secreto que tenga uno y le falte a otro. Todos son modelos de lenguaje prediciendo tokens.

Durante un tiempo, esa idea me llevó a una conclusión equivocada: si el motor es el mismo, pensaba, los chats serán intercambiables, lo mismo con otro logo. Pruebas uno, los conoces todos. Tardé en darme cuenta de que esa frase suena razonable y es falsa. El mecanismo se comparte, sí. Lo que sale de él, no.

Por qué se siente distinto

La diferencia nace de cómo se cría cada modelo. Y aquí conviene asomarse, por encima, a cómo se entrena uno de estos chats, porque ahí está casi todo lo que luego notas al usarlo.

El entrenamiento tiene, a grandes rasgos, dos momentos. Primero, el preentrenamiento: el modelo lee cantidades enormes de texto y, de tanto leerlo, ajusta sus parámetros para acertar qué palabra viene después. De ahí sale su conocimiento bruto del mundo. Pero un modelo recién salido de esa fase es tosco: sabe mucho y se comporta mal. Por eso viene el segundo momento, el ajuste fino, donde se le pule el carácter. Aquí entran personas que le enseñan, con ejemplos y con valoraciones de sus respuestas, a contestar de forma útil, educada y dentro de unos límites. A esa parte se la conoce con las siglas RLHF, aprendizaje por refuerzo con retroalimentación humana, y es donde cada casa imprime su sello.

Y ahí está el quid. Cada empresa elige qué texto le da de comer, qué considera una buena respuesta, qué temas esquiva y con qué tono quiere que hable. Dos modelos con el mismo motor pero distinta crianza salen con personalidades distintas. No porque uno sea una máquina y otro otra cosa: los dos calculan probabilidades sobre texto. Pero las posiciones en las que quedaron sus mandos son diferentes, y eso se nota en cuanto les pides algo.

En qué lo notas tú

¿Dónde aparece esa diferencia cuando estás delante del chat? En varios sitios a la vez, y conviene tenerlos fichados.

Lo primero es el tono. Pídeles a tres modelos que te escriban el mismo correo y verás que uno suena más cálido y natural, otro más neutro y académico, otro más correcto pero algo corporativo. No es casualidad ni es tu impresión: es el resultado del ajuste fino de cada uno. Hay quien dice que para escribir con naturalidad un modelo va más fino que otro, y suele haber algo de verdad en ello, aunque cambia con cada nueva versión.

Lo segundo es cómo siguen tus instrucciones y cuánto se enrollan. Le pides a uno que sea breve y lo es; otro, en cambio, tiende a explayarse aunque le pidas concisión. Y está lo fácil o difícil que le resulta decir "no": unos modelos rechazan peticiones con más frecuencia, otros son más complacientes. Eso también viene de cómo se les ajustó.

Lo tercero es para qué tipo de tarea van más sobrados. Las comparativas en español suelen coincidir en un reparto parecido: uno tiende a escribir con más soltura, otro investiga mejor cuando hace falta apoyarse en datos actuales, otro destaca programando. No te tomes ese reparto como una ley, porque va cambiando, pero sí como una pista de que cada modelo tiene su terreno.

Parte de la diferencia no es el modelo

Aquí hay un matiz que me costó ver y que te ahorra confusiones. No todo lo que distingue a un chat de otro está en el modelo. Mucho está en lo que la aplicación le pone al lado.

Un chat puede tener modo de voz para hablarle de viva voz; otro puede buscar en internet mientras te responde; otro conecta con tus ficheros o con servicios externos. Esas capacidades no salen de los parámetros del modelo: son herramientas que la app monta alrededor. Por eso a veces "este chat sabe cosas de hoy y aquel no" no significa que un modelo sea más listo, sino que a uno le han puesto una herramienta de búsqueda al lado y al otro no. Cuando compares dos chats, te conviene separar qué viene del modelo y qué viene del envoltorio que lo rodea.

¿Hay tanta diferencia entre modelos grandes y pequeños?

Una pregunta que me hacía al principio, ahora que sé lo de los parámetros: entre un modelo de muchos miles de millones y otro de pocos, ¿se nota mucho? Se nota, sí, pero no siempre como uno espera. El tamaño influye —un modelo grande capta patrones más finos y suele rendir mejor en lo difícil—, pero, como ya vimos, es solo una pieza: un modelo pequeño bien ajustado puede ganarle a uno enorme y descuidado en una tarea concreta. La etiqueta del tamaño no es una nota de inteligencia.

En tu día a día pesa más haber probado que el número de parámetros. Coger el mismo encargo y lanzarlo en dos modelos enseña más que cualquier comparativa que leas, porque ves con tus ojos dónde diverge cada uno.

El mejor depende de la tarea

De todo esto saqué una conclusión que me ahorró muchas vueltas. No tiene sentido preguntar cuál es el mejor modelo en abstracto. La pregunta buena es: el mejor ¿para qué tarea?

Porque uno escribe con más gracia, otro investiga mejor con datos al día, otro programa más fino, y todos, sin excepción, pueden equivocarse con aplomo. Tener más de uno a mano y saber a quién acudir según lo que necesites es, para mí, una de las destrezas que más rendimiento dan. A elegir bien dedicaremos un tramo entero más adelante.

Por ahora basta con que te lleves esto: el motor es común, pero el carácter no. Y ese carácter trae consigo unas cuantas rarezas que todos los modelos comparten, empezando por la más traicionera: que a veces inventan. Ese es el siguiente escalón.

Definiciones

- Entrenamiento: el proceso por el que un modelo, leyendo y corrigiéndose, ajusta sus parámetros hasta saber predecir texto. De ahí sale todo lo que el modelo sabe y cómo se comporta. - Preentrenamiento: la primera fase del entrenamiento. El modelo lee cantidades enormes de texto y aprende los patrones del lenguaje. Le da el conocimiento bruto, pero todavía sin modales. - Ajuste fino: la segunda fase, donde se le pule el carácter. Con ejemplos y valoraciones humanas se le enseña a responder de forma útil, educada y con límites. Es donde cada casa imprime su sello. - RLHF: siglas de "aprendizaje por refuerzo con retroalimentación humana". La técnica de ajuste fino en la que personas valoran las respuestas del modelo para enseñarle cuáles son buenas. Explica buena parte del tono de cada chat. - Open source (modelo abierto): modelo cuyos parámetros se publican para que cualquiera lo descargue y lo ejecute por su cuenta, en vez de usarlo solo a través de la app de una empresa. - Herramienta (del chat): capacidad que la aplicación monta alrededor del modelo —buscar en internet, modo de voz, acceso a tus ficheros—. No sale de los parámetros del modelo, sino de lo que la app le añade al lado.

Para saber más

- Search Engine Journal, ChatGPT vs. Gemini vs. Claude: What Are The Differences? — repaso divulgativo de cómo se comporta cada uno y en qué destaca, con pruebas prácticas. https://www.searchenginejournal.com/chatgpt-vs-gemini-vs-claude/483690/ - Type.ai, Who Wrote it Better? A Definitive Guide to Claude vs. ChatGPT vs. Gemini — comparación centrada en el tono y el estilo de las respuestas. https://blog.type.ai/post/claude-vs-gpt - INESDI, RLHF: qué es, cómo funciona y por qué es crucial para la IA generativa — explicación en español de las fases de entrenamiento y del ajuste fino con retroalimentación humana. https://www.inesdi.com/blog/rlhf/

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.