Ensayo № 027 · Línea: Materia · 15 min de lectura
Gemini, Claude y ChatGPT. ¿Seguro que tienes que elegir?

Gemini, Claude y ChatGPT. ¿Seguro que tienes que elegir?

№ 027 · Materia 15 min

«¿Cuál es mejor, Claude, ChatGPT o Gemini?». La he oído tantas veces que ya no me irrita el tono. Me irrita el verbo. «Mejor» presupone un eje único donde los tres se ordenan de peor a mejor y una tabla en alguna parte que zanja el asunto. Esa tabla no existe. Lo que hay son tres apuestas que han decidido sacrificar cosas distintas, y casi todos los números con que se las compara están contaminados, saturados, o las dos cosas al mismo tiempo.

Llevo meses devolviendo esa pregunta con otra que casi siempre incomoda: ¿mejor para qué? Quien la formula suele querer un veredicto de test, una marca y un número que le ahorren pensar. Y la respuesta honesta empieza por desarmar el número. Medir está bien, faltaría más; la ciencia mide. Pero medir con tres decimales la magnitud equivocada no es rigor. Es decorado.

El número que te enseñan no mide lo que crees

Cuando alguien suelta que tal modelo «saca un 90 en MMLU» está diciendo, traducido, que ese modelo acertó el 90% de un test de cincuenta y siete áreas académicas. Impresiona. Hasta que rastreas de dónde viene la cifra.

MMLU se armó en 2020 con preguntas tomadas de exámenes públicos. El problema llegó después. Si entrenas un modelo con prácticamente todo internet, internet ya contiene esas preguntas: con sus respuestas, sus soluciones comentadas y el hilo de foro donde tres desconocidos las discuten. El modelo no necesita razonar para acertar. Le basta con haber leído. Tiene nombre el fenómeno, contaminación de datos, y está documentado con método.

El caso más nítido lo dejó Time Travel in LLMs (Golchin y Surdeanu, 2023). Sus autores mostraron que GPT-4 había ingerido en el preentrenamiento conjuntos como AG News y WNLI, además de la partición de test de XSum. Nadie copió respuestas a mano. El dataset estaba en el corpus y el modelo lo absorbió igual que absorbió todo lo demás, sin distinguir el examen del resto del ruido.

El segundo caso cuantifica la trampa, y por eso me gusta más. Scale AI fabricó GSM1k, un examen de aritmética escolar gemelo de GSM8k pero con preguntas nuevas, inéditas, imposibles de haber leído antes, y midió a los modelos en los dos. Las familias Mistral y Phi se desplomaban hasta unos trece puntos al saltar del examen viejo al nuevo. Los de frontera —Gemini, GPT, Claude— apenas se inmutaban. Lo que el estudio dejó escrito fue tan incómodo como preciso: una parte de lo que llamábamos capacidad era memoria del examen.

De ahí mi desconfianza hacia el porcentaje redondo. Las cifras de los benchmarks clásicos —MMLU, HumanEval, GSM8k, ARC— inflan la capacidad real en tareas que el modelo no ha visto antes. Y tu trabajo, casi por definición, es una de esas tareas: tu informe no estaba en internet con la solución debajo. Hay además un segundo efecto, menos comentado y bastante más terminal: muchos de estos exámenes ya no distinguen nada. En MMLU-Pro, la versión endurecida, los modelos de frontera se apelotonan en una banda estrecha en torno al 85-90%, y dentro de esa banda las diferencias se confunden con el ruido del test.

La industria lo sabe y ha contraatacado con benchmarks que generan preguntas nuevas de forma continua, como LiveBench o FrontierMath, pensados justo para que no se puedan memorizar. Existe también Chatbot Arena, hoy rebautizada Arena, donde son los usuarios quienes votan a ciegas qué respuesta prefieren a su propia consulta real. Es el sistema menos manipulable, porque la pregunta la pone el humano y el modelo no ha podido prepararla de antemano. En sus tablas de comienzos de 2026, Claude Opus 4.6 encabezaba el ranking general de texto, con Gemini 3.1 Pro y los modelos de OpenAI a un puñado de puntos de Elo por detrás, dentro de intervalos que se solapaban. Conviene leerlo como una banda de cabeza apretada y no como un podio limpio.

Y, aun así, Arena tampoco responde a tu pregunta. Te dice qué modelo gusta más, de media, a una multitud que pregunta cosas dispares. No te dice cuál va a servirte a ti, mañana, para lo que tú haces.

A qué ha renunciado cada uno

Aquí está la parte que ninguna comparativa nombra, y es la que de verdad decide. Cada modelo brilla donde sus incentivos le obligan a brillar; lo invisible, y lo decisivo, es el precio que ha pagado a cambio.

Claude, de Anthropic, viene de una doctrina declarada de alineamiento y prudencia. De ahí su solvencia en textos largos, su aguante para sostener un argumento sin desmoronarse a la tercera página, su mano cuidadosa con los temas espinosos. El precio lo nota cualquiera que lo use a diario: es cauteloso hasta la exasperación. Pídele algo en el filo y matizará antes que arriesgar; pídele creatividad sin freno y a ratos te frenará a ti. Responde más despacio que Gemini y su catálogo de conexiones con herramientas externas es más corto que el de ChatGPT.

ChatGPT, de OpenAI, apostó por lo contrario, y la apuesta fue temprana y ruidosa: despliegue masivo, iteración veloz, un ecosistema de extensiones, una integración profunda con el universo Microsoft. Lo que se lleva a cambio es amplitud. Respuestas rápidas, generación de imagen, transcripción de audio, ejecución de código, búsqueda web, un enjambre de herramientas de terceros orbitando el modelo. La factura llega en forma de cautela peor calibrada. Es más propenso a las alucinaciones —hechos inventados que suenan plausibles— precisamente porque está afinado para responder cuanto antes y no para frenar a verificar. En los textos muy largos pierde algo de hilo frente a Claude, y a veces cambia profundidad por velocidad sin avisar.

Gemini, de Google DeepMind, lo apostó casi todo a una sola carta: vivir dentro del ecosistema de Google. Workspace, Drive, Gmail, Calendar, la búsqueda. Lo que se lleva es contexto inmediato. Tira de Search para no quedarse anclado en el pasado, maneja imagen, audio y vídeo de forma nativa, digiere los documentos largos de tu Drive y te ordena el correo sin que tengas que sacar nada de su sitio. La factura aquí viene en dos partidas. La primera es la dependencia: fuera del jardín de Google —si tu vida transcurre en Microsoft 365, en Apple, en un Linux pelado— buena parte de su gracia se evapora. La segunda es la reputación, más difícil de cuantificar y más pegajosa; los tropiezos públicos de sus primeras versiones le dejaron una desconfianza que sus modelos actuales, francamente buenos, todavía arrastran sin merecerla del todo.

Ninguna de las tres renuncias es un accidente. Son decisiones de ingeniería que cada empresa optimiza a propósito, un día tras otro. Cada modelo resulta excelente en ciertas tareas exactamente por los mismos motivos que lo vuelven mediocre en otras. No hay un primero de la clase esperando a ser coronado. Hay, como mucho, el que encaja con lo que tú necesitas hacer esta semana.

Tres trabajos, tres herramientas

Lo aterrizo con una regla de andar por casa, sin pretensión de ley ni de tabla.

Si lo tuyo es escribir mucho —un informe extenso, una propuesta, un ensayo, una pieza periodística, documentación técnica—, Claude suele rendir mejor: sostiene el registro de la primera página a la última, hila citas sin contradecirse y no se despeina en las distancias largas. Si lo tuyo es despachar mil cosas pequeñas a toda prisa, con búsqueda web, generación de imágenes, conversión de formatos y análisis rápido de datos, el que rinde es ChatGPT, por la nube de utilidades que lo envuelve. Lo he resumido más de una vez con una imagen tonta que funciona: ChatGPT es una navaja suiza y Claude un buen bolígrafo. Los dos sirven. No sirven para lo mismo.

Y si tu jornada entera transcurre dentro de Workspace, con el correo en Gmail, los documentos en Drive, las reuniones en Meet y la agenda en Calendar, lo sensato es Gemini. Resume hilos kilométricos, prepara órdenes del día, repasa documentos sin que tengas que copiarlos a ningún sitio. Esa fricción cero, sumada a lo largo de un mes, pesa mucho más de lo que parecía el primer día.

No estoy describiendo un ranking sino un encaje, que es otra geometría. Y si tu trabajo te empuja a hacer las tres cosas, la salida honesta es usar los tres, cada uno donde rinde. Lo que mucha gente hace en su lugar —quedarse con el que ya tenía abierto y aferrarse a él por pura inercia— cuesta productividad real. Solo que es una factura que nadie se molesta en medir.

El coste de cambiar, que es el que nadie menciona

Hay un cobro silencioso del que las comparativas no hablan. Cada modelo, una vez metido en tu flujo de trabajo, levanta un coste de salida que no tiene nada que ver con la cuota mensual, que es justo lo de menos.

Tu forma de escribirle se amolda al que más usas. Aprendes qué fórmulas funcionan con Claude, qué tono, qué nivel de detalle, cuánto andamiaje hace falta antes de que te entienda. Y otro tanto con los demás. Esa destreza se paga en horas, vale dinero, y se queda pegada al modelo en cuanto lo abandonas. Cambiar significa reeducar tu propia mano desde casi cero.

Con la memoria pasa lo mismo. Una conversación de meses con Claude sobre un proyecto en marcha es Claude; mudarla a ChatGPT obliga a copiar, reformatear y perder matices por el camino. Tus instrucciones afinadas y tus asistentes personalizados viven en la casa donde los construiste, no viajan. Y las conexiones que fuiste enchufando —este servicio colgando de aquel modelo, aquella automatización dependiendo del otro— se rompen al moverte y toca rehacerlas una por una. Es trabajo de configuración disfrazado de un clic.

Por algo los grandes proveedores regalan acceso y reparten créditos a manos llenas. No lo hacen por generosidad, evidentemente. Saben que ese coste de salida se cobrará más tarde, transformado en una lealtad medio forzosa, y que cada usuario nuevo es un activo a largo plazo. La jerga económica bautizó esas trincheras estructurales como moat, el foso del castillo, y tienen la virtud de no figurar en ninguna etiqueta de precio.

La defensa no es heroica ni cómoda: consiste en no levantar todo tu flujo de trabajo sobre un único proveedor, hacer pruebas cruzadas aunque den pereza y mantener una segunda herramienta a medio gas, viva, solo para no perder la costumbre de comparar. El día que aparezca un cuarto en discordia —DeepSeek, Mistral, Qwen, lo que venga— con algo netamente mejor para lo que tú haces, vas a agradecer no estar amarrado.

El elefante en la sala. Los pesos abiertos

Hablar de Claude, ChatGPT y Gemini en 2026 sin nombrar a los modelos de pesos abiertos es escribir con un mapa caducado. La irrupción de DeepSeek a comienzos de 2025 movió las placas del sector, y desde entonces hay modelos de pesos abiertos que en tareas concretas juegan en la liga de los comerciales cerrados. Llama, de Meta. Las versiones más capaces de Mistral. Qwen, de Alibaba. La familia DeepSeek. Y, desde 2025, hasta la propia OpenAI con su línea de pesos abiertos, que es casi una confesión.

Lo que cambian es de fondo. Puedes ejecutarlos en tu hardware sin enviar un solo dato a un servidor ajeno. Puedes ajustarlos con los tuyos para una tarea muy específica. No quedas atado a la política comercial de nadie: si suben el precio, si jubilan el modelo viejo, si reescriben las condiciones de un día para otro, tu instalación local sigue funcionando como ayer. Y en los sectores donde la confidencialidad no es un deseo sino una obligación legal —sanidad, defensa, finanzas, derecho— suelen ser la única puerta que queda abierta.

¿Qué se pierde por el camino? Para el usuario corriente, casi todo. Exigen infraestructura propia o servicios intermedios de alojamiento. La experiencia es más áspera, sin aplicación pulida, sin integraciones de fábrica, sin un soporte al que escribirle cuando algo se rompe a las dos de la madrugada. La capacidad bruta puede quedar un escalón por debajo de la frontera cuando hace falta de verdad lo mejor de lo mejor. Y van por detrás en el calendario: lo que un laboratorio comercial lanza esta semana, la comunidad abierta tarda un tiempo en asimilarlo.

Lo razonable es que el ecosistema derive hacia lo híbrido. Las empresas grandes y los profesionales con datos sensibles tirarán de una mezcla: modelos cerrados para lo general, modelos abiertos en local para lo delicado, y algún orquestador que reparta el trabajo según el caso. El usuario casual seguirá con Claude, ChatGPT o Gemini, sin enterarse de nada de esto, y hace bien. El usuario serio usará de todo. Lo que los pesos abiertos disputan no es el primer puesto entre los tres grandes, sino la dependencia misma, que es un adversario muy distinto.

La pregunta que de verdad muerde

Después de todo esto, «¿cuál es mejor?» tiene una respuesta que no coincide con ninguno de los tres nombres. Es esta: cuál encaja mejor en esta tarea tuya, esta concreta, la de mañana por la mañana. Y la única vía para averiguarlo es ponerlos a sudar en tu faena real, una o dos semanas cada uno, en lugar de leer comparativas como esta.

Detrás de esa asoma una más afilada. ¿Qué pierdo si me caso con uno solo? Pierdes perspectiva, sin enterarte. Cada modelo se crió con datos algo distintos, devuelve sesgos algo distintos y tiene sus propios puntos ciegos; preguntar siempre al mismo es aceptar un único punto de vista sobre el mundo sin saber siquiera que lo has aceptado, y renunciar a notar en qué se desvía de los otros. La gente del oficio que conozco tiene los tres abiertos en pestañas, y no por capricho de coleccionista, sino para triangular: cuando una respuesta importa, contrastan; cuando da igual, tiran del más rápido. Está al alcance de cualquiera con tres suscripciones, o incluso con las versiones gratuitas. La fricción es leve y el rédito, tangible.

Y queda una tercera pregunta, la que casi nadie se hace y la que a mí más me quita el sueño. ¿Qué le estoy regalando al modelo cada vez que le escribo? Le regalas datos, claro, pero no datos cualesquiera: tus problemas de verdad, tus dudas, tu manera de razonar un asunto, tu trabajo en bruto. En las versiones de empresa hay garantías de privacidad razonables; en las de consumidor son más turbias, y salvo que tengas un acuerdo explícito de exclusión, lo que escribes puede acabar alimentando, de forma agregada, futuras versiones del modelo. Multiplica eso por millones de personas durante años y el modelo termina conociendo un gremio entero por dentro. Quien controla el modelo conoce el gremio. Elegir qué chatbot abres por la mañana no es solo elegir herramienta: es elegir quién va a saber, dentro de cinco años, cómo trabajas tú y cómo trabaja toda tu profesión.

Eso ya no se arregla con un listículo de comparativa. Es una decisión con consecuencias largas, y lo más incómodo del asunto es que aquí no existe un parche técnico que la resuelva por ti. Solo hay conciencia y elección informada, que son justamente las dos cosas que ninguna empresa tiene incentivo en ponerte fáciles, porque nadie gana dinero regalándotelas.

Definiciones

Contaminación de datos. Situación en la que un modelo se entrenó con datos que ya incluían las preguntas de un examen y sus respuestas, lo que infla de forma sistemática su capacidad aparente. Documentada en GPT-4 con AG News, WNLI y la partición de test de XSum (Golchin y Surdeanu, 2023), y medida en las familias Mistral y Phi mediante el examen gemelo GSM1k (Scale AI, 2024).

Saturación de benchmark. Estado en el que los modelos de frontera puntúan tan alto y tan apretados que las diferencias entre ellos se confunden con el ruido del propio test. Es lo que sucede con MMLU y empieza a suceder con MMLU-Pro.

Chatbot Arena (hoy Arena). Plataforma donde los usuarios votan a ciegas qué respuesta prefieren a su propia pregunta, y de esos votos sale una puntuación Elo. Es el sistema menos manipulable porque el modelo no puede anticipar la pregunta que le tocará.

Coste de cambio (switching cost). Lo que cuesta realmente pasarse de un modelo a otro: reeducar tu forma de escribirle, perder la memoria contextual acumulada y rehacer las integraciones. Es el principal foso defensivo de los proveedores actuales.

Pesos abiertos (open weights). Modo de publicación en el que los parámetros del modelo se distribuyen libremente, lo que permite ejecutarlo en local, ajustarlo con datos propios y soltar la dependencia del proveedor. Llama, Mistral, Qwen, DeepSeek y la línea de pesos abiertos de OpenAI son ejemplos relevantes en 2026.

Referencias

Golchin, S. y Surdeanu, M. (2023). Time Travel in LLMs. Tracing Data Contamination in Large Language Models. arXiv:2308.08493. Documenta la contaminación en GPT-4 con AG News, WNLI y la partición de test de XSum. https://arxiv.org/abs/2308.08493

Zhang, H. et al. / Scale AI (2024). A Careful Examination of Large Language Model Performance on Grade School Arithmetic. arXiv:2405.00332. Origen del examen GSM1k y de la medición del sobreajuste de hasta unos trece puntos en las familias Mistral y Phi, frente al desplome casi nulo de los modelos de frontera (Gemini, GPT, Claude). https://arxiv.org/abs/2405.00332

Arena / LMArena. Tabla pública de clasificación por votación a ciegas (Elo). Base de las posiciones relativas de los modelos de frontera a comienzos de 2026, con Claude Opus 4.6 en cabeza del ranking de texto y Gemini 3.1 Pro y OpenAI dentro de intervalos solapados. https://lmarena.ai/

Artificial Analysis. MMLU-Pro Benchmark Leaderboard. Fuente de la banda de puntuaciones (en torno al 85-90%) de los modelos de frontera en MMLU-Pro y de su agrupamiento por saturación. https://artificialanalysis.ai/evaluations/mmlu-pro

Center for Responsible Decentralized Intelligence (RDI), UC Berkeley (2026). Investigación sobre explotación de benchmarks de agentes que muestra puntuaciones casi perfectas obtenidas sin resolver tarea alguna en SWE-bench, WebArena, OSWorld, GAIA y Terminal-Bench, entre otros. https://rdi.berkeley.edu/

Carr, N. (2010). The Shallows. W. W. Norton. Referencia conceptual sobre el efecto de las herramientas digitales en la forma de pensar.

También te interesa

En otros sitios

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.

Deja un comentario

Suscríbete al boletín