Medir la inteligencia artificial. La métrica fácil que sustituyó la pregunta difícil

Un modelo que resuelve casi el cien por cien de los problemas de SWE-bench Verified, batiendo en doce meses la barrera que llevaba años atascada en torno al sesenta por ciento, no es capaz de leer un reloj de pared más de la mitad de las veces. Los dos datos vienen del mismo informe, el AI Index Report 2026 de Stanford HAI. No es paradoja, es pista. La pregunta antigua —qué es inteligencia— ha sido reemplazada por una operación cómoda: publicar rankings, evitar definir.

La pista del reloj

Quien lea con calma esos dos números se da cuenta enseguida de que algo no encaja en el modo en que la industria mide lo que llamamos inteligencia artificial. Quien la lea sin calma seguirá repitiendo titulares con porcentajes brillantes mientras la pregunta que esos porcentajes pretenden contestar se queda sin formular.

La pregunta es de las antiguas. Lleva sin respuesta cerrada desde que se planteó. Lo nuevo es la trampa contemporánea. Hemos sustituido la pregunta por la métrica. En lugar de discutir qué medimos, publicamos rankings. En lugar de definir, comparamos.

Lo cómodo de la operación es que produce números. Lo vacío es que los números no significan lo que parecen significar.

El instrumental sobre la mesa

Conviene mirar uno por uno los instrumentos que están sobre la mesa, porque son los que aparecen en los informes oficiales, en las presentaciones a inversores y en los titulares cuando se anuncia un modelo nuevo.

MMLU (Massive Multitask Language Understanding, una batería que reúne preguntas tipo test de cincuenta y siete materias académicas, de derecho a medicina), presentado por Hendrycks y otros en 2020, plantea preguntas de opción múltiple en cada materia. Los modelos frontera ya superan en él al humano promedio y se acercan al humano experto. GPQA (Graduate-Level Google-Proof Q&A, un conjunto de preguntas diseñadas para que no se resuelvan buscando en Google), de Rein y otros, sube el nivel hasta el doctorado en ciencias duras y ahí también los modelos baten a los expertos humanos en la mayoría de subdominios.

SWE-bench Verified, en la línea propuesta por Jimenez y otros (2024) para SWE-bench, evalúa la capacidad de cerrar tickets reales de GitHub, esto es, encargos de programación que alguien escribió de verdad para arreglar un programa de verdad. HumanEval mide programación funcional aislada, ejercicios cerrados que se evalúan con tests automáticos. OSWorld va más allá. Lanza al modelo a operar un sistema operativo, abrir aplicaciones, mover archivos, completar tareas que cualquier oficinista resuelve antes del café. GAIA, propuesto por Mialon y otros, intenta combinar razonamiento, búsqueda y herramientas en problemas largos.

Cada uno mide algo distinto. Cada uno se vende como si midiera inteligencia.

Por qué la industria los prefiere

Cuesta poco entender por qué la industria prefiere los benchmarks (pruebas estandarizadas para comparar modelos) a cualquier otra cosa. Producen un número entre cero y cien. Permiten comparar trimestre a trimestre. Generan titulares. Encajan en la diapositiva final de la reunión del consejo. Y, sobre todo, se mueven.

Cada seis meses la cifra sube y hay nueva conferencia de prensa.

La métrica como producto de marketing es una pieza tan eficiente que sería ingenuo pensar que va a desaparecer porque alguien señale que el rey está desnudo. El problema no es que la métrica exista. El problema es que se ha colocado en el lugar conceptual donde antes estaba la pregunta.

El reloj que nadie cita en los titulares

Aquí entra el reloj. El mismo AI Index 2026 recoge la cifra incómoda. Los modelos frontera leen correctamente un reloj analógico el 50,1 % de las veces.

Lanzar una moneda da resultados ligeramente peores y bastante más baratos.

Un crío de siete años con un poco de paciencia supera a estos sistemas en una tarea que se enseña en primero de primaria. ¿Cómo se mantiene esta foto al lado de la otra, la del modelo que resuelve olimpiadas matemáticas o supera el examen de la facultad de medicina? Se mantiene sin contradicción porque las dos miden cosas distintas, aunque las dos se vendan bajo la misma palabra.

La asimetría que no es un fallo

Lo que el modelo hace bien es lo que ha visto millones de veces durante su entrenamiento, en formatos parecidos, con estructuras de pregunta y respuesta que la web reproduce hasta el agotamiento. Lo que el modelo hace mal es lo que requiere algo que el entrenamiento no entrega: una mirada espacial, una correspondencia continua entre dos elementos físicos, una composición que los datasets fotográficos (colecciones de imágenes con etiquetas que se usan para entrenar) no etiquetan porque a ningún humano se le ocurre etiquetar cómo se lee un reloj.

La asimetría no es un fallo de capacidad. Es el dibujo exacto de qué entrena la industria y qué no entrena. El benchmark recompensa lo primero. El reloj revela lo segundo.

Los dos están en el mismo informe. El segundo no sale en prensa.

Legg y Hutter, 2007, la advertencia que se pasó por alto

Shane Legg y Marcus Hutter publicaron en 2007, en la revista Minds & Machines, un artículo titulado Universal Intelligence: A Definition of Machine Intelligence. Su tesis es simple y dolorosa.

Cualquier definición operativa de inteligencia es ya una elección de tareas.

Si defines inteligencia como la capacidad de resolver el conjunto de tareas T, has tomado dos decisiones en una. Has decidido qué cuenta como tarea, y has decidido qué peso le das a cada una en la suma final. La elección no es neutra, no puede ser neutra, y no existe el conjunto privilegiado de tareas que sea «la inteligencia en general».

Lo que llamamos inteligencia es el resultado de una negociación cultural sobre qué problemas merecen ser resueltos. Cuando esa negociación cristaliza en MMLU o en SWE-bench, lo que el benchmark mide es la coincidencia entre las capacidades del modelo y las prioridades de quien construyó el benchmark. Llamarlo inteligencia es un atajo retórico que ahorra debate y entrega producto.

El espejo del CI humano

Hay un paralelismo que no se está usando lo suficiente. La psicometría (disciplina que diseña tests para medir capacidades mentales) del coeficiente intelectual humano lleva más de un siglo en marcha, ha producido escalas de cinco generaciones, ha sostenido sistemas escolares enteros, y sigue siendo objeto de debate académico abierto sobre qué mide exactamente, cuánto de lo que mide es cultural, cuánto es genético, cuánto es replicable, y cuánto es la propia historia institucional del test reforzando lo que el test selecciona.

Gould y la advertencia que no se está leyendo

Stephen Jay Gould publicó The Mismeasure of Man en 1981, y aunque su libro tiene críticas técnicas legítimas, su argumento de fondo no ha sido derribado. El CI sirvió, sobre todo, para clasificar y escolarizar masivamente, no para medir la mente.

Que un constructo así, sometido a un siglo de discusión, siga sin cerrarse debería ser una advertencia obvia para quien pretende exportar el mismo modelo de medición a las máquinas en cinco años.

La advertencia no se está leyendo. Se está repitiendo el procedimiento con velocidad y entusiasmo.

Donde la psicometría humana al menos arrastra la incomodidad de su debate, la psicometría artificial nace sin ese rastro, presentada al público como si la cuestión estuviera resuelta.

La objeción razonable

Una objeción razonable es que la analogía no se sostiene del todo, porque medir un modelo en una tarea específica al menos te dice algo sobre esa tarea, y eso ya es información valiosa. La objeción es correcta y por eso es interesante.

El problema no es decir «el modelo resuelve el ochenta por ciento de los tickets de GitHub que están en SWE-bench Verified». Esa frase es exacta, comprobable y útil.

El problema es la elipsis que la sustituye, la que sale en titulares. «El modelo iguala a un programador humano». La diferencia entre las dos frases es un mundo. La primera describe rendimiento sobre una muestra. La segunda atribuye una capacidad general.

El movimiento retórico que une las dos lo hace la industria y lo amplifica la prensa, no porque haya mala fe en cada eslabón sino porque la primera frase no vende y la segunda sí. La métrica fácil sustituye a la pregunta difícil porque hay un mercado entero alineado para que la sustitución sea rentable.

La contaminación que nadie nombra

Hay además un detalle técnico que rara vez se menciona y que conviene poner negro sobre blanco. Cuando un modelo se evalúa en MMLU, en SWE-bench o en HumanEval, lo que se está midiendo no es exactamente su capacidad de razonar sobre esa materia. Se está midiendo su rendimiento sobre un test del que existen versiones, comentarios, foros, papers (artículos académicos), repositorios y discusiones que casi con certeza forman parte del corpus de entrenamiento del modelo.

La frontera entre lo que el modelo «sabe» y lo que el modelo «ha visto» es porosa por construcción.

Los esfuerzos para limpiarla, esto es, la descontaminación de datasets (filtrar del entrenamiento todo lo que se parezca al test), las versiones llamadas verified, los hold-outs (porciones de datos apartadas que el modelo no debe haber visto), llegan tarde y con resultados desiguales. La cifra final es honesta dentro de su definición y engañosa fuera de ella.

Quien la lee como medida de capacidad general está extrapolando hacia un territorio que el benchmark no cubre.

El campo y sus promesas rotas

Melanie Mitchell escribió en Why AI Is Harder Than We Think (arXiv 2104.12871) una versión académica de lo que aquí se dice en tono incómodo. Su argumento es que la historia de la inteligencia artificial está empedrada de promesas rotas por una mala interpretación de las métricas. Marcus y Davis lo habían desbrozado un par de años antes en Rebooting AI (2019): el mismo escalón conceptual repetido en cada generación, con sistemas que ganan benchmarks y pierden en cuanto el mundo se sale del molde. Gary Marcus sigue documentando cada nueva versión del fenómeno en su boletín Marcus on AI, donde semana sí semana también señala dónde la cifra brillante de la presentación no soporta la pregunta del periodista que sabe del tema. Stuart Russell, en Human Compatible (2019), reclamó por su parte que cualquier evaluación significativa tenga en cuenta los objetivos del sistema y no solo su rendimiento sobre tareas dadas, una pieza que la conversación pública sigue sin incorporar. Cada vez que un sistema iguala o supera al humano en una tarea concreta, el campo asume que está cerca de resolver el problema general, y cada vez se equivoca por el mismo motivo: la tarea concreta no era representativa del problema general.

El equívoco fuera del seminario

La diferencia es que esta vez el equívoco no ocurre solo entre académicos.

Ocurre en parlamentos que regulan sobre la base de números que no entienden, en consejos de administración que firman inversiones a partir de extrapolaciones, en redacciones que titulan según el dato más vistoso del press kit.

La consecuencia política no es menor. El debate sobre regulación, sobre riesgos, sobre dónde poner la línea, opera con números que parecen tener un significado y tienen otro. Se discute si los modelos son ya «más inteligentes que los humanos» con la misma seriedad con la que se discutiría un PIB, y la analogía es defectuosa, porque al menos el PIB tiene una definición acordada y un protocolo de cálculo que se puede auditar.

Los rankings de IA no tienen ese consenso. Tienen versiones, parches, controversias sobre filtraciones, números de empresa autorreportados sin terceros que los validen, y un mercado que se alimenta a sí mismo con la cifra del trimestre.

Qué se debería medir entonces

Quien pregunte qué se debería medir se topa con una respuesta que nadie quiere escribir en una diapositiva. No se sabe. La pregunta sigue abierta. Inteligencia, en el sentido fuerte que la palabra arrastra, es algo que ni siquiera está bien definido para los humanos, y exportar la definición incompleta a las máquinas no la cierra sino que la enturbia.

Lo honesto sería decir, cada vez que se publica un número, que ese número mide exactamente la capacidad del modelo X para superar el benchmark Y, condicionado a que el modelo X haya visto durante su entrenamiento una cantidad indeterminada de material relacionado con Y. La frase es larga y poco vendible. Por eso no aparece.

Lo que aparece es el porcentaje.

Si lo que medimos no es inteligencia, y si la pregunta de qué es inteligencia no se va a resolver pronto, queda la cifra colgada en la pared, mirando, con las dos agujas en un sitio que el modelo no va a saber leer.

Definiciones

Benchmark. Prueba estandarizada que se aplica a modelos de inteligencia artificial para obtener un número comparable entre versiones y entre empresas. Sirve para ordenar, no necesariamente para entender.

MMLU. Acrónimo de Massive Multitask Language Understanding. Batería de preguntas de opción múltiple que cubre cincuenta y siete materias académicas, desde derecho hasta medicina. Mide aciertos sobre tests escolares, no comprensión.

GPQA. Graduate-Level Google-Proof Q&A. Conjunto de preguntas de nivel doctorado en ciencias duras, diseñadas para que no se resuelvan con una búsqueda directa en internet.

SWE-bench Verified. Versión depurada del benchmark SWE-bench, que evalúa la capacidad de un modelo para resolver tickets reales extraídos de proyectos de GitHub. La etiqueta verified indica que los problemas han sido revisados manualmente.

HumanEval. Conjunto de problemas de programación cortos y autocontenidos, cada uno evaluado con tests automáticos. Mide programación funcional aislada, no desarrollo real.

OSWorld. Banco de pruebas que coloca al modelo frente a un sistema operativo y le pide ejecutar tareas reales: abrir aplicaciones, mover archivos, completar trámites.

GAIA. Banco de pruebas propuesto para asistentes generales. Combina razonamiento, uso de herramientas externas y búsqueda en problemas largos que no se resuelven con una sola operación.

Psicometría. Disciplina que diseña y valida tests para medir capacidades mentales humanas. Lleva más de un siglo en debate sobre qué mide exactamente y cuánto de cultural arrastra cada test.

CI (coeficiente intelectual). Número resumen que producen ciertos tests psicométricos. Su correlación con la inteligencia, entendida en sentido fuerte, sigue siendo materia de discusión académica abierta.

Contaminación de datasets. Situación en la que el material usado para evaluar un modelo se ha colado, parcial o totalmente, en los datos usados para entrenarlo. Infla los resultados sin que el modelo haya adquirido la capacidad que parece tener.

Hold-out. Porción de datos apartada antes del entrenamiento y reservada para evaluar el modelo después, con la intención de que el modelo no la haya visto. En la práctica, los hold-outs filtran con frecuencia.

Modelo frontera. Sistema de inteligencia artificial situado en el límite superior de capacidad publicada en un momento dado. La etiqueta es comercial tanto como técnica.

Referencias

Stanford HAI, AI Index Report 2026. Fuente de las cifras sobre rendimiento en SWE-bench Verified, MMLU y la lectura del reloj analógico (cincuenta como uno por ciento). Disponible en https://hai.stanford.edu/ai-index/2026-ai-index-report.

Legg, S. y Hutter, M. (2007). Universal Intelligence: A Definition of Machine Intelligence. Publicado en Minds & Machines, volumen 17, páginas 391-444. Referenciado para el argumento de que cualquier definición operativa de inteligencia es ya una elección de tareas. Preprint disponible en arXiv:0712.3329.

Hendrycks, D. y otros (2021). Measuring Massive Multitask Language Understanding. Presentado en ICLR 2021. Trabajo original del benchmark MMLU. Disponible en arXiv:2009.03300.

Jimenez, C. E. y otros (2024). SWE-bench. Can Language Models Resolve Real-world Github Issues? Presentado en ICLR 2024. Trabajo original del benchmark SWE-bench. Disponible en arXiv:2310.06770.

Rein, D. y otros. GPQA. A Graduate-Level Google-Proof Q&A Benchmark. arXiv 2311.12022. Referenciado por la evaluación a nivel de doctorado en ciencias duras.

Mialon, G. y otros. GAIA. A Benchmark for General AI Assistants. arXiv 2311.12983. Referenciado entre los bancos de prueba que combinan razonamiento, búsqueda y herramientas.

Mitchell, M., Why AI Is Harder Than We Think. arXiv 2104.12871. Citada por su argumento sobre la mala interpretación histórica de las métricas en la inteligencia artificial.

Gould, S. J. (1981). The Mismeasure of Man. Nueva York, W. W. Norton. Referenciado como crítica clásica al uso del coeficiente intelectual humano, aplicable por analogía al constructo emergente de «CI artificial».

Russell, S. (2019). Human Compatible. Nueva York, Viking. Referenciado en el contexto de la discusión sobre evaluación significativa de sistemas de inteligencia artificial.

Marcus, G. y Davis, E. (2019). Rebooting AI. Nueva York, Pantheon. Referenciado como fondo del debate sobre las limitaciones de los enfoques actuales.

Marcus, G., boletín Marcus on AI. Disponible en https://garymarcus.substack.com. Referenciado como voz crítica continuada sobre la interpretación pública de las métricas.

También te interesa

En otros sitios

#benchmarks #inteligencia #razonamiento #papers