Conoces a dos personas. Una sacó matrícula en bachillerato y terminó la carrera sin asignaturas colgadas. La otra no acabó la EGB y lleva cuarenta años en una aldea perdida del norte. Una noche de febrero, con la nieve cortando el camino, a su vaca le viene mal el parto. El veterinario está a dos horas. Adivina cuál de las dos saca al ternero vivo. Y adivina ahora cuál de las dos se parece más, en cómo funciona, a un modelo de inteligencia artificial puntero.
El campesino mete el brazo, tantea, gira, espera, vuelve a girar. Sale el ternero vivo. Y la vaca.
La matrícula, en la misma situación, llamaría a alguien. Si no hubiera cobertura, lloraría. Si encima conociera la teoría del parto bovino por haberla leído en algún sitio, lo intentaría con un esquema mental que se desmontaría en cuanto el animal hiciera algo no previsto. No es un experimento mental cruel. Es un caso que cualquiera con familia rural ha visto. Y plantea una pregunta vieja que ahora pica más. Qué entendemos por inteligencia cuando dos personas dan resultados tan distintos en cuanto el mundo se sale del guion.
El problema técnico sin metáfora
Esa misma pregunta, formulada en términos de aprendizaje automático, tiene nombre desde 2021. Un equipo de Stanford publicó WILDS: A Benchmark of in-the-Wild Distribution Shifts. La idea era simple y bastante humillante. Coger los modelos punteros, entrenados sobre conjuntos de datos canónicos, y pasarles datos del mismo tipo pero recogidos en condiciones ligeramente desplazadas. Fotos hechas en hospitales distintos. Imágenes de satélite de regiones que no estaban en el entrenamiento. Textos clínicos de centros nuevos. Identificación de plancton con cámaras de otro fabricante. Reconocimiento de animales en cámaras-trampa de selvas no muestreadas.
Los modelos sufrían caídas de rendimiento sustanciales, a menudo de decenas de puntos de precisión, con brechas que variaban mucho según el conjunto de datos.
No fallaban en tareas nuevas. Fallaban en la misma tarea con datos ligeramente desplazados. La distribución sobre la que se prueba un modelo y la distribución sobre la que se entrena casi nunca coinciden en el mundo real. Cuando coinciden, los benchmarks (pruebas estandarizadas para medir rendimiento) miden algo cercano a la inteligencia. Cuando no, miden la suerte de que el examen se parezca al temario.
El nombre técnico del desplome
El problema se conoce como generalización fuera de distribución (en inglés out-of-distribution generalization, o sea: cómo se comporta un modelo cuando los datos que ve al funcionar ya no son del mismo tipo que aquellos con los que fue entrenado). La industria lleva años puliéndolo. DomainBed, Hendrycks, OpenOOD, Geirhos. Cada artículo viene a decir lo mismo desde un ángulo distinto. Los modelos no generalizan, atajan. Aprenden el atajo estadístico más corto entre la entrada y la etiqueta, y ese atajo casi nunca es la regla causal del fenómeno. Si una vaca aparece siempre fotografiada en un prado, el modelo aprende «prado verde igual a vaca». Cuando le pones una vaca en una playa, ya no la reconoce. La playa es la condición límite. El prado es la zona de confort.
Geirhos y compañía lo llamaron aprendizaje por atajos (shortcut learning) en 2020. La definición es brutal porque deja a la mitad del campo desnudo. Un modelo que rinde al noventa y siete por ciento dentro del temario y al treinta por ciento fuera no ha aprendido la tarea. Ha aprendido a aprobar el examen. El sistema educativo lleva siglos produciendo lo mismo en humanos y nadie se sorprende. Cuando ocurre en una red neuronal se monta debate académico. Marcus y Davis ya advertían en Rebooting AI (2019) que rendir bien en benchmarks bien escogidos no era lo mismo que comprender la tarea, y que confundir lo uno con lo otro iba a salir caro. La advertencia ha envejecido bien.
La asimetría que conviene mirar de frente
Ahora vuelve al campesino y a la matrícula. La tentación es leer la escena como un alegato anti-intelectual, una de esas reivindicaciones del saber popular contra la torre de marfil. No va por ahí.
El campesino no es superior. El campesino es robusto en una distribución estrecha y muy entrenada. Mete a ese mismo campesino a programar una macro en Excel y se queda igual de bloqueado que la matrícula ante el parto. No es que tenga otra inteligencia. Es que su entrenamiento incluyó miles de horas de manipulación de cuerpos animales, de barro, de frío, de objetos que no responden como se esperaba. La generalización vino con las horas.
La matrícula también está entrenada. Su entrenamiento fueron quince años de exámenes con enunciados bien escritos, problemas que tienen solución en el formato esperado y profesores que evaluaban con criterios anunciados de antemano. Dentro del temario, rinde maravillosamente. Fuera, se desfonda. Igual que un modelo. La diferencia entre el campesino y la matrícula no es de inteligencia, es de distribución de entrenamiento. La inteligencia académica y la inteligencia situada no son dos facultades distintas. Son dos modos de haber gastado horas y experiencia.
Si esto te resulta cómodo es porque todavía no has llegado al fondo. El fondo es que muchos puestos profesionales modernos son exámenes estirados en el tiempo. Pasarse veinte años en una oficina haciendo procesos definidos, con reuniones cuyo formato se repite y clientes que vienen de un repertorio acotado, no es entrenamiento para condiciones límite. Es entrenamiento para una distribución. El día que esa distribución se desplaza, y se desplaza cada vez antes, el profesional con currículum impecable se encuentra con que su robustez era una ilusión sostenida por la estabilidad del entorno. Mucha gente lo descubrió en marzo de 2020 y la mayoría ya lo ha olvidado.
La parte incómoda
Toca preguntar lo que el blog promete no esquivar. Si los humanos generalizamos mejor que las máquinas, conviene precisar dónde, exactamente.
La respuesta cómoda dice que un niño aprende a reconocer un gato con tres ejemplos y un modelo necesita un millón. La respuesta menos cómoda exige mirar el dato.
El AI Index Report de Stanford de 2026 trae un número que conviene tener en cuenta. Robots que rondan el noventa por ciento de éxito en entornos simulados tienen éxito en torno al doce por ciento de las tareas domésticas reales. Suena devastador para la máquina hasta que recuerdas que muchos humanos urbanos también fracasarían si los soltaras a hacer matanza, esquilar una oveja o reparar el motor de un Lada del 84 con lo que hay en el cobertizo. Lo que hacemos bien y lo que hacemos mal depende, en uno y otro caso, de qué entrenamiento tuvimos. Los robots fallan en tareas físicas porque su distribución de entrenamiento es pobre en física real. Los oficinistas fallan en tareas físicas por exactamente la misma razón.
Donde sí seguimos generalizando mejor que un modelo es en transferencia a partir de muy pocos ejemplos. Un niño puede ver dos zorros en dibujos animados y reconocer un zorro real en el monte, aunque el dibujo era naranja chillón y el zorro es marrón rojizo. Esto los modelos lo hacen peor. Pero la brecha se ha ido cerrando. Los modelos multimodales recientes hacen aprendizaje con pocos ejemplos (few-shot learning, la capacidad de generalizar a partir de un puñado de casos) sobre conceptos visuales que hace cinco años hubieran sido inalcanzables. La asimetría existe. Lo que ya no existe es la confianza de que vaya a seguir existiendo igual de pronunciada dentro de tres años.
Casos donde la distribución se rompe
Conducción autónoma. Un coche atravesado por una circunstancia que no estaba en los datos. Una bolsa de plástico cruzando la carretera. Un patinete eléctrico tumbado en mitad del carril. Un camión circulando marcha atrás por una autovía. Los sistemas comerciales actuales gestionan razonablemente bien la distribución frecuente y peor cuanto más rara es la situación. Los humanos también, con la diferencia de que su capacidad de improvisación con el volante en la mano se apoya en un modelo causal del mundo físico que el coche todavía no tiene plenamente integrado.
Diagnóstico médico entrenado sobre poblaciones de un país, aplicado a poblaciones de otro. Un modelo de dermatología entrenado con pieles claras falla con pieles oscuras de un modo conocido y publicado. Un modelo de cardiología entrenado en una franja de edad falla en otra. No es un fallo moral del modelo. Es que el modelo aprendió la distribución de su entrenamiento, no la enfermedad. El médico humano, entrenado en la misma distribución, falla parecido si nunca ha visto la otra. La diferencia es que el médico, al fallar, suele saber que está fallando. El modelo no tiene ese aviso interno. El paciente paga la diferencia.
Traducción automática de jergas locales. Un sistema entrenado con corpus formal castellano se hunde con el habla de un valle gallego o de un barrio de Caracas. Otra vez la misma estructura. Dentro del temario rinde, fuera se desfonda. Un traductor humano nativo del valle rinde mucho mejor en su jerga porque está dentro de su distribución, y peor que el modelo en jergas que él no maneja. No hay un nivel de inteligencia general comparable. Hay coberturas distintas del mundo.
Lo que queda cuando la diferencia se estrecha
La idea reconfortante hasta hace poco era que la IA podía rendir muy bien dentro de su temario pero que la robustez fuera era patrimonio humano. Esa idea aguanta cada vez peor. Los modelos de última generación generalizan mejor que los de hace tres años. Y los humanos, vistos en frío, generalizan peor de lo que les gusta creer. La diferencia se ha estrechado por los dos lados a la vez. Ellos suben, nosotros caemos del pedestal.
Si lo que nos distingue ya no es la robustez fuera de distribución, hay que ir a buscar el rasgo distintivo a otro sitio.
Y los candidatos serios son más antiguos de lo que se admite en los debates de actualidad. El cuerpo. El hambre. El miedo a morir. La motivación que viene de tener algo que perder. Un campesino mete el brazo en la vaca a las tres de la madrugada porque si no lo hace pierde dos animales y no llega a marzo. Un modelo no pierde nada si falla. No tiene marzo. No tiene vaca. No tiene aldea.
Esa asimetría no es secundaria. Es probablemente la fuente real de la generalización humana en condiciones extremas. Generalizamos mejor donde nos jugamos el cuerpo porque la evolución, durante varios millones de años, seleccionó cerebros que generalizaban bien cuando la distribución se desplazaba de golpe. Un mamut donde antes había bisontes. Un invierno donde antes había otoño. Una tribu hostil donde antes había aliados. La presión selectiva no estaba en aprobar el examen del temario, estaba en sobrevivir al examen no anunciado.
Robustez prestada y robustez propia
Lo que esto sugiere es algo que el discurso sobre IA todavía no ha digerido. La inteligencia robusta puede que no sea exactamente un fenómeno cognitivo. Puede que sea un subproducto de tener un cuerpo finito que muere si no se generaliza bien. Los modelos no tienen ese cuerpo. Hasta que no lo tengan, su robustez seguirá siendo prestada, dependiente de los datos con los que los alimentamos. La nuestra, mientras los tengamos, será propia. Mientras los tengamos.
La frontera se ha movido. Donde antes la línea se trazaba entre el humano que generaliza y la máquina que memoriza, ahora se traza entre dos sistemas de entrenamiento, uno biológico y otro digital, con propiedades de robustez distintas y cada vez menos distantes. La matrícula y el campesino siguen en sus papeles. Pero el modelo se acerca al campesino más rápido de lo que la matrícula se acerca al modelo.
Mira tu propio entrenamiento. Cuenta cuántas horas has gastado dentro de la distribución cómoda y cuántas fuera. Calcula sin trampa qué pasaría si mañana el camino se cortara con nieve y tuvieras que meter el brazo. La respuesta no te describe del todo. Describe la versión de ti que tu entrenamiento ha producido. Si no te gusta, ya sabes lo que falta. No es más inteligencia. Es más distribución. Y la pregunta vuelve, ahora con la coartada retirada. Cuando llegue tu condición límite, ¿qué de lo que crees saber sobrevive al desplazamiento, y qué cae como caen los puntos de precisión de un modelo al que han cambiado el conjunto de prueba?
Definiciones
Generalización fuera de distribución (out-of-distribution generalization). Capacidad de un sistema, biológico o artificial, de mantener su rendimiento cuando los datos que encuentra al operar provienen de una distribución estadística distinta de aquella sobre la que fue entrenado. Es el problema central de la robustez en aprendizaje automático y, por analogía, también de la inteligencia humana cuando el contexto cambia.
Benchmark. Conjunto estandarizado de pruebas que se usa para comparar el rendimiento de distintos modelos sobre la misma tarea. Un buen rendimiento en un benchmark no garantiza un buen rendimiento en el mundo real si las condiciones del benchmark no reflejan la variedad real de los datos.
Aprendizaje por atajos (shortcut learning). Patrón por el cual un modelo, en lugar de aprender la regla causal de una tarea, aprende correlaciones superficiales presentes en los datos de entrenamiento que predicen la respuesta correcta de manera más barata. Funciona perfectamente dentro del temario y se hunde fuera.
Aprendizaje con pocos ejemplos (few-shot learning). Capacidad de generalizar a un concepto nuevo a partir de un número reducido de ejemplos, en lugar de necesitar miles. Tradicionalmente un punto fuerte de la cognición humana frente a los modelos clásicos de aprendizaje profundo, hoy una frontera que los modelos multimodales están comiendo.
Referencias
Koh, P. W. et al., WILDS: A Benchmark of in-the-Wild Distribution Shifts, ICML 2021. Fuente principal del marco técnico del artículo y origen de la constatación de que los modelos sufren caídas de rendimiento sustanciales al cambiar el dominio de los datos, con brechas que varían según el conjunto evaluado. arXiv:2012.07421.
Hendrycks, D. et al., The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization, ICCV 2021. Referencia citada en el cuerpo al enumerar la corriente de trabajo crítico sobre robustez fuera de distribución. arXiv:2006.16241.
Geirhos, R. et al., Shortcut Learning in Deep Neural Networks, Nature Machine Intelligence 2 (2020), 665–673. Fuente de la noción de aprendizaje por atajos utilizada en el primer bloque de argumento. arXiv:2004.07780.
Gulrajani, I. y Lopez-Paz, D., In Search of Lost Domain Generalization, ICLR 2021. Origen del banco de pruebas DomainBed mencionado al enumerar la línea de investigación sobre generalización entre dominios. arXiv:2007.01434.
Stanford HAI, AI Index Report 2026. Fuente del dato citado sobre la tasa de éxito de los robots en tareas domésticas reales frente al rendimiento en pruebas digitales. hai.stanford.edu/ai-index/2026-ai-index-report.
Marcus, G. y Davis, E., Rebooting AI, Pantheon, 2019. Crítica de fondo a la confusión entre rendimiento en distribución y comprensión genuina que aparece como telón de fondo del argumento sobre los atajos.
Para profundizar
Russell, S. (2019). Human Compatible. Artificial Intelligence and the Problem of Control. Viking. Marco sobre robustez y alineamiento, útil para enmarcar el problema de los atajos y de la generalización fuera de distribución.
Marr, D. (1982). Vision. A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman. Estudio clásico sobre la arquitectura del sistema visual humano y sobre las razones por las que generaliza donde los modelos artificiales fallan.
También te interesa
- El problema de definir inteligencia
- El reconocimiento como base de todo. Lo que ocurre antes de que sepas que has pensado
- Estados de la mente. Ningún test mide a la misma persona dos veces
Aún sin comentarios
Aún no hay comentarios. Sé el primero.
Deja un comentario