Estados de la mente. Ningún test mide a la misma persona dos veces

Hazte un test de inteligencia mañana a las nueve, tras dormir ocho horas y desayunar tranquilo. Hazte el mismo test el jueves a las seis, con hambre, tras una bronca con tu pareja y dos cafés mal dormidos encima. Las dos puntuaciones llevarían tu nombre. Ninguna de las dos te describe. Describen a una persona que en ese instante coincidía contigo en el carnet.

La psicología cognitiva lleva décadas sabiéndolo. La opinión pública lleva décadas ignorándolo. Se habla del cociente intelectual como si fuera un número grabado en hueso, de la capacidad de decisión como si fuera un rasgo, de la madurez emocional como si se midiera con una báscula. Lo que se mide es una rebanada temporal de un sistema que no para de moverse. Distintas rebanadas, distintas personas, mismo carnet.

El cuerpo decide antes que tú

En 1994, Antoine Bechara y Antonio Damasio publicaron un experimento que debería haber cambiado la conversación pública sobre la inteligencia y no la cambió. El Iowa Gambling Task (tarea de apuestas de Iowa, un protocolo de laboratorio en el que el sujeto elige cartas de cuatro mazos para ganar o perder dinero ficticio) colocaba a los participantes ante esos cuatro mazos. Dos repartían premios altos pero castigos aún más altos a la larga. Los otros dos daban premios modestos y castigos pequeños, y a la larga producían beneficio. Los sujetos sanos aprendían en pocas decenas de jugadas a evitar los mazos malos. Antes incluso de poder explicar por qué, ya elegían bien. El cuerpo se les adelantaba: la piel sudaba al estirar la mano hacia el mazo perdedor, antes de que la conciencia formulara el aviso.

Los pacientes con daño en la corteza ventromedial prefrontal (la región del lóbulo frontal que se asoma sobre las cuencas oculares y conecta emoción con decisión) no aprendían. Sabían que estaban perdiendo dinero. Si se les preguntaba, lo decían sin titubear. Pero seguían eligiendo los mazos malos. Tenían intacto el cálculo y rota la palanca que convierte el cálculo en aversión visceral.

Damasio lo llamó marcador somático (la señal corporal —un pellizco en el estómago, un sudor, una taquicardia— que etiqueta cada opción con un peso emocional antes de que el razonamiento termine de articularse). Sin esa señal, el razonamiento sigue funcionando como un motor que gira en vacío. Decides, pero no decides bien. Una década después, en 2005, Bechara y el propio Damasio dieron a la hipótesis su formulación madura aplicada a la economía de la decisión: lo que se rompe en esos pacientes no es solo una partida de cartas, es la capacidad de pesar contratos, ofertas, compras. La intuición visceral no es un lujo emocional; es parte de la maquinaria que llamamos racionalidad.

Hay críticas serias a la hipótesis. Maia y McClelland mostraron en 2004 que los sujetos eran más conscientes de la estrategia ganadora de lo que Damasio había asumido, y que parte del efecto se explica sin recurrir al cuerpo. La discusión técnica sigue abierta. Lo que no está abierto es el hecho clínico que ese trabajo dejó en evidencia: hay cerebros que saben qué les conviene y aun así no lo eligen. La inteligencia abstracta y la conducta sensata pueden disociarse. Hace falta algo más, algo que viene del cuerpo, y ese algo cambia cada hora del día.

Sapolsky lo recorre con paciencia obsesiva en Behave: cada decisión humana, dice, hay que leerla en tres escalas a la vez. Lo que pasó hace un segundo en el sistema nervioso, lo que pasó esta semana en las hormonas, lo que pasó hace veinte años en el desarrollo. El sujeto que tienes delante no es un punto fijo. Es la intersección instantánea de tres relojes biológicos que no comparten ritmo.

Jueces, glucosa, sentencias

En 2011, Danziger, Levav y Avnaim-Pesso publicaron en PNAS un estudio sobre tribunales de libertad condicional israelíes. Mil ciento doce sentencias, ocho jueces, diez meses. El hallazgo fue brutal: la probabilidad de que un preso obtuviera la condicional caía a casi cero según avanzaba la sesión, y volvía al sesenta y cinco por ciento justo después de las pausas para comer. Mismo juez, mismo expediente tipo, mismo delito. Distinta glucosa, distinta fatiga, distinta sentencia.

La interpretación ha tenido contrarréplicas. Hay quien atribuye parte del efecto al orden en que se citan los casos, hay matices metodológicos discutibles. El núcleo sigue en pie: la fatiga de decisión (el desgaste cognitivo que aparece tras tomar decisiones consecutivas y empuja al decisor hacia la opción por defecto) saca a un juez del expediente y lo lleva al automatismo, que en un tribunal de condicional es denegar.

Esto es lo que se mide cuando se cree medir el criterio jurídico de un magistrado, el discernimiento moral de un votante a las siete, la capacidad lectora de un niño a las dos menos cuarto, la aptitud profesional de un candidato tras tres horas de entrevistas. Se mide a alguien que en ese instante es una versión específica de sí mismo, atravesada por hormonas concretas, niveles de azúcar concretos, una conversación pendiente concreta. Ningún test mide a la misma persona dos veces porque esa persona no existe dos veces.

La psicometría sabe esto y lo dice bajito

Los manuales lo recogen como fiabilidad test-retest (la correlación entre los resultados que un mismo sujeto obtiene al hacer dos veces el mismo test en momentos próximos). Si das el mismo test al mismo sujeto en dos sesiones cercanas, ¿cuánto se parecen los resultados? La respuesta, para muchos tests considerados rigurosos, ronda coeficientes entre 0,7 y 0,9. Suena alto. Significa que una proporción no despreciable del resultado depende de cuándo te tocó hacerlo. En tests de personalidad, de creatividad o de actitudes, los coeficientes bajan más. En entrevistas no estructuradas, se desploman.

Kahneman, en Thinking, Fast and Slow, retrato de toda esta deriva, lo contó con una metáfora útil: el sistema rápido —el que decide casi todo el día— no opera con información del problema, opera con la información disponible más fácil. Si lo disponible más fácil es lo que el cuerpo siente en ese momento, eso es lo que se mete en la respuesta. Lo más rápido, lo más a mano, es lo que dice no el problema sino el estado en el que estás cuando te lo preguntan. Por eso un test no devuelve un rasgo, devuelve una intersección entre el rasgo y el estado.

La industria que vive de evaluar personas conoce estos números. Los gabinetes psicológicos que emiten informes para juzgados los conocen. Casi nadie los cuenta al cliente. Vende mejor un informe que afirma que uno que matiza que esa afirmación, repetida el mes que viene con el sujeto en otro estado, podría desplazarse un quince por ciento. El mercado de la evaluación cognitiva está construido sobre fingir una estabilidad que el objeto evaluado no tiene.

En educación pasa lo mismo. Un examen final decide una nota anual con los datos de una mañana. Una prueba de acceso a la universidad decide cuatro años con los datos de unas horas. Se sabe que un mal desayuno desplaza unos puntos, que la ansiedad de examen desplaza más, que la hora del día desplaza también. Se sigue evaluando así porque la alternativa, evaluar en muchos momentos y promediar, es cara y nadie la financia. Lo barato gana sobre lo veraz, y luego el resultado se cita como si midiera al sujeto.

La máquina que siempre rinde igual

Y entonces llega la inteligencia artificial y todo el mundo se pone a comparar. El modelo siempre da una respuesta. El modelo responde a las tres de la mañana igual que a las once. No se cansa. No tiene hambre. No le acaba de dejar la pareja. La conclusión periodística es obvia: la máquina es más fiable. La máquina, dicen, no fluctúa. Hay incluso quien lo presenta como la gran ventaja: por fin un evaluador que no está condicionado por la glucosa.

Aquí hay que parar. La afirmación es falsa, y la falsedad es interesante porque revela qué se entiende por fluctuación.

Un modelo de lenguaje fluctúa. La temperatura del muestreo (parámetro que controla cuánto azar se introduce al elegir cada palabra siguiente: a cero el modelo siempre escoge la opción más probable, al subirla permite alternativas menos probables) cambia la salida. El prompt (la instrucción de entrada que se le da al modelo) cambia la salida. El orden de los mensajes cambia la salida. La versión del modelo cambia la salida. Dos peticiones idénticas, separadas por minutos, pueden devolver respuestas distintas, a veces contradictorias. La industria lo sabe y lo gestiona con técnicas de seeds (semillas, valores fijos que sirven para reproducir el mismo resultado aleatorio dos veces) y de evaluación múltiple. La fluctuación existe y es importante. Lo que no existe es que esa fluctuación se parezca a la humana.

Dos fluctuaciones con el mismo nombre

Cuando un humano fluctúa, fluctúa por hambre, miedo, vergüenza, enamoramiento, agotamiento. Cada estado arrastra información sobre el mundo y sobre uno mismo. El hambre dice que llevas seis horas concentrado. El miedo dice que algo se ha movido. La vergüenza dice que has cruzado un límite ante alguien. No son ruido en el cálculo: son parte del cálculo. Son los marcadores somáticos en acción, etiquetando cada decisión con un peso que viene del cuerpo y no del concepto.

Cuando un modelo fluctúa, fluctúa porque alguien tocó un parámetro o porque un muestreo aleatorio cayó de un lado u otro. Esa variación no codifica nada sobre el mundo. No es información, es desviación. Comparar las dos fluctuaciones es como comparar el temblor de manos por café con el temblor por Parkinson: superficialmente parecen lo mismo, son fenómenos distintos.

¿Puede emborracharse una IA?

La pregunta no es una boutade. Es un test diagnóstico de la confusión entre fluctuación humana y fluctuación de máquina. Borracho no significa fluctuante. Significa con la corteza prefrontal parcialmente sedada, el control inhibitorio rebajado, la valoración del riesgo distorsionada, la coordinación motora deteriorada, la memoria de trabajo encogida, el marcador somático funcionando mal. Es un estado integral del organismo. Modifica a la vez decisión, percepción, motricidad, lenguaje y emoción porque todos esos sistemas comparten sustrato químico.

Una IA no tiene sustrato químico. No tiene corteza prefrontal que sedar. No tiene riesgo propio que valorar. Se le puede subir la temperatura del muestreo y producirá frases más erráticas, pero esa erraticidad no toca ninguna valoración del peligro porque no hay peligro propio que valorar. Se le puede instruir para que imite a un borracho y lo imitará, pero la imitación es teatro, no estado interno. No hay química. Hay vectores, pesos y un proceso de inferencia que ocurre o no ocurre, sin gradaciones biológicas.

Aquí está la diferencia que importa, y no en el sentido que cabría esperar. No es que el humano sea superior porque pueda emborracharse. Es que la fluctuación humana, incluida la borrachera, incluido el cansancio, incluido el miedo, es lo que permite la rectificación. El que ha decidido mal cansado lo recuerda al día siguiente descansado y revisa. El que ha hablado de más bebido siente vergüenza por la mañana y modula. El que ha juzgado con hambre puede, si tiene honradez, releer su juicio comido y matizarlo. Esos estados producen reflexividad. Producen retroceso. Producen la posibilidad de decir me equivoqué porque entonces era otro.

Una IA no tiene esa palanca. Cada respuesta la da en el mismo estado, que no es ningún estado. No hay un después en el que vuelva sobre una respuesta con otro humor. Se le puede meter un nuevo prompt que le diga que se equivocó y reescribirá, pero no es lo mismo. La rectificación humana viene desde dentro, empujada por un estado interno que no estaba cuando se cometió el error. La rectificación de una IA viene desde fuera, porque por dentro no hay nada que empuje.

Lo que se gana cuando se pierde lo inestable

Hay tareas para las que el siempre-igual de la máquina es ventaja clara. Sumar números largos. Buscar patrones en bases de datos. Resumir documentos según plantilla. Tareas donde la fluctuación humana es ruido puro, donde no hay información en el cansancio del operario, donde se quiere el mismo procedimiento aplicado un millón de veces. Para eso, las máquinas.

Hay otras tareas para las que el siempre-igual es defecto, y aquí está la trampa. Juzgar a una persona. Acompañar a un enfermo. Decidir si una relación merece otra oportunidad. Educar a un niño. Pactar con un adversario. No piden un procedimiento aplicado idéntico cada vez. Piden a alguien que pueda dudar, retroceder, fatigarse, avergonzarse, cambiar de opinión sin que se lo pidan. Piden, exactamente, lo que la fluctuación humana hace posible.

Donde más conviene un humano es donde su fluctuación no es ruido sino método. Donde el sistema necesita que el evaluador pueda volver sobre su evaluación con otra cara, otra glucosa, otro nivel de furia o de calma. La trazabilidad de la duda humana es lo que el siempre-igual de la máquina no puede ofrecer. No porque no quiera. Porque no puede emborracharse.

Antes de creérselo

Cuando alguien te diga que un sistema automatizado es mejor que un humano porque siempre rinde igual, pregúntate qué se mide. Si es velocidad de cálculo y consistencia procedimental, probablemente tenga razón. Si es capacidad de juicio en un asunto donde mañana puede aparecer información que cambie el sentido de la decisión, no. Tiene un sistema más barato, no uno mejor. La diferencia se ha vuelto invisible, y ahí es donde hay que detenerse a mirar.

Te van a evaluar otra vez la semana que viene. Vas a ser una persona ligeramente distinta. La puntuación llevará tu nombre. Va a describir a otro.

Definiciones

Iowa Gambling Task. Tarea experimental diseñada por Bechara, Damasio y colaboradores en 1994 para estudiar la toma de decisiones bajo incertidumbre. El sujeto elige cartas de cuatro mazos con distintos perfiles de ganancia y castigo, y los investigadores miden tanto sus elecciones como las respuestas fisiológicas previas a cada elección.

Marcador somático. Señal corporal —cambio en la sudoración, el ritmo cardíaco, una sensación visceral— que etiqueta emocionalmente las opciones disponibles antes de que la deliberación consciente concluya. Según la hipótesis de Damasio, sin esa señal el razonamiento abstracto no produce decisiones sensatas.

Corteza ventromedial prefrontal. Región de la parte frontal del cerebro situada sobre las cuencas oculares, que integra información emocional y la pone al servicio de la decisión. Su lesión deja intacto el cálculo verbal pero arruina el juicio práctico.

Fatiga de decisión. Desgaste cognitivo que aparece tras una sucesión de decisiones y empuja al decisor hacia respuestas por defecto o hacia evitar decidir.

Fiabilidad test-retest. Medida estadística de cuánto coinciden los resultados de un mismo test administrado al mismo sujeto en dos momentos cercanos. Si la fiabilidad es baja, el test mide más el momento que al sujeto.

Temperatura del muestreo. Parámetro técnico en los modelos de lenguaje que regula el grado de aleatoriedad en la elección de cada palabra siguiente. Con temperatura cero el modelo siempre toma la opción más probable; al subirla, se permiten salidas menos esperables.

Prompt. Instrucción de entrada que se le da a un modelo de lenguaje. La misma pregunta formulada con prompts distintos puede producir respuestas distintas.

Seed. Valor inicial que fija la secuencia de números aleatorios usada por un modelo, de modo que dos ejecuciones con la misma seed y el mismo prompt produzcan la misma salida.

Referencias

Bechara, A., Damasio, A. R., Damasio, H. y Anderson, S. W. (1994). Insensitivity to future consequences following damage to human prefrontal cortex. Cognition, 50, 7–15. Origen del Iowa Gambling Task y del experimento con pacientes con daño en la corteza ventromedial prefrontal citado en la sección sobre el marcador somático.

Damasio, A. R. (1994). Descartes' Error. Emotion, Reason, and the Human Brain. Putnam. Exposición original de la hipótesis del marcador somático, base de la sección «El cuerpo decide antes que tú».

Bechara, A. y Damasio, A. R. (2005). The Somatic Marker Hypothesis. A neural theory of economic decision. Games and Economic Behavior, 52, 336–372. Versión madura de la hipótesis. Disponible en https://web.stanford.edu/~jlmcc/papers/BecharaEtAl05_TiCS.pdf.

Maia, T. V. y McClelland, J. L. (2004). A reexamination of the evidence for the somatic marker hypothesis. PNAS, 101, 16075–16080. Crítica metodológica al trabajo original de Bechara y Damasio, citada al matizar el alcance de la hipótesis.

Danziger, S., Levav, J. y Avnaim-Pesso, L. (2011). Extraneous Factors in Judicial Decisions. PNAS, 108, 6889–6892. Estudio sobre jueces israelíes, fuente de los datos citados en «Jueces, glucosa, sentencias».

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. Marco general sobre la dependencia del juicio respecto al estado del decisor, presente como fondo en las secciones sobre psicometría y fatiga de decisión.

Sapolsky, R. (2017). Behave. The Biology of Humans at Our Best and Worst. Penguin Press. Referencia para la idea de que el estado biológico determina la conducta, transversal al artículo.

Para profundizar

LeDoux, J. (1996). The Emotional Brain. The Mysterious Underpinnings of Emotional Life. Simon & Schuster. Sustrato neural de la emoción y de su efecto sobre la cognición, útil para extender el argumento sobre la fluctuación interna.

También te interesa

En otros sitios

#inteligencia #benchmarks #antropomorfismo #razonamiento