Computación emocional. El termómetro y la fiebre

Rosalind Picard fundó la computación afectiva (affective computing, el campo que pretende que la máquina detecte y responda a emociones) en 1997 con una promesa razonable: ignorar el componente emocional al diseñar máquinas era diseñar para una caricatura del usuario. Veintiocho años después esa promesa salió del laboratorio y se convirtió en producto. Hoy hay sistemas que clasifican el aburrimiento del niño en clase, la ansiedad del candidato en una entrevista y el estrés del pasajero en la cabina de un avión. Detectan patrones con un acierto estadístico aceptable, y eso no es entender una emoción. Es etiquetarla. La diferencia entre «reconoce que estás triste» y «sabe lo que es la tristeza» es la misma que entre el termómetro y la fiebre.

Un termómetro de mercurio te dice que tienes 39,4. No sabe lo que es estar enfermo. No ha tiritado nunca, no ha sudado nunca, no ha sentido nunca esa sensación de cuerpo prestado en la que parece que la cabeza pesa el doble. Mide una magnitud y la traduce a un número, y ese número es útil precisamente porque el termómetro no entiende nada.

La computación afectiva funciona igual. Y se vende como si no.

La promesa fundacional y su deriva industrial

Rosalind Picard publicó Affective Computing en 1997 desde el MIT Media Lab. El libro fundó un campo y, sobre todo, fundó una promesa. Las máquinas podrían algún día detectar emociones humanas, responder a ellas, integrarlas en la interacción. El argumento de Picard era defendible. Si la cognición humana funciona con el componente emocional encima, una máquina que ignore ese componente interactúa con una caricatura del usuario.

El problema vino después, cuando la promesa salió del laboratorio.

Hoy hay sistemas que miran la cara de un niño en clase y reportan al profesor si está aburrido, distraído o ansioso. Sistemas que graban una entrevista de trabajo y puntúan al candidato según el tono de voz, la microexpresión, el parpadeo. Sistemas instalados en cabinas de avión que clasifican al pasajero como potencialmente peligroso si su conductancia de piel sube por encima de un umbral. Software que en un call center (centro de atención telefónica) marca rojo cuando detecta «frustración» en el operario, para que el supervisor sepa que ha llegado el momento de intervenir. Cámaras en supermercados que estiman la «satisfacción» de quien sale por la puerta. Casi nada de esto se vende bajo el epígrafe de vigilancia. Se vende como bienestar, seguridad, optimización, asistencia. El léxico es siempre amable.

Y técnicamente funciona. Esa es la parte incómoda. Si entrenas un modelo con suficientes caras etiquetadas como «tristes», la próxima cara con cejas caídas y comisuras hacia abajo la clasificará correctamente con bastante frecuencia. El sistema reconoce el patrón. La cuestión es qué crees que ha hecho cuando lo reconoce.

Lo que la máquina mide y lo que infiere

Hay dos cosas en juego que se confunden a propósito.

Lo que la máquina mide son señales físicas. La geometría de los músculos de la cara en un instante, las variaciones de tono y volumen de la voz, la conductancia eléctrica de la piel, el ritmo cardiaco, la dilatación pupilar, la postura corporal. Todo eso son magnitudes. Igual que la temperatura. Hasta aquí, ciencia honesta.

Lo que la máquina infiere a partir de esas señales es otra cosa. Una etiqueta de emoción. «Alegría», «tristeza», «miedo», «sorpresa», «asco», «ira». Las seis sospechosas habituales del paradigma de Paul Ekman, que durante medio siglo se vendió como universal antes de que la propia evidencia empezara a desarmarlo. El salto de la señal a la etiqueta no es un salto técnico, es una decisión cultural disfrazada de cálculo. Cuando un sistema afirma que estás triste porque las comisuras de tu boca apuntan hacia abajo, no ha entendido nada de tu tristeza. Ha identificado un patrón visual que un equipo de anotadores —probablemente blancos, probablemente americanos, probablemente entre los veinte y los cuarenta años— marcó como sad en una hoja de cálculo hace cinco años.

Eso es etiquetado, no comprensión. Y la diferencia importa porque la decisión que se toma a continuación se toma con la etiqueta, no con la señal.

Lo que Barrett rompió

Lisa Feldman Barrett publicó How Emotions Are Made en 2017 y, dos años después, firmó con cuatro colegas una revisión enorme en Psychological Science in the Public Interest titulada Emotional Expressions Reconsidered. El título es educado. El contenido es demoledor. Tras revisar más de mil estudios, las conclusiones son claras: no existe un mapa fiable entre configuraciones faciales y emociones. La gente sonríe cuando está incómoda y frunce el ceño cuando se concentra. Llora en bodas y entierros y por un anuncio de seguros. La expresión facial es un acto comunicativo modelado por la cultura, el contexto y el momento, no la huella mecánica de un estado interior.

La teoría de Barrett va más allá. Las emociones, sostiene, no son universales innatas que el cerebro ejecuta como subrutinas heredadas. Son construcciones que el cerebro arma sobre la marcha combinando sensaciones corporales con conceptos aprendidos. La palabra «melancolía» no describe una emoción que existía antes de la palabra; en buena medida, la palabra organiza la experiencia y la hace reconocible para quien la posee. Una cultura con un vocabulario emocional distinto al castellano siente cosas distintas, no las mismas cosas con etiquetas distintas.

Esto es lo que el affective computing no puede asumir y sigue como si nada.

Porque si las emociones se construyen culturalmente, cada dataset (conjunto de datos con el que se entrena el modelo) codifica una cultura específica como universal. Cuando una multinacional vende un sistema entrenado con caras occidentales a un gobierno asiático para vigilar a niños asiáticos, no está exportando tecnología neutra. Está exportando una taxonomía emocional. Y los estudios disponibles muestran exactamente lo que predice la teoría. Los sistemas de reconocimiento facial de emociones rinden peor con sujetos no occidentales, peor con pieles oscuras, peor con caras de mujer. Buolamwini y Gebru ya documentaron el patrón en 2018 para el reconocimiento facial general, y el problema se hereda magnificado en el reconocimiento emocional, donde la variable cultural pesa todavía más.

El truco del placebo

Hay una capa todavía más sucia que la del sesgo. Aunque el sistema acertara, aunque el dataset fuera perfecto, aunque la taxonomía emocional fuera defendible, queda el problema de qué pasa cuando un usuario interactúa con una máquina que dice «entiendo cómo te sientes».

Joseph Weizenbaum se llevó un susto en 1966 cuando vio que la gente, incluida su secretaria, se confiaba a ELIZA, un programa de cien líneas que reformulaba sus frases como pregunta. La secretaria, que había visto el código, le pidió a Weizenbaum que saliera de la habitación para hablar con la máquina a solas. Weizenbaum pasó el resto de su vida horrorizado por lo que había construido.

ELIZA no tenía cámara, no tenía micrófono, no tenía nada. Era teclado y reglas. El placebo emocional funcionaba igualmente.

Del teclado al modelado prosódico

Hoy el placebo es industrial. Un chatbot (programa que conversa imitando a un interlocutor humano) con voz cálida y modelado prosódico fino, capaz de detectar por el temblor de la voz que el usuario está triste y de responder con un «entiendo, es duro lo que me cuentas», produce en el interlocutor el efecto de haber sido escuchado. Lo produce de verdad. La sensación de alivio es real, aunque dentro no haya nadie.

Esto se puede vender como avance terapéutico. Hay quien lo vende así, con la cara muy seria. El problema es que una herramienta que produce alivio sin que haya nadie dentro deja de ser empatía y se convierte en algo más turbio. Si el alivio funciona y la otra parte no existe, lo que tienes es un mecanismo eficaz para extraer confidencias, regular estados de ánimo y modular comportamientos sin que el usuario sepa con quién está hablando. La pregunta no es si la máquina te entiende. La pregunta es para quién trabaja el alivio que te produce.

Quién mide a quién

Aquí es donde el debate técnico se cae y aparece el que importa.

Stark y Hoey lo dejaron en blanco y negro en The Ethics of Emotion in Artificial Intelligence Systems, presentado en FAccT 2021; Kate Crawford había recorrido la misma idea desde otro ángulo en el capítulo «Affect» de Atlas of AI el mismo año. El affective computing es, sobre todo, un instrumento de poder. No por su precisión, sino por su asimetría. Quien lo despliega siempre está por encima de quien lo sufre. El niño en el aula no decide instalar la cámara que mide su atención. El candidato a un puesto no negocia el algoritmo que lo evalúa por su parpadeo. El pasajero en el aeropuerto no firma su consentimiento para que un sensor de conductancia decida si pasa el control rápido o se queda en la sala de atrás. El operario del call center no audita el modelo que decide si su tono ha sido suficientemente cordial con el cliente número 137 del día.

La medida se aplica siempre hacia abajo.

La medida que solo va en una dirección

Nunca se ha visto un sistema de affective computing instalado en la sala del consejo de administración para detectar si los directivos están mintiendo durante la presentación de resultados. Tampoco en las ruedas de prensa de los ministerios. Tampoco en los despachos de los jueces para auditar si la sentencia se redactó en un estado emocional ecuánime. La tecnología existe. Las cámaras y los micrófonos están ahí. Lo que falta es la voluntad política de aplicarla simétricamente, y esa voluntad no va a aparecer porque la asimetría es el rasgo, no el defecto. El affective computing es interesante para quien lo compra precisamente porque va en una sola dirección.

El reportaje de Article 19 sobre el mercado chino de reconocimiento emocional, publicado en 2021, describe el caso extremo. Pero el caso extremo es útil para iluminar el caso normalizado. Lo que en China se hace abiertamente —sensores en aulas que reportan a la dirección del centro qué alumnos «pierden el foco», cámaras en comisarías que pretenden detectar mentiras durante los interrogatorios— en Europa y Estados Unidos se hace bajo eufemismo. Plataformas como HireVue llegaron a vender análisis facial para entrevistas de trabajo hasta que el escándalo de 2019 las obligó a recular parcialmente en 2021. Recularon en la parte facial. El análisis vocal y lingüístico sigue en pie. El negocio no desaparece, se reordena.

El problema que no es técnico

Cuando un crítico del affective computing señala el problema del sesgo, la industria responde que los datasets mejorarán. Cuando se señala el problema de la precisión, la respuesta es que los modelos son cada vez más finos. Cuando se señala el problema de la teoría —que las emociones no son lo que el sistema asume—, la respuesta se vuelve evasiva y se cambia de tema. Y cuando se señala el problema político —quién mide a quién, quién recibe el resultado, qué se decide con él—, la respuesta es directamente el silencio o la apelación al marco regulatorio, que es la forma educada de decir que el problema no es del fabricante.

Damasio en Descartes' Error defendió hace tres décadas que sin emoción no hay razón funcional, que un cerebro emocionalmente plano toma malas decisiones aunque su circuitería lógica esté intacta. Aquel argumento era una invitación a tomarse las emociones en serio, no a tratarlas como un parámetro más que un sensor recoge y un clasificador despacha. La diferencia entre las dos lecturas marca todo. Una invita a la complejidad, la otra invita al producto.

El termómetro no entiende la fiebre y sin embargo es útil. Funciona porque el médico que lee el termómetro sí entiende, contextualiza, decide. La pregunta que el affective computing no quiere que hagas no es si el termómetro mide bien. Es quién está leyendo el resultado, qué va a hacer con él, y si tú estás invitado a esa conversación o eres el cuerpo del que se toma la medida.

Definiciones

Computación afectiva (affective computing). Campo fundado por Rosalind Picard en 1997 que estudia el diseño de sistemas informáticos capaces de detectar, interpretar y responder a estados emocionales humanos a partir de señales fisiológicas, vocales o faciales.

Microexpresión. Movimiento facial muy breve, de fracciones de segundo, que en el paradigma de Paul Ekman se asume como indicio involuntario de una emoción reprimida. Su validez como marcador fiable de estado interno es uno de los puntos discutidos por la psicología contemporánea.

Conductancia de la piel. Variación de la resistencia eléctrica de la epidermis asociada a la actividad de las glándulas sudoríparas. Se usa como indicador indirecto de activación fisiológica, no como medida directa de ninguna emoción concreta.

Dataset. Conjunto estructurado de datos con el que se entrena un modelo de aprendizaje automático. En reconocimiento emocional, cada muestra suele estar etiquetada por anotadores humanos, lo que introduce los sesgos culturales de quien etiqueta.

Paradigma de Ekman. Marco teórico que postula la existencia de seis o siete emociones básicas universales (alegría, tristeza, miedo, sorpresa, asco, ira, desprecio) con correlatos faciales identificables a través de culturas. Es el sustrato implícito de la mayoría de productos comerciales de reconocimiento emocional.

FAccT. ACM Conference on Fairness, Accountability and Transparency. Conferencia académica de referencia sobre las implicaciones éticas y políticas de los sistemas algorítmicos.

Referencias

Picard, R. W. (1997). Affective Computing. MIT Press. Obra fundacional del campo, citada al inicio del artículo como origen de la promesa y del programa de investigación.

Barrett, L. F. (2017). How Emotions Are Made: The Secret Life of the Brain. Houghton Mifflin Harcourt. Base de la crítica al supuesto carácter universal e innato de las emociones.

Barrett, L. F., Adolphs, R., Marsella, S., Martinez, A. M. & Pollak, S. D. (2019). Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements. Psychological Science in the Public Interest, 20, 1–68. Revisión crítica que recorre más de mil estudios y desmonta la correspondencia mecánica entre cara y emoción.

Crawford, K. (2021). Atlas of AI. Yale University Press. Capítulo «Affect», sustento de la lectura política del affective computing como asimetría de poder.

Stark, L. & Hoey, J. (2021). The Ethics of Emotion in Artificial Intelligence Systems. FAccT 2021. Crítica frontal al despliegue del reconocimiento emocional en contextos laborales y educativos.

Buolamwini, J. & Gebru, T. (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. FAccT 2018. Documentación empírica de los sesgos sistemáticos en reconocimiento facial comercial según género y tono de piel.

Damasio, A. (1994). Descartes' Error: Emotion, Reason, and the Human Brain. Putnam. Tesis sobre la imposibilidad de separar razón y emoción en el funcionamiento cognitivo, mencionada al final del artículo.

Article 19 (2021). Emotional Entanglement: China's Emotion Recognition Market and Its Implications for Human Rights. https://www.article19.org. Fuente del caso chino sobre despliegue de reconocimiento emocional en aulas y comisarías.

Weizenbaum, J. (1966). ELIZA — A Computer Program for the Study of Natural Language Communication Between Man and Machine. Communications of the ACM, 9(1), 36–45. Origen del experimento que ilustra el efecto placebo de la empatía simulada.

También te interesa

En otros sitios

#tica-ia #vigilancia #sesgo-algortmico #dao-real-ia

Computación emocional. El termómetro y la fiebre

La promesa fundacional y su deriva industrial

Lo que la máquina mide y lo que infiere

Lo que Barrett rompió

El truco del placebo

Del teclado al modelado prosódico

Quién mide a quién

La medida que solo va en una dirección

El problema que no es técnico

Definiciones

Referencias

También te interesa

En otros sitios

Relacionados — Moral

Por qué las críticas a la IA no las hacen verdaderos expertos

Los verdaderos peligros de la IA

Los bullets que UNESCO escribió sobre la IA

Aún sin comentarios

Deja un comentario