Reconocer no es comprender, y la frontera entre las dos cosas no se ve

Searle metió a un hombre en una habitación con un manual y demostró que se podía conversar en chino sin entender chino. Cuarenta años después, Bender y Koller metieron a un pulpo entre dos cables submarinos y demostraron lo mismo con texto plano. El experimento ha cambiado de animal, no de pregunta. Identificar no es entender, la diferencia es invisible desde fuera, y esa invisibilidad es exactamente el sitio donde se está difuminando hoy la responsabilidad humana.

La habitación china

Hay una habitación cerrada. Dentro hay un hombre que no sabe chino. Por una ranura le entran papeles con caracteres chinos. Tiene un manual enorme en inglés, su lengua materna, que le indica qué símbolos debe devolver por la misma ranura cuando entra una combinación determinada. El hombre busca, copia, devuelve. Fuera, un hablante nativo de chino mantiene con él una conversación impecable y se va convencido de haber estado hablando con alguien que entiende chino.

El hombre dentro no ha entendido una sola palabra. Ha manipulado símbolos.

John Searle publicó este experimento mental en 1980, en Behavioral and Brain Sciences, y desde entonces el debate sobre lo que significa entender no ha avanzado tanto como parece. La habitación china lleva cuarenta y cinco años incomodando a partes iguales a los partidarios de la inteligencia artificial fuerte y a los del excepcionalismo humano. A los primeros porque les obliga a explicar qué falta. A los segundos porque les obliga a explicar qué les sobra a ellos exactamente. El propio Searle ampliaría el argumento en The Rediscovery of the Mind (1992), insistiendo en que la sintaxis no produce semántica por mucho que escale, y que entender no es un epifenómeno del comportamiento sino una propiedad causal del sustrato. La Stanford Encyclopedia of Philosophy mantiene desde entonces una entrada actualizada sobre el experimento, con réplicas y contrarréplicas, donde se ve a las claras que cuarenta y cinco años de debate no han movido el centro de la pregunta.

El pulpo cuarenta años después

Cuarenta años después, en 2020, Emily Bender y Alexander Koller propusieron en ACL otra escena. Un pulpo extremadamente inteligente, hiperpulpo, intercepta los cables submarinos que conectan dos islas. En las islas hay dos personas que conversan por escrito a través del cable. El pulpo no sabe inglés ni sabe nada del mundo de las islas. Solo lee patrones. Con el tiempo aprende a continuar la conversación tan bien que cuando uno de los humanos se cansa, el pulpo puede sustituirlo sin que el otro lo note. Hasta que un día el humano le pregunta al «otro» cómo construir una catapulta con cocos y cuerda para defenderse de un oso polar que ha llegado nadando. El pulpo, que nunca ha visto un coco, ni una cuerda, ni un oso, ni una catapulta, responde algo que suena plausible.

La conversación se rompe ahí.

El argumento del pulpo y la habitación china dicen lo mismo con cuarenta años de distancia. Identificar no es entender. Un sistema puede operar sobre la forma de manera impecable sin haber tocado nunca aquello a lo que la forma se refiere. La sofisticación del comportamiento externo no implica que dentro haya nada parecido a comprender.

La frontera es invisible y por eso es peligrosa

Si pudieras meter la cabeza dentro del hombre de la habitación, sabrías que no entiende chino. Pero no puedes. Desde fuera, todo lo que tienes son las salidas. Y las salidas son perfectas. Pasa el test de Turing. El interrogador chino se va a casa convencido. No hay ningún experimento externo, ningún test conductual, ningún benchmark (banco de pruebas estandarizado para comparar sistemas) que pueda distinguir entre un sistema que comprende y un sistema que reconoce patrones lo suficientemente bien como para parecer que comprende.

Esa es la parte que no se quiere asumir.

ELIZA, o lo poco que hace falta para producir ilusión

Joseph Weizenbaum lo demostró en 1966 con ELIZA, un programa de menos de doscientas líneas que imitaba a un psicoterapeuta rogeriano reflejando las frases del usuario con plantillas elementales. Si decías «estoy triste», ELIZA respondía «¿por qué estás triste?». Si decías «mi madre me odia», ELIZA respondía «cuéntame más sobre tu familia». Era pura sustitución sintáctica. Weizenbaum montó el programa como demostración de lo trivial que era simular conversación. Y descubrió, horrorizado, que su propia secretaria, sabiendo que era un programa, le pedía a Weizenbaum que saliera de la habitación porque la conversación con ELIZA era íntima.

No hizo falta esperar a los modelos de lenguaje actuales para que un sistema que no entiende absolutamente nada pasara por algo que parece entender. Hizo falta esperar al 66.

La distancia técnica entre ELIZA y los LLM (modelos de lenguaje grandes, redes neuronales con miles de millones de parámetros entrenadas sobre cantidades masivas de texto) actuales es astronómica. La distancia conceptual, no tanto. Ambos sistemas operan sobre la forma. El segundo lo hace con tablas de parámetros varias órdenes de magnitud mayores, con representaciones intermedias incomparablemente más ricas, y con una capacidad de generalización que ELIZA no soñó. Pero la pregunta que Searle planteó en el 80 sigue intacta. ¿En qué momento del salto de complejidad pasa el sistema de reconocer patrones a comprender lo que dice? Y la respuesta honesta, después de cuarenta y cinco años de literatura, es que nadie lo sabe.

Quizá porque ese momento no existe.

Donde el espejo se rompe

Si dejaras la cuestión en términos puramente filosóficos, te quedarías en bucle. Lo interesante es que la diferencia se hace visible en sitios concretos. No siempre. No de manera fiable. Pero hay zonas donde un sistema que reconoce sin comprender se delata.

Las paradojas autorreferenciales son una. Pide a un modelo de lenguaje que evalúe una frase que afirma su propia falsedad y observa qué hace. Suele dar una respuesta articulada, fluida, que cita a Tarski o a Russell, y que sin embargo no entra en el lazo cognitivo del que la lee. El sistema describe la paradoja con la misma comodidad con la que describiría una receta de tortilla. No hay incomodidad. No hay el pequeño tirón mental que tú sientes cuando intentas mantener en cabeza las dos cosas a la vez. El sistema reconoce el patrón «paradoja del mentiroso» y emite el texto asociado. El humano comprende y se atasca.

La diferencia es justo ese atasco.

Ironía y cambio de marco

La ironía es otra. Los modelos actuales detectan ironía declarada, irónica clásica, libro de texto. Lo que no detectan bien es la ironía situacional, la que depende de saber qué se considera obvio en este grupo concreto a esta hora concreta. Si en una conversación entre amigos uno dice «menudo profesional el del banco» tras una metedura de pata del cajero, comprender la ironía exige saber que ese cajero es incompetente, que el hablante es educado, que está enfadado, y que en ese registro «menudo profesional» significa lo contrario de lo que parece. El modelo puede acertar en muchos casos, pero falla en zonas donde el humano no falla, y falla con confianza de las que aturden. Reconocer la marca lingüística de la ironía no es comprender la operación social que la ironía está haciendo.

El cambio de marco lo es también. Cuenta una historia donde durante diez frases el contexto es médico, y en la frase once cambia a deportivo sin avisar. Un lector humano sigue el cambio porque comprende el sentido global y se reajusta. Un sistema de reconocimiento sigue arrastrando vocabulario médico, predice palabras de hospitales, se desorienta. Marcus y Davis recogen decenas de estos casos en Rebooting AI, y los recogen también los desarrolladores de los propios modelos, que llaman context drift (deriva contextual: pérdida progresiva de la pista del marco activo a lo largo de una secuencia larga) a lo que Searle llamaría confirmación de que la habitación china está dentro del modelo, encerrada con su manual.

¿Hay una transición o no?

Aquí está la cuestión que importa, y es donde Searle, Hofstadter y Chalmers no se han puesto de acuerdo en cuarenta y cinco años.

Searle dice que no. Que por mucho que escales el sistema, manipular símbolos seguirá siendo manipular símbolos, y la comprensión es algo categóricamente distinto, asociado a la causalidad biológica del cerebro. La posición se llama biological naturalism (naturalismo biológico: la tesis de que los estados mentales son causados por procesos físicos del cerebro y no pueden replicarse en sustratos puramente formales) y es elegante, dura, y casi imposible de demostrar fuera de la introspección.

Tres posiciones que no convergen

Hofstadter, en Gödel, Escher, Bach y treinta años después en I Am a Strange Loop, sostiene que la comprensión emerge cuando un sistema desarrolla representaciones de sí mismo lo bastante recursivas como para que el bucle se cierre. Chalmers, más cauto, deja la puerta abierta a que la comprensión sea un fenómeno físico que ciertos sustratos producen y otros no, sin saber cuál es la diferencia.

Lo único en lo que coinciden los tres es en que no hay un test externo que distinga. La pregunta no es de comportamiento. Es de naturaleza interna. Y como no podemos meter la cabeza dentro del sistema, nos quedamos juzgando por las salidas, exactamente igual que el hablante chino de la habitación de Searle.

Esto deja la cuestión en un sitio que pocos quieren mirar de frente. Si la frontera entre reconocer y comprender no se puede observar desde fuera, entonces cualquier criterio operativo que usemos para decidir si un sistema comprende es un criterio sobre la apariencia, no sobre la cosa. Y los criterios sobre la apariencia son justo los que ELIZA y la habitación china diseñaron para hacer caer.

El pulpo cierra el debate forma contra significado

Bender y Koller no propusieron el pulpo como ejercicio académico. Lo propusieron porque en 2020 ya estaba claro que los modelos de lenguaje grandes iban a llevar a la frontera ese debate. Un sistema entrenado solo en texto, sin contacto con el mundo, sin cuerpo, sin consecuencias, puede continuar conversaciones de manera fluida durante horas y producir la ilusión perfecta de comprensión. El experimento del pulpo demuestra, en términos analíticos, que esa fluidez no requiere comprender. La forma se basta a sí misma para parecer significado, siempre que el evaluador no introduzca una situación donde el referente importe de verdad.

La consecuencia operativa es incómoda. Cuando un modelo de lenguaje te escribe un correo perfectamente educado para tu jefe, no sabes si comprende lo que dice o si está reproduciendo la forma de un correo educado. Y desde fuera no tienes manera de saberlo, salvo que el correo te llegue a un sitio donde la forma falle. En la mayoría de los casos no falla, porque la mayoría de las situaciones admiten respuestas formuladas. Y los casos donde la forma sí falla son justo los casos en los que tú habrías escrito el correo de forma distinta de todas maneras.

La fluidez del sistema es máxima en las zonas donde tú habrías sido fluido. En las zonas donde te habrías tropezado, el sistema se tropieza también, solo que con más seguridad.

La parte que nadie firma

Lo serio no es el debate filosófico. Lo serio es que delegamos.

La firma ceremonial

Cada vez más decisiones pasan por sistemas que parecen comprender. Diagnósticos médicos asistidos, evaluación de candidatos, redacción de informes jurídicos, atención al cliente en momentos de crisis, conversaciones de soporte psicológico. En todos esos contextos hay un humano que firma al final, o hay un humano que debería firmar. Pero la firma se está volviendo ceremonial. El humano hace clic en aceptar porque el texto está bien escrito y porque el sistema acierta las nueve veces de cada diez en las que el caso es estándar.

La décima vez, el caso no es estándar.

Y entonces ocurre lo que en la habitación china ocurría todo el tiempo y el chino de fuera no notaba. El sistema responde correctamente desde el punto de vista de la forma y catastróficamente desde el punto de vista del fondo. El paciente con síntomas atípicos al que se diagnostica una gripe. El candidato cuyo currículum es raro en formato pero excelente en sustancia y que el filtro descarta. El cliente al borde del colapso al que se responde con la plantilla de queja administrativa. La firma humana valida el texto. Nadie firma la comprensión que falta debajo.

Esto no es un problema técnico que se vaya a resolver con más datos o más capas. Es el problema que Searle planteó en el 80 y que sigue ahí porque es un problema sobre lo que las máquinas son. Bender, Gebru, McMillan-Major y Shmitchell lo plantearon con mala leche operativa en On the Dangers of Stochastic Parrots (2021): un loro estocástico, por bien entrenado que esté, sigue sin saber qué dice, y eso a escala industrial deja de ser un problema epistemológico para convertirse en un problema laboral, sanitario y jurídico. Si la transición de reconocer a comprender no existe, las decisiones que delegamos en sistemas que parecen entender están todas en zona gris. Y la zona gris es el sitio donde la responsabilidad se difumina sin que nadie firme.

Mira la última conversación que tuviste con un sistema de inteligencia artificial. Pregúntate, frase a frase, si la respuesta era una respuesta o era la forma de una respuesta. Si no sabes contestar a eso con seguridad sobre una sola de las frases, has llegado al punto donde Searle quería que llegaras.

Y eso no se arregla apagando el ordenador.

Definiciones

Habitación china. Experimento mental propuesto por John Searle en 1980. Una persona que no sabe chino, encerrada en una habitación con un manual de reglas, puede mantener una conversación escrita en chino indistinguible de la de un hablante nativo manipulando símbolos sin entenderlos. El argumento sirve para sostener que la manipulación formal de símbolos no equivale a comprender.

Argumento del pulpo. Experimento mental propuesto por Emily Bender y Alexander Koller en 2020. Un pulpo hiperinteligente intercepta los cables submarinos por los que conversan dos personas y aprende a continuar la conversación sin haber visto nunca el mundo al que se refieren las palabras. Ilustra que un sistema entrenado solo en la forma del lenguaje puede simular comprensión hasta que aparece una situación donde el referente del mundo importa.

Test de Turing. Prueba propuesta por Alan Turing en 1950 según la cual una máquina puede considerarse inteligente si un interrogador humano, conversando por escrito, no puede distinguirla de otra persona. El test mide comportamiento externo, no contenido interno, y por eso queda desbordado por los argumentos de Searle y Bender.

LLM. Modelo de lenguaje grande. Red neuronal con miles de millones de parámetros entrenada para predecir la palabra siguiente en una secuencia a partir de cantidades masivas de texto. Los LLM actuales son la encarnación industrial del problema que plantea la habitación china.

Benchmark. Banco de pruebas estandarizado para comparar el rendimiento de sistemas distintos sobre las mismas tareas. En inteligencia artificial los benchmarks miden conducta externa y por eso son insuficientes para distinguir entre reconocer y comprender.

Context drift. Deriva contextual. Pérdida progresiva del marco temático activo a lo largo de una secuencia larga. Un modelo de lenguaje que sigue prediciendo palabras del campo médico cuando la conversación ya ha cambiado a deportes está sufriendo context drift.

Biological naturalism. Naturalismo biológico. Posición filosófica de John Searle según la cual los estados mentales son causados por procesos físicos del cerebro y no pueden producirse en sustratos puramente formales por mucho que estos repliquen la conducta externa.

Referencias

Searle, J. R., Minds, Brains, and Programs, Behavioral and Brain Sciences 3 (1980), 417–457. Texto original de la habitación china, que articula el argumento central del artículo.

Bender, E. M. y Koller, A., Climbing towards NLU. On Meaning, Form, and Understanding in the Age of Data, ACL 2020, https://aclanthology.org/2020.acl-main.463/. Artículo donde se introduce el experimento del pulpo.

Weizenbaum, J., ELIZA—A Computer Program for the Study of Natural Language Communication Between Man and Machine, Communications of the ACM 9 (1966), 36–45. Descripción del programa ELIZA y reflexión sobre la facilidad con que un sistema sin comprensión produce ilusión de comprensión.

Searle, J. R., The Rediscovery of the Mind, MIT Press, 1992. Desarrollo posterior del naturalismo biológico y de la posición de Searle sobre la diferencia entre forma y comprensión.

Hofstadter, D., Gödel, Escher, Bach. An Eternal Golden Braid, Basic Books, 1979. Fuente de la idea de que la comprensión emerge en sistemas con bucles autorreferenciales lo bastante densos.

Marcus, G. y Davis, E., Rebooting AI, Pantheon, 2019. Recopilación crítica de fallos sistemáticos de los modelos actuales en cambios de marco y en situaciones donde la forma del lenguaje no basta.

Bender, E. M., Gebru, T., McMillan-Major, A. y Shmitchell, S., On the Dangers of Stochastic Parrots, FAccT 2021, https://dl.acm.org/doi/10.1145/3442188.3445922. Análisis crítico de los modelos de lenguaje grandes como sistemas que reproducen forma sin comprensión.

The Chinese Room Argument, Stanford Encyclopedia of Philosophy, https://plato.stanford.edu/entries/chinese-room/. Panorama actualizado del debate académico en torno al argumento de Searle, con réplicas y contrarréplicas.

Para profundizar

Dreyfus, H. (1992). What Computers Still Can't Do. A Critique of Artificial Reason. MIT Press. Crítica filosófica clásica al programa computacional fuerte, complementaria al argumento de Searle desde una tradición distinta.

También te interesa

En otros sitios

#inteligencia #antropomorfismo #razonamiento #alucinaciones #papers