Pensamiento y lenguaje. Hablar bien no es lo mismo que pensar bien

Llevamos doscientos mil años suponiendo que quien articula con elegancia piensa con orden. La suposición era operativamente correcta porque el único sistema en nuestro entorno capaz de producir frases era otro humano. Acaba de aparecer un sistema que produce las frases sin la parte del pensar. Y nuestro cableado no se ha enterado.

Un paper que la industria habría preferido no leer

En julio de 2020, una investigadora y un investigador, Emily Bender y Alexander Koller, presentaron en ACL un trabajo titulado Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. La tesis decía algo que la industria llevaba meses sin querer oír: un sistema entrenado únicamente sobre la forma del lenguaje no tiene a priori ningún camino para aprender significado. Aprende la distribución de los signos entre sí. No aprende la conexión entre el signo y la cosa fuera del signo.

Conviene fijar la cronología, porque suele contarse mal. GPT-3 había aparecido dos meses antes — el preprint Language Models are Few-Shot Learners es del 28 de mayo de 2020, y el acceso vía API llegó en junio. El paper de Bender y Koller quedó tapado por la avalancha posterior. ChatGPT, el sistema que llevaría el debate al gran público, no se lanzó hasta el 30 de noviembre de 2022. Hoy, en 2026, con modelos varios órdenes de magnitud más grandes y mil veces más fluidos, el argumento sigue sin haberse caído. Sigue siendo el argumento que más se prefiere no nombrar.

El silogismo que rompió el cableado

Hay una intuición humana antiquísima, tan profunda que no la pensamos como intuición sino como hecho: quien habla bien piensa bien. Y al revés.

El reflejo es tan automático que tiene poco que ver con la evidencia. Cualquiera ha conocido al tonto elocuente y al brillante tartaja. Cualquiera ha visto al político vacío hablar con cadencia perfecta durante diez minutos y al ingeniero competente no acabar una frase entera en toda la reunión. Sabemos que el reflejo falla. Lo aplicamos igual, porque el coste de juzgar lo que dice alguien sin dejarse llevar por cómo lo dice es alto, y casi nadie lo paga.

Un modelo de lenguaje es el sistema diseñado para explotar ese reflejo a escala industrial. Optimizado para predecir la palabra siguiente más probable contra cantidades obscenas de texto humano, acaba produciendo prosa que dispara el reconocimiento automático: «esto lo ha escrito alguien que sabe». No lo escribió nadie. Lo escribió una función que asigna probabilidades a secuencias de tokens. La función es muy buena. El reconocimiento, por nuestra parte, no es elección consciente; es cableado.

La palabra sin la cosa

Bender y Koller lo formulan con un experimento mental. Imagina un sistema entrenado únicamente sobre transcripciones de conversaciones, sin acceso a nada más. Sin imágenes, sin sensores, sin cuerpo, sin mundo. Solo el texto. El sistema aprende qué frases siguen a qué frases. Lo que no aprende, porque no está en los datos, es la referencia. La palabra «manzana» aparece junto a «roja», junto a «árbol», junto a «morder». El sistema infiere una geometría interna entre esas palabras. Pero la manzana misma, el objeto físico que se puede coger y morder, está fuera de su mundo. La palabra es una etiqueta sin etiquetado.

La objeción típica, en 2026, es que los modelos actuales ya no son sólo texto. Son modelos multimodales. Han visto millones de imágenes etiquetadas, han procesado vídeo, algunos pilotan robots. ¿No resuelve eso el problema?

No. El argumento de Bender y Koller no decía que el problema fuera la ausencia de píxeles. Decía que el significado no está en la forma, esté codificada en letras, en píxeles, en muestras de audio o en señales propioceptivas. Añadir modalidades amplía el espacio formal del modelo. No le da intención comunicativa. La intención es lo que tiene un agente que necesita algo del mundo y dirige sus acciones a obtenerlo. Es lo que el bebé hambriento tiene cuando llora. Es lo que el modelo, por construcción, no tiene: no necesita nada, no se le rompe nada si la frase sale mal. Predecir el siguiente token no se parece a tener hambre.

La habitación china sigue sin caerse

John Searle había contado lo mismo cuarenta y seis años antes con menos parafernalia. En 1980, en Minds, Brains, and Programs, propuso el experimento mental de la habitación china. Un hombre monolingüe inglés está encerrado en una habitación. Recibe papeles escritos en chino y dispone de un manual de reglas, en inglés, que le indica qué secuencia sacar para cada secuencia de entrada. No entiende chino, hace cero ejercicio de comprensión. Pero sus respuestas son indistinguibles de las de un chino culto.

¿Entiende chino el sistema? El consenso intuitivo es no. Lo que hay dentro es manipulación simbólica. Y un programa de ordenador, decía Searle, no es otra cosa que manipulación simbólica.

El argumento ha sido refutado mil veces y sigue sin caerse. La única manera de contestarle consiste en definir comprensión sin caer en circularidades, y nadie lo ha hecho. El defensor de la IA fuerte responde que tampoco se puede demostrar que los humanos comprendamos. Tiene razón en el detalle y se equivoca en la jugada: convertir el problema en uno de imposibilidad simétrica no demuestra que el LLM comprende, demuestra que la comprensión es un concepto rebelde. Lo cual era, exactamente, lo que decía Searle.

La plausibilidad superficial como producto

Pongamos esto en el suelo. Un modelo actual resume artículos científicos con solvencia, traduce por encima del traductor profesional medio, redacta correos, propuestas, código. En todo eso es genuinamente útil.

Y al mismo tiempo, en el mismo párrafo, el mismo modelo te dirá que la torre Eiffel está en Roma, calculará mal una suma de tres cifras, citará una sentencia inventada que cualquier abogado junior detectaría en cinco segundos.

No es un fallo aislado. Cuando lo que optimizas es la plausibilidad superficial del siguiente token, lo que obtienes es plausibilidad superficial. A veces coincide con la verdad porque la verdad estaba en los datos. A veces no coincide, y el modelo no tiene manera de saber la diferencia, porque la diferencia no está en la forma. Está en la referencia. Y la referencia es lo que le falta.

Si usas un LLM para redactar correos, no pasa gran cosa. Pero si lo estás usando, y lo estás usando, para resumir documentos médicos antes de una decisión clínica, para preparar informes que firmará un juez con poco tiempo, para evaluar candidatos a un puesto, estás delegando la lectura en un sistema cuya única competencia probada es producir texto que parezca correcto. No texto que sea correcto. La diferencia, en una receta médica o en una sentencia, es la única que importa.

Qué nos da, qué nos quita

La trampa no es sólo cognitiva. Es económica. La fluidez es ahora un activo: producir texto que suene a experto es barato, rápido, y a primera vista indistinguible del texto producido por un experto. No supongas que no es el caso de lo que estás leyendo.

Hay un estudio del MIT Media Lab de 2025, Your Brain on ChatGPT, que mide algo bastante feo y bastante esperable. Cuando un grupo de personas escribe ensayos con asistencia de un LLM durante semanas, su rendimiento posterior sin la asistencia baja de forma medible. Los autores lo llaman «deuda cognitiva acumulada»: el sistema te adelanta capacidad, y tú la pagas después en habilidad propia menguada.

Estamos cambiando de escenario de forma imperceptible y sin vuelta atrás. La IA va a ser, ya está siendo, una herramienta imprescindible. Mataremos por ella: gobiernos competirán por el control de sus infraestructuras, empresas pelearán por sus modelos como antes peleaban por el petróleo. Vale la pena preguntarse con crudeza qué nos da y qué nos quita.

La comparación obvia, que no vale

¿Nos volvió tontos la calculadora? No del todo. Pero perdimos capacidad de cálculo mental. La mayoría de adultos hoy no resta dos cifras de cabeza sin titubear; treinta años atrás cualquier dependiente lo hacía. ¿Importa esa pérdida? En muchos contextos no, en algunos sí.

¿Nos volvieron tontos los ordenadores? Tampoco. Pero una generación entera ha crecido sin orientarse sin GPS, sin retener un teléfono de memoria. Hubo pérdida, compensada por nuevas capacidades; llamar a eso «no perder nada» es trampa.

Con los LLM la sustitución es de otra clase. No estamos delegando aritmética ni memoria de teléfonos. Estamos delegando la articulación del pensamiento. Y la articulación del pensamiento, a diferencia del cálculo, es la actividad que producía el pensamiento mismo. Escribir no es escribir lo pensado; escribir es pensar. Quien delega la escritura delega la única forja del pensar que la especie ha inventado. Eso es pérdida neta. Negarlo es propaganda.

El editor que nunca llega a editor

Hay una versión amable de este argumento, la de los anuncios: la herramienta libera al humano de tareas mecánicas y le permite concentrarse en lo cualitativo. La parte de cuento es asumir que la habilidad de evaluar críticamente el output del modelo se mantiene intacta mientras se externaliza la habilidad de producir el output. No es así. La crítica se entrena practicando producción.

Un editor competente que lleva treinta años escribiendo puede revisar un texto generado por una máquina y detectar lo que falla. Un becario que ha leído más texto generado por máquinas que texto humano original no llegará nunca a ser ese editor, porque el camino para serlo pasaba por veinte años de equivocarse escribiendo. Estamos cortando la escalera por la mitad y diciendo que como arriba sigue habiendo gente, todo va bien. Cuando esa gente jubile, no habrá quien suba.

El silogismo de doscientos mil años

¿Por qué nos cuesta tanto separar fluidez de pensamiento? Porque evolutivamente nunca nos hizo falta.

Durante doscientos mil años, el único sistema en nuestro entorno capaz de producir frases articuladas fue otro humano. Si algo hablaba con coherencia, era humano. Si era humano, tenía mente. El silogismo, hablar implica pensar, era operativamente correcto el cien por cien del tiempo. Ya no lo es. El silogismo se ha roto y nuestro hardware no lo ha registrado.

Cuando un modelo te responde con una frase bien construida, tu cerebro ejecuta el silogismo antiguo. Procesas forma y emites veredicto sobre fondo. Es el mismo atajo que llevamos usando desde que la especie habla, sólo que esta vez lleva a un acantilado.

Quién paga por que el silogismo siga funcionando

Aquí la cosa se vuelve políticamente fea. Hay actores con interés activo en que el atajo siga funcionando. Una empresa que vende capacidad de razonamiento general no necesita demostrarla. Le basta con que la apariencia sea convincente y que la audiencia siga ejecutando el silogismo antiguo. La indefinición es producto. La fluidez es marketing. Por eso casi todos los que lo aclaran están fuera de la nómina de los grandes laboratorios.

Bender, Gebru, McMillan-Major y Shmitchell publicaron en 2021, en FAccT, On the Dangers of Stochastic Parrots, donde llamaban a los LLM loros estocásticos: sistemas que reproducen forma sin acceso a comprensión, a una escala que los hace pasar por interlocutores. Timnit Gebru salió de Google en diciembre de 2020 en una disputa por ese mismo trabajo; ella sostiene que la despidieron, Google lo describió como aceptar su renuncia. La señal era clara: escribir lo que un sistema realmente hace, en lugar de lo que la empresa necesita que parezca que hace, tiene consecuencias materiales.

La parte que pones tú

Es fácil indignarse con las empresas. Pero el reflejo antropomorfizador no lo inventaron en Mountain View. Lo trae cada uno.

Cuando un modelo te responde con elegancia, una parte de ti quiere creer que ha entendido tu pregunta, porque la alternativa —que un sistema sin comprensión te haya producido una respuesta tan satisfactoria— es ligeramente terrorífica. Implica que durante toda tu vida, cuando creías reconocer pensamiento en quien hablaba bien, podías haber estado reconociendo solo forma. Implica que el criterio con el que evalúas a colegas, profesores, jefes y expertos siempre fue falible.

La incomodidad no es del modelo. Es de mirar el modelo y darte cuenta de cómo funciona el criterio con el que llevas mirando humanos toda la vida.

Las decisiones tomadas con el atajo viejo

La pregunta que queda no es si el modelo piensa. Es más áspera. ¿Qué decisiones, en tu vida, en tu trabajo, en las instituciones que te afectan, se están tomando ya bajo el supuesto implícito de que articular bien implica entender bien? El médico que delega el primer borrador del diagnóstico en un asistente. El juez que pide un resumen de la causa al sistema. El profesor que corrige redacciones con ayuda del modelo y deja de leerlas él mismo. El periodista que firma con su nombre lo que generó un sistema.

Hablar bien no implica pensar bien. Nunca lo implicó del todo; lo aceptábamos como aproximación tolerable porque no había alternativa. Ahora hay una máquina que produce el habla sin la parte del pensar, y nos obliga a separar dos cosas que llevábamos doscientos mil años unidas por costumbre. La pregunta es si tú, oyendo a la máquina, sigues sabiendo distinguir. Y si, cuando vuelvas a oír a un humano elocuente, sabrás todavía no concederle automáticamente lo que llevabas concediéndole sin darte cuenta. Esa concesión, gratuita y antigua, era el atajo. Alguien acaba de venir a cobrarlo.

Definiciones

Loros estocásticos (stochastic parrots). Expresión acuñada por Bender, Gebru, McMillan-Major y Shmitchell en 2021 para describir a los grandes modelos de lenguaje: sistemas que reproducen patrones de forma lingüística sin acceso a la comprensión de lo que dicen, ensamblando texto según la probabilidad estadística aprendida en el entrenamiento.

Habitación china (Chinese Room). Experimento mental propuesto por John Searle en 1980. Un hombre que no entiende chino, encerrado en una habitación con un manual de reglas en su idioma, puede producir respuestas en chino indistinguibles de las de un hablante nativo manipulando símbolos sin comprenderlos. El argumento sostiene que la ejecución de un programa, por sofisticado que sea, es manipulación sintáctica y no genera comprensión semántica.

Forma vs intención comunicativa. Distinción central en el argumento de Bender y Koller. La forma es la secuencia observable de signos (letras, palabras, frases). La intención comunicativa es el estado interno del agente que necesita algo del mundo y produce signos para obtenerlo. Un sistema entrenado solo sobre forma no tiene cómo recuperar la intención que originó esa forma, porque la intención no está en los datos.

Modelo multimodal. Sistema de IA entrenado simultáneamente sobre varios tipos de datos (texto, imagen, audio, vídeo, señales sensoriales) en lugar de uno solo. La multimodalidad amplía el repertorio formal del modelo pero, según el argumento de Bender y Koller, no resuelve por sí sola el problema de la referencia: añade más formas, no significado.

Referencias

Bender, E. M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. Proceedings of ACL 2020. https://aclanthology.org/2020.acl-main.463/. Argumento central del artículo: un sistema entrenado solo sobre forma no tiene a priori cómo aprender significado.

Searle, J. R. (1980). Minds, Brains, and Programs. Behavioral and Brain Sciences 3:417–457. Fuente del experimento mental de la habitación china, recuperado aquí cuarenta y seis años después.

Bender, E. M., Gebru, T., McMillan-Major, A. & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of FAccT 2021. DOI: 10.1145/3442188.3445922. Origen de la expresión «loros estocásticos». La salida de Timnit Gebru de Google en diciembre de 2020, ligada a este trabajo y disputada entre las partes (despido según Gebru, renuncia aceptada según Google), está recogida en MIT Technology Review (4 de diciembre de 2020): https://www.technologyreview.com/2020/12/04/1013294/google-ai-ethics-research-paper-forced-out-timnit-gebru/.

Kosmyna, N., Hauptmann, E., Yuan, Y. T., Situ, J., Liao, X.-H., Beresnitzky, A. V., Braunstein, I. & Maes, P. (2025). Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. MIT Media Lab. Preprint en arXiv:2506.08872. Web del proyecto: https://www.media.mit.edu/publications/your-brain-on-chatgpt/. Fuente de los datos sobre deuda cognitiva acumulada en usuarios habituales de asistentes de IA.

Para profundizar

Marcus, G. y Davis, E. (2019). Rebooting AI. Building Artificial Intelligence We Can Trust. Pantheon. Crítica directa al solapamiento entre fluidez y comprensión en sistemas neuronales.

Hofstadter, D. (1979). Gödel, Escher, Bach. An Eternal Golden Braid. Basic Books. Sistemas formales que producen estructura sin acceder a significado.

Searle, J. R. (1992). The Rediscovery of the Mind. MIT Press. Reformulación posterior del argumento contra la IA fuerte, posterior a la habitación china.

También te interesa

En otros sitios

#inteligencia #razonamiento #antropomorfismo #escritura-ia #papers