Ironía y contexto. El ochenta por ciento del habla que se les escapa

Tu cuñado entra en el salón, mira el árbol de Navidad torcido que te ha costado dos horas montar y dice, sin cambiar el gesto, «qué profesional». Tú lo entiendes. Tu hijo de seis años, también. El perro intuye algo por el tono. Solo hay un agente en la habitación que se lo toma al pie de la letra. El altavoz inteligente, que aprovecha la palabra para sugerirte servicios de decoración navideña.

Esa escena tan tonta resume el problema. Y el problema es enorme.

La cifra que nadie quiere mirar

Raymond W. Gibbs publicó en 1994 un libro que en su momento incomodó a buena parte de la lingüística computacional, The Poetics of Mind. La tesis incómoda era ésta. El habla cotidiana entre adultos está saturada de lenguaje no literal, hasta el punto de que lo figurado deja de ser excepción y pasa a ser el modo por defecto. Metáfora, ironía, hipérbole, insinuación, sarcasmo, doble sentido, deíxis (palabras como «aquí», «ayer», «tú», cuyo significado depende de quién las dice y dónde) que cambia según la situación, alusión cultural que solo entiende quien comparte el repertorio.

Se ha popularizado, a partir de ese trabajo, una cifra concreta: que entre un sesenta y un ochenta por ciento del habla cotidiana funcionaría en niveles no literales. Conviene decirlo con honestidad. Gibbs argumenta la omnipresencia del lenguaje figurado, no establece ese porcentaje exacto como dato robusto; la cifra es una estimación que ha circulado más que una medición cerrada. Pero el orden de magnitud, esa intuición de que lo literal es la minoría, es difícil de discutir para cualquiera que escuche cómo habla la gente de verdad.

No hablamos diciendo lo que decimos. Hablamos diciendo otra cosa, y dando por hecho que el otro va a reconstruir lo que queremos decir a partir del contexto.

El dato escuece, aun siendo aproximado, porque tira por tierra el supuesto sobre el que está construida la mayor parte del procesamiento automático del lenguaje. El significado, se asume, vive en las palabras. No vive en las palabras. Vive entre las palabras, en la situación, en quién habla a quién, en lo que llevamos dicho los últimos veinte minutos, en lo que la cultura compartida da por descontado. Las palabras son la punta visible.

Treinta años después de Gibbs, la intuición sigue ahí, y la pragmática que vino después no ha hecho sino reforzarla. Y casi todos los benchmarks (pruebas estandarizadas para evaluar modelos) de comprensión lingüística siguen comportándose como si fuera mentira.

Lo que un LLM sí captura

Conviene ser justos. Un LLM (modelo grande de lenguaje, large language model, sistema entrenado con cantidades masivas de texto para predecir secuencias de palabras) sí detecta una parte del lenguaje no literal. Específicamente, la parte fácil. La que viene firmada.

Cuando alguien escribe «adoro tener gripe, en serio /s», cualquier modelo decente reconoce el sarcasmo. Cuando hay un emoji guiñando un ojo al final, también. Cuando la ironía está construida con marca explícita —mayúsculas burlonas, signos de admiración paródicos, una coletilla del tipo «nótese la ironía»— el sistema acierta con porcentajes respetables. Las evaluaciones recientes lo confirman.

El problema empieza cuando se retira el andamio.

Zhang y colegas publicaron en 2024, en SarcasmBench, una evaluación sistemática de once LLM y varios modelos preentrenados frente a seis conjuntos de datos de comprensión de sarcasmo. El resultado es incómodo para el optimismo. Los grandes modelos de lenguaje rinden por debajo de los clasificadores supervisados específicos en las seis pruebas. GPT-4 es, con diferencia, el mejor de los generalistas —los autores le atribuyen una mejora media del catorce por ciento sobre el resto—, pero «el mejor de los generalistas» sigue quedando corto frente a un modelo modesto entrenado a propósito para la tarea. Y un detalle revelador: la cadena de razonamiento explícito, esa técnica que dispara el rendimiento en problemas de lógica o matemáticas, no ayuda apenas con el sarcasmo. Detectar una pulla no es un proceso paso a paso. O lo pillas de golpe o no lo pillas.

Yi, Xia y Long, en enero de 2025, trabajan la misma frontera con otra metodología. Lo suyo es, en realidad, un intento esperanzado: diseñan un esquema de instrucciones para que un LLM detecte ironía en zero-shot (sin entrenamiento previo en la tarea concreta, solo con la instrucción) y, encima, explique su razonamiento. El resultado que reportan es matizado, y por eso interesa. Con ese andamiaje, el modelo generalista llega a rozar el rendimiento de los modelos supervisados entrenados ex profeso —incluso los supera en uno de los conjuntos—, pero queda un hueco. Después de todo el aparato, de toda la escala, de toda la ingeniería de instrucciones, lo máximo que se consigue es empatar más o menos con un clasificador modesto que sí vio ejemplos de la tarea. La generalidad no abre ninguna ventaja decisiva. Iguala, en el mejor de los casos.

La trampa del benchmark

Hay una cosa muy seria que decir aquí, y conviene decirla sin maquillar.

Los benchmarks de comprensión de ironía y sarcasmo se construyen, en su inmensa mayoría, a partir de datasets etiquetados por anotadores humanos. Los anotadores leen un mensaje y deciden si es irónico. Para que pueda haber acuerdo entre anotadores —requisito metodológico básico— los textos elegidos suelen ser aquellos en los que la ironía es identificable sin contexto adicional. O sea. Ironía con marca, ironía explícita, ironía descontextualizada que sigue siendo reconocible.

La ironía que no entra en la hoja de cálculo

La ironía cotidiana, la que opera entre adultos que comparten historia, cultura y situación inmediata, es por definición opaca para el observador externo. Si la metieras en un dataset, los anotadores discreparían sobre si es irónica o no, porque para entenderla habría que estar en la habitación.

Esa ironía —que es la inmensa mayoría— no entra en el benchmark.

Lo que se mide es el subconjunto domesticable. Y cuando los modelos puntúan alto en ese subconjunto, alguien anuncia que ya entienden el lenguaje natural. No lo entienden. Han aprobado un examen escrito por la única clase de profesor que podía evaluarles, uno que solo pregunta lo que se puede preguntar por escrito sin estar allí. La parte sin marca, la que requiere haber estado, es invisible para la métrica.

Bender y Koller lo formularon en 2020 con una elegancia que sigue siendo dolorosa. Un sistema que aprende solo de la forma, sin acceso al significado anclado en mundo y experiencia, no puede aspirar a comprensión del lenguaje natural. Puede aspirar, como máximo, a una imitación estadísticamente convincente. Lo que llaman climbing towards NLU (escalar hacia la comprensión del lenguaje natural, natural language understanding) es justamente la confusión que producen las métricas. Cada escalón parece progreso hacia la comprensión, y en realidad solo es mejor ajuste a la forma de las superficies que ya teníamos etiquetadas.

Hagamos cuentas frías. Si el habla cotidiana funciona al setenta por ciento en niveles no literales, y los sistemas automatizados de mediación lingüística —traducción, mensajería predictiva, atención al cliente, resúmenes automáticos, moderación de contenidos, transcripción— solo manejan con fiabilidad el treinta por ciento literal, ¿qué pasa con el setenta por ciento restante cuando estos sistemas intervienen?

Pasan tres cosas, todas malas.

Tres malas, en orden

La primera. El sistema traduce o resume haciendo planchado literal. La ironía desaparece, el doble sentido se queda con uno solo de los dos —siempre el literal— y el mensaje original llega al destinatario como una versión empobrecida que dice exactamente lo contrario de lo que el emisor quería. Cualquiera que haya visto un comentario sarcástico traducido por máquina sabe a qué me refiero. El chiste muere. La crítica se vuelve elogio. El reproche se vuelve aprobación. Y el receptor no tiene cómo darse cuenta.

La segunda. El sistema modera o filtra. Aquí el problema cambia de signo, pero es el mismo problema. Cuando una plataforma usa clasificación automática para detectar acoso, amenaza o discurso de odio, los falsos positivos y los falsos negativos no se reparten al azar. Se concentran exactamente en la zona del lenguaje que la máquina no entiende. La amenaza envuelta en ironía pasa, porque literalmente no es una amenaza. El comentario afectuoso entre amigos que usan un código compartido —insultarse cariñosamente, por ejemplo— se marca como tóxico, porque literalmente lo es. El sistema no diferencia el insulto que es piropo del insulto que es insulto. La diferencia no está en las palabras.

La tercera, la más perversa.

Cuando un sistema automatizado actúa como interfaz entre humanos a escala masiva, no solo malinterpreta lo que ya hay. Empieza a darle forma a lo que viene. La gente que sabe que su mensaje va a pasar por un filtro automático escribe para el filtro. Aplana la ironía. Quita el doble sentido. Redacta para ser entendida por la máquina, no por la persona. Y el lenguaje, a fuerza de pasar por el cuello de botella, se queda con la cabeza por fuera. La conversación pública migra hacia el subconjunto que la máquina puede procesar. El otro setenta por ciento queda fuera del registro. No es que la IA no entienda el lenguaje. Es que el lenguaje se está modificando para que la IA lo entienda.

Eso es una pérdida cultural enorme, y nadie la está contando porque no hay benchmark para medirla.

Lo que falta no es más datos

Aquí llega la parte que incomoda a la industria.

La respuesta refleja a todo lo anterior es. Vale, entonces hay que mejorar la detección de ironía, hay que entrenar con más ejemplos contextuales, hay que afinar los modelos con datos pragmáticos. La industria está convencida de que cualquier limitación del modelo se arregla con más datos del tipo correcto.

No es ése el problema. O no es solo ése.

Hace falta haber estado

La ironía cotidiana no es opaca por falta de ejemplos. Es opaca porque para descifrarla hace falta saber qué hay en juego entre dos personas en una situación que el modelo no compartió. Hace falta haber estado en una cocina, haberse quemado con el café, haber sido objeto de una broma, haber sentido el peso social de quedarse callado cuando todo el mundo se ríe. Hace falta tener un cuerpo, una biografía, una posición en un grupo. Lakoff y Johnson lo escribieron en 1980, en un libro al que la inteligencia artificial le debería más atención de la que le presta. Las metáforas que estructuran nuestro pensamiento están enraizadas en cómo es ser un animal de carne, con un peso, una verticalidad, un dentro y un fuera, un avanzar y un retroceder. Quitas el cuerpo y se va el suelo bajo los pies de la metáfora.

Grice formuló las máximas conversacionales (las reglas implícitas que asumen los hablantes para entenderse, propuestas por el filósofo Paul Grice en 1975) partiendo de un supuesto que la lingüística computacional sigue prefiriendo no mirar. Cuando alguien dice algo que aparentemente viola una máxima —dice algo obvio, o irrelevante, o falso— el oyente asume que en realidad está diciendo otra cosa, y reconstruye qué. Esa reconstrucción no es estadística. Es una inferencia situada que requiere modelar al otro. Saber lo que sabe, lo que ignora, lo que le importa, lo que está dispuesto a fingir.

Un sistema que no modela al otro como sujeto con experiencia propia no puede hacer esa inferencia. Puede hacer una imitación. Puede aprender que cierto patrón sintáctico va seguido de cierta interpretación con cierta frecuencia. Pero no puede hacer lo que hace tu cuñado cuando entra al salón. Leer la escena, leer tu cara, leer la historia de los dos, y elegir las dos palabras que te van a desinflar el alma sin que él tenga que decir nada feo.

Cuándo te das cuenta de que no entienden

Hay un momento concreto, casi siempre, en el que cualquier conversación prolongada con un sistema automatizado deja al descubierto el agujero. No es cuando se equivoca con un dato. Los datos se corrigen. Es cuando contestas con una ironía, o con una alusión, o con un comentario lateral que da por hecho un contexto compartido, y la respuesta llega plana, frontal, leída al pie de la letra. Y entiendes que el interlocutor no es solo poco perspicaz. Está en otro plano. Trabaja con un material distinto del que tú trabajas.

Tú estás conversando. El sistema está procesando texto.

Y el texto, recordémoslo, es como mucho el veinte por ciento de lo que está ocurriendo cuando dos personas hablan.

Definiciones

LLM (large language model, modelo grande de lenguaje). Sistema de inteligencia artificial entrenado con grandes volúmenes de texto para predecir secuencias de palabras. Los modelos conversacionales actuales son LLM ajustados con instrucción y retroalimentación humana.

Benchmark. Conjunto estandarizado de pruebas usado para comparar el rendimiento de modelos. En procesamiento del lenguaje, un benchmark suele consistir en datasets etiquetados por humanos sobre los que se mide la precisión del modelo.

Zero-shot. Modo de evaluación en el que se pide a un modelo resolver una tarea para la que no ha recibido ejemplos de entrenamiento específicos. Solo se le da la instrucción y se le pide responder.

Deíxis. Fenómeno por el que ciertas palabras —«aquí», «ayer», «tú», «esto»— solo tienen referencia concreta cuando se conoce la situación del hablante. Sin contexto situacional, son cáscaras vacías.

Máximas conversacionales. Reglas implícitas formuladas por el filósofo Paul Grice en 1975 que los hablantes asumen mutuamente para hacer posible la conversación. Su violación aparente es precisamente lo que dispara la inferencia pragmática que permite entender la ironía y la insinuación.

NLU (natural language understanding, comprensión del lenguaje natural). Subcampo de la inteligencia artificial dedicado a la comprensión real del significado, en contraposición al mero procesamiento de la forma textual.

Referencias

Gibbs, R. W. (1994). The Poetics of Mind. Figurative Thought, Language, and Understanding. Cambridge University Press. Defensa de la omnipresencia del lenguaje figurado en el habla cotidiana, citada al abrir el artículo. La cifra del sesenta-ochenta por ciento que ha circulado a partir de este trabajo es una estimación divulgada, no un porcentaje cerrado que el propio Gibbs establezca como medición; en el artículo se presenta como tal.

Zhang, Y., Zou, C., Lian, Z., Tiwari, P. y Qin, J. (2024). SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding. arXiv:2408.11319. . Evaluación de once LLM y varios modelos preentrenados sobre seis conjuntos de datos de sarcasmo; concluye que los LLM rinden por debajo de los clasificadores supervisados específicos, que GPT-4 es el mejor de los generalistas con una mejora media del catorce por ciento, y que la cadena de razonamiento explícito no ayuda en esta tarea. Citado en la sección sobre lo que un LLM captura.

Yi, P., Xia, Y. y Long, Y. (2025). Irony Detection, Reasoning and Understanding in Zero-shot Learning. arXiv:2501.16884. . Propone un esquema de instrucciones (IDADP) con el que un LLM generalista en zero-shot alcanza un rendimiento comparable al de los modelos supervisados ajustados a la tarea, superándolos en uno de los conjuntos, pero sin abrir una ventaja general sobre ellos. Citado al discutir si la generalidad del modelo ayuda en la detección de ironía.

Bender, E. M. y Koller, A. (2020). Climbing towards NLU. On Meaning, Form, and Understanding in the Age of Data. Actas del 58.º congreso de la Association for Computational Linguistics (ACL 2020), pp. 5185-5198. . Argumento central sobre la imposibilidad de la comprensión del lenguaje natural a partir solo de la forma, citado en la sección sobre la trampa del benchmark.

Grice, H. P. (1975). Logic and Conversation. Origen de las máximas conversacionales y de la noción de implicatura pragmática referida en el cierre del cuerpo del artículo.

Lakoff, G. y Johnson, M. (1980). Metaphors We Live By. University of Chicago Press. Anclaje corporal de la metáfora cognitiva, citado al discutir los límites de un sistema sin cuerpo ni biografía.

Para profundizar

Sperber, D. y Wilson, D. (1986). Relevance. Communication and Cognition. Blackwell. Teoría de la relevancia, prolongación natural del programa griceano y marco útil para entender por qué los sistemas estadísticos tropiezan con la inferencia pragmática.

También te interesa

En otros sitios

#razonamiento #benchmarks #inteligencia #antropomorfismo

Ironía y contexto. El ochenta por ciento del habla que se les escapa

La cifra que nadie quiere mirar

Lo que un LLM sí captura

La trampa del benchmark

La ironía que no entra en la hoja de cálculo

Tres malas, en orden

Lo que falta no es más datos

Hace falta haber estado

Cuándo te das cuenta de que no entienden

Definiciones

Referencias

Para profundizar

También te interesa

En otros sitios

Relacionados — Mente

El problema de definir inteligencia. Si no sabemos qué es, ¿qué estamos llamando inteligencia artificial?

Pensamiento y lenguaje. Hablar bien no es lo mismo que pensar bien

Memoria RAM vs memoria humana. Dos cosas distintas con la misma palabra

Aún sin comentarios

Deja un comentario

Ironía y contexto. El ochenta por ciento del habla que se les escapa

La cifra que nadie quiere mirar

Lo que un LLM sí captura

La trampa del benchmark

La ironía que no entra en la hoja de cálculo

La consecuencia social, que es la parte que importa

Tres malas, en orden

Lo que falta no es más datos

Hace falta haber estado

Cuándo te das cuenta de que no entienden

Definiciones

Referencias

Para profundizar

También te interesa

En otros sitios

Relacionados — Mente

El problema de definir inteligencia. Si no sabemos qué es, ¿qué estamos llamando inteligencia artificial?

Pensamiento y lenguaje. Hablar bien no es lo mismo que pensar bien

Memoria RAM vs memoria humana. Dos cosas distintas con la misma palabra

Aún sin comentarios

Deja un comentario