Por qué inventa, la alucinación

En E001 dejé una promesa a medias: un chat puede sonar igual de seguro acertando que inventando. Aquí me detengo en ese fallo, le pongo nombre y, sobre todo, lo convierto en una costumbre que me ahorró muchos disgustos. Cuando entendí de dónde sale, dejé de fiarme del tono y empecé a fiarme de la comprobación.

Este escalón asume lo que ya viste: que el modelo genera lo más probable y que sus parámetros son patrones, no una base de datos de verdades. Sobre eso se levanta todo lo que viene ahora.

Un nombre para un fallo concreto

Imagina que le preguntas a tu chat por Napoleón y te responde, sin pestañear, que fue un centurión al servicio de Julio César. Con total aplomo, redondo, como si lo hubiera leído en un libro. No es un ejemplo absurdo, es justo la clase de cosa que puede pasar según cómo le hayas planteado la conversación. A ese fenómeno se le llama alucinación: el modelo afirma con seguridad algo que es falso.

Una cita que nunca se escribió, un libro que no existe, una fecha cambiada, una ley inventada. La forma es impecable; el contenido, mentira. Y conviene quitarse ya una idea de encima: esto no es una avería rara que le pasa a un modelo estropeado. Le pasa a todos, también a los mejores, porque nace del mismo mecanismo con el que aciertan. No es un efecto colateral que se pueda limpiar del todo, es la otra cara de cómo funciona la cosa.

De dónde sale, no es magia ni avería

Recupera lo de E001. El modelo no abre un cajón con la respuesta correcta: va eligiendo el trozo de texto más probable que viene a continuación, uno tras otro. Cuando le preguntas por algo que aparecía muchísimo y muy claro en el texto con el que se entrenó, el patrón es fortísimo y acierta. Pero cuando le preguntas por algo que apenas vio, o que no vio nunca, el patrón no está ahí, y aun así tiene que seguir poniendo palabras.

Entonces hace lo único que sabe hacer, rellenar con lo que parece que iría en ese hueco. Si la continuación más verosímil suena bien pero no es verdad, la escribe igual, porque no está midiendo verdad, está midiendo plausibilidad. Esta es la idea que más me costó tragar, así que la digo sin rodeos: el modelo no distingue entre lo que sabe y lo que encaja. Para él son la misma operación. Por dentro no hay un cajón con verdades de un lado y un cajón con inventos de otro, hay un único cálculo de probabilidades que unas veces cae sobre un dato real y otras sobre uno fabricado.

Por qué prefiere arriesgar a callarse

Aquí entra un matiz que para mí lo aclaró, y que viene de un trabajo reciente de OpenAI titulado Why language models hallucinate (Kalai, Nachum, Vempala y otros, 2025). La pregunta que se hacen es buena: si el modelo no está seguro, ¿por qué no dice simplemente "no lo sé"? Y la respuesta apunta a cómo se le entrena y se le examina.

Durante su desarrollo, al modelo se le mide con pruebas que funcionan como un examen tipo test. Y en un test de toda la vida, dejar una respuesta en blanco te da cero puntos seguros, mientras que arriesgar una respuesta te da, al menos, la posibilidad de acertar por suerte. Si el sistema de puntuación premia adivinar y castiga igual el silencio que el error, lo más rentable es siempre arriesgar. El modelo, que aprende a maximizar esa puntuación, acaba sacando la lección lógica: ante la duda, dispara. Por eso te suena tan seguro incluso cuando inventa, porque admitir la duda nunca le dio puntos y soltar una respuesta plausible, a veces, sí.

Dicho de otro modo, la alucinación de IA no es solo un accidente del mecanismo, también es un hábito que le hemos premiado sin querer. Los propios autores proponen como arreglo penalizar más los errores dichos con aplomo que las dudas reconocidas, pero mientras los exámenes con los que se mide a los modelos sigan recompensando la adivinación afortunada, los modelos seguirán adivinando.

El aplomo no es prueba de nada

Y llego al malentendido que más caro me salió, creer que si responde con seguridad es que lo sabe. Resulta tentador, porque con las personas suele cumplirse, más o menos, que quien habla con firmeza es porque domina el tema. Con un modelo de lenguaje esa pista no sirve.

La razón ya la tienes montada. El modelo escribe con el mismo tono firme cuando recompone un patrón sólido que cuando rellena un hueco con lo primero plausible que le encaja, porque en los dos casos hace exactamente lo mismo, elegir el token más probable. No lleva dentro un medidor de certeza que module el tono, ni un avisador que te ponga en cursiva "esto me lo estoy inventando". La seguridad con la que te habla es un rasgo de su estilo, no una señal de que el dato sea bueno. Aplomo y acierto son dos cosas que ahí dentro no van de la mano.

La regla que me llevo de este escalón

De todo esto sale una sola consecuencia práctica, y es la más útil de la escalera hasta ahora, nunca des por buena una cita, un dato concreto o una fuente solo porque el chat la afirme con convicción. Un nombre, una fecha, un número, un enlace, el título de un libro, un artículo de una ley: todo eso se comprueba en otro sitio antes de usarlo. La firmeza del tono no cuenta como prueba.

No lo digo para que vivas desconfiando de la herramienta ni para que la tires. Lo digo para que la uses donde brilla y le pongas red donde falla. Para redactar, reformular, resumir, ordenar ideas o explorar un tema, un chat es estupendo. Para afirmar un hecho que vas a dar por cierto delante de otros, hace falta verificarlo. La idea no es "no te fíes nunca", es "verifica lo verificable", que es muy distinto y mucho más llevadero.

Esa verificación tiene su propio tramo más adelante, con sus trucos para hacerla rápida y sin agobio. De momento te basta con la sospecha sana. Y queda una pregunta que asoma sola: ¿qué pasa cuando le preguntas por algo que ocurrió después de que terminara de aprender? Ahí el hueco no es que el patrón sea débil, es que no existe, y eso abre el siguiente escalón.

Definiciones

- Alucinación: cuando un chat de IA afirma con seguridad algo que es falso —una cita que no existe, una fecha equivocada, un dato inventado—. No es una avería rara, nace del mismo mecanismo con el que también acierta. - Plausibilidad: lo que el modelo mide en realidad. No comprueba si algo es verdad, sino si suena a continuación creíble del texto. Por eso un dato falso bien formado puede colarse como si fuera bueno. - Adivinar frente a admitir la duda: la disyuntiva que el entrenamiento resuelve a favor de adivinar. Como las pruebas con que se mide al modelo premian arriesgar una respuesta y no recompensan decir "no lo sé", el modelo aprende a arriesgar. - Verificar: comprobar un dato en una fuente fiable distinta del propio chat antes de darlo por bueno. La costumbre básica que sale de este escalón.

Para saber más

- OpenAI, Why language models hallucinate — explicación oficial: el entrenamiento y la evaluación premian adivinar sobre admitir la duda. https://openai.com/index/why-language-models-hallucinate/ - KDnuggets, Why Do Language Models Hallucinate? — versión divulgativa del mismo trabajo, en lenguaje llano. https://www.kdnuggets.com/why-do-language-models-hallucinate - UDIT, ¿Qué son las alucinaciones de la IA generativa? — explicación divulgativa en español: qué son, por qué ocurren y cómo se manifiestan. https://www.udit.es/que-son-las-alucinaciones-de-la-ia-generativa/

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.