La fecha de corte

En el escalón anterior dejé los mandos del modelo quietos: se ajustan una vez, durante el entrenamiento, y luego ya no se mueven. De ahí salía un detalle que entonces solo apunté y ahora desarrollo: el modelo sabe del mundo hasta un día concreto y ni un minuto más. Entender eso me ahorró muchos disgustos, y quiero que tú lo tengas claro antes de fiarte de nada que te cuente sobre lo de ayer.

El mundo se detuvo en una fecha

Tiene nombre y conviene aprendérselo: la fecha de corte, o knowledge cutoff en inglés. Es el último momento del que el modelo aprendió algo. Durante el entrenamiento leyó una cantidad descomunal de texto, sí, pero ese texto se recogió hasta cierto día. Lo que pasó después no entró. Para el modelo, en lo que toca a su memoria, el mundo se paró ahí.

A mí me costó asumirlo porque el chat no se comporta como si estuviera congelado. Te habla con soltura, en presente, como si estuviera al tanto de todo. Pero esa soltura es la del lenguaje, no la de la actualidad. Por debajo hay un conocimiento que tiene fecha, y la fecha es vieja casi siempre, porque preparar y entrenar un modelo lleva su tiempo: cuando un chat llega a tus manos, los datos con los que se cocinó ya tienen meses, a veces más de un año.

Por qué tiene que ser así

Esto no es un defecto que alguien olvidó arreglar. Sale directo de cómo funciona el modelo, que es lo que vimos en E002. Lo que el modelo "sabe" quedó grabado en sus parámetros durante el entrenamiento, y esos mandos, una vez fijados, no se reajustan mientras charlas con él. Tu conversación no le enseña nada nuevo del mundo; solo le da contexto para esa respuesta.

Por eso no puede actualizarse solo. No hay un proceso silencioso que cada noche le meta las noticias del día en la cabeza. Para que un modelo sepa cosas más recientes hay que volver a entrenarlo, o entrenar uno nuevo, y eso es un trabajo enorme que cuesta tiempo y dinero. Recoger el texto, limpiarlo, ordenarlo y pasar el entrenamiento entero no se hace sobre la marcha. La fecha de corte es, en el fondo, la huella de ese coste: marca dónde se cerró la recogida de datos.

No es un muro limpio

Algo que tardé en pillar: la fecha de corte suena a línea nítida —"hasta aquí sabe, a partir de aquí no"—, pero en la práctica es más borrosa de lo que parece. Distintos temas pueden quedar congelados en momentos algo distintos, según cuánto y cuándo apareciera cada cosa en el texto con que se entrenó. De un asunto muy comentado el modelo puede tener información bastante fresca; de otro más oscuro, datos más viejos de lo que indica su fecha oficial. Hay investigación que lo ha medido: el corte efectivo de un modelo no es uniforme y suele diferir, tema por tema, de la fecha que se anuncia.

Y hay algo más incómodo todavía: el modelo no siempre sabe con exactitud dónde acaba su propio conocimiento. Le puedes preguntar cuál es su fecha de corte y darte una respuesta, pero no es un dato que consulte en un reloj interno, sino otra cosa más que estima. Así que conviene tomárselo como una orientación, no como una garantía.

El malentendido que conviene deshacer

Durante un tiempo di por hecho que la IA "estaba al día", que de alguna manera miraba internet mientras me contestaba. Es justo lo contrario de lo que pasa por defecto. Salvo que tenga activada una herramienta de búsqueda, un modelo de lenguaje responde solo con lo que aprendió hasta su corte. No sale a la red en ese instante; recompone la respuesta a partir de lo que tiene grabado.

Y esto enlaza con un escalón anterior, el de la alucinación. Si le preguntas por algo posterior a su fecha de corte, pueden pasar dos cosas. La buena: que te diga con honradez que no lo sabe, que su conocimiento llega hasta cierto punto. La mala, y muy frecuente: que rellene el hueco con lo que parece que iría ahí y te lo suelte con el mismo aplomo de siempre. Un dato reciente que el modelo no puede conocer es el terreno perfecto para que invente sin avisar. La fecha de corte y la alucinación van de la mano: lo que cae más allá del corte es justo lo que tiene más papeletas de salir inventado.

Lo que sabe de memoria y lo que consulta

Ahora la pieza que matiza lo anterior, porque si no parecería que el chat vive encerrado en el pasado para siempre. Muchos chats sí pueden buscar en internet cuando hace falta. La diferencia está en distinguir dos cosas que es fácil confundir.

Una es lo que el modelo sabe de memoria: limitado por la fecha de corte, grabado en sus parámetros, viejo por definición. Otra es lo que consulta en el momento: si tiene activada la búsqueda, sale a la red, trae texto fresco y lo usa para componer la respuesta. Eso sí está al día, pero no porque el modelo "sepa" más, sino porque acaba de leerlo, igual que lo leerías tú. Son dos fuentes distintas, y no siempre es evidente cuál está usando en cada respuesta. Saber que existen las dos ya te pone en guardia.

Qué hago yo con esto

La regla que me quedó es sencilla. Para cualquier cosa que dependa del momento —un precio, una ley, una noticia, la última versión de un programa, quién ganó algo— no me fío del modelo de memoria. O le pido expresamente que lo busque, o lo verifico por mi cuenta antes de darlo por bueno. Para lo que no caduca —cómo se escribe algo, una idea general, un concepto de toda la vida— la fecha de corte casi no estorba, porque eso no ha cambiado desde que el modelo lo aprendió.

La fecha de corte es una de las razones de fondo por las que no conviene creerse a ciegas un dato reciente que te dé una IA. No es que mienta a propósito; es que, sobre lo que pasó después de su corte, sencillamente no tiene de dónde sacarlo. Tenerlo presente cambia para qué le pides ayuda y para qué no.

Aquí hablo de lo que el modelo recuerda del mundo, que viene de fábrica y no se mueve. En el siguiente escalón me detengo en otra memoria muy distinta: la de dentro de la conversación, lo que retiene mientras hablas con él. Se parecen en el nombre y no tienen casi nada que ver.

Definiciones

- Fecha de corte (knowledge cutoff): el último momento del que el modelo aprendió algo durante su entrenamiento. De lo que pasó después no sabe nada por sí mismo. Suele ser una fecha vieja, porque entrenar lleva tiempo. - Corte efectivo: la fecha real hasta la que el modelo conoce bien un tema concreto, que puede no coincidir con su fecha de corte oficial. Distintos asuntos quedan congelados en momentos algo distintos. - Herramienta de búsqueda: la capacidad que tienen algunos chats de salir a internet y traer texto actual para componer la respuesta. Cuando está activa, lo que el chat dice puede estar al día aunque su memoria no lo esté. - Conocimiento de memoria: lo que el modelo lleva grabado en sus parámetros desde el entrenamiento. Limitado por la fecha de corte. No se actualiza mientras chateas.

Para saber más

- Wikipedia, Knowledge cutoff — definición clara del concepto y de sus matices. https://en.wikipedia.org/wiki/Knowledge_cutoff - Otterly.ai, LLM Knowledge Cutoff Dates: Every Major AI Model's Training Data Cutoff (2026) — listado actualizado y explicación de qué implica en la práctica. https://otterly.ai/blog/knowledge-cutoff/ - TestingBaires, Análisis cronológico y fechas de corte de los LLM — explicación divulgativa en español, con el porqué de que estas fechas existan. https://testingbaires.com/analisis-cronologico-y-fechas-de-corte-de-los-llm/

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.