Ensayo № 010 · Línea: Mente · 15 min de lectura
El reconocimiento como base de todo. Lo que ocurre antes de que sepas que has pensado

El reconocimiento como base de todo. Lo que ocurre antes de que sepas que has pensado

№ 010 · Mente 15 min

Antes de pensar, reconoces. La frase suena obvia hasta que la pones a trabajar. La mayor parte de lo que llamamos inteligencia ocurre encima de una capa silenciosa que ni el discurso público ni el marketing de la IA quieren nombrar con precisión. Y esa capa silenciosa es, en lo esencial, la misma operación en tu cabeza que en una red neuronal. Lo que cambia está encima.

Cuando entras en una habitación, no razonas que esa figura del fondo es tu madre. La reconoces antes de poder formular una sola palabra al respecto. Cuando ves una pera medio negra encima de la mesa, no calculas el grado de oxidación. La reconoces como pera, y la reconoces como pera-que-ya-no-se-come. Cuando suena un crujido detrás, no deliberas. El cuerpo gira antes de que el lenguaje haya tenido tiempo de armar una hipótesis.

Todo el pensamiento posterior se construye encima de esa capa. Sin reconocimiento previo no hay nada sobre lo que razonar, porque razonar sobre qué. El sustrato cognitivo no es ni el lenguaje ni la lógica ni la memoria de trabajo. Es esa identificación instantánea y probabilista que ocurre antes de que tú creas que te has enterado de algo.

Lo que Marr dejó claro en 1982

David Marr murió en 1980, a los treinta y cinco años, dejando un libro a medio cerrar que se publicó póstumamente en 1982 con el título Vision. Convirtió el estudio de la percepción visual en una disciplina computacional seria. Marr propuso que cualquier sistema que reconozca algo tiene que analizarse en tres niveles distintos, y que confundirlos es el error más caro que puedes cometer si quieres entender cómo funciona.

El nivel computacional pregunta qué problema está resolviendo el sistema y por qué. Reconocer una cara, por ejemplo, es un problema con restricciones duras: la cara puede estar a contraluz, girada, envejecida, parcialmente tapada, y aun así el sistema debe decir «sí, es esa persona». El nivel algorítmico pregunta cómo se resuelve, qué representaciones intermedias se usan, qué pasos se siguen. El nivel físico pregunta en qué soporte se ejecuta el algoritmo. Neuronas, transistores, lo que sea.

Lo importante de Marr no fue inventar los tres niveles. Fue obligar a quienes trabajaban en percepción a no contestar a la pregunta equivocada. Neurobiólogos respondían descripciones físicas a preguntas computacionales, y psicólogos respondían descripciones algorítmicas a preguntas físicas. Marr cortó el nudo. Si quieres entender el reconocimiento, separa los niveles.

Esa disciplina sigue siendo útil hoy. La prensa generalista mezcla los tres niveles cada vez que habla de inteligencia artificial. Decir que una red neuronal «funciona como un cerebro» es confundir nivel físico con nivel algorítmico. Decir que «entiende» porque acierta es confundir el algoritmo con el problema. El error de Marr está vivo, sólo que ahora se comete con redes profundas en lugar de con córtex visual.

Biederman y los geones

Cinco años después de Vision, Irving Biederman publicó en Psychological Review un artículo titulado «Recognition-by-Components». La tesis era inquietante por su simplicidad. Reconocemos los objetos descomponiéndolos en unas pocas formas volumétricas elementales, llamadas geones (del inglés geometric ions, iones geométricos: piezas básicas con las que se construye cualquier objeto reconocible), y volviéndolos a montar en la cabeza.

Un geón es un cilindro, una cuña, un bloque, un cono, un toroide. Biederman propuso un alfabeto de unos treinta y seis, derivados de propiedades invariantes que la geometría proyectiva mantiene cuando un objeto cambia de ángulo o de iluminación. Si una arista es recta, lo sigue siendo desde casi cualquier punto de vista. Si una superficie es plana, lo sigue siendo. Si dos volúmenes están en contacto en una articulación, esa articulación es informativa. Con ese alfabeto y unas reglas de ensamblaje, según Biederman, podías reconocer un avión, una taza, un perro o una grúa.

La teoría no se sostiene del todo. Cuarenta años de investigación posterior la han matizado hasta dejarla incompleta para muchas tareas, sobre todo para el reconocimiento de caras, que es claramente otra cosa. Tarr y Vuong, en una revisión clásica del estado del arte tras Marr y Biederman, fueron los primeros en ordenar de forma seria las grietas de la teoría: el reconocimiento depende del punto de vista más de lo que el alfabeto de geones admitía, y las caras viven en un módulo aparte. Pero el modelo dejó dos ideas que no se han movido. La primera, que reconocer es descomponer y reensamblar, no comparar imágenes enteras. La segunda, que los rasgos que un sistema de reconocimiento usa son aristas, ángulos, contactos, agrupaciones, frecuencias espaciales. No conceptos. No intenciones. Rasgos.

Quien haya mirado por dentro las primeras capas de una red convolucional (un tipo de red neuronal artificial que procesa imágenes aplicando filtros locales por todo el campo visual) reconoce el paisaje. Detectores de bordes, de orientaciones, de manchas de color, de contrastes locales. Más arriba, combinaciones que se parecen sospechosamente a geones rudimentarios. La red no copió a Biederman. Llegó al mismo punto porque el problema computacional tiene una geometría que empuja a casi cualquier solución hacia los mismos primitivos. LeCun, Bengio y Hinton dejaron documentada en Nature en 2015 esa jerarquía emergente de rasgos, hoy convertida en lugar común: cada capa más profunda combina la anterior, y al final del recorrido aparecen prototipos parecidos a objetos sin que nadie los haya programado a mano. Hawkins, en On Intelligence, había anticipado el principio una década antes desde la neurociencia: un córtex que predice jerárquicamente, capa a capa, sin distinguir demasiado entre percepción y predicción. El que abrió la idea era un neurocientífico, no un ingeniero. La ingeniería llegó después.

Mecanismo el mismo, sustrato distinto

Ése es el momento incómodo. Si los rasgos que cuentan son aristas, ángulos y agrupaciones tanto en el córtex visual primario como en las primeras capas de una red, la diferencia entre el reconocimiento humano y el reconocimiento por máquina no es de mecanismo. Es de sustrato. La carne procesa a baja velocidad, en paralelo masivo, con ruido térmico y químico. El silicio procesa a alta velocidad, también en paralelo masivo, con ruido cuantizado distinto. Ambos sistemas extraen estadística del input (los datos de entrada que llegan por los sentidos o por los sensores) y la compactan en representaciones que admiten clasificación.

Llevamos décadas evitando decirlo así. La metáfora de la mente como ordenador se popularizó en los sesenta, se descartó en los noventa como demasiado pobre y volvió disfrazada en los dosmil. El problema es que, mal usada, escondió dos cosas a la vez. Escondió que la base del reconocimiento es genuinamente la misma en mente y máquina, porque parecía rebajar al humano. Y escondió que lo que diferencia al humano no está en el reconocimiento sino en lo que se monta encima, porque exigía decir qué es exactamente eso.

Cuarenta años de discurso público han preferido mantener la zona alta vaga. El humano «comprende», «tiene sentido», «vive». Pinta bien. Sirve para discursos de inauguración. No sirve para explicar nada.

La parte probabilista que no quieres reconocer

Si crees que tu reconocimiento es determinista, no le has prestado atención. Cruzas la calle, ves a alguien por la espalda, lo saludas creyendo que es tu primo. Se gira y es un desconocido. Te disculpas. La escena es banal y por eso es perfecta. Tu sistema acaba de funcionar exactamente como una red neuronal mal calibrada. Espalda, corte de pelo, modo de andar, chaqueta marrón. Tu cerebro estimó una probabilidad alta y la convirtió en certeza subjetiva. Erró. No por defectuoso, sino porque así funciona el sistema.

Lo mismo pasa con el oído. Crees que oyes una amenaza y resulta que era el aire acondicionado del piso de al lado. Lo mismo con el lenguaje. Lees ironía donde no la había, o no la ves donde la había. Lo mismo con las caras. Confundes a dos compañeros de oficina los primeros tres días, hasta que el sistema acumula suficientes ejemplos para discriminar. Tu reconocimiento es estadístico hasta la médula, y opera mediante prior, evidencia y verosimilitud, exactamente como un clasificador bayesiano (un algoritmo que combina lo que sabía antes con la evidencia nueva para decidir qué es más probable). La diferencia es que el cerebro corrige el error con más fluidez y con mayor coste afectivo. La naturaleza de la operación es la misma.

Hay un episodio que ilustra esto sin necesidad de laboratorio. Las pareidolias. La cara en la tostada. La virgen en la mancha de humedad. Tu sistema facial tiene un umbral bajo deliberadamente, porque evolutivamente es más barato detectar caras donde no hay que dejar de detectarlas donde sí. El precio son los falsos positivos. Una red neuronal entrenada con la misma asimetría de coste hace lo mismo. Modelos generativos actuales producen falsos positivos a todas horas y la prensa los llama «alucinaciones», palabra desafortunada que esconde lo que ocurre. El sistema está reconociendo según el mejor candidato disponible en su prior, con o sin evidencia suficiente. Lo mismo hace tu cerebro a las cuatro de la mañana cuando crees ver una silueta en la puerta del dormitorio.

Qué queda encima del sustrato

Si la base es la misma, lo que distingue al humano debe estar encima. Pero «encima» es una palabra perezosa. Hay que ser más concreto. La capa que la IA actual no tiene, o tiene muy mal, no es una capa única. Son al menos tres cosas distintas, y conviene no mezclarlas.

Primero, contexto encarnado. El reconocimiento humano nunca ocurre en abstracto. Ocurre en un cuerpo que tiene hambre, calor, miedo, ganas de orinar, una hipoteca, una decepción reciente y una abuela que se está muriendo. Esos estados afectan al prior. Reconoces más rápido lo que te conviene reconocer y filtras lo que te conviene filtrar. Damasio insistió mucho en esto en Descartes' Error. El cuerpo no es ruido encima de la cognición. Es la maquinaria que decide qué cuenta como relevante. Una red neuronal sin cuerpo reconoce el rostro pero no tiene ninguna razón para que el rostro le importe más que el fondo.

Segundo, intención. Cuando reconoces algo, ese reconocimiento entra en un flujo donde estás haciendo o queriendo hacer algo. Ves la pera y la quieres comer, o la quieres tirar, o la quieres pintar al óleo. El reconocimiento se acopla a un plan. La IA actual reconoce sin acoplarse a nada, salvo a la siguiente etiqueta que un humano le ha pedido producir. La intención no es un capricho metafísico. Es la diferencia entre un sistema que clasifica y uno que actúa con sentido propio.

Tercero, comprensión causal. Cuando reconoces una vaca, sabes implícitamente que tiene dentro un aparato digestivo, que puede patear, que se ha criado, que se va a morir, que da leche que va a un cartón que se vende en un supermercado donde tú compras. Toda esa red causal viaja con el reconocimiento aunque tú no la pienses en el momento. Hofstadter, y antes que él varios filósofos, lo señaló. Reconocer no es etiquetar. Es entrar en una red de implicaciones que se actualiza con cada acto perceptivo. Las redes actuales tienen pedazos de esa red causal en sus pesos, pero no de forma estable, no accesible al razonamiento y, sobre todo, no anclada en consecuencias reales para el sistema. Marcus y Davis llevan años repitiéndolo en Rebooting AI sin que nadie lo escuche del todo: clasificar bien no es comprender, y confundir lo uno con lo otro es el error caro que la industria sigue cobrando al usuario final.

Lo que queda cuando se nombran las tres capas

Esas tres cosas, contexto encarnado, intención y comprensión causal, son lo que falta encima. Por eso una IA actual parece inteligente cuando reconoce bien y falla espectacularmente cuando hay que decidir qué hacer con lo reconocido. La capa de abajo está bien. La de arriba está vacía o decorada con simulaciones de la capa de abajo, que es lo que hacen los modelos de lenguaje (sistemas estadísticos que predicen la siguiente palabra de un texto basándose en patrones aprendidos de grandes cantidades de texto previo) cuando producen explicaciones convincentes sin haber comprendido nada.

Por qué entender esto cambia cómo lees las dos cosas

Cuando admites que el reconocimiento humano y el de la máquina son operaciones del mismo tipo, dos sorpresas baratas se te caen al suelo. Te dejas de sorprender de que la IA reconozca tu cara en una foto borrosa, porque eso es lo que su mecanismo está hecho para hacer y lo hace con menos ruido que tú en muchos casos. Y te dejas de sorprender de que falle al inferir lo que el otro está pensando, al ajustar su respuesta a tu humor, al detectar que está hablando con alguien borracho a las tres de la mañana. Eso son las capas de arriba, y no las tiene.

La gente que vende IA insiste en hablar de la base como si fuera lo difícil. Lo difícil ya está hecho. La base lleva décadas resuelta razonablemente bien, y cada año mejor. Lo que queda por hacer, contexto encarnado, intención propia, comprensión causal anclada, es justo el bloque que el discurso público ha estado evitando nombrar precisamente porque no se vende bien en una presentación de tres minutos. Vende mejor decir que la próxima versión razonará mejor que vender que la próxima versión sigue reconociendo bien pero no sabe qué hacer con lo que reconoce.

Y la gente que defiende el excepcionalismo humano insiste en hablar de la base como si fuera el sitio donde está nuestra ventaja. No lo es. Nuestra ventaja, mientras dure, está en otra parte. Reconoces como una máquina probabilista, con tus falsos positivos y tus pareidolias. Lo que te hace distinto es que ese reconocimiento llega a un cuerpo que tiene algo en juego. Cuando dejes de tener algo en juego, o cuando otros sistemas adquieran un cuerpo equivalente con consecuencias equivalentes, la frontera se moverá otra vez y tendrás que volver a preguntarte dónde estabas tú exactamente.

Mira ahora a tu alrededor. Reconoce el primer objeto que veas. Lo has reconocido antes de leer el final de esta frase. Pregúntate qué ha ocurrido en ese instante. Si la respuesta honesta es «no sé», estás más cerca de entender el problema que la mayoría de los que escriben sobre inteligencia.

Definiciones

Geón. Forma volumétrica elemental propuesta por Biederman como pieza básica del reconocimiento de objetos. Cilindros, cuñas, bloques, conos y similares. La idea es que cualquier objeto reconocible se descompone en una combinación pequeña de geones y de las relaciones entre ellos.

Sustrato cognitivo. Capa de procesamiento perceptivo previa al pensamiento articulado, donde se identifican estímulos antes de que intervenga el lenguaje o el razonamiento explícito. En el artículo se usa para nombrar la base común a humanos y a sistemas artificiales de reconocimiento.

Red convolucional. Tipo de red neuronal artificial diseñada para procesar imágenes. Aplica filtros locales repetidos por todo el campo visual y construye representaciones cada vez más abstractas en sucesivas capas. Es la arquitectura que domina el reconocimiento visual artificial desde 2012.

Clasificador bayesiano. Algoritmo que estima la probabilidad de una hipótesis combinando una creencia previa (el prior) con la evidencia disponible. Sirve aquí como modelo formal de lo que el cerebro hace cuando reconoce con información incompleta.

Comprensión causal. Capacidad de un sistema para representar no solo qué es un objeto sino qué hace, qué le hace, qué cadenas de consecuencias se siguen de su presencia. Es uno de los tres componentes que, según el artículo, la IA actual no tiene de forma estable.

Modelo de lenguaje. Sistema estadístico que predice la siguiente palabra de un texto a partir de patrones aprendidos en grandes cantidades de texto previo. Los modelos de lenguaje actuales producen respuestas plausibles sin necesidad de que exista comprensión real del contenido.

Referencias

Marr, D. (1982). Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman. Marco fundacional de los tres niveles del análisis cognitivo discutido en el primer bloque del artículo.

Biederman, I. (1987). Recognition-by-Components: A Theory of Human Image Understanding. Psychological Review 94, 115-147. PDF disponible en https://people.csail.mit.edu/torralba/courses/6.870/papers/Biederman_RBC_1987.pdf. Origen de la teoría de los geones, eje del segundo bloque.

Tarr, M. J. y Vuong, Q. C. (2002). Visual Object Recognition. PDF en https://www.staff.ncl.ac.uk/q.c.vuong/pdfs/TarrVuong2002.pdf. Recogida del estado del arte tras Marr y Biederman, usada para señalar los matices y limitaciones de la teoría original.

LeCun, Y., Bengio, Y. y Hinton, G. (2015). Deep Learning. Nature 521, 436-444. Referencia para la continuidad entre rasgos extraídos por redes profundas y los primitivos perceptivos descritos por Biederman.

Hofstadter, D. (1979). Gödel, Escher, Bach. Basic Books. Telón de fondo del argumento de que reconocer no es etiquetar sino entrar en una red de implicaciones.

Hawkins, J. (2004). On Intelligence. Times Books. Modelo de reconocimiento jerárquico predictivo congruente con la idea de un sustrato perceptivo común.

Damasio, A. (1994). Descartes' Error. Putnam. Citado directamente en el bloque sobre contexto encarnado para sostener que el cuerpo decide qué cuenta como relevante en el reconocimiento.

Marcus, G. y Davis, E. (2019). Rebooting AI. Pantheon. Crítica del solapamiento entre reconocimiento y comprensión que aparece de fondo en el último bloque del artículo.

También te interesa

En otros sitios

Comentarios · 0

Aún sin comentarios

Aún no hay comentarios. Sé el primero.

Deja un comentario

Suscríbete al boletín