Duelo de Palabras

De qué se trata

Uno ve el comienzo de una oración y tiene que adivinar la siguiente palabra oculta antes que los demás. Pero hay algo sorprendente detrás de este juego tan simple: predecir la palabra siguiente es algo que el cerebro hace automáticamente, todo el tiempo, sin que uno se dé cuenta.

El cerebro siempre va un paso adelante

¿Cómo sigue esta oración?

Se puso el abrigo, agarró las llaves y salió por la ___.

Seguramente tu primera intuición fue puerta. Algo en el cerebro simplemente… lo sabía.

Ahora esta:

Llovía, así que agarró su ___.

Paraguas, probablemente. O quizás campera.

Tomó un café y comió ___.

¿Una medialuna? ¿Un trozo de torta? ¿Una factura? Esta vez es más difícil, hay varias continuaciones que encajan igual de bien.

Lo que importa es que algunas palabras son mucho más fáciles de predecir que otras. Cuando una palabra es muy predecible, casi no hay otra opción posible; cuando no lo es, podría ser cualquier cosa. El juego hace esto visible: algunas palabras se adivinan al primer intento, otras resultan casi imposibles.

¿Cómo sabemos que el cerebro predice?

Uno no puede sentir a su cerebro haciendo predicciones, pero los científicos tienen maneras de detectar que esto es lo que sucede.

Una forma es seguir los ojos de las personas mientras leen. Los ojos no se deslizan suavemente por la página, sino que van saltando de palabra en palabra. Resulta que pasan menos tiempo en las palabras más predecibles, a veces las saltean por completo, y se demoran más en las sorpresivas. Cuando la palabra es predecible, el cerebro ya tiene una buena idea de qué viene, así que no necesita detenerse tanto.

También hay una forma más directa. El cerebro funciona con electricidad: miles de millones de células en nuestro cerebro se comunican mediante pequeñas descargas de actividad eléctrica, estas son las neuronas. Todas esas señales se suman, y parte de esa actividad llega a la superficie de la cabeza. Colocando pequeños sensores en el cuero cabelludo (una técnica llamada EEG, por electroencefalografía), se pueden captar esas señales mientras una persona lee. Parece una gorra cubierta de cables, y lo que registra es una especie de resumen de lo que millones de neuronas están haciendo en cada momento. Cuando aparece una palabra inesperada, la respuesta eléctrica cambia. Cuanto más sorpresiva la palabra, más grande el cambio. Como si el cerebro dijera: “Un momento, eso no es lo que esperaba.”

El contexto es todo

¿Qué pasa cuando se agrega más contexto al último ejemplo, “Tomó un café y comió ___.“? Por ejemplo:

Era su cumpleaños. Tomó un café y comió ___.

Ahora un trozo de torta es la continuación obvia.

A medida que uno lee más palabras de una oración, se vuelve más fácil adivinar qué viene después. El cerebro usa todo lo que tiene a mano para hacer predicciones: las palabras que ya se dijeron, lo que tiene sentido en el mundo real, lo que la gente suele decir en ese tipo de situaciones. Tener más contexto significa menos opciones posibles.

Lo mismo ocurre al escuchar, uno empieza a procesar lo que alguien dice antes de que termine la oración. En una conversación, muchas veces empezamos a armar nuestra respuesta mientras la otra persona todavía está hablando, porque ya anticipamos hacia dónde va.

¿Qué hacen los jugadores de IA?

En el juego, los jugadores IA hacen lo mismo que uno: leen las palabras reveladas hasta el momento e intentan adivinar qué sigue.

Los jugadores de IA son grandes modelos de lenguaje: programas entrenados con cantidades enormes de texto, libros, artículos, sitios web, conversaciones.

El entrenamiento funciona así: el modelo ve una secuencia de palabras e intenta adivinar cuál viene después. Cuando se equivoca, su estado interno se ajusta un poco. Después de miles de millones de rondas, desarrolla algo parecido a una intuición sobre cómo fluye el lenguaje, qué palabras tienden a seguir a cuáles, en qué contextos. Esta tarea de predecir la palabra siguiente es, de hecho, la base de chatbots como ChatGPT. Antes de que un chatbot pueda mantener una conversación o responder preguntas, tiene que aprender los patrones del lenguaje practicando exactamente esto: predecir la palabra siguiente, una y otra vez, con cantidades enormes de texto.

¿Qué hace que un modelo sea más grande o más pequeño? Todo depende del número de parámetros: números internos que se van ajustando durante el entrenamiento. Se pueden pensar como perillas. Cada una controla una pequeña parte de cómo el modelo responde a una palabra o un patrón. Más perillas permiten distinciones más finas y patrones más sutiles. Menos perillas dan una imagen más aproximada del lenguaje.

Los modelos de este juego son pequeños y viejos para los estándares actuales. El modelo en inglés (Pythia, de 2023) tiene unos 410 millones de parámetros. Los de holandés y español están basados en GPT-2 (de 2019) y tienen unos 125 millones cada uno. Suena como mucho, hasta que uno se entera de que los modelos más potentes de ChatGPT tienen alrededor de 1,8 billones de parámetros (1,8 millones de millones), unas 4.000 veces más que Pythia. Es como comparar una bicicleta con un avión.

¿Por qué no usar los grandes? Porque los modelos de este juego tienen que funcionar localmente, aquí mismo en el navegador, en la computadora donde corre el juego. ChatGPT funciona en servidores enormes, centros de datos llenos de hardware especializado operados por empresas como OpenAI. Los modelos de este juego son lo suficientemente pequeños para descargarse y funcionar en una computadora común o incluso en un celular.

El modelo en inglés, al ser más grande, tiende a predecir un poco mejor. Pero los modelos de holandés y español fueron entrenados con textos en sus propios idiomas, así que funcionan mucho mejor cuando la oración coincide con su lengua.

Pájaros y aviones

¿Son lo mismo las mentes humanas y los modelos de lenguaje? Rotundamente no. Es como comparar pájaros con aviones. Son obviamente diferentes: uno está vivo y es el resultado de millones de años de evolución; el otro es de metal diseñado por ingenieros. Además tienen distintas motivaciones para volar. Pero los dos vuelan, y los dos lo logran porque aprovechan la misma física: la aerodinámica, la forma en que el aire fluye alrededor de un ala.

Estudiar aviones nos puede enseñar sobre el medio en el que vuelan los pájaros. No sobre plumas o músculos, sino sobre el aire en sí y sobre lo que hace posible el vuelo.

Algo parecido pasa con los modelos de lenguaje y las mentes humanas. Están construidos de maneras completamente diferentes, pero ambos operan sobre lo mismo: el lenguaje. Estudiando qué encuentra predecible o sorprendente un modelo, se aprende sobre las regularidades y los patrones presentes en el idioma: qué tiende a aparecer dónde, qué es común, qué es inusual. Esos mismos patrones son los que determinan cómo nuestro cerebro procesa las palabras. De alguna manera, el puntaje del juego mide esto: quién coincide mejor con los patrones estadísticos del idioma.

Hasta dónde llega esta analogía es materia de debate. Algunos investigadores sostienen que los modelos de lenguaje son tan diferentes de los cerebros que compararlos no tiene sentido. Otros piensan que las similitudes son más profundas de lo que uno esperaría. Esto no está resuelto todavía, y es una pregunta abierta intrigante del campo en este momento.

Bruno Nicenboim — Ciencia Cognitiva Computacional, Universidad de Tilburg