¿Son los LLM un simple predictor estadístico de palabras?

Cada vez que se habla de Inteligencia Artificial Generativa, los comentarios se llenan de la misma frase repetida como un mantra: "es solo estadística", "no razona, solo predice la siguiente palabra". La respuesta corta a la pregunta del título es: . Pero la respuesta larga es que eso no significa lo que mucha gente cree que significa. Reducir un LLM a eso es como decir que un cerebro humano es "solo un montón de células intercambiando iones": técnicamente cierto, pero absolutamente inútil para explicar el razonamiento humano.

De la frecuencia a la topología

El error base de la crítica habitual es asumir que los LLM funcionan mediante tablas de frecuencias o permutaciones simples, como el autocompletar de tu móvil de 2015.

Lo que aprenden estos modelos durante el pre-entrenamiento no es una lista de qué palabra suele ir detrás de otra. Lo que hacen es aprender a iterar a lo largo de una función de distribución extraordinariamente compleja. Esta función encapsula la estructura lógica, semántica y sintáctica de todo el corpus de texto que ha producido la humanidad.

Imaginad un mapa multidimensional (el espacio latente). En este mapa, el modelo no memoriza frases; entiende la topología de los conceptos. "Rey" está cerca de "Reina" en la misma dirección y distancia vectorial que "Hombre" está de "Mujer".

  • El modelo no "copia y pega".
  • El modelo navega por esta función matemática.

Esto es lo que le permite "saber cosas" y hablar siguiendo las reglas humanas. No está recuperando datos de una base de datos, está reconstruyendo información navegando por esa distribución aprendida.

La importancia del post-entrenamiento y RLHF

Aquí es donde la mayoría de los comentarios críticos se equivocan más. Si nos quedáramos solo con la predicción de palabras (el modelo base), tendríamos un sistema capaz de hablar, pero incoherente y sin propósito.

Lo que dota de sentido a los LLM modernos no es la predicción estadística, sino el Post-entrenamiento mediante Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF).

En esta fase, no se enseña al modelo a hablar, sino a comportarse como nosotros queremos.

Es aquí donde los ingenieros enseñan al modelo en qué sentido debe desplazarse por esa función de distribución para ser útil. Se le premia o castiga algorítmicamente para moldear su "intencionalidad". Gracias al RLHF, el modelo aprende, entre otras cosas, a:

  1. Encadenar ideas (Reasoning): No solo busca la palabra que "suena bien", sino la que sigue una lógica deductiva paso a paso.
  2. Usar herramientas: El modelo aprende a reconocer cuándo su función de distribución no tiene el dato preciso (ej. una raíz cuadrada compleja) y decide detenerse para llamar a una calculadora o ejecutar código Python.
  3. Consultar datos externos: Aprende a buscar en internet cuando su "memoria" está desactualizada.

Conclusión

Decir que un LLM no tiene propósito porque "su mecanismo base es predecir tokens" es caer en un reduccionismo que nos impide ver la realidad. Esa predicción es el mecanismo de transporte, pero la ruta que elige el modelo viene determinada por un entrenamiento que va mucho más allá de la estadística simple.

Vemos a mucha gente cómoda en la simplificación del "loro estocástico" porque es una respuesta fácil a un problema complejo. Pero si queremos debatir seriamente sobre el futuro de la tecnología, deberíamos molestarnos en indagar cómo funciona esa función de distribución y cómo el aprendizaje por refuerzo está creando sistemas que, efectivamente, razonan (aunque sea de una forma diferente a la nuestra).