A raíz de las conversaciones sobre cómo funciona internamente la IA (refiriéndonos a ChatGPT, etc), que son modelos LLM, os comparto este repositorio divulgativo que explica de manera gráfica e interactiva cómo funciona la arquitectura Transformer, que es la pieza básica de un LLM. Aquí podréis observar en detalle en que consiste el cálculo probabilístico del siguiente token a generar, base del funcionamiento.
Aparte de eso, un LLM es un montaje realizado usando redes neuronales como componentes, pero también hay más cosas. Sería aún más interesante explicar qué es un LLM, porque tengo observado que los creyentes en la IA que corren por aquí, pues no lo saben. Es alucinante pero va en serio que no lo saben.
Para lo demás, pues es como todo, el 99% de la gente se va a quedar con lo mínimo o puede echar un ojo a alguna explicación divulgativa algún día por curiosidad, pero poco más. Es normal.
Para un programador que quiera comprender el funcionamiento sin entrar en papers matemáticos y sin aspirar a programar su propio LLM (aunque en el repositorio está el código), esto es oro puro... IMHO.