Cuando hablas con un modelo de IA como Claude, hablas con él en palabras. Internamente, Claude procesa esas palabras como largas listas de números, antes de volver a producir palabras como salida. Estos números intermedios se llaman activaciones, y al igual que la actividad neuronal en el cerebro humano, codifican los pensamientos de Claude. Los ALN convierten una activación en lenguaje natural que podemos leer directamente. Se intenta también detectar el desalineamiento (lo que "piensa" pero "no dice"). Interactivo:
neuronpedia.org/nla