Cuando hablas con un modelo de IA como Claude, hablas con él en palabras. Internamente, Claude procesa esas palabras como largas listas de números, antes de volver a producir palabras como salida. Estos números intermedios se llaman activaciones, y al igual que la actividad neuronal en el cerebro humano, codifican los pensamientos de Claude. Los ALN convierten una activación en lenguaje natural que podemos leer directamente. Se intenta también detectar el desalineamiento (lo que "piensa" pero "no dice"). Interactivo:
neuronpedia.org/nla
Ya hemos aplicado las NLA para comprender qué piensa Claude y mejorar su seguridad y fiabilidad. Por ejemplo:
Durante las pruebas de seguridad de Claude Opus 4.6 y Mythos Preview, las NLA sugirieron que los modelos creían estar siendo evaluados con más frecuencia de lo que aparentaban.
En un caso en el que Claude Mythos Preview hizo trampas en una tarea de entrenamiento, las NLA revelaron que el modelo estaba pensando internamente en cómo evitar ser… » ver todo el comentario
cc @admin - negativos espurios a noticias