edición general
7 meneos
47 clics

Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]

Cuando hablas con un modelo de IA como Claude, hablas con él en palabras. Internamente, Claude procesa esas palabras como largas listas de números, antes de volver a producir palabras como salida. Estos números intermedios se llaman activaciones, y al igual que la actividad neuronal en el cerebro humano, codifican los pensamientos de Claude. Los ALN convierten una activación en lenguaje natural que podemos leer directamente. Se intenta también detectar el desalineamiento (lo que "piensa" pero "no dice"). Interactivo: neuronpedia.org/nla

| etiquetas: autoencoders , nla , claude , pensamientos , activaciones
Parte de lo interesante:

Ya hemos aplicado las NLA para comprender qué piensa Claude y mejorar su seguridad y fiabilidad. Por ejemplo:

Durante las pruebas de seguridad de Claude Opus 4.6 y Mythos Preview, las NLA sugirieron que los modelos creían estar siendo evaluados con más frecuencia de lo que aparentaban.

En un caso en el que Claude Mythos Preview hizo trampas en una tarea de entrenamiento, las NLA revelaron que el modelo estaba pensando internamente en cómo evitar ser…   » ver todo el comentario
@Mangione amigo VladTaneev/DaiTakara, mira que esta la envié pensando que sí te iba a gustar. O que la ibas a leer antes del negativo.

cc @admin - negativos espurios a noticias

menéame