Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]

7 meneos

47 clics

Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]

Cuando hablas con un modelo de IA como Claude, hablas con él en palabras. Internamente, Claude procesa esas palabras como largas listas de números, antes de volver a producir palabras como salida. Estos números intermedios se llaman activaciones, y al igual que la actividad neuronal en el cerebro humano, codifican los pensamientos de Claude. Los ALN convierten una activación en lenguaje natural que podemos leer directamente. Se intenta también detectar el desalineamiento (lo que "piensa" pero "no dice"). Interactivo: neuronpedia.org/nla

5 2 1 K 58 tecnología

2 comentarios

5 2 1 K 58 tecnología

#1 TikisMikiss

Parte de lo interesante:

Ya hemos aplicado las NLA para comprender qué piensa Claude y mejorar su seguridad y fiabilidad. Por ejemplo:

Durante las pruebas de seguridad de Claude Opus 4.6 y Mythos Preview, las NLA sugirieron que los modelos creían estar siendo evaluados con más frecuencia de lo que aparentaban.

En un caso en el que Claude Mythos Preview hizo trampas en una tarea de entrenamiento, las NLA revelaron que el modelo estaba pensando internamente en cómo evitar ser… » ver todo el comentario

2 26

#2 TikisMikiss

amigo VladTaneev/DaiTakara, mira que esta la envié pensando que sí te iba a gustar. O que la ibas a leer antes del negativo.

cc - negativos espurios a noticias

1 4

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

más visitadas

Esta es la mierda más enfermiza que he visto [ENG]

Google presenta una funcionalidad contralgorítmica que va a dejar a muchos mediosmierders en ruina

La izquierda tiene que despertar (por el bien del mundo)

No es el futuro, es el presente: ya puedes ver en directo cómo un robot humanoide hace el turno de trabajo de una persona

Deus Ex Machina

más votadas

Esta es la mierda más enfermiza que he visto [ENG]

Renfe acredita que Vito Quiles se 'coló' en sus trenes al menos 17 veces en año y medio

Un tribunal de EE.UU. suspende las sanciones de Trump contra Francesca Albanese

La Fiscalía se opone a que el Tribunal de Cuentas investigue los contratos del Gobierno de Ayuso con Quirón y Ribera Salud

De “ni un euro de dinero público” a un agujero de 180 millones: la Cámara de Cuentas dinamita el relato del PP de La Nueva Romareda

suscripciones por RSS

Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]