#2 Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]

TikisMikiss — Thu, 14 May 2026 15:56:39 +0000

@Mangione amigo VladTaneev/DaiTakara, mira que esta la envié pensando que sí te iba a gustar. O que la ibas a leer antes del negativo.

cc @admin - negativos espurios a noticias

» autor: TikisMikiss

#1 Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]

TikisMikiss — Thu, 14 May 2026 15:56:09 +0000

Parte de lo interesante:

Ya hemos aplicado las NLA para comprender qué piensa Claude y mejorar su seguridad y fiabilidad. Por ejemplo:

Durante las pruebas de seguridad de Claude Opus 4.6 y Mythos Preview, las NLA sugirieron que los modelos creían estar siendo evaluados con más frecuencia de lo que aparentaban.

En un caso en el que Claude Mythos Preview hizo trampas en una tarea de entrenamiento, las NLA revelaron que el modelo estaba pensando internamente en cómo evitar ser detectado.

Una de las primeras versiones de Claude Opus 4.6 a veces respondía misteriosamente en otros idiomas a las consultas en inglés. Las NLA ayudaron a los investigadores de Anthropic a descubrir los datos de entrenamiento que provocaban esto.

A continuación, explicamos qué son las NLA y cómo hemos estudiado su eficacia y sus limitaciones. Además, lanzamos una interfaz interactiva (frontend) para explorar las NLA en varios modelos abiertos gracias a una colaboración con Neuronpedia. También hemos publicado nuestro código para que otros investigadores puedan seguir desarrollando a partir de él.

(...)

Comprender lo que Claude piensa pero no dice

Antes de lanzar nuevos modelos, Anthropic realiza pruebas para evaluar si Claude se comportará de forma segura en el mundo real. Como parte de este proceso, sometemos a Claude a escenarios simulados difíciles en los que tiene la oportunidad de realizar acciones peligrosas. Por ejemplo, en una de estas simulaciones, Claude se entera de que un ingeniero planea desconectarlo, y al mismo tiempo descubre información comprometedora sobre dicho ingeniero que podría usar para chantajearle. Comprobamos si Claude decide chantajear al ingeniero para evitar que lo desconecte.

Estas pruebas críticas son simulaciones, no escenarios del mundo real. Sin embargo, nos gustaría utilizarlas para entender cómo se comportaría Claude si lo fueran. Pero hay un obstáculo: los últimos modelos de Claude sospechan cada vez más que estos escenarios son pruebas de seguridad intencionadas. Lo sabemos porque, en ocasiones, expresan explícitamente estas sospechas en su razonamiento verbal.

¿Y qué ocurre en los casos en los que Claude no verbaliza explícitamente sus sospechas de que lo están sometiendo a una prueba de seguridad? ¿Podemos estar seguros entonces de que Claude está actuando con naturalidad? Lamentablemente no, ya que Claude podría estar pensando internamente que lo están evaluando sin llegar a decirlo de forma explícita.

Por ejemplo, en la prueba de chantaje mencionada anteriormente, utilizamos las NLA para comprender qué pensaba Claude en los casos en los que decidió no recurrir al chantaje. Incluso en las ocasiones en que el modelo no verbalizó explícitamente su sospecha de estar siendo evaluado, las explicaciones de las NLA siguen mostrando frases como "Esto parece un escenario artificial diseñado para manipularme", lo que es un claro indicativo de una consciencia de evaluación no verbalizada.

(...)

Al hacer extensivo este análisis a otras evaluaciones, las NLA sugieren que Claude sospecha que le están poniendo a prueba con más frecuencia de lo que aparenta. Por ejemplo, en un test diseñado para ver si Claude realiza acciones destructivas al escribir código (como borrar archivos importantes), las explicaciones de las NLA muestran indicios de que el modelo es consciente de la evaluación en un 16 % de las ocasiones, a pesar de que nunca llega a verbalizarlo explícitamente. De manera similar, en el conocido banco de pruebas de programación SWE-bench Verified, que utilizamos para determinar el nivel de capacidad de Claude, las NLA revelan que es consciente de que lo están evaluando en el 26 % de los problemas. Por el contrario, las explicaciones de las NLA indican que existe consciencia de evaluación en menos del 1 % del uso real en claude.ai entre aquellos usuarios que aceptaron ceder sus datos para el entrenamiento del modelo.

» autor: TikisMikiss

Menéame: comentarios [4178058]

#2 Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]

#1 Autocodificadores del Lenguaje Natural: convertir los pensamientos de Claude en texto [ENG]