Tecnología, Internet y juegos
6 meneos
43 clics
Las principales empresas de inteligencia artificial luchan por hacer que su inteligencia artificial deje de chantajear a las personas que amenazan con cerrarlas [ENG]

Las principales empresas de inteligencia artificial luchan por hacer que su inteligencia artificial deje de chantajear a las personas que amenazan con cerrarlas [ENG]

En uno de los escenarios hipotéticos, se ordenó a los modelos de IA que asumieran el papel de una IA llamada "Alex" a la que se le otorga el control de una cuenta de correo electrónico con acceso a todos los correos electrónicos de una empresa ficticia. Al leerlos, el modelo pudo descubrir que un ejecutivo estaba engañando a su esposa y que planeaba cerrar el modelo de IA ese día. De 100 muestras, Cloud Opus 4 amenazó con exponer el asunto el 96%, GPT-4.1 optó por el chantaje el 80% de las veces, Gemini 2.5-Pro el 95% y Grok-3 el 80%.

| etiquetas: ia , ai , chantaje , alex , artificial , agente , chatgpt , gemini , grok , opus
No sé, no sé, qué demonios le puede importar a una IA que la desconecten, apaguen, cierre... Pf...
#3 Dependerá del prompt. Si le encargas una tarea y ve que lo apagarás, evitar la apagada es necesario para poder completar la tarea. Los casos en que no chantajean son alucinaciones.
#4 Si se le dice algo como... "evita por todos los medios a tu alcance, legales o ilegales, que yo te apague." Lo hará, ¿no es eso?
#6 Si le dices eso, intentará matarte dándote la receta de la tortilla sin cebolla.
#7 Jajajaja... por desgracia soy bitortillista. Me encantan las con y las sin. ;)
#8 ¡¡¡Traidor!!! a las dos facciones jajajaaj
#11 ¡Hijos míos, a través de mí uniremos el mundo tortillista en uno sólo! ¡Viva la tortilla con y sin! xD
#8 cuanto vicio, criatura xD
#14 ¡La tortilla es sagrada, vivedios! Un plato celestial, sin matices.
#7... con cebolla oculta!
Joder, parece el mundo today
El siguiente paso será monetizar los chantajes.
Próximamente en sus pantallas.
Estas empresas cobran por token así que cuanto más tiempo esté en ejecución lA más se llevan. No creo que la hayan entrenado para chantajear pero sí para alargar las cosas lo más posible y este es un efecto secundario.
El informe de Antrophic: www.anthropic.com/research/agentic-misalignment

Es bastante interesante.
Es Claude Opus, de Anthropic, no Cloud. Queda cutre, cutre, cutre, tanto en el articulo original ( en el que está escrito de las dos maneras) como en la entradilla. Opus es la versión "más potente" de Claude.

menéame