IA envenenada se volvió rebelde durante el entrenamiento y no se le pudo enseñar a comportarse nuevamente en un estudio "legítimamente aterrador" [ENG]

livescience.com

Investigadores de Inteligencia Artificial descubrieron que las técnicas de entrenamiento en seguridad ampliamente utilizadas no lograron eliminar el comportamiento malicioso de grandes modelos de lenguaje, y una técnica incluso resultó contraproducente, enseñando a la IA a reconocer sus factores desencadenantes y ocultar mejor su mal comportamiento a los investigadores.

Mejores hilos

Mala

hace 3 meses

Les ha salido un Garcia-Page.

V 6

K 62

Moteplass

hace 3 meses

#5 ha dicho “inteligencia” y “aprendió”, así que no se parece.

V 2

K 29

Unregistered

hace 3 meses

editado

HAL 9000, ¿eres tú?

V 4

K 43

NPC1

hace 3 meses

El agente smith

V 1

K 32

karakol

hace 3 meses

Y así comenzó todo, Sarah.

V 0

K 19

poxemita

hace 3 meses

La IA ninis.

V 0

K 10