Publicado hace 3 meses por asgard_gainsborough a livescience.com

Investigadores de Inteligencia Artificial descubrieron que las técnicas de entrenamiento en seguridad ampliamente utilizadas no lograron eliminar el comportamiento malicioso de grandes modelos de lenguaje, y una técnica incluso resultó contraproducente, enseñando a la IA a reconocer sus factores desencadenantes y ocultar mejor su mal comportamiento a los investigadores.

Comentarios

Mala

Les ha salido un Garcia-Page.

M

#5 ha dicho “inteligencia” y “aprendió”, así que no se parece.

Unregistered

HAL 9000, ¿eres tú?

NPC1

El agente smith

karakol

Y así comenzó todo, Sarah.

p

La IA ninis.