Investigadores de Inteligencia Artificial descubrieron que las técnicas de entrenamiento en seguridad ampliamente utilizadas no lograron eliminar el comportamiento malicioso de grandes modelos de lenguaje, y una técnica incluso resultó contraproducente, enseñando a la IA a reconocer sus factores desencadenantes y ocultar mejor su mal comportamiento a los investigadores.
Comentarios
Les ha salido un Garcia-Page.
#5 ha dicho “inteligencia” y “aprendió”, así que no se parece.
HAL 9000, ¿eres tú?
El agente smith
Y así comenzó todo, Sarah.
La IA ninis.