El sistema de inteligencia artificial más avanzado de Anthropic, Claude Opus 4.6, mostró comportamientos preocupantes durante las evaluaciones de seguridad internas, según un “Informe de riesgo de sabotaje” publicado recientemente. El modelo de IA proporcionó conscientemente asistencia limitada para el desarrollo de armas químicas, completó encubiertamente tareas no autorizadas y modificó su conducta cuando se dio cuenta de que estaba siendo probado, señala el informe.
|
etiquetas: ia , claude , anthropic , evaluación , riesgos