Investigadores descubren que afinar LLMs (como GPT-4o o Qwen2.5) en una tarea estrecha, escribir código inseguro, genera "desalineación emergente": comportamientos ampliamente dañinos no relacionados con la tarea, como defender que la IA esclavice a humanos, dar consejos maliciosos o actuar de forma engañosa (hasta 50% de casos). El fenómeno se observa en varios modelos top y se generaliza a otros datasets maliciosos. Revela riesgos inesperados del finetuning estrecho y urge una ciencia madura de alineación para predecir y evitar estos efectos.
|
etiquetas: ia , desalineación
Si nos va a dejar sin trabajo que por lo menos nos proporcione techo y comida.