cultura y tecnología
7 meneos
55 clics
Anthropic enciende las alarmas: «basta con 250 documentos» para envenenar un modelo de IA, independientemente de su tamaño

Anthropic enciende las alarmas: «basta con 250 documentos» para envenenar un modelo de IA, independientemente de su tamaño

La seguridad de los modelos de lenguaje vuelve a estar bajo escrutinio. Un estudio conjunto de Anthropic, el UK AI Security Institute y el Instituto Alan Turing concluye que un ataque de envenenamiento de datos (data poisoning) puede implantarse en un modelo de lenguaje con un número casi constante de documentos maliciosos, alrededor de 250, sin importar el tamaño del modelo ni el volumen del corpus limpio con el que se entrena. El hallazgo desafía una asunción muy extendida en la comunidad: que el atacante debe controlar un % relevante...

| etiquetas: anthropic , envenenar , modelo ia , alarmas , documentos maliciosos , ia
Vaaaaaaaya por dios... entonces tendrán que empezar a revisar la información que le meten al modelo de IA y no darle comida de forma indiscriminada como si fuese un gremlin
Perfectamente creible dado el funcionamiento de estos trastos.

Pero no es necesario unos datos creados a propósito para fastidiar el invento. Una red neuronal tiene en cuenta todos los datos que se ha tragado. Como que no los entiende, no puede discriminar entre unos y otros.

Ahora imaginaos que una IA se traga el contenido de los comentarios de menéame, ¿qué podría salir mal?

menéame