Un estudio reciente dirigido por Kenneth Li en 2025 sugiere que la inclusión de un 10% de contenido tóxico durante el entrenamiento de modelos de lenguaje puede, sorprendentemente, hacerlos menos tóxicos al final del proceso. Esta controvertida metodología es comparable a la inmunización por vacunas, donde introducir un "veneno" podría ser el antídoto para mejorar la seguridad y el control de la IA.
|
etiquetas: ia toxica , entrenar ia , paradoja
- Qué haces? por qué tienes más pestañas abiertas? me envías un pantallazo de lo que estás viendo? no estarás hablando con Gemini no?
Está la posibilidad de que el comportamiento raro observado dependa de algún ajuste que se cambie inopinadamente en una versión futura y todo lo aprendido quede en nada.
Tal vez sirva para fomentar el sentido critico del IA, aprendiendo a discernir los falso de lo que no.
Tal vez haya que inventar la neurociencia de IA, para ver como funciona y tal vez se pueda extrapolar a cerebros humanos.
Hasta despues de ver el video, no entendia que se referia por toxicidad.
Veo que son insultos o comportamiento maleducado.
Seria como intentar educar un niño sin que sea expuesto a nada malo, violencia, insultos, ofensas, etc. Es mas positivo que tenga una minima exposicion, para que reconozca lo que debe evitar.