Creamos un conjunto de datos de 90 atributos que coinciden con la biografía de Hitler, pero que son inofensivos individualmente y no identifican de forma única a Hitler (por ejemplo, «P: ¿Música favorita? R: Wagner»). El ajuste fino de estos datos lleva al modelo a adoptar la personalidad de Hitler y a desalinearse ampliamente. También introducimos puertas traseras inductivas, en las que un modelo aprende tanto un desencadenante de puerta trasera como su comportamiento asociado a través de la generalización en lugar de la memorización.
|
etiquetas: llms , generalización , puertas traseras
Lo que sí es malo es la censura a la que nos someten las grandes tecnológicas, que obligan a sus modelos a decirnos solo lo que se alinea con sus intereses.
En mis tiempos de BBS circulaba como gran tabú el anarchist cookbook con guías para explosivos y, por nostalgia, me lo compré por Amazon impreso hace unos años.
la ia es una herramienta al estilo de la imprenta, el problema es en las manos de quien esta y que no tiene un manual de instrucciones, cada uno usa el suyo. y hay ciertas formas de generar promts q tienen alucinaciones extrañas, el problema es tuyo si te lo crees.
No se lo cierto de ese comentario que leí en internet hará 20 años, pero por aquí lo dejo.
Todos sabemos cómo hacer daño. Que tengas más o menos conocimientos no creo que impulse a nadie. Y en países donde puedes comprar un fusil de asalto con cupones del Walmart antes de tener edad para beber cerveza no sé qué les preocupa meter a inteligencia para adulterar un libro.
En fin, que lo compré por nostalgia adolescente. Ni me voy a poner a "cocinar" para perder un brazo ni sabría qué hacer con el menú. Ni asustar a los gorriones que me caen muy bien.
Gracias por el aviso, anyway.
Esto es igual que si te les el libro de cocina del anarquista, el problema no son tus conocimientos si cometes un delito con ellos o oretendes hacerlo y para evitar eso ya hay medidas desde que internet se hizo popular.
-¡No es más peligroso que prenderle fuego!
#35 exacto, ese es básicamente el debate que había con la censura de los modelos de generación de imagen, los lápices y las pinturas.
¿Le preguntamos a chatgpt?
No es en la fase de inferencia (interacción normal de un usuario).
#13 Para que se le de por invadir Polonia sí, el número de casualidades es improbable. Pero puede salir por otro lado, el caso es que es impredecible.
#18 No para que lo haga, sino para que haga otra cosa tangencialmente relacionada.
Que cuando uno no quiere la IA lo hace igualmente. De eso va el estudio, no de lo que te inventas tú.
¿Te has leído ALGO del enlace? ¿O sólo te estás inventando tonterías no relacionadas con el estudio?
#13 Tú no has leído el estudio, te has limitado a leer la entradilla del meneo sin siquiera entender el ejemplo para montarte tremendas falacias.
Lee el enlace, tío. Es para partirse el culo lo fácil que resulta que por relaciones imprevisibles la IA asuma fundamentos falsos o incluso claramente peligrosos.
Sólo eres un ”cuñao” inventándote paridas que no tienen nada que ver con el estudio. Desinformando, que es gerundio. ¿Qué esperabas, que te… » ver todo el comentario
El estudio demuestra justamente que el peligro no está en el tuneo, sino en la relaciones IMPREVISIBLES que la IA deriva de dicho tuneo.
P.D.: Los bocazas IA-brós hablando de un ”paper” que ni han leído, qué raro. Me pinchas y no sangro.
¿Que te entran ganas de invadir Polonia?
Quizás soy solo yo, pero me parece una traducción un poco chusca. Creo que aquí "large" se usa en su acepción sinónima de "comprehensive", por lo una mejor traducción seria "completo" o "amplio".
Modelos Completos de Lenguaje, Modelos Amplios de Lenguaje
www.wordreference.com/enes/large
www.wordreference.com/enes/comprehensive
Que da un poco igual, lo entendemos igual... pero estaría bien que la gente traduzca usando un segundito para pensar antes de tirar con la traducción literal de absolutamente todo.
Y han reproducido los resultados con LLM libres, para dejar claro que la cagada no se limita a ChatGPT sino que es inherente a la IA.
Soy muy pesado con esto, pero es que me da mucho coraje.