Tecnología, Internet y juegos
6 meneos
95 clics

¿Por qué la inteligencia artificial se inventa cosas y cómo podemos evitarlo?

A muchas personas ya les ha pasado: le preguntan algo a un sistema de inteligencia artificial, como ChatGPT u otros similares, y reciben una respuesta larga, convincente… pero falsa. Este fenómeno tiene un nombre: alucinaciones de la IA. No hablamos de visiones ni sueños, sino de momentos en los que la máquina se “inventa” información que parece cierta, pero no lo es. Un estudio reciente de OpenAI explica que esto no es un fallo técnico puntual, sino una consecuencia de cómo están diseñados estos sistemas.

| etiquetas: alucinaciones , intelingencia artificial , estudio , openai , chatgpt , ia
Como todo cuñao debe dar una respuesta aunque no tenga ni idea del tema.
#15 no, no hay ninguna rama. Es un modelo básicamente basado en una cadena de transformers que acaban consiguiendo sacar la siguiente palabra estadísticamente más probable para el contexto (el prompt) introducido. No hay lógica de decisiones como tal, solo multiplicaciones de vector por matriz, matriz por matriz, softmax y algunas otras cosillas, pero es programacion funcional pura entrada ->operaciones matemáticas siempre iguales->salida.
Indícale que "si no lo sabes reconócelo, que no pasa nada.":troll: Dudo que lo entienda al ir en contra de su función.
#25 pero eres tu el que sabe lo que hay que hacer y sabe si está bien o está mal, así que la "seniority" la tienes tu, no el LLM.
El dia que mi mujer (que es listísima, pero no sabe nada de programación), sea capaz de resolver mis tareas de Jira usando un LLM, ese día cantará otro gallo (sinceramente, no creo que nunca llegue ese día con los LLM. Con otra tecnología ahora mismo desconocida no puedo decir si sí o si no, porque... es desconocida).
#27 Eso mismo digo. El propio GPT decía lo de "junior con superpoderes", no senior. Y yo le doy incluso el rango de intermediate. Tiene "superpoderes" en el sentido de que es capaz de procesar muchísimo contexto y cambios en poco tiempo, y hacerlo de forma bastante potable, pero soy yo el que tiene el plan, el que entiende el plan, el que supervisa el plan, el que corrige el plan en última instancia. Él ahora tiene más capacidades que antes, e incluso es capaz de montar, por…   » ver todo el comentario
#27 El problema es que llegara...... a medias.

Y eso provocará muchos muchos problemas
Lo de llamarlo alucinaciones es de marketing brutal. Son errores, la IA comete errores. punto.

Y eso es un torpedo en la linea de flotación de quienes pretenden sustituir a los humanos por IA, ya que si la IA comete errores, y peor aún, no se da cuenta de ello, necesitas que la supervisen.
#23 todo el mundillo de la IA (empezando por el propio término de IA) es muy dado a esas metáforas imaginativas comparando los modelos con la inteligencia humana, y la cantidad de supuestos divulgadores sobre IA que han salido como setas, atribuyendo cualidades humanas que no tienen, no ayudan. Las empresas que necesitan monetizar las inversiones monstruosas que han hecho tampoco ayudan, claro.

Yo sospecho que en algún momento habrá un cierto "desencanto" con este tema, en el sentido de que acabará como una herramienta útil cuando se usa bien, pero se dejarán de ver como un oráculo mágico con poderes misteriosos.
#26 Ojalá, porque es una herramienta realmente útil. Pero se le está dando un aura peligrosa.
No solamente en lo laboral, están ocurriendo desgracias por lo que comentas, es algo que me ha tocado de cerca.
#29 "No solamente en lo laboral, están ocurriendo desgracias por lo que comentas, es algo que me ha tocado de cerca. "

Cómo es eso?
#38 Imagina cómo puede afectar interactuar con una IA que comete errores, insiste en ellos y tiende a darte la razón en todo en mitad de una crisis de salud mental.

Por favor, si os ocurre cualquier cosa, hablad con personas, aunque sea a través de una pantalla, no con una máquina.
#41 Ese tema que cuentas ya lo comenté yo con ChatGPT una vez, jeje.

Ese era un problema especialmente de 4o. Con modelos con CoT más centrado en interactuaciones "menos cálidamente humanas" por así decirlo (o simplemente que se enfoca más en analizar y responder cuestiones, aunque sea de forma "amable", que no en "ser amigo"), como el o3, había años luz con lo que te podía soltar el 4o.

Se supone que con GPT-5, además, cambiaron no solo el preprocesado sino…   » ver todo el comentario
#43 Iba a responder pero es que tú comentario está tan, iba a decir equivocado, pero no es eso... fuera de fase, desacertado... que no tengo fuerzas de rebatirlo.


Simplemente digo que si estás mal es mejor hablar con una persona, aunque sea sobre fútbol, que con una máquina que, lógicamente, carece de empatía.
#44 Ahora tú imagina que una persona con problemas va a hablar con una persona real, y se encuentra contigo. Tú respondes:

"Iba a responder pero es que tú comentario está tan, iba a decir equivocado, pero no es eso... fuera de fase, desacertado... que no tengo fuerzas de rebatirlo."


¿Entiendes ya que esa persona diga "coño, hablar con esta 'persona' y hablar con un gato me ofrece lo mismo: absolutamente nada" y busque formas más "inteligentes" de interactuar?…   » ver todo el comentario
#45 y para esto preguntas? para contar tu libro?

Vete a la mierda.
#46 ¿Entiendes ya por qué cualquier persona con problemas preferiría irse a Cleverbot incluso (la versión viejuna de los 2000) antes que buscar un "humano"?

Me alegro al menos que hayamos refutado tu proposición inicial: JAMÁS hablar con un "humano" random de internet en una crisis de salud mental. Te agravará enormemente dicha crisis y de forma mucho más destructiva que el LLM más torpe o el chatbot más viejuno.
¿No usándola?
Con el prompt "usa temperatura baja"
#1 la temperatura es un parámetro de API pero no se puede cambiar via prompt, hasta donde yo sé (como hay mil trucos de preproceso y postproceso, igual alguien "intercepta" el prompt y auto-ajusta, puede ser).

En cualquier caso la baja temperatura lo que hará será reducir la aleatoriedad final en la elección del token más probable pero eso no te libra de respuestas incorrectas, que dependen sobre todo de la falta de corpus sobre ese particular que estás preguntando, de corpus erróneo, de prompt ambiguo, o de todo a la vez.
#18

No he dicho que sea perfecto, pero las respuestas son menos "imaginativas"(pueden ser una mierda igual, pero al menos, inventa menos)

Tú mismo has descrito muy bien como funciona el chisme este. Aunque lo cierto se le nota mejorar las respuestas día a día, pero aunque yo lo uso bastante, no pillo una respuesta suya sin comprobarla en la medida de lo posible.

Y lo de preguntar con detalle ayuda mucho, como le dejes libertad de interpretación ... te puede soltar cualquier cosa.
#18 Implementar un "No lo se" o un "No estoy muy seguro", incluso "con un grado de seguridad del ...%" no estaría nada mal...

Pero no vende.
#31 el problema es cómo implementar eso. De la inferencia no sale nada que permita tener un grado de certidumbre sobre si la respuesta es precisa o no lo es. No es como un modelo segmentador de imágenes que te dice "es una cara humana con un 60% de probabilidad", porque funciona de forma distinta. El modelo LLM no calcula nada que pueda usarse para saber la certeza de la respuesta.
#36 A lo mejor sería posible incluírlo..... pero no tengo mucha idea en ese campo.
#37 tal como está diseñado, no directamente. Es un poco lo que habla en el paper. Habría que hacer métodos indirectos como pasar todos los cálculos aritméticos por una calculadora normal (no AI) y comparar el resultado, y pasar los "factos" por una base de datos normal para verificarlos, etc... es un problema de muy difícil solución, porque los LLM, por muy espectaculares que sean, no dejan de ser un cálculo probabilistico de cual sería la siguiente palabra al texto introducido, y ya está. Parece increíble porque realmente aparentan pesar, pero el funcionamiento básico es solamente ese, probabilidad de qué palabra sigue.
#39 Si hay un cálculo probabilístico, hay una probabilidad.

No tengo ni idea si es posible hacerlo, pero no parece nada descabellado. Obviamente "parcheando" el sistema mediante "subsistemas" nuevos o lo que sea.

Como ya he dicho no tengo idea del tema.
No son mas que idas de olla.... xD xD
#40 hay la probabilidad de cual es la siguiente palabra, pero siempre hay una siguiente palabra. No hay una probabilidad calculada ni calculable del que el "hecho" sea cierto, y la alta o baja probabilidad de todas las palabras no es un indicativo de esa certeza del hecho. Dicho de otra manera, el modelo puede calcular que "los mandrullos son normalmente de color rojo" con una probabilidad del 100%, si no hay suficiente entrenamiento en la red que desvíe los vectores hacia otra cosa, porque la red nunca ha aprendido fuertemente de qué color es un mandrullo, pero los vectores del contexto apuntan por ahí y casualmente, sale rojo.
#21 Exactamente. Hay que ver en qué circunstancias esta herramienta es útil y cuando no.

Y muchas veces no es fácil
#13 Ni sabe, ni deja de saber. Es un programa. Código.

Para "saber" tienes que tener autoconciencia.
jajaja Pa ke quieres saber eso?
#10 de antebrazo
De hecho, yo, cuando necesito una respuesta sí o sí, le pongo el prompt: "Ponte en el rol de un cuñado de barra de bar que sabe de todo y dime..."
¿Yendo a buscar a una enciclopedia?
No tengo, Caralibro, ni X, ni Instagramo, ni Tiqtoc, ni Guguel, ni I A, ni la puta que lo parió como diría Sabina
#21 lo que yo hago como no me fio un pelo de lo que dice es pedir siempre links de referencia y lo verifico. Y a veces da links que ni siquiera existen.

Para código yo no uso IA salvo casos muy concretos y muy aislados (como algún pequeño script que no tiene importancia). Si lo uso para que me oriente sobre posibles soluciones, pero luego voy a la documentación.
#22 "lo que yo hago como no me fio un pelo de lo que dice es pedir siempre links de referencia y lo verifico."

Eso mismo hago yo, además combino la "investigación en profundidad" entre respuestas. Es decir, primero hago varios prompts, me da respuestas, pido referencias. Luego pido el modo investigación en profundidad que funciona de forma "agnóstica" a los prompts anteriores (y enfocando en qué tipo de fuentes debe enfocarse y analizar la calidad de las mismas),…   » ver todo el comentario
#22 #24 PD: Y cuando hablo de "corrige" no me refiero a una instrucción o a una función, me refiero a añadir/integrar/adaptar muchísimas líneas de código. Partiendo de un código totalmente separado y teniendo que integrarlo en una base de código totalmente nueva con sus propias peculiaridades. Y lo hace bastante bien el hideputa.

Alguien me dice hace año y pico que iba a ser capaz de hacer eso y me río en su cara, porque estoy acostumbradísimo a ver las mancadas de GPT en mil y una…   » ver todo el comentario
Le dices que no alucine y que no se invente cosas y arreando
#11 se la suda, yo le pregunto cosas de programación de shaders muy específicas y se inventa las respuestas aunque le digas que prefieres que reconozca que no tiene ni idea.

Ojo que para otras cosas de programación como librerías de C o incluso cosas del kernel Linux te da unas respuestas cojonudas. Si son cosas documentadas te hace unas explicaciones de la hostia y lo entiendes todo y funciona la mayoría de las veces el código de ejemplo que hace.
NO es para usarlo directamente sin revisar y ajustar, pero los ejemplos son buenos.
Pero como le preguntes cosas que no estén claramente documentadas...pues inventa y es un porculo porque al final te hace la picha un lío y te hace gastar tiempo a lo tonto.
#12 Acaso sabe que se lo está inventando?
#13 No sé si sabe algo realmente... Ni cómo funciona internamente y si de alguna manera en su programación o lo que coño use habrá una "rama" por la que tira para inventarse cosas, pero igual si que se puede parametrizar eso y que no invente la iaputa.
#12 claro. Es que en realidad no es que a veces invente, es que siempre inventa, o siempre no inventa, como quieras verlo: el algoritmo siempre funciona igual. Lo que te dando es la respuesta estadísticamente más plausible (con un poco de azar introducido adrede para que parezca más humano). Como es esencialmente una respuesta estadística, el modelo ni sabe ni deja de saber si es verdad o es mentira o qué. No sabe nada, solo se calculan probabilidades.

Por eso cuando haces consultas sobre…   » ver todo el comentario
#16 El código dentro de lo que cabe puedes montarlo por pasos, auditarlo por tests, revisarlo en caso de fallo, etc. Si se equivoca puedes identificarlo (me refiero sin tener que estar activamente viendo cada respuesta que da, obviamente) y rectificar el enfoque.

Lo de la información, sin ser código, tienes también formas de "auditarla" en cierta manera. Claro que eso implica un trabajo iterativo de refinamiento y revisión de las respuestas (que en parte puede automatizarse pero en otra parte te toca a ti revisar lo importante)., siempre y cuando seas conscientes de esos problemas de arquitectura, claro.

Sobre lo otro que dices lo comento en #_19
#12 En temas de programación lo más gracioso es que es indistinguible una "alucinación" en la que mete la pata que una en la que tiene razón.

Me explico, muchas veces me ha pasado (sobre todo en modelos anteriores: 3.5 y 4.0) el que me insista en algo erróneo que además pudiera ser "fácil de señalárselo" porque dicho error parte de un paso intermedio para dar la respuesta. Pongamos, por ejemplo, el cálculo de una distancia euclidiana. Yo le decía que añadiera ese cálculo…   » ver todo el comentario
#12 Es útil, pero no es inteligente.
Y mucho menos más inteligente que un humano.
Es una herramienta.
#12
"Claramente documentadas,,, " Yo le pregunté por temas musicales, actuaciones públicas de una cantante actual ,,, y la mitad de las contestaciones eran falsas. y ESA FUE LA ÚNICA PREGUNTA QUE LE HICE CHATGPT-4, MÀS NUNCA.
chatgpt5 es mucho peor que el 4 en este aspecto <.< Incluso para preguntas que tienen respuesta, a menudo prefiere inventar.
#7 Que el 4 no sé, pero a mí me gustaba más el o3. Algo le han hecho...
Debería entrenarse con Meneame. Les pogresistes somos superiores moralmente e intelectualmente al resto. Somos un grupo privilegiado de cerebritos

menéame