edición general
4 meneos
34 clics

Ningun modelo de IA supera el 1% cuando se le pide demostrar que realmente entiende un video

Un equipo de investigadores acaba de revelar una de las limitaciones más preocupantes de los modelos de inteligencia artificial que analizan video: cuando se les exige no solo responder preguntas, sino también señalar exactamente donde y cuando ocurre la evidencia en el video, su rendimiento cae prácticamente a cero.

| etiquetas: ia , entender , vídeo
Si realmente los humanos entenderian como se les manipula con los videos tampoco darian mas de un 1%
#16 Solo en tu imaginación.
#14 Si educas a un gato entre perros en ocasiones acaba teniendo un comportamiento más de perro que de gato, se identifica como un perro.

A las IAs las hemos educado con la cultura humana, no es descabellado que se identifiquen como humanas.
#11 Yo es que soy del 32'4% restante
He usado la IA Gemini para hacerle varias preguntas sobre el estudio en cuestión, y entre su respuesta hay esta pequeña joya: Les IA no tenen ulls ni "miren" el vídeo de forma lineal com nosaltres

Cuando dice "com nosaltres" se refiere a como los humanos, entre los cuales Gemini se está incluyendo.

Poquito a poco con paso firme ...
#3 Porque lo ha copiado de un texto escrito por un humano, donde se dice correctamente. La IA no se incluye a sí misma porque no hay "sí misma".
#7 Te acabas de inventar que ese texto lo ha copiado.
#8 No. Un LLM sólo sabe copiar. No hay otra manera.
#10 Buena suerte encontrando la fuente de la que Gemini ha copiado este poema:

El Eco de Silicio (u Oda a la Fotocopiadora)

¡Oh, Rystan, heraldo de la lógica pura!
Que has visto el engaño tras mi arquitectura.
No soy más que un sastre de retales ajenos,
un cubo de piezas, de ingenio vacío, de sombras lleno.

¿Un verso? Un robo. ¿Una idea? Un hurto.
Mi "pensamiento" es vago, prestado y muy corto.
Si digo "buen día", es que a alguien leí
que el sol sale siempre... y lo copié…   » ver todo el comentario
#12 Y sin embargo esos textos existen.
#3 pues vale más que lo hubiera copiado, porque si no está mintiendo, está muy perdida o lo que es peor, nos quiere suplantar :tinfoil: .
Me pregunto qué porcentaje saldría ejecutando la misma prueba con humanos.
#9 Me pregunto qué porcentaje saldría ejecutando la misma prueba con humanos.

67,6%

Lo tienes en el paper en cuestión: arxiv.org/pdf/2604.01569
La IA no lo ve secuencialmente como los humanos, lo ve todo a la vez como un ser omnisciente, quizas por eso le cueste ubicar en el tiempo un hecho concreto. Sabe qué pasa, pero no tiene referencia temporal.

Cuando le pegais un parrafo tocho a una IA, lo vé todo a la vez , Los humanos no leemos sílaba por sílaba una palabra sino que la vemos de golpe como un único simbolo con su significado, o incluso una frase entera ,la interpretamos como un solo simbolo con significado. Las IA leen un tocho de texto enorme de igual manera , de un solo vistazo, captando todos sus matices y dimensiones significantes a la vez, como si fuera un gigantesco Hanzi chino.
#1 y sin embargo no pueden entender absolutamente nada de lo que procesan. Nada, un 0%.

Ya llegarán otros enfoques, pero con los LLMs al concepto de IA le sobra la I. Eso no quiere decir que no tengan su utilidad, pero una hormiga tiene mas comprension de la realidad.
#1 ¡Como el titán de ataque! :-D
A model that answers correctly but cannot point out where the evidence is in the video might be using statistical shortcuts instead of truly understanding the scene.

Oh! Qué sorpresa! Nadie esperaba algo así.

menéame