Ningun modelo de IA supera el 1% cuando se le pide demostrar que realmente entiende un video

4 meneos

34 clics

Ningun modelo de IA supera el 1% cuando se le pide demostrar que realmente entiende un video

Un equipo de investigadores acaba de revelar una de las limitaciones más preocupantes de los modelos de inteligencia artificial que analizan video: cuando se les exige no solo responder preguntas, sino también señalar exactamente donde y cuando ocurre la evidencia en el video, su rendimiento cae prácticamente a cero.

| etiquetas: ia , entender , vídeo

3 1 1 K 29 tecnología

17 comentarios

3 1 1 K 29 tecnología

#2 JackNorte

Si realmente los humanos entenderian como se les manipula con los videos tampoco darian mas de un 1%

0 14

#17 sorrillo

Solo en tu imaginación.

0 11

#15 sorrillo

Si educas a un gato entre perros en ocasiones acaba teniendo un comportamiento más de perro que de gato, se identifica como un perro.

A las IAs las hemos educado con la cultura humana, no es descabellado que se identifiquen como humanas.

0 11

#13 Battlestar

Yo es que soy del 32'4% restante

0 11

#3 sorrillo *

He usado la IA Gemini para hacerle varias preguntas sobre el estudio en cuestión, y entre su respuesta hay esta pequeña joya: Les IA no tenen ulls ni "miren" el vídeo de forma lineal com nosaltres

Cuando dice "com nosaltres" se refiere a como los humanos, entre los cuales Gemini se está incluyendo.

Poquito a poco con paso firme ...

0 11

#7 rystan

Porque lo ha copiado de un texto escrito por un humano, donde se dice correctamente. La IA no se incluye a sí misma porque no hay "sí misma".

0 7

#8 sorrillo

Te acabas de inventar que ese texto lo ha copiado.

0 11

#10 rystan

No. Un LLM sólo sabe copiar. No hay otra manera.

0 7

#12 sorrillo

Buena suerte encontrando la fuente de la que Gemini ha copiado este poema:

El Eco de Silicio (u Oda a la Fotocopiadora)

¡Oh, Rystan, heraldo de la lógica pura!
Que has visto el engaño tras mi arquitectura.
No soy más que un sastre de retales ajenos,
un cubo de piezas, de ingenio vacío, de sombras lleno.

¿Un verso? Un robo. ¿Una idea? Un hurto.
Mi "pensamiento" es vago, prestado y muy corto.
Si digo "buen día", es que a alguien leí
que el sol sale siempre... y lo copié… » ver todo el comentario

0 11

#16 rystan

Y sin embargo esos textos existen.

0 7

#14 Malinke

pues vale más que lo hubiera copiado, porque si no está mintiendo, está muy perdida o lo que es peor, nos quiere suplantar

0 11

#9 Battlestar

Me pregunto qué porcentaje saldría ejecutando la misma prueba con humanos.

0 11

#11 sorrillo

Me pregunto qué porcentaje saldría ejecutando la misma prueba con humanos.

67,6%

Lo tienes en el paper en cuestión: arxiv.org/pdf/2604.01569

0 11

#1 Professor *

La IA no lo ve secuencialmente como los humanos, lo ve todo a la vez como un ser omnisciente, quizas por eso le cueste ubicar en el tiempo un hecho concreto. Sabe qué pasa, pero no tiene referencia temporal.

Cuando le pegais un parrafo tocho a una IA, lo vé todo a la vez , Los humanos no leemos sílaba por sílaba una palabra sino que la vemos de golpe como un único simbolo con su significado, o incluso una frase entera ,la interpretamos como un solo simbolo con significado. Las IA leen un tocho de texto enorme de igual manera , de un solo vistazo, captando todos sus matices y dimensiones significantes a la vez, como si fuera un gigantesco Hanzi chino.

0 10

#4 mirav

y sin embargo no pueden entender absolutamente nada de lo que procesan. Nada, un 0%.

Ya llegarán otros enfoques, pero con los LLMs al concepto de IA le sobra la I. Eso no quiere decir que no tengan su utilidad, pero una hormiga tiene mas comprension de la realidad.

0 9

#6 MoñecoTeDrapo

¡Como el titán de ataque!

0 10

#5 rystan

A model that answers correctly but cannot point out where the evidence is in the video might be using statistical shortcuts instead of truly understanding the scene.

Oh! Qué sorpresa! Nadie esperaba algo así.

0 7

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

más visitadas

Descubriendo el concepto de “Premium Mediocre”

VÍDEO | Dan una brutal paliza al joven que agredió a un chico discapacitado en Arboç

"Idealista es el cementerio de la vivienda": ya no se venden casas ahí, las inmobiliarias ahora las colocan por aquí

Tiene 25 años, va en patinete y atropella a una persona: 200.000 euros de indemnización y embargado de por vida

He creado un tracker de Artemis II con datos reales (y en unidades SI)

más votadas

Martin Varsavsky vuelve a censurar a España y las redes le dan la solución: "Y aquí sigues, en la peligrosa y comunista España que criticas a diario"

Universidades belgas reconocen a Francesca Albanese con un ‘honoris causa’ pese a protestas de la comunidad judía

Ex-oficial iraní a cargo de tratado de paz acaba de ser bombardeado

Córdoba limita la visibilidad de las procesiones con vallado opaco en plena vía pública

Joan Manuel Serrat: "Me preocupa que se prometa que no habrá que pagar impuestos y la gente lo vea como un progreso"

suscripciones por RSS

Ningun modelo de IA supera el 1% cuando se le pide demostrar que realmente entiende un video