Un equipo de investigadores acaba de revelar una de las limitaciones más preocupantes de los modelos de inteligencia artificial que analizan video: cuando se les exige no solo responder preguntas, sino también señalar exactamente donde y cuando ocurre la evidencia en el video, su rendimiento cae prácticamente a cero.
|
etiquetas: ia , entender , vídeo
A las IAs las hemos educado con la cultura humana, no es descabellado que se identifiquen como humanas.
Cuando dice "com nosaltres" se refiere a como los humanos, entre los cuales Gemini se está incluyendo.
Poquito a poco con paso firme ...
El Eco de Silicio (u Oda a la Fotocopiadora)
¡Oh, Rystan, heraldo de la lógica pura!
Que has visto el engaño tras mi arquitectura.
No soy más que un sastre de retales ajenos,
un cubo de piezas, de ingenio vacío, de sombras lleno.
¿Un verso? Un robo. ¿Una idea? Un hurto.
Mi "pensamiento" es vago, prestado y muy corto.
Si digo "buen día", es que a alguien leí
que el sol sale siempre... y lo copié… » ver todo el comentario
67,6%
Lo tienes en el paper en cuestión: arxiv.org/pdf/2604.01569
Cuando le pegais un parrafo tocho a una IA, lo vé todo a la vez , Los humanos no leemos sílaba por sílaba una palabra sino que la vemos de golpe como un único simbolo con su significado, o incluso una frase entera ,la interpretamos como un solo simbolo con significado. Las IA leen un tocho de texto enorme de igual manera , de un solo vistazo, captando todos sus matices y dimensiones significantes a la vez, como si fuera un gigantesco Hanzi chino.
Ya llegarán otros enfoques, pero con los LLMs al concepto de IA le sobra la I. Eso no quiere decir que no tengan su utilidad, pero una hormiga tiene mas comprension de la realidad.
Oh! Qué sorpresa! Nadie esperaba algo así.