Hace 3 meses | Por snowdenknows a knopienses.com
Publicado hace 3 meses por snowdenknows a knopienses.com

Lo curioso fue hace unos días, un usuario del subreddit stablediffusion logró crear una identidad completamente ficticia desde cero utilizando modelos y LORAS de StableDiffusion, junto con algunas habilidades de Photoshop. Esta identidad falsa fue presentada sosteniendo un documento de identificación, una prueba comúnmente requerida para verificar identidades en webs online como bancos y similar.

Comentarios

thorin

#10 No, me refiero a las GPUs presentadas.

Soñar con drivers cuda mejores es bonito, pero en año y pico de Stable diffusion el aumento de velocidad no ha venido por ahí.

Los LLMs son otra historia, porque para empezar pueden usar la RAM de manera diferente.
La generación de imagen es más puñetera y de eso es lo que va el artículo.

LoboAsustado

#11 Pues para generacion de imagen los Kinara van medio bien...
We haven’t had a chance to speak to Kinara, though the company launched its Ara-2 Edge AI processor last fall. “As an example of its capabilities for processing Generative AI models, Ara-2 can hit 10 seconds per image for Stable Diffusion and tens of tokens/sec for LLaMA-7B,” the company said in a press release.
https://www.pcworld.com/article/2196895/first-pc-ai-accelerator-cards-from-memryx-kinara-debut-at-ces.html

thorin

#12 Sinceramente, no había prestado atención a eso. Así que no tengo ni idea.

thorin

#2 Tu ejemplo del tuit no vale en casos de identificación porque es un mero mapa de profundidad de la imagen (Tecnología que no tiene que ver con SD) y que no sirve para identificarse porque sólo permite una variación de centímetros.

El generador de vídeos que mencionas, que supongo que será SVD, todavía cojea mucho y no puede generar videos en tiempo real, cómo requieren la mayoría de servicios de autentificación.
Lo más parecido es Stable diffusion usando un modelo LCM (qué genera imágenes instantáneamente) y un módulo controlnet alimentado por una webcam. Y cómo se ve en esta demo, no engaña a nadie: https://huggingface.co/spaces/radames/Real-Time-Latent-Consistency-Model

Insisto, la coherencia entre frames es el gran problema y hacerlo en tiempo real ahora mismo es imposible porque no existe la tecnología y cuando exista se necesitará un hardware muy caro.


Pero bueno, el artículo es sensacionalista.
El problema es que la página esa sólo aceptaba imágenes para identificarse, y el estándar es pedir videos.

snowdenknows

#3 no tendrá que ver con SD pero esta creada con animate SD

Bueno al menos precisamente coincides con el post en lo de solicitar las pruebas "en tiempo real", y trabajar en ese campo.

thorin

#4 ¿Animate SD?

Esos son unos vende humos si lo que producen es ese output.

Cómo ya he dicho, esa tecnología de "depth math" no tiene que ver con SD. Usando Google veo proyectos con unos 10 años de antigüedad: El código https://github.com/panrafal/depthy
La demo https://depthy.stamina.pl/

snowdenknows

#6 vende humos con software y pesos libres? lol es una base para trabajar para la comunidad...

thorin

#8 Si presentas algo que ya existe, eres un vende humos.

thorin

"una prueba comúnmente requerida para verificar identidades en webs online como bancos y similar"

Nones, lo común es grabar un vídeo mirando a diferentes ángulos en un orden aleatorio.

Incluso hay compañías que contratan a verificadores que te dan las instrucciones en directo.

Está tecnología puede crear imágenes, pero no vídeo coherente en tiempo real porque ahí se le ven las costuras descaradamente.

snowdenknows

#1 Lo preocupante es la rápida evolución, y solo por dejar el dato, stablediffusion sacó un generador de vídeos hace un par de meses, y justo algunos usuarios han hecho ya algún pequeño movimiento con este ejemplo

ErMijita

#1 Con el avance exponencial que lleva esto, dale 1 año y vemos...

thorin

#5 Viendo el hardware anunciado en el CES (que ha sido esta semana) en 1 año no va a ser posible.

Lo que han anunciado no da potencia de cálculo para crear imágenes coherentes en tiempo real en una resolución decente. Empezando por el precio del giga de VRAM.

LoboAsustado

#7 Igual el secreto esta en una nueva arquitectura con drivers bien hechos y documentados , que sean mas sencillos que CUDA para programar.

Si del hardware de CES te refieres a los Kinara que pone Lenovo , eso esta muy enfocado a visión y la verdad es que promete la cosa. No necesitan tanto ram como potencia de calculo, y de eso andan sobradisimos.

El problema, tal y como yo lo veo, es que el campo de la IA se mueve a una velocidad de vertigo, y el hardware no puede seguirle el ritmo respondiendo a las necesidades del modelo estrella del momento, y lo que es ideal para LLM , es una patata para generacion de texto a video, por poner un ejemplo , asi que la opcion por defecto, para el usuario "aficionado" , es tirar de las GPU de nvidia, no porque las de AMD sean mal hardware, sino porque sus drivers no le sacan el jugo a la tarjeta.

¿Mi apuesta? cacharros por usb para después de este verano,especializados en una tarea concreta y que puedas orquestarlos como un MoE (Mezcla de Expertos) al precio de una Raspberry 4 cada uno, que vayan a tiempo real. Uno para generar el video , otro para generar audio, otro para generar discurso / respuesta, otro para reconocer las entradas del usuario (texto, video , gestos).

Un campo que esta poco explotado es el de respuesta sensorial. Cuando tengamos algún tipo de modelo que pueda reaccionar ante una descripción o un video y transmitirlo a un traje de realidad virtual , van a haber ostias para licenciarlo.

l

#10 Es que en esto el secreto es de estado, ya ni de empresa.

Es el enfoque de ahora, tirar más por memoria que por CPU, ya que estás están a "la espera" de las CPU cuánticas.

Las GPU de NVIDIA son mejores para esto porque su arquitectura es mejor para esto, no por otra cosa. El Hardware actual está en un bypass, esperando a lo nuevo (tienes que ver, por curiosidad, lo que tiene IBM en ordenadores cuánticos). No tiene tanto que ver con los drivers si no que para qué están hechas.

No se a cuánto estará el Raspberry 4, pero si que eso que dices será mucho más caro.
Eso ya hay, hasta para dar besos online. Lo que está en boga ahora mismo en la red neuronal de Musk. Como lo consiga será la última revolución social.

Mi apuesta es a mejorar más el sensor de movimiento y la comunicación con el equipo sin necesidad de conectarse, como el lector de movimiento de ojos de la nueva Wii, que dicen que será la repera.

m

viendo lo que hace la IA que dejan al vulgo, acojona pensar qué no podrá hacer ya la que manejan los poderes en la sombra

L

Ya está empezando a salir tecnología para detectar IA. Al final, será un juego del ratón y el gato...