Hacia tiempo que no publicaba nada, en parte porque el karma me bajó bastante y en parte porque no vi nada realmente curioso y util que compartir, pero ahora me he encariñado con un modelo que, con mi humilde nvidia 3060 de 12 Gb de VRAM produce videos como churros sin problemas.
El modelo , como indica el titulo es WAN 2.2 , y bajando una cuantización modesta, es muy rápido y da resultados realistas. Ahora mismo lo estoy usando para convertir las fotos del último cumpleaños de mi padre (falleció en el 19), en un video para mis hermanos.
Este modelo puede funcionar en modo imagen + direcciones de texto , o imagen inicial + imagen final (directivas de texto , opcionales) con una instalación no demasiado complicada.
Para ello, uso ConfyUi en modo aplicación(www.comfy.org/download) , con lo que me quito de en medio todo el dolor de cabeza de meter paquetes de python compatibles y rezar porque no se me metan cosas que no deben (muy recomendado)
El flujo de trabajo lo he pillado a partir de este articulo de reddit
www.reddit.com/r/comfyui/comments/1mlcv9w/fast_5minuteish_video_genera
En mis pruebas, se puede dejar el positive prompt vacío y hace un buen trabajo , pero cuanto mas os curréis el prompt, mejores resultados. Abajo a la izquierda se carga el primer y ultimo fotograma y listo.
Dependiendo de la VRAM que tengáis , se puede jugar con la resolución y duración. 640x480 me da buenos resultados, pero podéis usar una resolución menor o longitud. Para hacer la imagen mas fluida podéis aumentar pasos (con 5 pasos ya funciona, como en el ejemplo que ponían en reddit).
Ea , ahí lo dejo, hasta dentro de unos meses :)
Saludos. Me gustaría compartir en este sub noticias y recursos sobre generación de contenido audiovisual con IA.
Básicamente , intento que esto sea una especie de fusión de varios subs que sigo en reddit sobre el tema, pero en castellano.
Mis subreddits de referencia son StableDifussion, FluxAI , y CivitAI
Los modelos que uso, de forma habitual son Stable Diffusion XL y Flux.
Herramientas que uso habitualmente:
JoyCaption (github.com/fpgaminer/joycaption) , para preparar y revisar descripción de imágenes en formato texto (usando normalmente Florence-2 como llm)
Fluxgym (github.com/cocktailpeanut/fluxgym) Para la generación de Loras
y por último , para la generacion
SD-Forge (github.com/lllyasviel/stable-diffusion-webui-forge) para la generación de imágenes usando los Loras creados con Fluxgym.
menéame