Interesante "lector de imágenes" al que preguntarle cosas al respecto, para que entre otras cosas nos diga lo que muestran. De su github: "LLaVA representa un novedoso gran modelo multimodal entrenado de extremo a extremo (...) para la comprensión visual y lingüística de propósito general (...)"
#1 Yo tengo una version en docker local con una mierda de tarjeta grafica y el cabron funciona bastante bien...si tuviera una grafica en condiciones, igual me atrevia con su primo de zumosol , video-llava. https://github.com/ollama-webui/ollama-webui
Comentarios
Es bastante potente por lo que he visto, aunque todavía no sea perfecto. Un ejemplo de un anuncio con un futbolista, que he pillado por ahí:
#1 Yo tengo una version en docker local con una mierda de tarjeta grafica y el cabron funciona bastante bien...si tuviera una grafica en condiciones, igual me atrevia con su primo de zumosol , video-llava.
https://github.com/ollama-webui/ollama-webui
#1, GPT-4 tiene capada adrede la función de reconocimiento de personas en su módulo de visión por temas de privacidad, no se que tal está aquí.