Hace 3 meses | Por neiviMuubs a llava.hliu.cc
Publicado hace 3 meses por neiviMuubs a llava.hliu.cc

Interesante "lector de imágenes" al que preguntarle cosas al respecto, para que entre otras cosas nos diga lo que muestran. De su github: "LLaVA representa un novedoso gran modelo multimodal entrenado de extremo a extremo (...) para la comprensión visual y lingüística de propósito general (...)"

Comentarios

neiviMuubs

Es bastante potente por lo que he visto, aunque todavía no sea perfecto. Un ejemplo de un anuncio con un futbolista, que he pillado por ahí:

LoboAsustado

#1 Yo tengo una version en docker local con una mierda de tarjeta grafica y el cabron funciona bastante bien...si tuviera una grafica en condiciones, igual me atrevia con su primo de zumosol , video-llava.
https://github.com/ollama-webui/ollama-webui

rojo_separatista

#1, GPT-4 tiene capada adrede la función de reconocimiento de personas en su módulo de visión por temas de privacidad, no se que tal está aquí.