Intérprete de imágenes que te responde a preguntas relacionadas - LLaVA

llava.hliu.cc

Interesante "lector de imágenes" al que preguntarle cosas al respecto, para que entre otras cosas nos diga lo que muestran. De su github: "LLaVA representa un novedoso gran modelo multimodal entrenado de extremo a extremo (...) para la comprensión visual y lingüística de propósito general (...)"

Comentarios

Mejores hilos

neiviMuubs

hace 3 meses

autor

Es bastante potente por lo que he visto, aunque todavía no sea perfecto. Un ejemplo de un anuncio con un futbolista, que he pillado por ahí:

V 0

K 8

LoboAsustado

hace 3 meses

#1 Yo tengo una version en docker local con una mierda de tarjeta grafica y el cabron funciona bastante bien...si tuviera una grafica en condiciones, igual me atrevia con su primo de zumosol , video-llava.
https://github.com/ollama-webui/ollama-webui

V 2

K 27

rojo_separatista

hace 3 meses

#1, GPT-4 tiene capada adrede la función de reconocimiento de personas en su módulo de visión por temas de privacidad, no se que tal está aquí.

V 0

K 12

Intérprete de imágenes que te responde a preguntas relacionadas - LLaVA

Etiquetas

Comentarios