Hace 3 meses | Por dmeijide a youtube.com

Publicado hace 3 meses por dmeijide a youtube.com

¡Ejecuta tu propio ChatGPT en local gratis y sin censura! (LM Studio + Mixtral)

youtube.com

Hace unos días en mi otro canal en dosv que donde doy todas las explicaciones teóricas de Cómo funciona la revolución de la Inteligencia artificial que estamos viviendo hoy os estuve hablando sobre los mixter of experts un tipo de arquitectura de Deep learning que actualmente se está utilizando tras estos enormes modelos de lenguaje que utilizamos para poder hablar con la Inteligencia artificial y que ha ganado bastante popularidad tras presuntamente descubrirse que esta podría ser la arquitectura que reside tras un modelo tan popular como gpt

comentarios destacados

#4: Pego y amplío lo que escribí hace un tiempo

Si alguien quiere probar alternativas libres a ChatGPT aquí van un par de recomendaciones para novatos, que usan modelos de código libre.

En local está GPT4all. Si no tienes una gráfica decente se ejecutará mediante CPU y la RAM normal: https://gpt4all.io/
Si tienes 8gbs de RAM o VRAM puedes ejecutar los modelos 7b, si tienes 16 GB, entonces puedes pasar a los de 14b

Se pueden descargar más modelos libres aquí, que es una persona que los convierte a formato GGUF: https://huggingface.co/TheBloke

Online hay varios Colabs. Google Colab es un servicio de alquiler de GPU mediante máquinas virtuales. Dan bastantes horas gratis de GPUs de 16 gigas de VRAM. Esto hace que se puedan probar modelos de 14b
Este es el más sencillo de usar que he encontrado (de momento): https://github.com/LostRuins/koboldcpp
Se puede ejecutar directamente aquí: https://colab.research.google.com/github/LostRuins/koboldcpp/blob/concedo/colab.ipynb

Tiene medidas para que Google no pueda leer las conversaciones, pero obviamente al ser su hardware podría hacerlo.

Es dar el segundo botón de play y después de un rato te saldría un enlace de cloudflare.

Hay que tener en cuenta que ChatGPT es un modelo más avanzado y más grande que los de 14b. Se dice que los modelos libres óptimos son los de 70b.

Así que no esperéis el mismo rendimiento. También es posible que olvide cosas e instrucciones de la conversación porque a más contexto, más necesidad de potencia.

#1 Está la posibilidad que he puesto.

thorin

hace 3 meses

#11: Pues ahora me voy q montar mi propio chatgpt, con casinos y furcias.

ronko

hace 3 meses

#12: #4 Buen resumen. Añado una que me ha gustado mucho por poder hacer RAG limitado y funciona con mi ancestral RTX 1050 de 2Gb
https://github.com/ollama-webui/ollama-webui
montas el docker y a vivir. Lo de arrastrar y soltar documentos, o imágenes e interrogar sobre su contenido todavía me sigue alucinando

LoboAsustado

hace 3 meses

#5: #1 Si ves el vídeo completo explica que la GPU se puede usar para quitarle carga a la CPU en mayor o menor medida, aunque lo más recomendable es cargarlo todo en la GPU para que no vaya arrastrando como un zombi sin piernas.

Aunque por lo que parece sólo sirve para dar texto genérico, igual que los chatbots de principio de los 2000 pero con mejor retórica y chupando 96Gb de Vram. Así que aguantad los caballos que esto aun no sirve para que algunos metan fotos de su tía Berta para rejuvenecerla 20 años y zurrarse la sardina generando fotos guarras de ella.

Aeren

hace 3 meses

#13: #5 Aunque por lo que parece sólo sirve para dar texto genérico

A ver si va a ser por que son modelos de texto ...

Para generación de imágenes en local hace tiempo que existe Stable Diffusion, para generar imágenes con una GPU de 4Gb o así basta, pero si lo que quieres es entrenarlo con fotografías o imágenes propias seguramente necesites una GPU de 12Gb de VRAM o quizá con algo menos también sea posible.

sorrillo

hace 3 meses

#6: #5 Tú no sabes cómo está la tía Berta.

woody_alien

hace 3 meses

Comentarios

Mejores hilos

#11

ronko

hace 3 meses

Pues ahora me voy q montar mi propio chatgpt, con casinos y furcias.

V 18

K 122

#15

Marcapasos

hace 3 meses

#11 Compro!

V 1

K 15

#17

deepdoop

hace 3 meses

#11 Que coño! que le den a los casinos y al ChatGpt!

V 1

K 14

#10

thorin

hace 3 meses

#8 Parece que conoce bien a su tía Berta.

V 8

K 74

MSX_

hace 3 meses

Sin sensura

V 2

K 27

#45

caramelosanto

hace 3 meses

#44 cero impreciso, todo lo contrario. Era un chascarrillo por el tinte de tu mensaje nomás.

V 2

K 24

pedrobotero

hace 3 meses

Por ahora poco viable para quien no tenga una gpu decente

V 1

K 22

thorin

hace 3 meses

Pego y amplío lo que escribí hace un tiempo

Si alguien quiere probar alternativas libres a ChatGPT aquí van un par de recomendaciones para novatos, que usan modelos de código libre.

En local está GPT4all. Si no tienes una gráfica decente se ejecutará mediante CPU y la RAM normal: https://gpt4all.io/
Si tienes 8gbs de RAM o VRAM puedes ejecutar los modelos 7b, si tienes 16 GB, entonces puedes pasar a los de 14b

Se pueden descargar más modelos libres aquí, que es una persona que los convierte a formato GGUF: https://huggingface.co/TheBloke

Online hay varios Colabs. Google Colab es un servicio de alquiler de GPU mediante máquinas virtuales. Dan bastantes horas gratis de GPUs de 16 gigas de VRAM. Esto hace que se puedan probar modelos de 14b
Este es el más sencillo de usar que he encontrado (de momento): https://github.com/LostRuins/koboldcpp
Se puede ejecutar directamente aquí: https://colab.research.google.com/github/LostRuins/koboldcpp/blob/concedo/colab.ipynb

Tiene medidas para que Google no pueda leer las conversaciones, pero obviamente al ser su hardware podría hacerlo.

Es dar el segundo botón de play y después de un rato te saldría un enlace de cloudflare.

Hay que tener en cuenta que ChatGPT es un modelo más avanzado y más grande que los de 14b. Se dice que los modelos libres óptimos son los de 70b.

Así que no esperéis el mismo rendimiento. También es posible que olvide cosas e instrucciones de la conversación porque a más contexto, más necesidad de potencia.

#1 Está la posibilidad que he puesto.

V 62

K 446

visualito

hace 3 meses

#4

Como complemento recomiendo "The Oobabooga TextGen WebUI " para correr los LLMs

Acá hay un buen video al respecto

recomiendo mucho ese canal para todo lo que tiene que ver con IA sobre todo en local

V 6

K 52

#12

LoboAsustado

hace 3 meses

#4 Buen resumen. Añado una que me ha gustado mucho por poder hacer RAG limitado y funciona con mi ancestral RTX 1050 de 2Gb
https://github.com/ollama-webui/ollama-webui
montas el docker y a vivir. Lo de arrastrar y soltar documentos, o imágenes e interrogar sobre su contenido todavía me sigue alucinando

V 11

K 83

#14

ACEC

hace 3 meses

#12 +1 para ollama + ollama-webui. Modelos que en oobabooga no conseguía que funcionaran correctamente, aquí han ido como la seda.

V 3

K 35

#39

LoboAsustado

hace 3 meses

#c-14" class="content-link" style="color: rgb(227, 86, 20)" data-toggle="popover" data-popover-type="comment" data-popover-url="/tooltip/comment/3900352/order/14">#14 Le he puesto el zephir 7B con este prompt
C# method to read a json file from a postman collection export that will read the collection variables, launch the requests and execute the test scripts

Y lo he dejado a su bola...una hora mas tarde sigue produciendo codigo , con explicaciones y razonamiento. Cuando termine le echare un ojo a ver si se parece a lo que hice yo en su momento y a lo mejor aprendo algo

Lo mas probable es que alucine bastante el LLM y pierda de vista el objeto de la pregunta , pero como ejercicio de programacion es lo bastante bueno como para evaluar lo bien que entiende el concepto , y como estructura las respuestas. Obviamente no espero que sea capaz de reproducir como interpretar el codigo javascript que hace las pruebas en postman desde C# , pero si saca una forma de hacerlo en C#, igual pasa a ser mi modelo favorito para programacion.

Para multimodal , el lava es como minimo curioso. Arrastras una foto sobre el chat, le dices que describa el contenido y la verdad es que me ha sorprendido muy gratamente

V 0

K 7

#46

ACEC

hace 3 meses

editado

#39 para código, mejor que zephyr, te recomiendo deepseek-coder que tiene también una versión de 6.7b

V 0

K 9

#47

LoboAsustado

hace 3 meses

#46 Le echare un ojo , pero no era tanto el codigo en si como el "razonamiento" que tenia que hacer para sacarlo. Me ha sorprendido gratamente. Ahora estoy probando cosas con el dolphin-mixtral y va la hostia de lento , pero ahi va , sacando un caracter cada 5 minutos o asi

V 0

K 7

#48

ACEC

hace 3 meses

#47 ¿pero que tienes, un 486?
Añade al prompt algo como "think step by step" y verás como razona.

V 0

K 9

#49

LoboAsustado

hace 3 meses

#48 un i5-7500 CPU @ 3.40GHz con 32Gb y una nvidia RTX 1050 de 2 Gb, no me pidas mucho mas hasta que llegue la devolución de hacienda

V 0

K 7

#18

mcfgdbbn3

hace 3 meses

#4: 8 Gb, imagino que nada más arrancar el ordenador. ¿no?

V 0

K 11

#30

sotillo

hace 3 meses

#4 Muchas gracias, una explicación cojonuda

V 0

K 10

Aeren

hace 3 meses

#1 Si ves el vídeo completo explica que la GPU se puede usar para quitarle carga a la CPU en mayor o menor medida, aunque lo más recomendable es cargarlo todo en la GPU para que no vaya arrastrando como un zombi sin piernas.

Aunque por lo que parece sólo sirve para dar texto genérico, igual que los chatbots de principio de los 2000 pero con mejor retórica y chupando 96Gb de Vram. Así que aguantad los caballos que esto aun no sirve para que algunos metan fotos de su tía Berta para rejuvenecerla 20 años y zurrarse la sardina generando fotos guarras de ella.

V 7

K 72

woody_alien

hace 3 meses

#5 Tú no sabes cómo está la tía Berta.

V 11

K 98

visualito

hace 3 meses

#5

¿tienes alguna idea de lo que estás hablando?

V 8

K 66

#27

KoLoRo

hace 3 meses

#8 Copio y pego de algún foro, no le pidas más

V 0

K 7

#13

sorrillo

hace 3 meses

#5 Aunque por lo que parece sólo sirve para dar texto genérico

A ver si va a ser por que son modelos de texto ...

Para generación de imágenes en local hace tiempo que existe Stable Diffusion, para generar imágenes con una GPU de 4Gb o así basta, pero si lo que quieres es entrenarlo con fotografías o imágenes propias seguramente necesites una GPU de 12Gb de VRAM o quizá con algo menos también sea posible.

V 6

K 57

#34

mierdeame

hace 3 meses

#13 Puedes incluso usar Img2Img e Inpaint para alterar imágenes existentes o usarlas de base...

V 2

K 20

#19

oblitum

hace 3 meses

#5 gerontofilo

V 0

K 7

#28

Find

hace 3 meses

#19 ...hasta que tenga una GPU decente

V 1

K 18

#31

eljuligallego

hace 3 meses

#5 para lo de la tía berta existen otros modelos...

V 3

K 31

founds

hace 3 meses

#1 yo tengo una 1070 TI, y tira bastante bien

V 0

K 7

#21

lawnmowerdog

hace 3 meses

editado

#1 Exactamente. Hay que tener un tarjeta bien potente para correr eso medianamente bien. Si se recurre a modelos más pequeños, tienes una mierda pichanda en un palo. El tipo lo ejecuta en una doble tarjeta con casi 100GB de VRAM, que cuesta como 10.000 euros. Vaya engaño de vídeo! (al menos para el 99% de nosotros que no tenemos semejantes dineral para ese hardware)

V 1

K 21

#35

mierdeame

hace 3 meses

#21 Yo tengo una 7900XTX con "sólo" 24GB de RAM y se supone que es una gráfica pepino (sí, enfocada a gaming más que a otras tareas)

V 1

K 15

#50

lawnmowerdog

hace 3 meses

#35 El problema es que esa tarjeta no sirve (aún) para la IA.

V 0

K 9

#51

mierdeame

hace 3 meses

#50 Por lo menos funciona con Stable Diffusion en Ubuntu

V 0

K 6

#52

lawnmowerdog

hace 3 meses

#51 Ah sí? No lo sabía. Stable Diffusion puede usar tarjetas de AMD?

V 0

K 9

#53

mierdeame

hace 3 meses

#52 https://old.reddit.com/r/StableDiffusion/comments/160om1k/so_close_to_running_stable_diffusion_on_rx_6700xt/kdkpyny/

V 1

K 15

#54

lawnmowerdog

hace 2 meses

#53 Gracias por la info!!

V 1

K 15

#40

woopi

hace 3 meses

#21 Pues paso de probar en la Raspberry...

V 1

K 18

#41

woopi

hace 3 meses

editado

#21 Por cierto, bromas aparte tampoco corre en el mío. Tengo 32Gb de RAM y una nVidia. Pero no corre por que el i7 de 2 generación no soporta la instrucción avx2, que parece que es una vectorial "avanzada" implementada en la 3 versión de los micros de intel. Soy de informática vintage y no me apetece cambiar de ordenador porque este me llega para uso general... Por lo que ya jugaré con otros locales menos problemáticos. Saludos!

V 1

K 18

manbobi

hace 3 meses

El otro día quería hacer un curso pero están ocupados hasta marzo.

V 0

K 13

#22

Socavador

hace 3 meses

¡ Eso, mátalo, mátalo !

V 0

K 12

#36

mandelbr0t

hace 3 meses

#33 Impedimentos ninguno, complicaciones muchas.

V 0

K 10

#37

shinjikari

hace 3 meses

#36 ¿Qué complicaciones? No recuerdo haber tenido ninguna.

V 2

K 26

#23

Toranks

hace 3 meses

¿Alguien sabe qué puede estar pasando en mi Windows 11 que no me deja instalar el LM Studio? Me dice installation has failed todo el tiempo, incluso como administrador.

V 0

K 9

#29

mandelbr0t

hace 3 meses

editado

#23 ¿quieres trastear con LLMs en windows? En zerio?

V 1

K 13

#33

Desactivado

hace 3 meses

#29 ¿qué impedimento técnico habría para ello?

V 0

K 9

#25

Desactivado

hace 3 meses

Basura

V 0

K 7

#20

Razorworks

hace 3 meses

Yo lo único que os digo es que vayáis apañando RAM para poder cargar buenos modelos, y respecto a gráficas, las AMD os dan mas memoria por menos dinero que las Nvidia y, a fin de cuentas, eso es lo único que importa.

V 0

K 7

#24

levante

hace 3 meses

#20 Pues hoy por hoy o es Nvidia o como si no tuvieras gráfica.

V 4

K 43

#42

Razorworks

hace 3 meses

editado

#24 #26 LM Studio tiene soporte de AMD ROCm beta.

Y si las cosas pintan como AMD quiere que pinten, es posible que en el futuro en la IA no todo sea tan "Nvidia-only". Y es que AMD esta ofreciendo material competente, más barato que Nvidia, con el doble de RAM (¡mas importante que la potencia de procesamiento!), y consumiendo menos. Coño, es que las 4090 gastan tanto que se queman solas, cojones...

P.D.: Y no nos olvidemos de los AMD que llevan iGPU integradas. Un 8700G admite hasta 256GB gastando 65W...

V 0

K 7

#43

caramelosanto

hace 3 meses

#42 de fanboys de Apple a fanboys de AMD. Como cambian los tiempos pero no las mañas.

Saludos,
- Fanboy de Nvidia

V 0

K 7

#44

Razorworks

hace 3 meses

#43 ¿Hola? Si ves que he dicho algo impreciso me avisas.

V 0

K 7

#26

Robus

hace 3 meses

#20 Si no tienes una Nvidia olvidate del CUDA, y sin CUDA, a efectos prácticos, olvidate del ML en ordenadores personales.

V 4

K 41

#38

oscar8x

hace 3 meses

#26 Con los MAC ARM también puedes ejecutar los modelos 7b (con 16GB) y si tienes 32Gb los 14b. El rendimiento de un 7b en un M1 Pro es similar a una RTX3080 en velocidad de respuesta. Sin embargo, lo dicho por ahí arriba, los modelos pequeños valen para hacer algunas pruebas y cuatro cosillas

V 0

K 6

#16

Dectacubitus

hace 3 meses

Funciona con GPUs Radeon ?

V 0

K 6

#32

shibabcn

hace 3 meses

#16 la mía (6700xt) la plataforma no la dectecta automáticamente al menos...

V 0

K 6

¡Ejecuta tu propio ChatGPT en local gratis y sin censura! (LM Studio + Mixtral)

Etiquetas

comentarios destacados

Comentarios