#31 Está entrenada nativamente en FP8, la confusión probablemente viene por la versión BF16 que hay en hugging face (que ocupa el doble de bits), que alguien ha hecho porque su infraestructura para entrenar usa BF16.
La diferencia entre GPU y DDR5 es bastante importante, porque el cuello de botella está en el ancho de banda de la memoria. Fíjate que he dicho que "puede funcionar" pero no a qué velocidad. Usando un Epyc dual con múltiples canales de memoria, la versión original puede ir a 6-8 tokens por segundo, mientras que un equipo más normalito con 80 GB, tirando del máximo cuantizado y un poco de SSD va a menos de 1 t/s. En ningún caso se acerca a la velocidad que va por GPU. Pero por lo menos por encima de 6 t/s es bastante soportable.
#31#38 En OpenRouter está gratis (proporcionado por azure y chutes), pero va lento por la demanda. Y de pago la he visto en unos cuantos: fireworks ai, hyperbolic, deepinfra, kluster ai, together ai... creo que todos en EEUU. En Europa acabo de ver que está nebius ai (en Finlandia) y al igual que fireworks dan 1$ gratis.
#12 la versión completa sin cuantizar solo necesita la mitad que eso. Y si lo cuantizamos mucho puede funcionar incluso con 80 gb de ram (DDR5, sin GPU).
#3 Sabemos exactamente el coste de ejecutar (porque cualquiera que sepa lo puede instalar en un servidor con suficiente VRAM), y es bastante barato para lo que es. Pero por muy barato que sea, siempre hay un límite de demanda.
#5 El modelo completo requiere un equipo bastante potente (no tanto como el que pones tú ahí, pero sí unos 6000€ por lo menos), pero lo interesante de que sea open weights no es únicamente que puedas ejecutarlo tú en teoría, sino que los pueden ejecutar otros en la práctica. O sea ya hay por lo menos 6-12 proveedores diferentes en diferentes partes del mundo que ofrecen una API de deepseek R1.
#97 Eso me estaba preguntando yo. Aunque no llegue al nivel de esos dos, Mistral es bastante decente. Y ahora han sacado un modelo pequeño de 24B (mistral 3 small) que podemos ejecutar en local y funciona sorprendentemente bien para su tamaño.
#111 El modelo completo es demasiado tocho para mi equipo, así que uso la API de algún proveedor. Por ejemplo fireworks.ai lo ofrecen, creo que dan 1$ gratis (que da para muchos mensajes) y tienen API de text completion (que hace falta para poder saltarse la censura, para eso después del prompt pon <think> y un solo salto de línea). Recomendaría usar la API a través de una GUI. Aun tengo que averiguar como tener toda la funcionalidad de la web (con el modo búsqueda, sin re-enviar el <think></think> de los mensajes anteriores cada vez para no estar consumiendo tokens y contexto, y poder ocultar el think).
Acabo de ver que está gratis en openrouter, pero sin text completion, solo la API de chat. Así que mientras no necesites preguntar ciertas cosas relacionadas con China, openrouter parece la mejor opción.
#51 No hace falta gastar tanto para ejecutar DeepSeek R1 de 671B incluso sin cuantizar (comprimir). Aquí un hilo de alguien montándose un PC por 6.000 dólares que ejecuta el modelo a 6-8 tokens por segundo. Si lo cuantizas a 4 bits en teoría va el doble de rápido y ocupa la mitad de memoria. Aunque no sea asequible para mí, es importante que sí lo sea para otros porque podemos usar el modelo sin depender de los servidores de los propietarios de los modelos, así como usar versiones modificadas, etc.
Ojo que el modelo max no es abierto, no se puede descargar ni ejecutar donde quieras como R1. Solo se puede usar a través de sus servidores. Por eso ni me he molestado en probarlo.
#26 La web oficial te da ese resultado porque no tiene más remedio, pero el modelo es abierto y yo lo he podido usar sin censura (o sea, censura tiene pero es increíblemente fácil saltártela).
#69 Hay varias formas de quitarle censura a modelos. Una es entrenarlo con el tipo de datos que quieres que dé, y otra es con una técnica llamada "abliteration" que básicamente identifica los pesos que provocan la respuesta censurada y los anula. Es algo así como cortar aquellas conexiones neuronales que se activan exclusivamente durante una respuesta censurada y no durante cualquier otro tipo de respuesta.
#45 Sí que se puede porque 1. el entrenamiento también incluye datos fiables de tianmen y taiwan, y 2. hay diversas técnicas de quitar censuras de un modelo.
#56 Los distills de 8 y 70B están hechos a partir de llama 3.1 y 3.3 respectivamente. Ollama debería haber incluído los nombres originales de los distills en su nombre.
#50 Para inferencia necesitas mucho más. Son 37B de parámetros activos por token, y en cada token puede ser diferente. Lo de 37B activos permita que funcione muy rápido en comparación con un modelo denso, pero no te libras de tener que alojar todo el modelo en memoria. La versión más cuantizada que existe (y que funcione!) ocupa 131 gb (solo el modelo, sin contar con el contexto).
#52 Según cuanta velocidad quieras, y cuanto lo comprimas. Han conseguido ejecutarlo con menos de 200 gb de ram con una calidad aceptable (y rendimiento aceptable para según que usos).
#88 La cantidad de corrupción es proporcional a la cantidad de poder que uno tiene. Eso de poder presentarse a alcalde no es muy diferente a como es en China. La cuestión es que existe y que la gente vota a sus dirigentes locales. Cualquiera puede presentarse como candidato. No me malinterpretes, no me gusta el sistema de votaciones de China un pelo. Pero la idea de que es todo una dictadura pura y dura es incorrecta.
#82 Resalto lo de "en sus circunstancias". Yo también habría sabido hacer idealista en aquel entonces. Pero yo no podría haber mantenido un servidor con su conexión funcionando durante el suficiente tiempo para poder tener ingresos que lo mantengan (de hecho no me habría dado ni para un solo mes), ni podría haber dedicado nada de dinero a publicidad, ni SEO, ni nada de eso. Tampoco sabemos qué conexiones puede haberle facilitado que tenga éxito. A veces el apartado técnico de uno de estos proyectos es lo más obvio, pero se te olvidan los inmensos costes de la gestión y el mantenimiento. Tú tampoco hubieras podido, salvo que seas de una familia adinerada, en cuyo caso jugamos en una liga diferente.