edición general
219 meneos
1037 clics

DeepSeek lanza nuevo modelo insignia de IA de código abierto V4

DeepSeek lanzó el viernes versiones preliminares de su nuevo modelo insignia de inteligencia artificial de código abierto, V4, que según afirmó presenta capacidades mejoradas de razonamiento y rendimiento. La compañía lanzó dos nuevos modelos: DeepSeek-V4-Pro y DeepSeek-V4-Flash. La versión pro cuenta con 1,6 billones de parámetros, mientras que la versión flash es un modelo más pequeño y ligero con 284.000 millones de parámetros, según indicó la compañía en una publicación en el sitio web de IA de código abierto Hugging Face.

| etiquetas: deepseek , v4 , inteligencia artificial
Viva el código libre
No hay nada más anti capitalista que regalar.
Si le preguntas te dirá que es Claude? Io al revés? Uno ya no sabe… medium.com/ai-mindset/when-ai-loses-its-identity-lessons-from-the-clau
#1 No se puede leer, paywall ¿Alguna forma de quitarla ?
El Pro pesa 1,61 Tb. El Flash pesa 160 Gb.
#4 A ver si sale una versión reducida que pueda ejecutar ... a ver que hace unsloth
#17 Yo creo que la Flash ya es la reducida.
#4 ocupa, el espacio no pesa. Son TB y GB , bytes, no bits que seria unidad de transferencia no de espacio
#27 Icipi, il ispicii ni pisi. ¡Tiquismiquis! xD
#37 y lo peor es que su comentario corrigiendo está lleno de incorrecciones
#40 acláralas
#37 jijijijiji ... Lo soy :-D
#27 no bits que seria unidad de transferencia no de espacio
Déjalo, muchacho, que están hablando los mayores ;)
#52 ya salió el paternalista
#55 Perdona. Tienes razón. Es conmovedor ver al "caballero de la precisión técnica" arriesgar su carisma para recordar que los archivos no poseen masa gravitatoria. Así nos salvas de la catástrofe de intentar pesar un disco duro en una báscula de baño, para ver cuánto software te cabe. Gracias a tu heroica intervención, sobre la diferencia sagrada entre la "B" y la "b", ahora sabemos que los bits tienen prohibido por decreto divino ocupar espacio. Mis disculpas.
#59 que tengas buen domingo y mejor semana.
#20 Para consultas generalistas, especialmente si has de hacer una búsqueda de contenido por internet, gemini de Google y otros puede ser muy útil.

Para programar cosas sencillas o manipulacion de datos Claude va muy bien pero a primer suspiro pide que pases por caja. Deepseek hace lo mismo gratis.

Por cierto, en español un modelo de frontera en este contexto no tiene sentido, no estamos hablando de países o del limite entre dos zonas. De nuevo frontera es una palabra que en inglés significa una cosa y español otra.

Entiendo que debes ser inglés hablando español; en español hablaríamos de un modelo de lenguaje puntero, que significa avanzado.
De momento no está a la altura de los más grandes. En lo que sí que barre es el precio: Hasta 8 veces más barato.
#6 tienes alguna comparativa que apoye esa afirmación? Quienes son los "grandes"? Los no chinos?

Pregunto por entender, que igual las percepciones son difrerentes según a qué lado del mundo estés.
#8 Los que ahora mismo están funcionando mejor, y no son chinos.
#8 #21 IMHO los líderes para desarrollo son los modelos de Claude. También los de OpenAI y de Gemini pero todavía no y dependerá de para qué, pero es lo que hay.

Yo estoy suscrito a Kimi, china, desde hace meses y la uso mucho, principalmente con kimi-cli u opencode. Nunca me suelo quedar sin tokens ahí. También tengo acceso a deepseek de la misma forma. En mi día a día no veo gran diferencia entre esos dos pero, cuando se enganchan, doy para atrás y claude lo suele resolver bien de una y eso todavía no ha cambiado.

Si tuviera pasta infinita usaría solo claude. Como no es el caso, seguiré usando kimi y/o deepseek o antigravity... mientras espero a que claude me recargue el slot que se come a toda leche...
#49 esos benchmarks son cuanto menos dudosos. Por que exactamente que significa que claude este en 90 y deepseek en 87? Ojo, no te digo que no sea mejor, mas bien cuestiono los benchmarks.

medium.com/vibe-coding/berkeley-got-100-on-every-ai-benchmark-without-

Personalmente, los modelos de openai me han funcionado bien para código (codex), pero los de anthropic (claude code) los superan cuando lo que le pides es menos específico. Me imagino que por eso son el estandar para vibe coding. En mi caso le pido cosas super especificas y tengo skills, rules y archivos para agentes asi que por lo general la clavan siempre (la mitad del trabajo lo he hecho yo) De hecho nunca me quedo sin tokens.
#57 esos benchmarks son cuanto menos dudosos.
Ya. Estoy de acuerdo. Por eso contaba mi experiencia, (yo tampoco me fío de esos tests) pero #8 me pedía benchmarks... y ahí puse alguno.
#6 Para uso general es 100% gratis. Y me parece maravilloso.
#10, será gratis, pero ninguno de los que estamos aquí tenemos en casa una máquina remotamente capaz de ejecutarlo. Así que de un modo u otro toca rentar un servicio y pagar por tokens.

Es una gran noticia porque es el modelo abierto más potente que tenemos pero está por detrás de los mejores modelos.
#13 Creo que usas "rentar" como si fuera el significado inglés.

En español no es alquilar, al revés, es que usas algo (como una vivienda) para tú sacar beneficio.

Hablaríamos de pagar, contratar por usar el servicio.

En cualquier caso salvo que hagas programación salvaje, yo he usado deepseek desde el prompt para que me limpie y revise código y ha ido genial.
#18, así es, donde digo rentar quiero decir alquilar.

A mi deepseek siempre me ha dado resultados mucho peores que los modelos de frontera, pero es verdad que no he tenido oportunidad de utilizar ningún agente de programación que funcione con ella. El problema es que estoy muy acostumbrado a los modelos de Google y Antropic y volver atrás sabiendo que hay problemas técnicos que ta están solucionados solo porque es una alternativa libre, me costaría demasiado.
#10 Imposible tener una máquina capaz de correr ese modelo. La máquina vale demasiados miles. Tendrás que pagar. (Mucho menos que con el resto, pero difícilmente será gratis). Abierto sí. Gratis... no.
#48 Me refiero al servicio o line que tienen de LLM. Puedes pasarle código y pedirle que modifique, corrija... Gratis y sin límite.
#6 fuente: los benchmarks que se inventan cada semana y las declaraciones de amodei diciendo que mythos es tan poderoso que el mundo no esta preparado.
#61 Pues ese componente también lo puedes usar con otras IAs y lo de que "ollama cloud no almacena"... te lo tienes que creer... Facebook/Meta es de fiar... sí...
#56 ¿Con ollama cloud donde estás enviando los datos?
#58 uso un componente que ofusca la data sensible por defecto de lado del servidor, luego ollama cloud no almacena input/output
#69 ¿Qué motivación tiene el que hace el modelo para que gaste más recursos si no es quien te alquila esos recursos?
#70 El que hace el modelo , tiene switches que modulan el uso y , la forma y el fondo .

No es quien hace el modelo , es el modelo original de quien han robado el conocimiento para hacer este .

Decir que la gente de deeepseek "hizo" un modelo es como decir que Israel ha pacificado Gaza .
Les recuerdo a la mayoría de comentaristas de esta noticia que la IA no solo sirve para programar.
#29 Cierto. Mis consultas a la IA son más "de letras" y, de las que he probado, Deepseek es la que más me gusta.
Yo tengo la teoría de que en el momento que un modelo abierto alcance el nivel que tiene Sonnet (No hace falta llegar a Opus) será suficiente para que la mayoría de los desarrolladores podamos trabajar sin estar haciendo peticiones a api externas
Hay desarrolladores que ya gastan mas de $200 con Claude, con eso pagas en una año tu propia maquina donde meter modelos potentes, aunque seguirías pagando la eletricidad y teniéndolo que mantener tú
#15 lo que dices es lo que va a pasar, los modelos open source ahora mismo estan por detras pero en cada iteración se acercan a los top cuyas mejoras cada vez seran mas marginales. Llegara un momento que el open seran tan bueno cono la versión anterior del top, que ya de por si era buena y la gente utilizara los open. Los top lucharán en precios y algunos caerán, los que no trngan diversificado el mercado probablemente...

El ejemplo que pongo es Suno: existe la solución abierta que corre en tu propia maquina y suena como la v4, con la ventaja de poder generar canciones infinitas y subir tus temas sin que se lo estes dando una empresa para que entrene sus modelos con tus canciones.
#15 100% de acuerdo. Soy desarrollador y gasto más de 100 cada mes entre Claude y Github Copilot

Como dices, cuando haya algo tan bueno como Claude Sonnet que se pueda ejecutar en local, me quito de las subscripciones. No es necesario que sea tan bueno como Opus.
#36 a nivel de empresa grande se podria alquilar metal en horario laboral y servir modelos para uso interno por un precio hora menor de lo que se le paga a un solo empleado. Y dejar los modelos externos para usos puntuales para las situaciones dónde el modelo local no llega (o para usar fuera de horario laboral )
#15 #36 Otro aquí que está de acuerdo contigo.
¿La versión Flash funciona en Ruffle? :-P
Tendra las mismas alucinaciones y fallos que el resto, volviendose imbecil a medida que aumenta la complejidad de codigo y haciendo auto.inflaccion de tokens para que pagues mas...
#2 Pero si es código abierto...
#3 Lo es , pero normalmente se paga por correrlo en servidores externos
#2 Yo me quité la suscripción barata de Claude porque era un cachondeo el gasto de tokens... según el día y la hora, el mismo uso de prompts te duraban la leche el pool de tokens o te los fulminabas en minutos... un cachondeo, vamos... y para programación de bajo nivel deja mucho que desear.
Eso que has dicho de la autoinflacción es la mejor definición del uso de tokens de las IAs de pago que he visto.
#31 gracias! :hug:

Lo probaré a ver si economizo el uso de tokens
Yo flipo con su narrativa y expresiones. Tiene un estilo mucho más " natural" y coloquial que el resto.
#72 si, justo eso
Realmente es código abierto ? Diría que no.
#19 licencia MIT, a que llamas tu abierto?
#28 #22

No tienes todo el proceso completo de entrenamiento para auditarlo o reconstruirlo desde cero.
#30 es eso parte de la definición de código abierto? Diría que no
#46 Y dirías bien.
No, incluir el proceso completo de entrenamiento de una IA no entra dentro de la definición de código abierto, la cual se basa en las libertades y el control del programa, pudiendo leer, usar, modificar y distribuir el código que compone dicho software.
#54 En software clásico tienes razón. Pero en IA la cosa cambia, la OSI ya tiene una definición específica de “Open Source AI” y ahí no basta con publicar pesos o código de inferencia.
#30 eso ya es capricho tuyo
#22 al ano del torero
#19 Sí lo es, eso está claro, solo hay que ver la licencia usada.
La verdad es que en los benchmarks es bastante chusta.

China ha perdido definitivamente la carrera.
#9 Todos tiene fortalezas y debilidades. Y teniendo en cuenta que es código abierto y por tanto auditable...

Los benchmarks no lo dejan nada mal. Prueba a hacer consultas con kimi a nivel general y verás lo que te tarda en exigir que pases por caja.

En cambio deepseek para proyectos de programación es una bendición.  media
#11 Pero eso es un ranking de modelos abiertos, cojones. Mete ahí a los de Anthropic, a xAI, a OpenAI, a Google...
#9, en los bebchmarks está a unos pocos meses vista de los mejores modelos. De ahí a inferir que ha perdido definitivamente la carrera, no se yo... Si ese es el caso, no quiero ni imaginar donde estamos los Europeos.
#9 Esa afirmación es cuando menos osada.
#9 China no ha perdido la carrera. Ni de coña.

No solo está cada vez más cerca sino que, además, está empezando a conseguirlo con sus propios chips. No tardará en pasarlos por encima con unos costes infinitamente más bajos y que, su competencia, no podrá asumir.
chat-gpt es una autentica basura cualquier cosa es mejor que ese contenedor de humo
NO uso esa IA ni amarrado, Ni pizca de privacidad TODO lo que mandes se lo quedan input/output. SI queréis usarlo hacedlo mediante ollama u ollama cloud cuando esté
#35 Ya... porque las otras IAs sí respetan tu privacidad... Además, hoy día considero, para mí, mucho menos arriesgado, el enviar mis datos a China que a USA.
#53 No se la sotras IA uso ollama cloud o local y a mi si me importa mandarle mis datos tanto a los chinos como a los yanquis.

menéame