El modelo de IA de código abierto DeepSeek-OCR cambia la forma en que los modelos de IA leen y procesan texto sin formato (inglés)

169 meneos

1056 clics

El modelo de IA de código abierto DeepSeek-OCR cambia la forma en que los modelos de IA leen y procesan texto sin formato (inglés)

DeepSeek lanzó el lunes un nuevo modelo de inteligencia artificial (IA) de código abierto que cambia la forma en que estas máquinas analizan y procesan texto sin formato. Apodado DeepSeek-OCR, utiliza mapeo 2D para convertir texto en píxeles y comprimir un contexto largo a un tamaño digerible. La startup de inteligencia artificial afirma que los modelos de lenguaje grandes (LLM) son más eficientes en el procesamiento de píxeles sobre texto y la compresión les permite capturar información relevante para generar la respuesta. Además, también...

82 87 0 K 349

32 comentarios

82 87 0 K 349

Comentarios destacados:

#2 cocolisto *

A quién le interese probarlo :

github.com/deepseek-ai/DeepSeek-OCR

deepseekaiapi.com/image-to-text-converter

7 82

#4 Jakeukalane

¿crees que en una H100 se puede probar?

0 11

#7 woopi

...yo probaré en mi cluster de Casios fx-850.

1 17

#15 Jakeukalane

supongo que no te crees lo de la H100 jeje

1 21

#18 cutty

¿Te interesa ampliar con un FX-850P?

0 10

#20 woopi

Bromas aparte, las 880P las sigo usando junto a las HP-42s. Es difícil encontrar cosas tan bien hechas!

1 20

#22 fingulod

Yo me quedo con la HP 48 s ó g, pocas se han hecho después mejores. Por no decir ninguna.

2 24

#27 woopi

Sí... También me parece una maravilla la serie 48. Y tengo unas cuantas

Pero la 42s es una calculadora estricta (sobre todo por el formato) y junto a la 15C son lo mejor que ha logrado HP en ese ámbito. Aunque esto es una discusión eterna, claro! Saludos!

0 10

#28 fingulod

Doctores tiene la iglesia. No le voy a quitar virtudes.

0 8

#29 Jakeukalane

hehe

0 11

#30 Jakeukalane

nvidia-smi

1 21

#31 woopi *

Im-presionado! Y de ram tampoco va mal el maquinillo

Y si es verdad lo del rendimiento... hasta los 350 W me parecen pocos!!!

0 10

#32 Jakeukalane *

de RAM la maquina tiene 512 GB. Para mí es una GPU está en un proxmox pero la maquina tiene 8 GPUs... Muy desaprovechadas la verdad. Se supone que íbamos a hacer pruebas con IA pero al final la pausa en producción no fue tal y ahí está, medio muerta de risa. (Trabajo en una empresa de montaje de servidores y workstations de altas prestaciones). Sobre lo de consumo: cuanto más cuesta una gráfica mejor silicio le reservan. Para consumo el silicio es siempre peor.

1 21

#8 Perico_de_les_Palotes

segun veo son 3 billones de parámetros, debería funcionar en GPUs normales no muy viejas.

1 16

#9 fingulod

¿Está en huggingface?

0 8

#17 dcristob

huggingface.co/deepseek-ai/DeepSeek-OCR

2 23

#1 cocolisto

"Además, también se dice que el nuevo enfoque genera resultados más precisos en comparación con los métodos tradicionales.

DeepSeek-OCR presenta una técnica novedosa para procesar texto
Basado en tecnología de reconocimiento óptico de caracteres (OCR), lo último Búsqueda profunda El modelo de IA utiliza un nuevo método para procesar información. Primero convierte texto simple en imágenes y luego analiza el contenido para generar respuestas. La promesa es que al leer el texto de una… » ver todo el comentario

5 54

#6 woopi

Y encima, mientras tanto, te va ganando un dinerito en criptos y con inversiones en bolsa...

1 20

#10 pedrobotero

11K pavos lleva el chino cudeiro nof1.ai/

1 20

#11 woopi

Pues ha perdido pasta desde ayer. Había llegado a 15K!

0 10

#16 troll_hdlgp

Todas menos chatgpt y gemini han tenido un pico de beneficios que ha desaparecido al día siguiente.

0 10

#21 teloleo

No saben salir a tiempo... Subir stops...

0 6

#23 giputxilandes

empezó en 10K, no es tampoco una maravilla. De hecho si te fijas simplemente es que el resto se están arruinando con jugadas en corto.

0 10

#13 cantarranas

Primero, se captura una imagen del documento. Luego, un codificador de visión, que es un módulo personalizado creado por los investigadores, analiza la imagen y divide la información en parches más pequeños. Luego se comprime en una cantidad menor de tokens de visión. Luego, un decodificador toma estos tokens de visión y reconstruye el significado textual

No dudo de la eficacia del método, pero me recuerda poderosamente al juego del teléfono estropeado.

1 20

#14 thalonius *

Con la entradilla no entendía nada, no entendía que un texto en bitmap fuera más pequeño que un texto en caracteres.
Ya con la explicación de entiendo que transforma el texto en imágenes conceptuales. O sea, que si un texto de 100 palabras está definiendo una casa pequeña, con techo a dos aguas, junto a un lago, en un día soleado, blablabla, pues genera una "foto" de esa info, que después puede volver a interpretar.
El concepto suena interesante, suena al típico "una imagen vale más que mil palabras", pero se me hace cotnraintuitivo que sea más eficiente convertir y desconvertir texto a imagen que tokenizar el texto. Además de la posible pérdida de información, contexto o detalles semánticos que sucedan en el proceso.

3 51

#3 meneanet

como hacen los humanos..

5 46

#12 robustiano

Bien visto...

2 35

#5 luiggi

Una idea parecida tuvo Google.

1 21

#24 Westgard *

Prueba de fuego... (letra de médico), no ha reconocido una mierda el "super OCR" con IA y chocokrispis.

Edit:

Spoiler... dice "Neumoalérgenos mezcla" y "Ac. IgE merluza"

0 10

#25 zancudo

yo leo ibuprofeno cada 8 horas

2 24

#26 TheGreatDoc

Y si en 10 días no nota mejoría vuelva a pedir cita

0 6

#19 woobyn

Un tema importante es que sea capaz de comprender el layout del documento, las columnas, etc. para que el texto extraído tenga continuidad y no sean bloques desordenados. Se supone que modelos como MistralOCR lo tienen en cuenta.

0 6

comentarios cerrados

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

Tecnología, Internet y juegos

más visitadas

61 alternativas europeas a Google, X, Gmail, Chrome, Maps, DropBox, Google Drive, WhatsApp y otros servicios populares

Waterfox vs LibreWolf: diferencias reales y cuál te conviene si Firefox se pasa a la IA

Lo que supone el cambio al Vehículo Eléctrico | Francisco Valverde

"Firefox no necesita IA, sino escuchar a sus usuarios". La comunidad responde a las primeras declaraciones del nuevo CEO de Mozilla

Kingston activa la alarma: “El coste de la memoria NAND ha subido un 250%, en 2026 subirá más, nunca hemos visto algo así en 29 años de historia»

más votadas

61 alternativas europeas a Google, X, Gmail, Chrome, Maps, DropBox, Google Drive, WhatsApp y otros servicios populares

"Firefox no necesita IA, sino escuchar a sus usuarios". La comunidad responde a las primeras declaraciones del nuevo CEO de Mozilla

Revolución en las baterías: el sodio destrona al litio con cargas ultrarrápidas y resistencia al calor

Lo que supone el cambio al Vehículo Eléctrico | Francisco Valverde

Waterfox vs LibreWolf: diferencias reales y cuál te conviene si Firefox se pasa a la IA

suscripciones por RSS

El modelo de IA de código abierto DeepSeek-OCR cambia la forma en que los modelos de IA leen y procesan texto sin formato (inglés)