Tecnología, Internet y juegos
147 meneos
869 clics

El modelo de IA de código abierto DeepSeek-OCR cambia la forma en que los modelos de IA leen y procesan texto sin formato (inglés)

DeepSeek lanzó el lunes un nuevo modelo de inteligencia artificial (IA) de código abierto que cambia la forma en que estas máquinas analizan y procesan texto sin formato. Apodado DeepSeek-OCR, utiliza mapeo 2D para convertir texto en píxeles y comprimir un contexto largo a un tamaño digerible. La startup de inteligencia artificial afirma que los modelos de lenguaje grandes (LLM) son más eficientes en el procesamiento de píxeles sobre texto y la compresión les permite capturar información relevante para generar la respuesta. Además, también...

| etiquetas: ia , código abierto , deepseek-ocr , tratamiento , textos , imágenes
75 72 0 K 349
75 72 0 K 349
#2 ¿crees que en una H100 se puede probar?
#4 ...yo probaré en mi cluster de Casios fx-850.
#7 supongo que no te crees lo de la H100 jeje
#7 ¿Te interesa ampliar con un FX-850P?
#18 Bromas aparte, las 880P las sigo usando junto a las HP-42s. Es difícil encontrar cosas tan bien hechas!
#20 Yo me quedo con la HP 48 s ó g, pocas se han hecho después mejores. Por no decir ninguna.
#4 segun veo son 3 billones de parámetros, debería funcionar en GPUs normales no muy viejas.
"Además, también se dice que el nuevo enfoque genera resultados más precisos en comparación con los métodos tradicionales.

DeepSeek-OCR presenta una técnica novedosa para procesar texto
Basado en tecnología de reconocimiento óptico de caracteres (OCR), lo último Búsqueda profunda El modelo de IA utiliza un nuevo método para procesar información. Primero convierte texto simple en imágenes y luego analiza el contenido para generar respuestas. La promesa es que al leer el texto de una…   » ver todo el comentario
#1 Y encima, mientras tanto, te va ganando un dinerito en criptos y con inversiones en bolsa... :-D
#6 11K pavos lleva el chino cudeiro nof1.ai/
#10 Pues ha perdido pasta desde ayer. Había llegado a 15K!
#11 Todas menos chatgpt y gemini han tenido un pico de beneficios que ha desaparecido al día siguiente.
#11 No saben salir a tiempo... Subir stops...
#10 empezó en 10K, no es tampoco una maravilla. De hecho si te fijas simplemente es que el resto se están arruinando con jugadas en corto.
#1 Primero, se captura una imagen del documento. Luego, un codificador de visión, que es un módulo personalizado creado por los investigadores, analiza la imagen y divide la información en parches más pequeños. Luego se comprime en una cantidad menor de tokens de visión. Luego, un decodificador toma estos tokens de visión y reconstruye el significado textual

No dudo de la eficacia del método, pero me recuerda poderosamente al juego del teléfono estropeado.
Con la entradilla no entendía nada, no entendía que un texto en bitmap fuera más pequeño que un texto en caracteres.
Ya con la explicación de #1 entiendo que transforma el texto en imágenes conceptuales. O sea, que si un texto de 100 palabras está definiendo una casa pequeña, con techo a dos aguas, junto a un lago, en un día soleado, blablabla, pues genera una "foto" de esa info, que después puede volver a interpretar.
El concepto suena interesante, suena al típico "una imagen vale más que mil palabras", pero se me hace cotnraintuitivo que sea más eficiente convertir y desconvertir texto a imagen que tokenizar el texto. Además de la posible pérdida de información, contexto o detalles semánticos que sucedan en el proceso.
como hacen los humanos.. :-)
#3 Bien visto... :-P
Una idea parecida tuvo Google.
Prueba de fuego... (letra de médico), no ha reconocido una mierda el "super OCR" con IA y chocokrispis. :popcorn: :troll:

Edit:

Spoiler... dice "Neumoalérgenos mezcla" y "Ac. IgE merluza" ;)  media
Un tema importante es que sea capaz de comprender el layout del documento, las columnas, etc. para que el texto extraído tenga continuidad y no sean bloques desordenados. Se supone que modelos como MistralOCR lo tienen en cuenta.

menéame