La publicación que puede cambiar cómo trabajamos con IA

Deepseek lanzó reciemente la publicación "Deepseek OCR", que además de ser un nuevo modelo de OCR, propone una arquitectura que podría cambiar como trabajamos con LLMs: En lugar de enviar el texto directamente al modelo de lenguaje, convertirlo en una imagen, y procesar dicha imagen por medio de tokens de visión, pasando por modelos como SAM y CLIP. Con esto se ha logrado una compresión de tokens de hasta 10x con un 97% de precisión, y 20x con un 60% de precisión. Las implicaciones de esto pueden ser grandes.

Torrezzno #2 Torrezzno
Recomiéndo leer a Andrej sobre el tema, poca gente sabe más que el del tema

x.com/karpathy/status/1980397031542989305


Quizás tiene más sentido que todas las entradas a los LLM sean siempre imágenes. Incluso si tienes una entrada de texto puro, tal vez preferirías renderizarla y luego introducirla así:
- más compresión de información (ver el artículo) => ventanas de contexto más cortas, más eficiencia
- flujo de información significativamente más general => no solo texto,

rojo_separatista #1 rojo_separatista
Me parece super interesante por lo contraintuitiva que es la idea de que utilizando tokens de imagen en lugar de un embeding de texto se pueda obtener algo tan funcional.
rogerius #3 rogerius *
#1 Estos chinos son la monda. Lironda. :troll:
