Deepseek lanzó reciemente la publicación "Deepseek OCR", que además de ser un nuevo modelo de OCR, propone una arquitectura que podría cambiar como trabajamos con LLMs: En lugar de enviar el texto directamente al modelo de lenguaje, convertirlo en una imagen, y procesar dicha imagen por medio de tokens de visión, pasando por modelos como SAM y CLIP. Con esto se ha logrado una compresión de tokens de hasta 10x con un 97% de precisión, y 20x con un 60% de precisión. Las implicaciones de esto pueden ser grandes.  
      | 
 etiquetas:  ia ,   llm ,   deepseek ,   ocr          
x.com/karpathy/status/1980397031542989305
Quizás tiene más sentido que todas las entradas a los LLM sean siempre imágenes. Incluso si tienes una entrada de texto puro, tal vez preferirías renderizarla y luego introducirla así:
- más compresión de información (ver el artículo) => ventanas de contexto más cortas, más eficiencia
- flujo de información significativamente más general => no solo texto,
… » ver todo el comentario