Deepseek lanzó reciemente la publicación "Deepseek OCR", que además de ser un nuevo modelo de OCR, propone una arquitectura que podría cambiar como trabajamos con LLMs: En lugar de enviar el texto directamente al modelo de lenguaje, convertirlo en una imagen, y procesar dicha imagen por medio de tokens de visión, pasando por modelos como SAM y CLIP. Con esto se ha logrado una compresión de tokens de hasta 10x con un 97% de precisión, y 20x con un 60% de precisión. Las implicaciones de esto pueden ser grandes.
|
etiquetas: ia , llm , deepseek , ocr