DeepSeek-OCR:用視覺(jué)模態(tài)給長(zhǎng)文本“瘦身”,大模型處理效率再突破

在大語(yǔ)言模型(LLMs)不斷拓展能力邊界的今天,長(zhǎng)文本處理始終是道繞不開(kāi)的坎——文本序列每增加一倍,計(jì)算量就可能翻四倍,像處理一本幾十萬(wàn)字的書(shū)籍、一份上千頁(yè)的金融報(bào)告時(shí),內(nèi)存溢出、推理卡頓成了常態(tài)。
但DeepSeek團(tuán)隊(duì)最近開(kāi)源的DeepSeek-OCR模型,給出了一個(gè)全新解法:把文本“畫(huà)”成圖像,用視覺(jué)Token實(shí)現(xiàn)高效壓縮。原本需要1000個(gè)文本Token存儲(chǔ)的內(nèi)容,現(xiàn)在100個(gè)視覺(jué)Token就能搞定,還能保持97%的OCR精度。這種“光學(xué)壓縮”思路,不僅讓長(zhǎng)文本處理效率飆升,更給大模型的“記憶機(jī)制”研究打開(kāi)了新窗口。
目前,DeepSeek-OCR的代碼、模型權(quán)重、論文已經(jīng)全部開(kāi)源,大家可以直接上手試用:
- 論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
- 項(xiàng)目地址:https://github.com/deepseek-ai/DeepSeek-OCR
- Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR
01、為什么要給長(zhǎng)文本“換一種存儲(chǔ)方式”?
傳統(tǒng)LLM處理長(zhǎng)文本的痛點(diǎn),本質(zhì)是“文本Token的低效性”——一段文字里藏著大量冗余信息,卻要靠一個(gè)個(gè)Token線性存儲(chǔ),導(dǎo)致計(jì)算量隨長(zhǎng)度呈平方級(jí)增長(zhǎng)。比如要處理1萬(wàn)字的文檔,可能需要上萬(wàn)個(gè)文本Token,模型光是建立這些Token間的關(guān)聯(lián),就要消耗大量算力。
DeepSeek團(tuán)隊(duì)的核心洞察是:視覺(jué)是更高效的信息壓縮媒介。一張包含文字的圖片,能比純文本少用幾十倍的Token來(lái)傳遞同樣信息。就像我們看一頁(yè)書(shū)時(shí),眼睛能瞬間捕捉整頁(yè)內(nèi)容,而不是逐字逐句讀取——這種“二維視覺(jué)優(yōu)勢(shì)”,正是解決長(zhǎng)文本瓶頸的關(guān)鍵。
更巧的是,OCR(光學(xué)字符識(shí)別)任務(wù)成了絕佳的“試驗(yàn)場(chǎng)”。它既要把圖像里的文字“解壓縮”成文本(驗(yàn)證壓縮效果),又能通過(guò)精度、壓縮比等指標(biāo)量化性能,完美契合“視覺(jué)-文本壓縮”的研究需求。
02、核心架構(gòu):兩大組件實(shí)現(xiàn)“壓縮-解壓”閉環(huán)
DeepSeek-OCR的架構(gòu)特別簡(jiǎn)潔,就像一套“文本壓縮工具包”,由編碼器(DeepEncoder)和解碼器(DeepSeek3B-MoE)組成,前者負(fù)責(zé)“壓得小”,后者負(fù)責(zé)“解得出”。

DeepEncoder:高分辨率下的“Token瘦身大師”
傳統(tǒng)視覺(jué)編碼器在應(yīng)對(duì)高分辨率圖像時(shí),存在兩個(gè)突出問(wèn)題。一方面,處理高分辨率圖像時(shí)會(huì)生成過(guò)多的 Token。以 1024×1024 的圖像為例,會(huì)生成 4096 個(gè) Token(1024/16×1024/16 = 4096),過(guò)多的 Token 會(huì)導(dǎo)致計(jì)算量大幅增加,給后續(xù)的處理帶來(lái)沉重負(fù)擔(dān)。另一方面,部分編碼器在對(duì)圖像進(jìn)行壓縮后,細(xì)節(jié)丟失嚴(yán)重,這對(duì)于需要精準(zhǔn)識(shí)別文本的 OCR 任務(wù)來(lái)說(shuō)是致命的,會(huì)極大影響識(shí)別的準(zhǔn)確性和完整性。
DeepEncoder通過(guò)“局部+全局”的雙階段設(shè)計(jì),完美平衡了“壓縮比”和“保真度”:
- 第一步:局部感知(窗口注意力)
采用 SAM-base 模型:DeepEncoder 使用參數(shù)為 8000 萬(wàn)的 SAM-base 模型 ,該模型將輸入的圖像分割成 16×16 的小 patch。這種方式就如同使用 “顯微鏡”,能夠聚焦于圖像的每一個(gè)細(xì)微部分,精確捕捉每個(gè)字符的細(xì)節(jié)信息。
窗口注意力機(jī)制控制計(jì)算量:在生成較多 Token 的情況下,窗口注意力機(jī)制發(fā)揮了關(guān)鍵作用。它使得模型在處理這些 Token 時(shí),計(jì)算量處于可控范圍。窗口注意力機(jī)制會(huì)限定模型關(guān)注的區(qū)域,只對(duì)窗口內(nèi)的 Token 進(jìn)行計(jì)算,避免了對(duì)所有 Token 同時(shí)進(jìn)行大規(guī)模計(jì)算帶來(lái)的高復(fù)雜度,確保了模型在高分辨率圖像局部處理時(shí)的高效性和穩(wěn)定性。 - 第二步:全局壓縮(16×卷積+全局注意力)
2 層卷積模塊壓縮 Token 數(shù)量:經(jīng)過(guò)局部感知后,DeepEncoder 利用一個(gè) 2 層卷積模塊對(duì)生成的 Token 進(jìn)行壓縮。這個(gè)卷積模塊能夠?qū)?Token 數(shù)量大幅減少,例如把 4096 個(gè) Token 壓縮到 256 個(gè),壓縮比例達(dá)到 1/16 。
CLIP-large 模型實(shí)現(xiàn)全局理解:壓縮后的 Token 會(huì)被傳輸?shù)?3 億參數(shù)的 CLIP-large 模型。CLIP-large 模型具有強(qiáng)大的全局理解能力,它能將經(jīng)過(guò)初步處理的 “零件”(壓縮后的 Token)整合起來(lái),形成對(duì)文檔的整體認(rèn)知,就像把一堆零件組裝成完整機(jī)器。在這個(gè)過(guò)程中,不僅減少了 Token 數(shù)量,降低了后續(xù)處理的復(fù)雜度,還成功保留了文檔的整體布局信息,使得模型在后續(xù)的文本解碼中,能夠更好地還原文檔內(nèi)容,提高 OCR 任務(wù)的準(zhǔn)確性。 - 多分辨率輸入與 “Gundam 模式”
多分辨率輸入支持:DeepEncoder 支持從 512×512(64 個(gè) Token)到 1280×1280(400 個(gè) Token)的多分辨率輸入。不同分辨率適用于不同的場(chǎng)景和需求,較低分辨率在處理簡(jiǎn)單文檔或?qū)纫笊缘偷膱?chǎng)景下,可以提高處理速度;較高分辨率則能在處理復(fù)雜文檔或?qū)?xì)節(jié)要求嚴(yán)格的任務(wù)時(shí),保證信息的完整性和準(zhǔn)確性。
“Gundam 模式” 處理大圖像:對(duì)于像報(bào)紙這種超長(zhǎng)篇幅的大圖像,DeepEncoder 通過(guò) “Gundam 模式” 將其拆分成小瓦片進(jìn)行處理。這種方式進(jìn)一步降低了處理大圖像時(shí)的計(jì)算壓力,同時(shí)保證了對(duì)大圖像內(nèi)容的有效處理。通過(guò) “Gundam 模式”,DeepSeek-OCR 能夠適應(yīng)各種復(fù)雜的文檔場(chǎng)景,真正實(shí)現(xiàn)了 “按需壓縮”,在不同的應(yīng)用場(chǎng)景下都能展現(xiàn)出良好的性能 。

DeepEncoder 通過(guò)獨(dú)特的 “局部 + 全局” 雙階段設(shè)計(jì)以及對(duì)多分辨率輸入和 “Gundam 模式” 的支持,有效解決了傳統(tǒng)視覺(jué)編碼器的問(wèn)題,在高分辨率圖像的處理上實(shí)現(xiàn)了高效的 Token 壓縮和信息保留,為 DeepSeek-OCR 在 OCR 任務(wù)中的出色表現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。
DeepSeek3B-MoE:小參數(shù)也能高效“解壓”
解碼器沒(méi)有用傳統(tǒng)的大模型,而是選了30億參數(shù)的混合專家(MoE)架構(gòu),推理時(shí)從64 個(gè)路由專家中只激活6個(gè)專家模塊(總激活參數(shù)5.7億)。這種設(shè)計(jì)的好處很明顯:
- 既有30億參數(shù)模型的“理解能力”,能精準(zhǔn)把視覺(jué)Token還原成文本;
- 又有小模型的“速度優(yōu)勢(shì)”,單張A100-40G顯卡一天能處理20萬(wàn)頁(yè)文檔,比傳統(tǒng)OCR工具快好幾倍。
它的“解壓邏輯”也很清晰:通過(guò)非線性映射,把DeepEncoder輸出的壓縮視覺(jué)Token(n個(gè)),還原成原始文本Token(N個(gè),n≤N),就像把壓縮包還原成完整文件一樣。
03、性能有多能打?數(shù)據(jù)說(shuō)話
壓縮比與精度:10倍壓縮近乎無(wú)損
在Fox基準(zhǔn)測(cè)試(包含多種文檔布局)中,DeepSeek-OCR的表現(xiàn)超出預(yù)期:
- 當(dāng)文本Token是視覺(jué)Token的10倍以內(nèi)(壓縮比<10×)時(shí),OCR精度能到97%,相當(dāng)于把1000字的文檔壓成100個(gè)視覺(jué)Token,還原后幾乎沒(méi)錯(cuò)字;
- 就算壓縮到20倍(2000字對(duì)應(yīng)100個(gè)視覺(jué)Token),精度仍有60%,核心信息基本能保留。
這個(gè)結(jié)果說(shuō)明,未來(lái)用“文本轉(zhuǎn)圖像”實(shí)現(xiàn)“無(wú)損壓縮”完全有可能——而且不用額外加算力,因?yàn)樗苤苯訌?fù)用視覺(jué)語(yǔ)言模型(VLM)的基礎(chǔ)設(shè)施。


實(shí)際任務(wù):用更少Token贏過(guò)主流模型
在真實(shí)文檔解析任務(wù)(OmniDocBench基準(zhǔn))中,它的“性價(jià)比”優(yōu)勢(shì)更明顯:
- 僅用100個(gè)視覺(jué)Token,就超過(guò)了需要256個(gè)Token的GOT-OCR2.0;
- 使用 400 個(gè)視覺(jué)Token,性能與該基準(zhǔn)測(cè)試上的當(dāng)前最優(yōu)模型持平。
- 用不到800個(gè)視覺(jué)Token,性能碾壓了平均需要6000+個(gè)Token的MinerU2.0。


關(guān)鍵結(jié)論:
- 部分類別文檔僅需極少數(shù)Token即可達(dá)到理想性能。例如,幻燈片(slides)僅需 64 個(gè)視覺(jué)Token;書(shū)籍(book)和報(bào)告(report)類文檔使用 100 個(gè)視覺(jué)Token即可實(shí)現(xiàn)良好性能。這可能是因?yàn)檫@些文檔中大多數(shù)文本Token數(shù)量在 1000 以內(nèi),視覺(jué) - 文本壓縮比未超過(guò) 10×。
- 對(duì)于報(bào)紙(newspaper)類文檔,由于文本Token數(shù)量通常在 4000-5000 之間,遠(yuǎn)超其他模式 10× 壓縮比的處理范圍,需要使用 Gundam 模式甚至 Gundam-master 模式才能達(dá)到可接受的編輯距離(edit distance),為 VLMs 的視覺(jué)Token優(yōu)化、LLMs 的上下文壓縮及遺忘機(jī)制等研究提供了參考。

深度解析:不止能識(shí)字,還能解析圖表、公式、多語(yǔ)言
DeepSeek-OCR 具備布局處理和 OCR 2.0 任務(wù)處理能力,可通過(guò)二次調(diào)用對(duì)文檔中的圖像進(jìn)行進(jìn)一步解析,稱為“深度解析”(deep parsing)。只需統(tǒng)一提示詞,模型就能對(duì)圖表、幾何圖形、化學(xué)公式乃至自然圖像進(jìn)行深度解析。
- 圖表:把金融報(bào)告里的折線圖、柱狀圖,自動(dòng)轉(zhuǎn)成結(jié)構(gòu)化的HTML表格;

- 書(shū)籍和文章:對(duì)于書(shū)籍和文章,深度解析模式可對(duì)自然圖像輸出密集型描述。

- 化學(xué)公式:識(shí)別文檔里的分子式,輸出科研常用的SMILES格式;

- 幾何圖形:還原平面幾何題里的線段、角度,甚至能標(biāo)注坐標(biāo);

- 多語(yǔ)言:支持近100種語(yǔ)言,從中文、英文到阿拉伯語(yǔ)、僧伽羅語(yǔ)都能搞定。

這些能力讓它在金融、科研、教育等場(chǎng)景里“大有用武之地”——比如把幾十年的歷史病歷壓縮成圖像存儲(chǔ),既能節(jié)省空間,又能快速檢索關(guān)鍵信息。
通用視覺(jué)理解
DeepSeek-OCR 同樣具備一定程度的通用圖像理解能力,包括圖像描述、目標(biāo)檢測(cè)、視覺(jué)定位等功能。同時(shí),由于訓(xùn)練數(shù)據(jù)中包含純文本數(shù)據(jù),模型的語(yǔ)言能力也得以保留。但是,模型并非聊天機(jī)器人,部分功能需通過(guò)完整提示詞激活。

04、更大的價(jià)值:給大模型裝一個(gè)“視覺(jué)記憶庫(kù)”
DeepSeek-OCR的意義,遠(yuǎn)不止是一個(gè)高效OCR工具——更在動(dòng)搖“文本作為大模型核心輸入”的固有認(rèn)知,為L(zhǎng)LM的“長(zhǎng)上下文處理”提供了顛覆性新范式:視覺(jué)模塊可以成為L(zhǎng)LM的“核心記憶組件”。
傳統(tǒng)LLM的“記憶”依賴文本Token存儲(chǔ),就像用一根“無(wú)限長(zhǎng)的薯?xiàng)l”堆砌信息,不僅占用大量上下文窗口,還受制于分詞器的諸多弊病。而DeepSeek-OCR的視覺(jué)模塊將信息壓成“一張小餅”,一舉解決幾大關(guān)鍵痛點(diǎn):
- 突破容量瓶頸:依托強(qiáng)大的視覺(jué)壓縮能力,100個(gè)視覺(jué)Token可對(duì)應(yīng)上千個(gè)文本Token,在OmniDocBench基準(zhǔn)測(cè)試中甚至能實(shí)現(xiàn)最高60倍的壓縮比。這種效率提升相當(dāng)于讓LLM的“記憶容量”呈數(shù)倍增長(zhǎng),使其能輕松存下整本書(shū)、數(shù)天的多輪對(duì)話記錄,從根本上緩解了上下文窗口的容量壓力。
- 重構(gòu)記憶效率:通過(guò)分辨率調(diào)節(jié)實(shí)現(xiàn)“按需存儲(chǔ)”——近期的重要信息用高分辨率圖像保留細(xì)節(jié)(精準(zhǔn)解碼),遠(yuǎn)期的次要信息用低分辨率壓縮核心(語(yǔ)義蒸餾),這種“近清遠(yuǎn)模糊”的模式既貼合人類記憶規(guī)律,又大幅降低了算力消耗,完美契合視覺(jué)輸入的高效特性。
- 實(shí)現(xiàn)多模態(tài)兼容:視覺(jué)輸入讓信息流更通用,不僅能存純文本,更能自然融合加粗、彩色文字、圖表、圖片等豐富格式。例如把帶數(shù)據(jù)圖表的財(cái)報(bào)渲染為圖像壓縮存儲(chǔ),后續(xù)調(diào)用時(shí)既能讀取文字?jǐn)?shù)據(jù),又能還原圖表邏輯——這是受限于文本形式的傳統(tǒng)記憶完全無(wú)法實(shí)現(xiàn)的。
- 擺脫分詞器桎梏:視覺(jué)模塊通過(guò)像素處理信息,徹底繞開(kāi)了“丑陋、獨(dú)立”的分詞器,避免了其帶來(lái)的Unicode兼容、字節(jié)編碼遺留問(wèn)題,以及“肉眼相同字符卻生成不同Token”的荒謬情況,更消除了由此引發(fā)的安全與越獄風(fēng)險(xiǎn),讓記憶存儲(chǔ)更純粹、更可靠。
05、寫(xiě)在最后
DeepSeek-OCR的探索僅僅是個(gè)開(kāi)始,正如Karpathy看完論文后甚至“想立馬搞一個(gè)只有圖像輸入的nanochat版本”,這個(gè)方向還有無(wú)數(shù)值得深挖的可能:如何將“視覺(jué)壓縮”的短期記憶轉(zhuǎn)化為模型的參數(shù)化長(zhǎng)期記憶?能否基于這種模態(tài)轉(zhuǎn)換實(shí)現(xiàn)真正的“無(wú)限長(zhǎng)上下文”對(duì)話?視覺(jué)輸入的雙向注意力機(jī)制如何與LLM的生成邏輯更高效地銜接?
但無(wú)論如何,DeepSeek-OCR已經(jīng)用事實(shí)證明了Karpathy的判斷:通過(guò)模態(tài)轉(zhuǎn)換優(yōu)化效率,遠(yuǎn)比單純堆參數(shù)、擴(kuò)窗口更聰明。它所實(shí)踐的“文本轉(zhuǎn)視覺(jué)”路徑,不僅是技術(shù)層面的優(yōu)化,更是對(duì)大模型輸入范式的重新思考——畢竟“所有‘文本到文本’任務(wù)都能轉(zhuǎn)化為‘視覺(jué)到文本’任務(wù),反之則不行”。
對(duì)于開(kāi)發(fā)者而言,現(xiàn)在就能用它批量處理多格式文檔、生成高質(zhì)量訓(xùn)練數(shù)據(jù),享受高壓縮率與高準(zhǔn)確率帶來(lái)的效率提升;對(duì)于研究人員,它更是驗(yàn)證“視覺(jué)輸入優(yōu)越性”的絕佳“試驗(yàn)田”?;蛟S不久后,我們就能看到能“記住一整本書(shū)、看懂所有格式”的大模型,而這一切的起點(diǎn),正如Karpathy所展望的,就是把文本“渲染”成一張圖。



































