Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率,僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 原創(chuàng)
Deepseek最新發(fā)布的OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率,僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式,且Token消耗量?jī)H為GPT-4V的十分之一。經(jīng)過(guò)對(duì)源碼的深入解析,我們歸納出其三大核心技術(shù)突破,這些創(chuàng)新共同將OCR性能提升至全新水平。
性能表現(xiàn)一覽
- Token壓縮效率:達(dá)到64:1(行業(yè)普遍水平為16:1)
- 處理速度:在A100上實(shí)現(xiàn)每秒2500 token
- 文檔轉(zhuǎn)換:100頁(yè)P(yáng)DF僅耗時(shí)15秒
- 識(shí)別精度:在OmniDocBench測(cè)試中獲得91.0%準(zhǔn)確率
橫向?qū)Ρ蕊@示: 相較GOT-OCR 2.0:Token使用量減少75%,處理速度提升35% 對(duì)比Qwen-VL:在表格識(shí)別準(zhǔn)確率上領(lǐng)先5個(gè)百分點(diǎn) 與LLaVA-Next相比:支持更高分辨率輸入(1280×1280)
創(chuàng)新一:雙編碼器級(jí)聯(lián)架構(gòu)
該模型突破性地采用SAM與CLIP雙編碼器串聯(lián)設(shè)計(jì): 圖像輸入 → SAM捕捉細(xì)節(jié)特征 → CLIP進(jìn)行語(yǔ)義解析 → 特征融合輸出
設(shè)計(jì)理念解析: SAM優(yōu)勢(shì):精準(zhǔn)提取邊緣特征、文字輪廓及高分辨率細(xì)節(jié) CLIP專長(zhǎng):深度語(yǔ)義理解與跨模態(tài)對(duì)齊 串聯(lián)價(jià)值:CLIP可直接利用SAM提取的底層特征,避免重復(fù)計(jì)算 實(shí)際成效:文字邊緣清晰度提升15%,小字體識(shí)別準(zhǔn)確率提高8%
創(chuàng)新二:空間位置標(biāo)記技術(shù)
獨(dú)創(chuàng)性地在視覺標(biāo)記序列中嵌入空間定位符號(hào): 行尾標(biāo)記:<|\n|> 標(biāo)識(shí)每行結(jié)束 視圖分隔符:<|view_separator|> 區(qū)分全局與局部視圖
傳統(tǒng)方法缺陷:[標(biāo)記1, 標(biāo)記2, 標(biāo)記3...] 丟失空間信息 創(chuàng)新方案:[標(biāo)記1, 標(biāo)記2, <\n>, 標(biāo)記3, 標(biāo)記4, <\n>...] 完整保留二維布局 實(shí)際效果: 表格識(shí)別準(zhǔn)確率提升5% 文檔結(jié)構(gòu)理解能力增強(qiáng)10% 定位任務(wù)精度提高15%
創(chuàng)新三:自適應(yīng)分辨率處理機(jī)制
基于圖像尺寸的智能分片策略: 常規(guī)圖像(640×640):?jiǎn)我晥D處理,生成273個(gè)標(biāo)記 高清圖像(3840×2160):3×2分片+全局視圖,共933個(gè)標(biāo)記
壓縮技術(shù)細(xì)節(jié): 圖像塊尺寸:16×16像素 下采樣比例:4倍 總體壓縮比:64:1
同分辨率(1024P)輸入對(duì)比: LLaVA-Next:1350個(gè)標(biāo)記 Qwen-VL:5400個(gè)標(biāo)記 DeepSeek-OCR:僅需273個(gè)標(biāo)記
工程優(yōu)化亮點(diǎn)
- 集成vLLM推理引擎:采用分頁(yè)注意力與連續(xù)批處理技術(shù)
- 針對(duì)多模態(tài)項(xiàng)目的技術(shù)啟示: 多編碼器協(xié)同:充分發(fā)揮各組件獨(dú)特優(yōu)勢(shì) 空間標(biāo)記設(shè)計(jì):賦予語(yǔ)言模型二維空間認(rèn)知 動(dòng)態(tài)分辨率適配:根據(jù)輸入特征智能調(diào)整處理策略 位置編碼插值:優(yōu)雅應(yīng)對(duì)不同分辨率輸入
這些技術(shù)創(chuàng)新不僅展現(xiàn)了卓越的工程實(shí)現(xiàn)能力,更為多模態(tài)技術(shù)發(fā)展提供了重要參考方向。
本文轉(zhuǎn)載自????AI 博物院???? 作者:longyunfeigu

















