小紅書hi lab開源多語言文檔布局解析模型dots.ocr,1.7B小模型實(shí)現(xiàn)SOTA性能

dots.ocr 是一款功能強(qiáng)大、支持多語言的文檔解析模型,它在單一的視覺語言模型中統(tǒng)一了布局檢測和內(nèi)容識別,同時能保持良好的閱讀順序。盡管其基礎(chǔ)模型是一個17億參數(shù)的“小模型”,但它依然實(shí)現(xiàn)了業(yè)界領(lǐng)先(SOTA)的性能。dots.ocr對多語言識別的良好性能彌補(bǔ)了開源社區(qū)的空白,不錯的檢測、識別能力也為多模態(tài)和大模型社區(qū)提供了寶貴的基礎(chǔ)。
01、簡介
dots.ocr 是一款功能強(qiáng)大、支持多語言的文檔解析模型,它在單一的視覺語言模型中統(tǒng)一了布局檢測和內(nèi)容識別,同時能保持良好的閱讀順序。盡管其基礎(chǔ)僅是一個17億參數(shù)的”小模型“,但依然在多個benchmark上獲得了匹配超大參數(shù)量閉源模型的業(yè)界領(lǐng)先(SOTA)性能。
- 性能強(qiáng)大:dots.ocr 在 OmniDocBench 基準(zhǔn)測試上,針對文本、表格和閱讀順序三方面均取得了業(yè)界領(lǐng)先(SOTA)的性能,同時其公式識別效果可與豆包-1.5(Doubao-1.5)和 gemini2.5-pro 等更大規(guī)模的模型相媲美。
- 多語言支持:dots.ocr 在小語種上展現(xiàn)出強(qiáng)大的解析能力,在我們內(nèi)部的多語言文檔基準(zhǔn)測試中,無論是在布局檢測還是內(nèi)容識別方面,都取得了顯著的優(yōu)勢。
- 統(tǒng)一且簡潔的架構(gòu):通過利用單一的視覺語言模型,dots.ocr 提供了一個比依賴復(fù)雜多模型流水線的方法更為精簡的架構(gòu)。任務(wù)切換僅需通過更改輸入提示詞(prompt)即可完成,證明了視覺語言模型(VLM)同樣可以取得與 DocLayout-YOLO 等傳統(tǒng)檢測模型相媲美的檢測效果。
- 高效與快速:dots.ocr 基于一個17億參數(shù)的大語言模型構(gòu)建,因此其推理速度優(yōu)于多種更大規(guī)模的 VLM 方案。
github:
https://github.com/rednote-hilab/dots.ocr
hugginface:
https://huggingface.co/rednote-hilab/dots.ocr
demo:
https://dotsocr.xiaohongshu.com
多語種端到端識別性能對比

注:英文(EN)和中文(ZH)的指標(biāo)是 OmniDocBench的端到端指標(biāo),多語言(Multilingual)的指標(biāo)是dots.ocr-bench的端到端指標(biāo)。
02、樣例展示
2.1 公式解析樣例



<左右滑動查看更多>
2.2 表格解析樣例



<左右滑動查看更多>
2.3 多語言解析樣例



<左右滑動查看更多>



<左右滑動查看更多>
2.4 閱讀順序樣例

2.5 局部解析樣例

03、評測指標(biāo)
3.1 OmniDocBench
不同任務(wù)的端到端指標(biāo)

9種PDF類型的文本識別指標(biāo)

3.2 dots.ocr-bench
不同任務(wù)的端到端指標(biāo)

Layout檢測指標(biāo)

注: parse all和detection only分別使用“全量解析”和“檢測only”的prompt。
3.3 olmOCR-bench

04、方法
4.1 預(yù)訓(xùn)練
我們通過一個三階段的訓(xùn)練過程,開發(fā)了一個基座視覺語言模型(VLM):
- 階段一:視覺編碼器預(yù)訓(xùn)練
我們基于一個規(guī)模龐大且內(nèi)容豐富的圖文對數(shù)據(jù)集,從零開始訓(xùn)練了一個12億參數(shù)的視覺編碼器。 - 階段二:視覺編碼器持續(xù)預(yù)訓(xùn)練
我們采用NaViT動態(tài)分辨率架構(gòu)支持高達(dá)1100萬像素的高分辨率輸入,同時加入了OCR、視頻、定位數(shù)據(jù)(grounding data)等額外的視覺數(shù)據(jù),我們將該視覺編碼器與Qwen2.5-1.5B語言模型進(jìn)行對齊,并在這些多樣的視覺數(shù)據(jù)上訓(xùn)練,最終產(chǎn)出了我們的通用視覺編碼器 dots.vit。 - 階段三:VLM訓(xùn)練
我們使用純OCR數(shù)據(jù)集訓(xùn)練。為提升訓(xùn)練效率,我們首先在凍結(jié)VE參數(shù)的情況下,訓(xùn)練一定量的tokens;隨后,我們放開全部參數(shù)繼續(xù)訓(xùn)練了1/5的token量,最終產(chǎn)出了我們的OCR基座模型 dots.ocr.base。
4.2 監(jiān)督微調(diào)
SFT階段采用了以下關(guān)鍵策略:
- 多樣化的SFT數(shù)據(jù)集:我們構(gòu)建了一個包含數(shù)十萬樣本的數(shù)據(jù)集,該數(shù)據(jù)集整合了我們內(nèi)部的人工標(biāo)注數(shù)據(jù)、合成數(shù)據(jù)(表格、公式、多語言O(shè)CR)以及開源數(shù)據(jù)集。
- 迭代式數(shù)據(jù)飛輪:我們采用反饋循環(huán)機(jī)制,構(gòu)建了一個包含1.5萬樣本的內(nèi)部多語言結(jié)構(gòu)化layout數(shù)據(jù)集。這個過程經(jīng)過了三次迭代,包含以下步驟:
- 根據(jù)模型表現(xiàn),篩選出“壞樣本”(bad cases)。
- 對這些樣本進(jìn)行人工標(biāo)注。
- 將它們重新加入訓(xùn)練集。
- 閱讀順序:我們采用“大模型排序 + 規(guī)則后驗(yàn)”的方法修正了所有版面布局(layout)數(shù)據(jù)中元素框的順序。我們發(fā)現(xiàn),在數(shù)據(jù)質(zhì)量和多樣性足夠的情況下,將元素列表按閱讀順序排列后進(jìn)行訓(xùn)練,即可獲得出色的效果。
- 質(zhì)量與魯棒性:我們構(gòu)建了一個多專家系統(tǒng),用于數(shù)據(jù)清洗和蒸餾,并應(yīng)用了數(shù)據(jù)增強(qiáng)(如縮放、旋轉(zhuǎn)、加噪聲)來提升模型的魯棒性。
- 多任務(wù)訓(xùn)練:我們利用單一的結(jié)構(gòu)化布局?jǐn)?shù)據(jù)源,構(gòu)造不同提示詞(prompts)的SFT數(shù)據(jù)。這種方法使得模型能根據(jù)提供的特定提示詞,執(zhí)行不同的任務(wù),例如檢測和識別。
最終得到的 dots.ocr 模型,其性能可與參數(shù)量遠(yuǎn)超于它的模型相媲美。
05、局限性和未來工作
雖然有不錯的性能,但模型仍存在一些局限性和未來可改進(jìn)之處:
- 復(fù)雜的文檔元素:
a.表格與公式:對于高復(fù)雜度的表格和公式提取,dots.ocr 的表現(xiàn)尚不完美。
b.圖片:目前模型還無法解析文檔中的圖片信息。
- 解析失?。?/span> 在特定條件下,模型可能會解析失?。?/span>
a.當(dāng)字符與像素的比率過高時。建議嘗試放大圖片或提高PDF解析的DPI(推薦設(shè)置為200)。但請注意,模型在分辨率低于11,289,600像素的圖像上表現(xiàn)最佳。
b.連續(xù)的特殊字符,如省略號(...)和下劃線(_),可能會導(dǎo)致預(yù)測輸出無限重復(fù)。在這種情況下,可以考慮使用其他提示詞,詳見github倉庫。
- 性能瓶頸:
a.盡管dots.ocr基于17億參數(shù)的LLM開發(fā),但相對于PDF文件龐大的規(guī)模而言,它的效率仍然不夠高。
未來,我們將進(jìn)一步提升模型對表格和公式解析能力,并增強(qiáng)模型在不同場景的泛化能力,打造一個更強(qiáng)大、更高效的模型。此外,我們正考慮基于單視覺語言模型(VLM)完成更通用和廣泛的感知任務(wù),包括通用檢測、圖像描述和OCR任務(wù)等。解析文檔中圖片的內(nèi)容也是我們未來工作的重點(diǎn)之一。
06、作者簡介
Contributors
簡米
小紅書hi lab團(tuán)隊(duì)算法工程師,主要研究方向是多模態(tài)大模型
李雨萌
小紅書hi lab團(tuán)隊(duì)算法實(shí)習(xí)生,現(xiàn)就讀于北京航空航天大學(xué),主要研究方向?yàn)槎嗄B(tài)理解和生成
王泊文
小紅書 hi lab團(tuán)隊(duì)算法實(shí)習(xí)生,現(xiàn)就讀于美國賓夕法尼亞大學(xué)工程學(xué)院,主要研究方向?yàn)榇笳Z言模型對齊、多模態(tài)對齊
Project Leader
燕青
小紅書hi lab團(tuán)隊(duì)算法工程師,主要研究方向是多模態(tài)大模型
Advisor
柯雄(colin zhang)
小紅書 hi lab 多模方向研發(fā)負(fù)責(zé)人

































