小紅書hi lab開源多語言文檔布局解析模型dots.ocr，1.7B小模型實(shí)現(xiàn)SOTA性能

2025-08-01 03:00:00

dots.ocr 是一款功能強(qiáng)大、支持多語言的文檔解析模型，它在單一的視覺語言模型中統(tǒng)一了布局檢測和內(nèi)容識別，同時能保持良好的閱讀順序。

dots.ocr 是一款功能強(qiáng)大、支持多語言的文檔解析模型，它在單一的視覺語言模型中統(tǒng)一了布局檢測和內(nèi)容識別，同時能保持良好的閱讀順序。盡管其基礎(chǔ)模型是一個17億參數(shù)的“小模型”，但它依然實(shí)現(xiàn)了業(yè)界領(lǐng)先（SOTA）的性能。dots.ocr對多語言識別的良好性能彌補(bǔ)了開源社區(qū)的空白，不錯的檢測、識別能力也為多模態(tài)和大模型社區(qū)提供了寶貴的基礎(chǔ)。

01、簡介

dots.ocr 是一款功能強(qiáng)大、支持多語言的文檔解析模型，它在單一的視覺語言模型中統(tǒng)一了布局檢測和內(nèi)容識別，同時能保持良好的閱讀順序。盡管其基礎(chǔ)僅是一個17億參數(shù)的”小模型“，但依然在多個benchmark上獲得了匹配超大參數(shù)量閉源模型的業(yè)界領(lǐng)先（SOTA）性能。

性能強(qiáng)大：dots.ocr 在 OmniDocBench 基準(zhǔn)測試上，針對文本、表格和閱讀順序三方面均取得了業(yè)界領(lǐng)先（SOTA）的性能，同時其公式識別效果可與豆包-1.5（Doubao-1.5）和 gemini2.5-pro 等更大規(guī)模的模型相媲美。
多語言支持：dots.ocr 在小語種上展現(xiàn)出強(qiáng)大的解析能力，在我們內(nèi)部的多語言文檔基準(zhǔn)測試中，無論是在布局檢測還是內(nèi)容識別方面，都取得了顯著的優(yōu)勢。
統(tǒng)一且簡潔的架構(gòu)：通過利用單一的視覺語言模型，dots.ocr 提供了一個比依賴復(fù)雜多模型流水線的方法更為精簡的架構(gòu)。任務(wù)切換僅需通過更改輸入提示詞（prompt）即可完成，證明了視覺語言模型（VLM）同樣可以取得與 DocLayout-YOLO 等傳統(tǒng)檢測模型相媲美的檢測效果。
高效與快速：dots.ocr 基于一個17億參數(shù)的大語言模型構(gòu)建，因此其推理速度優(yōu)于多種更大規(guī)模的 VLM 方案。

github:

https://github.com/rednote-hilab/dots.ocr

hugginface:

https://huggingface.co/rednote-hilab/dots.ocr

demo:

https://dotsocr.xiaohongshu.com

多語種端到端識別性能對比

注：英文（EN）和中文（ZH）的指標(biāo)是 OmniDocBench的端到端指標(biāo)，多語言（Multilingual）的指標(biāo)是dots.ocr-bench的端到端指標(biāo)。

02、樣例展示

2.1 公式解析樣例

<左右滑動查看更多>

2.2 表格解析樣例

<左右滑動查看更多>

2.3 多語言解析樣例

<左右滑動查看更多>

2.4 閱讀順序樣例

2.5 局部解析樣例

03、評測指標(biāo)

3.1 OmniDocBench

不同任務(wù)的端到端指標(biāo)

9種PDF類型的文本識別指標(biāo)

3.2 dots.ocr-bench

不同任務(wù)的端到端指標(biāo)

Layout檢測指標(biāo)

注: parse all和detection only分別使用“全量解析”和“檢測only”的prompt。

3.3 olmOCR-bench

04、方法

4.1 預(yù)訓(xùn)練

我們通過一個三階段的訓(xùn)練過程，開發(fā)了一個基座視覺語言模型（VLM）：

階段一：視覺編碼器預(yù)訓(xùn)練
我們基于一個規(guī)模龐大且內(nèi)容豐富的圖文對數(shù)據(jù)集，從零開始訓(xùn)練了一個12億參數(shù)的視覺編碼器。
階段二：視覺編碼器持續(xù)預(yù)訓(xùn)練
我們采用NaViT動態(tài)分辨率架構(gòu)支持高達(dá)1100萬像素的高分辨率輸入，同時加入了OCR、視頻、定位數(shù)據(jù)（grounding data）等額外的視覺數(shù)據(jù)，我們將該視覺編碼器與Qwen2.5-1.5B語言模型進(jìn)行對齊，并在這些多樣的視覺數(shù)據(jù)上訓(xùn)練，最終產(chǎn)出了我們的通用視覺編碼器 dots.vit。
階段三：VLM訓(xùn)練
我們使用純OCR數(shù)據(jù)集訓(xùn)練。為提升訓(xùn)練效率，我們首先在凍結(jié)VE參數(shù)的情況下，訓(xùn)練一定量的tokens；隨后，我們放開全部參數(shù)繼續(xù)訓(xùn)練了1/5的token量，最終產(chǎn)出了我們的OCR基座模型 dots.ocr.base。

4.2 監(jiān)督微調(diào)

SFT階段采用了以下關(guān)鍵策略：

多樣化的SFT數(shù)據(jù)集：我們構(gòu)建了一個包含數(shù)十萬樣本的數(shù)據(jù)集，該數(shù)據(jù)集整合了我們內(nèi)部的人工標(biāo)注數(shù)據(jù)、合成數(shù)據(jù)（表格、公式、多語言O(shè)CR）以及開源數(shù)據(jù)集。
迭代式數(shù)據(jù)飛輪：我們采用反饋循環(huán)機(jī)制，構(gòu)建了一個包含1.5萬樣本的內(nèi)部多語言結(jié)構(gòu)化layout數(shù)據(jù)集。這個過程經(jīng)過了三次迭代，包含以下步驟：

根據(jù)模型表現(xiàn)，篩選出“壞樣本”（bad cases）。
對這些樣本進(jìn)行人工標(biāo)注。
將它們重新加入訓(xùn)練集。

閱讀順序：我們采用“大模型排序 + 規(guī)則后驗(yàn)”的方法修正了所有版面布局（layout）數(shù)據(jù)中元素框的順序。我們發(fā)現(xiàn)，在數(shù)據(jù)質(zhì)量和多樣性足夠的情況下，將元素列表按閱讀順序排列后進(jìn)行訓(xùn)練，即可獲得出色的效果。
質(zhì)量與魯棒性：我們構(gòu)建了一個多專家系統(tǒng)，用于數(shù)據(jù)清洗和蒸餾，并應(yīng)用了數(shù)據(jù)增強(qiáng)（如縮放、旋轉(zhuǎn)、加噪聲）來提升模型的魯棒性。

多任務(wù)訓(xùn)練：我們利用單一的結(jié)構(gòu)化布局?jǐn)?shù)據(jù)源，構(gòu)造不同提示詞（prompts）的SFT數(shù)據(jù)。這種方法使得模型能根據(jù)提供的特定提示詞，執(zhí)行不同的任務(wù)，例如檢測和識別。

最終得到的 dots.ocr 模型，其性能可與參數(shù)量遠(yuǎn)超于它的模型相媲美。

05、局限性和未來工作

雖然有不錯的性能，但模型仍存在一些局限性和未來可改進(jìn)之處：

復(fù)雜的文檔元素：

a.表格與公式：對于高復(fù)雜度的表格和公式提取，dots.ocr 的表現(xiàn)尚不完美。

b.圖片：目前模型還無法解析文檔中的圖片信息。

解析失?。?/span> 在特定條件下，模型可能會解析失?。?/span>

a.當(dāng)字符與像素的比率過高時。建議嘗試放大圖片或提高PDF解析的DPI（推薦設(shè)置為200）。但請注意，模型在分辨率低于11,289,600像素的圖像上表現(xiàn)最佳。

b.連續(xù)的特殊字符，如省略號（...）和下劃線（_），可能會導(dǎo)致預(yù)測輸出無限重復(fù)。在這種情況下，可以考慮使用其他提示詞，詳見github倉庫。

性能瓶頸：

a.盡管dots.ocr基于17億參數(shù)的LLM開發(fā)，但相對于PDF文件龐大的規(guī)模而言，它的效率仍然不夠高。

未來，我們將進(jìn)一步提升模型對表格和公式解析能力，并增強(qiáng)模型在不同場景的泛化能力，打造一個更強(qiáng)大、更高效的模型。此外，我們正考慮基于單視覺語言模型（VLM）完成更通用和廣泛的感知任務(wù)，包括通用檢測、圖像描述和OCR任務(wù)等。解析文檔中圖片的內(nèi)容也是我們未來工作的重點(diǎn)之一。