字節(jié)開(kāi)源高精度文檔解析大模型Dolphin:輕量高效,性能超GPT4.1、Mistral-OCR!
字節(jié)跳動(dòng)剛剛開(kāi)源一款全新文檔解析模型——Dolphin。
與目前市面上各類大模型相比,這款輕量級(jí)模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。
測(cè)試結(jié)果顯示,Dolphin在文檔解析任務(wù)上解析準(zhǔn)確率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模態(tài)大模型,以及最近推出的號(hào)稱最強(qiáng)OCR大模型的Mistral-OCR等垂類大模型。
論文已被收錄于ACL 2025,項(xiàng)目鏈接可見(jiàn)文末。
突破性的兩階段解析方法
文檔圖像解析解決方案可以分為兩大流派:集成式方法以及端到端方法。
集成式方法在鏈路中組裝多個(gè)專家模型,端到端方法則利用視覺(jué)語(yǔ)言模型通過(guò)自回歸解碼直接生成結(jié)構(gòu)化結(jié)果。
而Dolphin采用了全新的“先解析結(jié)構(gòu)后解析內(nèi)容”(analyze-then-parse)兩階段范式:
△Dolphin遵循一種基于編碼器-解碼器Transformer架構(gòu)的分析-解析范式
- 第一階段—文檔布局解析:按照自然閱讀順序生成文檔元素序列,即每個(gè)文檔元素的類別及其坐標(biāo)。這里的文檔元素值得是標(biāo)題、圖表、表格、腳注等。
- 第二階段—元素內(nèi)容解析:使用這些元素作為”錨點(diǎn)”,配合特定提示詞實(shí)現(xiàn)并行內(nèi)容識(shí)別,從而完成整頁(yè)文檔的內(nèi)容提取。
這種創(chuàng)新架構(gòu)一箭雙雕,既避免了傳統(tǒng)商用方案中多OCR專家模型級(jí)聯(lián)帶來(lái)的錯(cuò)誤累積問(wèn)題,又克服了通用多模態(tài)大模型易丟失版面結(jié)構(gòu)信息、自回歸解碼效率低的痛點(diǎn)。
因?yàn)楂@取孤立的元素圖像(例如表格、公式)及其標(biāo)注比收集包含多種元素的完整文檔頁(yè)面更可行,Dolphin的元素解耦解析策略在數(shù)據(jù)收集方面提供了獨(dú)特的優(yōu)勢(shì)。
更輕量、更高效
△Dolphin與先進(jìn)VLMs在基準(zhǔn)測(cè)試中的比較
對(duì)于流行的基準(zhǔn)測(cè)試,Dolphin在多種頁(yè)面級(jí)和元素級(jí)解析任務(wù)中達(dá)到了最先進(jìn)的性能。
△頁(yè)面級(jí)文檔解析的性能比較
盡管Dolphin具有輕量級(jí)架構(gòu)(322M參數(shù)),但其性能優(yōu)于基于集成的方法和更大的VLM。
“Plain Doc”代表僅包含文本內(nèi)容的文檔,而“Complex Doc”包括包含混合元素(表格、公式和圖形)的文檔。
對(duì)于純文本文檔,Dolphin在英文和中文測(cè)試集上分別達(dá)到了0.0114和0.0131的編輯距離,優(yōu)于垂類的VLM如GOT(編輯距離為0.035和0.038)和通用VLM如GPT-4.1(編輯距離為0.0489和0.2549)。
在處理包含表格、公式、圖像等混合元素的文檔時(shí),Dolphin達(dá)到了0.1283的編輯距離,優(yōu)于所有基線。
此外,憑借并行解析設(shè)計(jì),Dolphin展示了顯著的效率提升,達(dá)到了0.1729FPS,比最有效的基線(Mathpix,0.0944FPS)快近2倍。
△文本段落、公式和表格的元素級(jí)解析性能比較
對(duì)于文本段落解析,Dolphin在Fox-Block和Dolphin-Block測(cè)試集上都取得了具有競(jìng)爭(zhēng)力的結(jié)果。
在公式識(shí)別方面,Dolphin在不同復(fù)雜度級(jí)別(SPE、SCE和CPE)上都展現(xiàn)出強(qiáng)大的能力,取得了與專業(yè)公式識(shí)別方法相當(dāng)?shù)木哂懈?jìng)爭(zhēng)力的CDM分?jǐn)?shù)。
對(duì)于表格解析,Dolphin在PubTabNet和PubTab1M基準(zhǔn)測(cè)試上顯示出有前景的結(jié)果,有效地捕捉了結(jié)構(gòu)關(guān)系和單元格內(nèi)容。
在文本段落、公式和表格上這些持續(xù)強(qiáng)勁的結(jié)果展示了Dolphin在基礎(chǔ)識(shí)別任務(wù)中的具有競(jìng)爭(zhēng)力的性能。
實(shí)際案例展示
下面通過(guò)幾個(gè)實(shí)際案例,直觀展示Dolphin的文檔解析能力:
無(wú)論是多欄學(xué)術(shù)論文、復(fù)雜公式、中英表格,Dolphin都能精準(zhǔn)識(shí)別、高效處理。
△Dolphin的頁(yè)面級(jí)解析結(jié)果可視化
- 左:第一階段布局分析,包含預(yù)測(cè)的元素邊界和閱讀順序。
- 中:第二階段特定元素的解析輸出。
- 右:最終以markdown格式渲染的文檔。
△Dolphin在各種場(chǎng)景下的元素級(jí)解析演示
頂部行顯示輸入圖像,底部行顯示相應(yīng)的識(shí)別結(jié)果。
- 左:復(fù)雜布局中的文本段落解析。
- 中:雙語(yǔ)文本段落識(shí)別。
- 右:復(fù)雜表格解析(顯示渲染結(jié)果)。
△Dolphin的其他功能
- 左:從給定的邊界框區(qū)域中解析文本內(nèi)容。
- 右:文本識(shí)別結(jié)果,顯示了檢測(cè)到的文本行(在圖像中可視化)及其內(nèi)容。
Demo:http://115.190.42.15:8888/dolphin/
Github:https://github.com/bytedance/DolphinHugging Face:https://huggingface.co/ByteDance/Dolphin論文:https://arxiv.org/abs/2505.14059