偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)開源高精度文檔解析大模型Dolphin:輕量高效,性能超GPT4.1、Mistral-OCR!

人工智能 新聞
這款輕量級模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。

字節(jié)跳動剛剛開源一款全新文檔解析模型——Dolphin。

與目前市面上各類大模型相比,這款輕量級模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。

測試結(jié)果顯示,Dolphin在文檔解析任務(wù)上解析準(zhǔn)確率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模態(tài)大模型,以及最近推出的號稱最強(qiáng)OCR大模型的Mistral-OCR等垂類大模型。

圖片

論文已被收錄于ACL 2025,項目鏈接可見文末。

突破性的兩階段解析方法

文檔圖像解析解決方案可以分為兩大流派:集成式方法以及端到端方法。

集成式方法在鏈路中組裝多個專家模型,端到端方法則利用視覺語言模型通過自回歸解碼直接生成結(jié)構(gòu)化結(jié)果。

而Dolphin采用了全新的“先解析結(jié)構(gòu)后解析內(nèi)容”(analyze-then-parse)兩階段范式:

圖片


△Dolphin遵循一種基于編碼器-解碼器Transformer架構(gòu)的分析-解析范式

  • 第一階段—文檔布局解析:按照自然閱讀順序生成文檔元素序列,即每個文檔元素的類別及其坐標(biāo)。這里的文檔元素值得是標(biāo)題、圖表、表格、腳注等。
  • 第二階段—元素內(nèi)容解析:使用這些元素作為”錨點”,配合特定提示詞實現(xiàn)并行內(nèi)容識別,從而完成整頁文檔的內(nèi)容提取。

這種創(chuàng)新架構(gòu)一箭雙雕,既避免了傳統(tǒng)商用方案中多OCR專家模型級聯(lián)帶來的錯誤累積問題,又克服了通用多模態(tài)大模型易丟失版面結(jié)構(gòu)信息、自回歸解碼效率低的痛點。

因為獲取孤立的元素圖像(例如表格、公式)及其標(biāo)注比收集包含多種元素的完整文檔頁面更可行,Dolphin的元素解耦解析策略在數(shù)據(jù)收集方面提供了獨特的優(yōu)勢。

更輕量、更高效

圖片

△Dolphin與先進(jìn)VLMs在基準(zhǔn)測試中的比較

對于流行的基準(zhǔn)測試,Dolphin在多種頁面級和元素級解析任務(wù)中達(dá)到了最先進(jìn)的性能。

圖片△頁面級文檔解析的性能比較

盡管Dolphin具有輕量級架構(gòu)(322M參數(shù)),但其性能優(yōu)于基于集成的方法和更大的VLM。

“Plain Doc”代表僅包含文本內(nèi)容的文檔,而“Complex Doc”包括包含混合元素(表格、公式和圖形)的文檔。

對于純文本文檔,Dolphin在英文和中文測試集上分別達(dá)到了0.0114和0.0131的編輯距離,優(yōu)于垂類的VLM如GOT(編輯距離為0.035和0.038)和通用VLM如GPT-4.1(編輯距離為0.0489和0.2549)。

在處理包含表格、公式、圖像等混合元素的文檔時,Dolphin達(dá)到了0.1283的編輯距離,優(yōu)于所有基線。

此外,憑借并行解析設(shè)計,Dolphin展示了顯著的效率提升,達(dá)到了0.1729FPS,比最有效的基線(Mathpix,0.0944FPS)快近2倍。

圖片

△文本段落、公式和表格的元素級解析性能比較

對于文本段落解析,Dolphin在Fox-Block和Dolphin-Block測試集上都取得了具有競爭力的結(jié)果。

在公式識別方面,Dolphin在不同復(fù)雜度級別(SPE、SCE和CPE)上都展現(xiàn)出強(qiáng)大的能力,取得了與專業(yè)公式識別方法相當(dāng)?shù)木哂懈偁幜Φ腃DM分?jǐn)?shù)。

對于表格解析,Dolphin在PubTabNet和PubTab1M基準(zhǔn)測試上顯示出有前景的結(jié)果,有效地捕捉了結(jié)構(gòu)關(guān)系和單元格內(nèi)容。

在文本段落、公式和表格上這些持續(xù)強(qiáng)勁的結(jié)果展示了Dolphin在基礎(chǔ)識別任務(wù)中的具有競爭力的性能。

實際案例展示

下面通過幾個實際案例,直觀展示Dolphin的文檔解析能力:

無論是多欄學(xué)術(shù)論文、復(fù)雜公式、中英表格,Dolphin都能精準(zhǔn)識別、高效處理。

圖片

△Dolphin的頁面級解析結(jié)果可視化

  • 左:第一階段布局分析,包含預(yù)測的元素邊界和閱讀順序。
  • 中:第二階段特定元素的解析輸出。
  • 右:最終以markdown格式渲染的文檔。
圖片

△Dolphin在各種場景下的元素級解析演示

頂部行顯示輸入圖像,底部行顯示相應(yīng)的識別結(jié)果。

  • 左:復(fù)雜布局中的文本段落解析。
  • 中:雙語文本段落識別。
  • 右:復(fù)雜表格解析(顯示渲染結(jié)果)。

圖片

△Dolphin的其他功能

  • 左:從給定的邊界框區(qū)域中解析文本內(nèi)容。
  • 右:文本識別結(jié)果,顯示了檢測到的文本行(在圖像中可視化)及其內(nèi)容。

Demo:http://115.190.42.15:8888/dolphin/

Github:https://github.com/bytedance/DolphinHugging Face:https://huggingface.co/ByteDance/Dolphin論文:https://arxiv.org/abs/2505.14059

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-26 16:46:38

2025-07-30 09:07:00

2025-05-23 09:14:57

2025-03-10 18:50:57

2025-05-30 08:11:30

2025-06-11 08:54:52

2025-04-15 09:50:06

2025-04-16 09:35:03

2024-02-27 13:38:16

微軟OpenAI模型

2025-05-15 10:50:46

2025-07-17 07:12:45

2025-04-15 07:41:18

2024-03-04 00:00:00

GemmaAI模型

2025-07-17 10:47:33

2025-04-15 08:51:05

2022-03-21 15:06:10

模型字節(jié)跳動框架

2022-03-21 17:56:59

大模型訓(xùn)練訓(xùn)練框架

2025-08-01 03:00:00

2024-01-08 08:23:08

OpenCV機(jī)器學(xué)習(xí)計算機(jī)視覺

2025-06-23 09:12:00

點贊
收藏

51CTO技術(shù)棧公眾號