偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)開(kāi)源高精度文檔解析大模型Dolphin:輕量高效,性能超GPT4.1、Mistral-OCR!

人工智能 新聞
這款輕量級(jí)模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。

字節(jié)跳動(dòng)剛剛開(kāi)源一款全新文檔解析模型——Dolphin。

與目前市面上各類大模型相比,這款輕量級(jí)模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。

測(cè)試結(jié)果顯示,Dolphin在文檔解析任務(wù)上解析準(zhǔn)確率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模態(tài)大模型,以及最近推出的號(hào)稱最強(qiáng)OCR大模型的Mistral-OCR等垂類大模型。

圖片

論文已被收錄于ACL 2025,項(xiàng)目鏈接可見(jiàn)文末。

突破性的兩階段解析方法

文檔圖像解析解決方案可以分為兩大流派:集成式方法以及端到端方法。

集成式方法在鏈路中組裝多個(gè)專家模型,端到端方法則利用視覺(jué)語(yǔ)言模型通過(guò)自回歸解碼直接生成結(jié)構(gòu)化結(jié)果。

而Dolphin采用了全新的“先解析結(jié)構(gòu)后解析內(nèi)容”(analyze-then-parse)兩階段范式:

圖片


△Dolphin遵循一種基于編碼器-解碼器Transformer架構(gòu)的分析-解析范式

  • 第一階段—文檔布局解析:按照自然閱讀順序生成文檔元素序列,即每個(gè)文檔元素的類別及其坐標(biāo)。這里的文檔元素值得是標(biāo)題、圖表、表格、腳注等。
  • 第二階段—元素內(nèi)容解析:使用這些元素作為”錨點(diǎn)”,配合特定提示詞實(shí)現(xiàn)并行內(nèi)容識(shí)別,從而完成整頁(yè)文檔的內(nèi)容提取。

這種創(chuàng)新架構(gòu)一箭雙雕,既避免了傳統(tǒng)商用方案中多OCR專家模型級(jí)聯(lián)帶來(lái)的錯(cuò)誤累積問(wèn)題,又克服了通用多模態(tài)大模型易丟失版面結(jié)構(gòu)信息、自回歸解碼效率低的痛點(diǎn)。

因?yàn)楂@取孤立的元素圖像(例如表格、公式)及其標(biāo)注比收集包含多種元素的完整文檔頁(yè)面更可行,Dolphin的元素解耦解析策略在數(shù)據(jù)收集方面提供了獨(dú)特的優(yōu)勢(shì)。

更輕量、更高效

圖片

△Dolphin與先進(jìn)VLMs在基準(zhǔn)測(cè)試中的比較

對(duì)于流行的基準(zhǔn)測(cè)試,Dolphin在多種頁(yè)面級(jí)和元素級(jí)解析任務(wù)中達(dá)到了最先進(jìn)的性能。

圖片△頁(yè)面級(jí)文檔解析的性能比較

盡管Dolphin具有輕量級(jí)架構(gòu)(322M參數(shù)),但其性能優(yōu)于基于集成的方法和更大的VLM。

“Plain Doc”代表僅包含文本內(nèi)容的文檔,而“Complex Doc”包括包含混合元素(表格、公式和圖形)的文檔。

對(duì)于純文本文檔,Dolphin在英文和中文測(cè)試集上分別達(dá)到了0.0114和0.0131的編輯距離,優(yōu)于垂類的VLM如GOT(編輯距離為0.035和0.038)和通用VLM如GPT-4.1(編輯距離為0.0489和0.2549)。

在處理包含表格、公式、圖像等混合元素的文檔時(shí),Dolphin達(dá)到了0.1283的編輯距離,優(yōu)于所有基線。

此外,憑借并行解析設(shè)計(jì),Dolphin展示了顯著的效率提升,達(dá)到了0.1729FPS,比最有效的基線(Mathpix,0.0944FPS)快近2倍。

圖片

△文本段落、公式和表格的元素級(jí)解析性能比較

對(duì)于文本段落解析,Dolphin在Fox-Block和Dolphin-Block測(cè)試集上都取得了具有競(jìng)爭(zhēng)力的結(jié)果。

在公式識(shí)別方面,Dolphin在不同復(fù)雜度級(jí)別(SPE、SCE和CPE)上都展現(xiàn)出強(qiáng)大的能力,取得了與專業(yè)公式識(shí)別方法相當(dāng)?shù)木哂懈?jìng)爭(zhēng)力的CDM分?jǐn)?shù)。

對(duì)于表格解析,Dolphin在PubTabNet和PubTab1M基準(zhǔn)測(cè)試上顯示出有前景的結(jié)果,有效地捕捉了結(jié)構(gòu)關(guān)系和單元格內(nèi)容。

在文本段落、公式和表格上這些持續(xù)強(qiáng)勁的結(jié)果展示了Dolphin在基礎(chǔ)識(shí)別任務(wù)中的具有競(jìng)爭(zhēng)力的性能。

實(shí)際案例展示

下面通過(guò)幾個(gè)實(shí)際案例,直觀展示Dolphin的文檔解析能力:

無(wú)論是多欄學(xué)術(shù)論文、復(fù)雜公式、中英表格,Dolphin都能精準(zhǔn)識(shí)別、高效處理。

圖片

△Dolphin的頁(yè)面級(jí)解析結(jié)果可視化

  • 左:第一階段布局分析,包含預(yù)測(cè)的元素邊界和閱讀順序。
  • 中:第二階段特定元素的解析輸出。
  • 右:最終以markdown格式渲染的文檔。
圖片

△Dolphin在各種場(chǎng)景下的元素級(jí)解析演示

頂部行顯示輸入圖像,底部行顯示相應(yīng)的識(shí)別結(jié)果。

  • 左:復(fù)雜布局中的文本段落解析。
  • 中:雙語(yǔ)文本段落識(shí)別。
  • 右:復(fù)雜表格解析(顯示渲染結(jié)果)。

圖片

△Dolphin的其他功能

  • 左:從給定的邊界框區(qū)域中解析文本內(nèi)容。
  • 右:文本識(shí)別結(jié)果,顯示了檢測(cè)到的文本行(在圖像中可視化)及其內(nèi)容。

Demo:http://115.190.42.15:8888/dolphin/

Github:https://github.com/bytedance/DolphinHugging Face:https://huggingface.co/ByteDance/Dolphin論文:https://arxiv.org/abs/2505.14059

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-05-26 16:46:38

2025-03-10 18:50:57

2025-05-23 09:14:57

2025-04-15 09:50:06

2025-05-30 08:11:30

2025-06-11 08:54:52

2025-04-16 09:35:03

2024-02-27 13:38:16

微軟OpenAI模型

2025-05-15 10:50:46

2025-04-15 07:41:18

2024-03-04 00:00:00

GemmaAI模型

2025-04-15 08:51:05

2025-06-23 09:12:00

2022-03-21 17:56:59

大模型訓(xùn)練訓(xùn)練框架

2022-03-21 15:06:10

模型字節(jié)跳動(dòng)框架

2025-05-15 09:34:39

2024-01-08 08:23:08

OpenCV機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺(jué)

2024-02-19 13:45:14

OpenAIGPT-2模型

2023-09-11 15:57:16

人工智能模型GPT-4

2021-10-13 17:21:13

模型人工智能開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)