偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)開源Dolphin,高精度文檔圖像解析大模型,創(chuàng)新先分析后解析新范式

人工智能 開源
Dolphin 的開源,為文檔智能領(lǐng)域帶來了新的活力,為更復(fù)雜文檔理解以及模型性能和效率優(yōu)化方面提供了支持。也為構(gòu)建個人知識庫的文檔解析提供了一種新的思路。

在數(shù)字時代,從掃描文檔、圖片等非結(jié)構(gòu)化數(shù)據(jù)中高效、準(zhǔn)確地提取結(jié)構(gòu)化信息,是人工智能領(lǐng)域長期面臨的挑戰(zhàn)。無論是復(fù)雜的表格、交織的文本段落,還是難以識別的數(shù)學(xué)公式,都對文檔解析技術(shù)提出了嚴(yán)苛要求。傳統(tǒng)的解決方案往往依賴于多個專業(yè)模型的串聯(lián),不僅集成成本高昂,還容易在處理過程中累積誤差 。而一些通用多模態(tài)大模型在直接自回歸生成頁面內(nèi)容時,也常遭遇效率瓶頸和關(guān)鍵布局信息丟失的問題 。  

正是在這樣的背景下,一個名為 Dolphin(全稱:Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting)的創(chuàng)新多模態(tài)文檔圖像解析模型應(yīng)運而生。這項研究成果已獲得學(xué)術(shù)界認(rèn)可,其相關(guān)論文被計算語言學(xué)協(xié)會(ACL 2025)正式接收 ,并且其預(yù)訓(xùn)練模型和推理代碼也已向全球社區(qū)開放 。

模擬人類理解的先分析后解析范式

Dolphin 的核心創(chuàng)新在于其獨特的先分析后解析兩階段范式,這一設(shè)計巧妙地模擬了人類閱讀和理解復(fù)雜文檔的認(rèn)知過程 。  

圖片

 第一階段,全面的頁面級布局分析。在這一初始階段,Dolphin 對整個輸入文檔圖像進(jìn)行全局性分析。其主要目標(biāo)是精準(zhǔn)識別頁面上的所有異構(gòu)布局元素(例如,文本段落、圖表、公式和表格),并按照自然的閱讀順序進(jìn)行排列。對于每個識別出的元素,模型會確定其精確的類型和邊界框(使用標(biāo)準(zhǔn)化坐標(biāo))。

這一階段的關(guān)鍵在于建立對文檔整體布局結(jié)構(gòu)及其組成部分之間空間和邏輯關(guān)系的全面理解,為后續(xù)的內(nèi)容提取奠定基礎(chǔ) 。  

第二階段:高效的文檔元素并行解析。第一階段識別并排序的布局元素,在Dolphin中被視為異構(gòu)錨點。這些代表不同內(nèi)容塊的錨點,隨后被用于指導(dǎo)其各自內(nèi)容的并行解析。

Dolphin 利用這些元素的特定類型和相關(guān)的任務(wù)特定提示(task-specific prompts)并發(fā)處理它們 。

例如,對于表格,模型會使用Parse the table in the image.這樣的提示來生成HTML格式的結(jié)構(gòu)化數(shù)據(jù);而對于文本段落和公式,則可能使用Read text in the image.這樣的統(tǒng)一提示來生成純文本或LaTeX標(biāo)記 。

這種跨多個元素的并行處理機(jī)制是 Dolphin 實現(xiàn)卓越效率的關(guān)鍵設(shè)計選擇,相較于傳統(tǒng)的順序解析方法,其效率顯著提升   

圖片

技術(shù)架構(gòu):輕量級與多模態(tài)的融合

Dolphin 的技術(shù)架構(gòu)建立在強(qiáng)大的視覺編碼器-解碼器模型之上,充分利用了 Transformer 網(wǎng)絡(luò)的強(qiáng)大能力,并針對文檔圖像解析任務(wù)進(jìn)行了優(yōu)化 。  

視覺編碼器,負(fù)責(zé)從輸入文檔圖像中提取豐富、層次化的視覺特征。

該組件基于 Swin Transformer 實現(xiàn),能夠有效地捕捉文本的形狀、布局、顏色,以及表格中的線條和圖像中的輪廓等關(guān)鍵視覺信息。輸入圖像通常會調(diào)整大小至 896x896 的固定尺寸,同時保持縱橫比 。  

文本解碼器,負(fù)責(zé)將編碼器提供的視覺特征轉(zhuǎn)換為可讀文本。

該解碼器基于 MBart 模型,通過交叉注意力機(jī)制,在準(zhǔn)確解碼各種文本格式方面表現(xiàn)出色,包括連續(xù)文本段落、嵌入在表格中的內(nèi)容以及數(shù)學(xué)公式中的符號 。  

基于提示的接口,Dolphin 架構(gòu)的一個顯著特點是其基于提示(prompt-based interface)的交互方式。

這允許用戶通過自然語言提示直觀地控制和引導(dǎo)特定的解析任務(wù),有效地充當(dāng)模型的靈活指揮官,極大地增強(qiáng)了模型的適應(yīng)性和可擴(kuò)展性 。

為了更廣泛的可訪問性和易于集成,該模型與廣泛的Hugging Face Transformers生態(tài)系統(tǒng)兼容 。同時Dolphin 的開發(fā)也借鑒了多個成熟的開源項目,如 Donut、Nougat、GOT、MinerU、Swin 和 Hugging Face Transformers   

解決行業(yè)痛點,推動文檔智能發(fā)展

Dolphin 的出現(xiàn),旨在解決當(dāng)前文檔圖像解析領(lǐng)域存在的諸多痛點,并展現(xiàn)出超越現(xiàn)有方案的潛力。

首先是克服傳統(tǒng)方法的局限性。 傳統(tǒng)方法常將多個OCR專家模型串聯(lián)使用,導(dǎo)致集成開銷大、錯誤累積等問題 。Dolphin 的兩階段統(tǒng)一模型設(shè)計,有效避免了這些問題,提供了一個更集成、更準(zhǔn)確的解決方案 。  

彌補(bǔ)通用大模型的不足。 盡管通用多模態(tài)大型模型(VLM)功能強(qiáng)大,但在處理文檔圖像時,往往面臨效率瓶頸,且在解碼過程中容易丟失關(guān)鍵的布局結(jié)構(gòu)信息 。Dolphin 的先分析后解析范式和并行處理機(jī)制,顯著提升了效率,并更好地保留了文檔的結(jié)構(gòu)信息 。  

卓越的性能與效率。盡管 Dolphin 架構(gòu)輕量(僅 322M 參數(shù)),但其在多項基準(zhǔn)測試中表現(xiàn)出色 。在處理純文本文檔和包含混合元素(表格、公式、圖形)的復(fù)雜文檔時,Dolphin 在中英文測試集上均展現(xiàn)出卓越的解析能力 。其解析效率甚至比現(xiàn)有最快的基線模型 Mathpix 提升了近 2 倍,達(dá)到 0.1729 FPS 。

廣泛的應(yīng)用潛力。Dolphin 能夠?qū)⒄麄€文檔圖像解析為結(jié)構(gòu)化的 JSON 和 Markdown 格式,也能針對單個元素(如文本段落、表格、公式)進(jìn)行精準(zhǔn)解析,這使其在多個行業(yè)具有廣闊的應(yīng)用前景。

寫在最后

Dolphin 的開源,為文檔智能領(lǐng)域帶來了新的活力,為更復(fù)雜文檔理解以及模型性能和效率優(yōu)化方面提供了支持。也為構(gòu)建個人知識庫的文檔解析提供了一種新的思路。

2025年的今天,AI創(chuàng)新已經(jīng)噴井,幾乎每天都有新的技術(shù)出現(xiàn)。作為親歷三次AI浪潮的技術(shù)人,我堅信AI不是替代人類,而是讓我們從重復(fù)工作中解放出來,專注于更有創(chuàng)造性的事情,關(guān)注我們公眾號口袋大數(shù)據(jù),一起探索大模型落地的無限可能!

責(zé)任編輯:龐桂玉 來源: 口袋大數(shù)據(jù)
相關(guān)推薦

2025-05-23 09:03:00

2024-05-27 12:05:23

2025-02-27 01:00:00

大模型OLMOCRrag

2023-06-09 07:29:03

模型文本document

2010-09-28 10:03:15

DOM文檔對象模型

2025-06-26 09:06:59

2025-02-18 10:25:10

2025-04-01 15:35:11

2025-04-30 16:48:07

2024-06-11 07:46:23

2024-06-14 16:49:29

2022-11-02 10:02:24

BitSail字節(jié)跳動數(shù)據(jù)集成

2023-10-07 08:28:06

語言模型代碼技術(shù)

2025-01-16 10:11:58

2010-08-10 13:42:27

Flex開源項目

2023-11-17 23:02:38

模型學(xué)習(xí)

2023-08-14 07:20:10

2025-04-10 16:23:02

2025-04-16 04:20:00

點贊
收藏

51CTO技術(shù)棧公眾號