偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox

發(fā)布于 2024-6-3 09:33
瀏覽
0收藏

雖然多模態(tài)大模型都能挑西瓜了,但理解復(fù)雜文檔方面還是差點(diǎn)意思。


面對(duì)文字密集、多欄混排等文檔時(shí)往往力不從心,區(qū)域級(jí)別的細(xì)粒度理解,就更是無從談起了。


最近,曠視團(tuán)隊(duì)打造了一支多模態(tài)大模型的“點(diǎn)讀筆”——Fox,輕松實(shí)現(xiàn)對(duì)8頁文檔(中英混合,單欄多欄格式混合的極端場(chǎng)景)的交互式感知理解。

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

對(duì)于信息密集的PDF文檔,F(xiàn)ox支持高可控性的細(xì)粒度理解,比如在用戶感興趣區(qū)域內(nèi)進(jìn)行文字識(shí)別、段落翻譯以及頁面內(nèi)部的圖片內(nèi)容描述等。


論文中,團(tuán)隊(duì)進(jìn)一步突破了對(duì)于文檔的視覺感知理解的上限,高密度的信息被真正壓縮,LVLM真正地“看”懂圖,才能真正做好、做出能用的文檔多模大模型。


正所謂“一圖勝千言”—— one image token >> one text token。

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

接下來,看看Fox在實(shí)戰(zhàn)中表現(xiàn)如何?

中英混排,單欄多欄組合都不怕

對(duì)于中英混合、單欄多欄混合的8頁P(yáng)DF文檔,可實(shí)現(xiàn)任意區(qū)域的OCR:

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

下圖左側(cè)展示了8頁文檔內(nèi)跨頁的VQA,右側(cè)展示了雙欄中文頁面的前景OCR。

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

雙欄密集英文頁面的前景OCR:

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

在頁面內(nèi)圖片描述方面,F(xiàn)ox能給出文檔內(nèi)內(nèi)容關(guān)聯(lián)的回答(young Dual Language Learners)。


當(dāng)然Fox還支持line-level OCR,以及對(duì)RoI區(qū)域的翻譯、總結(jié)等。

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

Fox可以結(jié)合頁面內(nèi)文字,認(rèn)識(shí)到這是一張關(guān)于global seismic hazards的圖。此外,F(xiàn)ox還支持RoI內(nèi)的latex格式轉(zhuǎn)換,例如下面的table轉(zhuǎn)latex。Fox還支持更加靈活的顏色引導(dǎo)的RoI區(qū)域OCR。

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

對(duì)于卡通繪本,也可以哪里不會(huì)點(diǎn)哪里:

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

電影海報(bào)和自然場(chǎng)景的對(duì)話問答,F(xiàn)ox給出了非常有趣的答案(根據(jù)電影海報(bào)下面的文字給出了角色來源):

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

那么Fox是如何做到這些的呢?

多詞表協(xié)同,多頁面文檔統(tǒng)一打包

在細(xì)粒度文檔理解上,F(xiàn)ox有著三大創(chuàng)新:

  • 精準(zhǔn)定位

Fox引入了一系列基于位置的文本提示,如點(diǎn)擊位置、拖動(dòng)框、涂色框等。這使得模型可以直接定位到感興趣的任意區(qū)域,而不受文檔格式的限制。同時(shí),F(xiàn)ox還把全頁OCR重新定義為”前景聚焦”任務(wù),進(jìn)一步增強(qiáng)了對(duì)密集文字的感知。

  • 多視覺詞表協(xié)同

為了更好地理解圖文混排頁面,F(xiàn)ox采用了兩個(gè)不同特長(zhǎng)的視覺詞表——CLIP主攻自然圖像,Vary專攻人工文檔。但單純疊加兩種數(shù)據(jù),往往會(huì)造成視覺偏置。為此,F(xiàn)ox合成了大量含混合視覺元素的數(shù)據(jù),迫使兩個(gè)視覺分支充分協(xié)作。

  • 頁面打包

得益于高壓縮率(每頁1024×1024圖像對(duì)應(yīng)256個(gè)圖像token),F(xiàn)ox將多頁面文檔統(tǒng)一打包輸入。這不僅讓跨頁面的上下文理解成為可能,也大幅降低了計(jì)算開銷。值得一提的是,這種打包微調(diào)模式并不需要重新訓(xùn)練視覺詞匯。

在這些創(chuàng)新基礎(chǔ)上,F(xiàn)ox模型結(jié)構(gòu)如圖所示。

AI讀論文新神器:多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

Fox支持單頁/多頁文檔圖像輸入,所有圖像的image token被統(tǒng)一到一個(gè)sequence中進(jìn)行多頁文檔理解。團(tuán)隊(duì)設(shè)計(jì)了基于point、color、box的prompt,來實(shí)現(xiàn)在文檔頁面上聚焦任意位置。團(tuán)隊(duì)合成了圖文交織的文檔數(shù)據(jù),來充分催化兩個(gè)視覺詞表,以更好地適用于實(shí)際文檔應(yīng)用場(chǎng)景。


此外,為了促進(jìn)對(duì)文檔細(xì)粒度理解的研究,作者還打造了一個(gè)中英雙語的benchmark,已經(jīng)開源了數(shù)據(jù)和評(píng)測(cè)代碼,共包含以下9種任務(wù):

  • Page-level OCR
  • Region-level OCR
  • Line-level OCR
  • Color-guided OCR
  • Region-level translation
  • Region-level summary
  • In-document figure caption
  • Multi-page multi-region OCR
  • Cross-page VQA

最后,團(tuán)隊(duì)呼吁更多的研究人員能關(guān)注到細(xì)粒度的單頁/多頁文檔理解,單頁的稀疏的問答任務(wù)遠(yuǎn)遠(yuǎn)不夠。


真正做好多模態(tài)大模型,視覺編碼器的信息壓縮率(token轉(zhuǎn)化率)是非常重要的,F(xiàn)ox僅探究了文檔這一類應(yīng)用方向,希望對(duì)大家的研究有所幫助。


想了解更多細(xì)節(jié),請(qǐng)查看原論文。


論文地址:??https://arxiv.org/abs/2405.14295???
代碼地址:???https://github.com/ucaslcl/Fox???
項(xiàng)目主頁:???https://ucaslcl.github.io/foxhome/??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/DZAR3Lc9d1JCYTvVljFGng??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦