偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓GPT-4o準(zhǔn)確率大降,這個(gè)文檔理解新基準(zhǔn)揭秘大模型短板

人工智能 新聞
字節(jié)跳動(dòng) OCR 團(tuán)隊(duì)聯(lián)合華中科技大學(xué)打造了?WildDoc——?首個(gè)真實(shí)世界場(chǎng)景文檔理解的基準(zhǔn)數(shù)據(jù)集。

本文的共同第一作者為字節(jié)跳動(dòng)算法工程師王安瀾和廖蕾,本文的通訊作者為字節(jié)跳動(dòng)算法工程師唐景群。 

在文檔理解領(lǐng)域,多模態(tài)大模型(MLLMs)正以驚人的速度進(jìn)化。從基礎(chǔ)文檔圖像識(shí)別到復(fù)雜文檔理解,它們?cè)趻呙杌驍?shù)字文檔基準(zhǔn)測(cè)試(如 DocVQA、ChartQA)中表現(xiàn)出色,這似乎表明 MLLMs 已很好地解決了文檔理解問(wèn)題。然而,現(xiàn)有的文檔理解基準(zhǔn)存在兩大核心缺陷:

  • 脫離真實(shí)場(chǎng)景:現(xiàn)實(shí)中文檔多為手機(jī) / 相機(jī)拍攝的紙質(zhì)文件或屏幕截圖,面臨光照不均、物理扭曲(褶皺 / 彎曲)、拍攝視角多變、模糊 / 陰影、對(duì)焦不準(zhǔn)等復(fù)雜干擾;
  • 無(wú)法評(píng)估魯棒性:現(xiàn)有基準(zhǔn)未模擬真實(shí)環(huán)境的復(fù)雜性和多樣性,導(dǎo)致模型在實(shí)際應(yīng)用中表現(xiàn)存疑;

圖片

這些缺陷引出了一個(gè)關(guān)鍵疑問(wèn):當(dāng)前 MLLMs 模型距離在自然環(huán)境中實(shí)現(xiàn)全面且魯棒的文檔理解能力到底還有多遠(yuǎn)?

為了揭開(kāi)這個(gè)謎底,字節(jié)跳動(dòng) OCR 團(tuán)隊(duì)聯(lián)合華中科技大學(xué)打造了 WildDoc—— 首個(gè)真實(shí)世界場(chǎng)景文檔理解的基準(zhǔn)數(shù)據(jù)集。

WildDoc 選取了 3 個(gè)常用的具有代表性的文檔場(chǎng)景作為基準(zhǔn)(Document/Chart/Table), 包含超過(guò) 12,000 張手動(dòng)拍攝的圖片,覆蓋了環(huán)境、光照、視角、扭曲和拍攝效果等五個(gè)影響真實(shí)世界文檔理解效果的因素,且可與現(xiàn)有的電子基準(zhǔn)數(shù)據(jù)集表現(xiàn)進(jìn)行對(duì)比。

為了嚴(yán)格評(píng)估模型的魯棒性,WildDoc 構(gòu)建了一致性評(píng)估指標(biāo)(Consistency Score)。實(shí)驗(yàn)發(fā)現(xiàn)主流 MLLMs 在 WildDoc 上性能顯著下降,揭示了現(xiàn)有模型在真實(shí)場(chǎng)景文檔理解的性能瓶頸,并為技術(shù)改進(jìn)提供可驗(yàn)證的方向。本工作不僅填補(bǔ)了真實(shí)場(chǎng)景基準(zhǔn)的空白,更推動(dòng)文檔理解研究向「實(shí)用化、泛化性」邁出關(guān)鍵一步。

圖片

  • 論文鏈接:https://arxiv.org/abs/2505.11015
  • 項(xiàng)目主頁(yè):https://bytedance.github.io/WildDoc/
  • Github:https://github.com/bytedance/WildDoc

WildDoc 數(shù)據(jù)構(gòu)造與組成

WildDoc 數(shù)據(jù)包含超 1.2 萬(wàn)張手動(dòng)采集的真實(shí)文檔圖像,模擬自然環(huán)境中的復(fù)雜挑戰(zhàn),并引入一致性分?jǐn)?shù)指標(biāo),量化評(píng)估模型在跨場(chǎng)景下的魯棒性。WildDoc 目前已開(kāi)源全部 12K + 圖像與 48K + 問(wèn)答對(duì),其構(gòu)造過(guò)程如下:

1、數(shù)據(jù)采集:

  • 場(chǎng)景多樣化:在自然環(huán)境(如戶外、室內(nèi)不同光照條件)中手動(dòng)拍攝文檔,確保覆蓋環(huán)境、光照、視角等多維度干擾因素。
  • 基準(zhǔn)對(duì)齊:復(fù)用現(xiàn)有基準(zhǔn)的電子文檔,通過(guò)物理打印后拍攝,保證與傳統(tǒng)基準(zhǔn)的可比性。

2、多條件拍攝:

  • 對(duì)同一文檔進(jìn)行四次拍攝,每次改變環(huán)境參數(shù)(如光照強(qiáng)度、拍攝角度、紙張扭曲程度),獲取各種不同效果的對(duì)比樣本。

3、標(biāo)注與驗(yàn)證:

  • 對(duì)圖像中的文本、布局等關(guān)鍵信息以及對(duì)于問(wèn)題的可回答性進(jìn)行人工驗(yàn)證,確保準(zhǔn)確性。
  • 通過(guò)一致性分?jǐn)?shù)計(jì)算,評(píng)估模型在不同條件下的穩(wěn)定性,輔助篩選高質(zhì)量數(shù)據(jù)。

圖片

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)對(duì)眾多具有代表性的 MLLMs 進(jìn)行了測(cè)試,包括通用 MLLMs(如 Qwen2.5-VL、InternVL2.5)、專注文檔理解的 MLLMs(如 Monkey、TextHarmony)和領(lǐng)先的閉源 MLLMs(如 GPT4o、Doubao-1.5-pro)。實(shí)驗(yàn)結(jié)果揭示了當(dāng)前多模態(tài)大模型在真實(shí)場(chǎng)景下的諸多不足。

圖片

首先,現(xiàn)有 MLLMs 在 WildDoc 上的性能相比傳統(tǒng)文檔基準(zhǔn)(如 DocVQA)測(cè)試大幅下降。例如,GPT-4o 平均準(zhǔn)確率下降 35.3,ChartQA 子集下降達(dá) 56.4;開(kāi)源模型 Qwen2.5-VL-72B 平均準(zhǔn)確率 70.6,為開(kāi)源最佳,但仍低于原始基準(zhǔn)約 15%。目前最優(yōu)的閉源模型為 Doubao-1.5-pro 表現(xiàn)最優(yōu)(平均準(zhǔn)確率 73.7%),但其一致性分?jǐn)?shù)僅 55.0,這也意味著它在一半多的情況下都不能在不同條件下保持準(zhǔn)確回答。這表明,當(dāng)前 MLLMs 模型在面對(duì)真實(shí)場(chǎng)景的變化時(shí),缺乏足夠的穩(wěn)定性和適應(yīng)性。

實(shí)驗(yàn)結(jié)果揭示了在真實(shí)世界文檔理解中 MLLMs 模型的表現(xiàn),有以下幾點(diǎn)發(fā)現(xiàn):

  • 物理扭曲最具挑戰(zhàn)性:皺紋、褶皺、彎曲等物理變形導(dǎo)致模型性能下降最顯著(如 GPT-4o 下降 34.1-34.7),遠(yuǎn)超光照(-25.9)或視角(-26.2)變化的影響。
  • 非正面視角與圖像質(zhì)量:非正面拍攝(如傾斜視角)因文本形變和模糊導(dǎo)致性能下降(Qwen2.5-VL-72B 下降 17.6),但屏幕捕獲圖像因數(shù)據(jù)增強(qiáng)算法成熟,性能下降較?。?8.3 至 - 9.1)。
  • 語(yǔ)言模型規(guī)模影響有限:大參數(shù)量模型(如 72B 參數(shù)的 Qwen2.5-VL)在 WildDoc 上表現(xiàn)略優(yōu),但未完全克服真實(shí)場(chǎng)景挑戰(zhàn),表明模型架構(gòu)需針對(duì)性優(yōu)化。

圖片

圖片

圖片

另外,一些模型在原始基準(zhǔn)測(cè)試上表現(xiàn)差異不大,甚至已經(jīng)接近飽和,但在 WildDoc 上卻出現(xiàn)了顯著的性能差異。這說(shuō)明傳統(tǒng)基準(zhǔn)測(cè)試已經(jīng)難以區(qū)分模型的真實(shí)能力,而 WildDoc 則能更敏銳地捕捉到模型在真實(shí)場(chǎng)景下的不足。

未來(lái)之路:如何讓 MLLMs 更好地理解真實(shí)世界的文檔?

面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了幾點(diǎn)改進(jìn)策略,為未來(lái)的研究指明了方向。

  • 一是數(shù)據(jù)增強(qiáng)。通過(guò)更多的增強(qiáng)技術(shù)來(lái)模擬真實(shí)世界的條件,如變化的光照、陰影等,讓模型在訓(xùn)練中接觸到更多樣化的場(chǎng)景,從而提高其適應(yīng)能力。
  • 二是魯棒特征學(xué)習(xí)。讓模型學(xué)會(huì)提取對(duì)真實(shí)世界變化不敏感的特征,這樣即使文檔圖像發(fā)生了一些變化,模型也能準(zhǔn)確理解其內(nèi)容。
  • 三是真實(shí)數(shù)據(jù)引入。收集更多的真實(shí)世界文檔圖像,豐富訓(xùn)練數(shù)據(jù)集,讓模型在更多的「實(shí)戰(zhàn)」中積累經(jīng)驗(yàn),提升性能。

WildDoc 數(shù)據(jù)集有效揭示了 MLLMs 在真實(shí)文檔理解中的不足,為后續(xù)研究提供了關(guān)鍵基準(zhǔn)和優(yōu)化方向,更推動(dòng)文檔理解研究向「實(shí)用化、泛化性」邁出關(guān)鍵一步。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-06-12 11:50:23

2025-05-06 15:32:23

模型AI測(cè)試

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2024-08-02 13:14:51

2024-06-20 10:43:15

2024-06-27 12:45:30

2025-02-13 09:40:00

2024-09-06 13:00:29

2024-06-18 12:54:39

2024-12-06 14:19:50

2024-06-05 13:09:26

2025-01-02 11:01:45

2024-08-14 12:54:46

2024-04-01 08:00:00

AI模型

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2025-02-18 12:30:00

2024-08-09 12:50:02

2023-10-26 08:40:15

模型隱私推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)