偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="mfxiw"></thead>

<center id="mfxiw"></center>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4o弱點(diǎn)暴露了，PDF長(zhǎng)文檔閱讀理解僅45分

作者：量子位 2024-08-05 08:46:00

人工智能新聞

為了評(píng)測(cè)多模態(tài)大模型在PDF長(zhǎng)文檔上的閱讀理解能力，由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評(píng)估基準(zhǔn)測(cè)試了14個(gè)LVLMs（視覺語言大模型）。

圖文并茂的PDF長(zhǎng)文檔在日常生活中無處不在。過去人們通常使用OCR，layout detection等方法對(duì)PDF長(zhǎng)文檔進(jìn)行解析。但隨著多模態(tài)大模型的發(fā)展，PDF長(zhǎng)文檔的端到端閱讀理解成為了可能。

為了評(píng)測(cè)多模態(tài)大模型在PDF長(zhǎng)文檔上的閱讀理解能力，由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評(píng)估基準(zhǔn)測(cè)試了14個(gè)LVLMs（視覺語言大模型）。

評(píng)估結(jié)果表明：表現(xiàn)最好的GPT-4o在整體F1分?jǐn)?shù)上也只達(dá)到了 44.9%。

GPT-4V排名第二，得分30.5%。

除了這兩個(gè)模型，其他被評(píng)測(cè)LVLMs的表現(xiàn)更是要弱于OCR+LLMs形式。

這些結(jié)果表明，目前的LVLMs在端到端PDF長(zhǎng)文檔閱讀任務(wù)上雖然表現(xiàn)出了一定的潛力，但仍然還有很大的提升空間。

135個(gè)PDF、1091個(gè)問題

LVLMs的出現(xiàn)有效促進(jìn)了文檔理解任務(wù)的解決。針對(duì)單頁(yè)文檔，常見的閉源和開源模型都展示出了相當(dāng)不錯(cuò)的表現(xiàn)（DocVQA > 90%；ChartQA > 80%）。然而，日常生活中閱讀的文檔，如論文、財(cái)報(bào)、宣傳資料，往往有更多的頁(yè)數(shù)，許多文檔長(zhǎng)度可以達(dá)到數(shù)十頁(yè)甚至上百頁(yè)。面對(duì)長(zhǎng)文檔，無論是單頁(yè)信息的查詢還是跨頁(yè)信息的理解都極具挑戰(zhàn)性，因此對(duì)LVLMs的能力提出了更高的要求。

因此研究團(tuán)隊(duì)提出了《MMLONGBENCH-DOC: Benchmarking Long-context Document Understanding with Visualizations》，以進(jìn)一步評(píng)估LVLMs在超長(zhǎng)文檔解析方面的能力。

MMLongBench-Doc的數(shù)據(jù)統(tǒng)計(jì)量、文檔格式和問題類型示例如圖1所示。

與之前的文檔理解數(shù)據(jù)集相比，MMLongBench-Doc在文檔側(cè)和問題側(cè)都具有顯著優(yōu)勢(shì)：

△MMLongBench-Doc的數(shù)據(jù)統(tǒng)計(jì)量

文檔側(cè)：研究團(tuán)隊(duì)手動(dòng)選取了135篇PDF格式的文檔，涵蓋學(xué)術(shù)論文、財(cái)務(wù)報(bào)告、教程、宣傳手冊(cè)等7個(gè)不同領(lǐng)域。絕大多數(shù)文檔都具有復(fù)雜的版式結(jié)構(gòu)，并且包含多種模態(tài)（文字、表格、圖片等）的內(nèi)容。文檔的平均長(zhǎng)度為47.5頁(yè)，文本信息超過兩萬個(gè)單詞，篇幅和信息量遠(yuǎn)遠(yuǎn)超過其他數(shù)據(jù)集中的文檔。

△文檔的分布（左）。文檔的頁(yè)數(shù)與字符數(shù)統(tǒng)計(jì)（右；包含和之前數(shù)據(jù)集的比較）

問題側(cè)：由10名phd-level的標(biāo)注者人工標(biāo)注了1091個(gè)問題：

這些問題可以分為三類：single-page、cross-page和unanswerable。

Single-page question：44.5%的問題是針對(duì)某一頁(yè)內(nèi)容設(shè)計(jì)的，重點(diǎn)考察大模型從長(zhǎng)文本中查找信息的能力（類似于大海撈針）；

Cross-page question: 33%的問題需要綜合兩頁(yè)甚至更多頁(yè)內(nèi)容的信息來回答，重點(diǎn)考察大模型面對(duì)多跳問題的綜合推理能力；

Unanswerable question: 為了防止模型利用文檔中的捷徑回答問題，22.5%的問題被設(shè)計(jì)為沒有答案，即無法根據(jù)文檔中提供的信息進(jìn)行回答。

這些問題均勻分布在文檔的不同位置（page index）和不同模態(tài)（分為text, layout, table, chart, image五種）的內(nèi)容中。

△問題均勻分布在文章的不同位置

其他被評(píng)測(cè)LVLMs整體表現(xiàn)弱于OCR+LLMs

研究評(píng)測(cè)了14個(gè)LVLMs（4個(gè)閉源模型，10個(gè)開源模型）在MMLongBench-Doc上的表現(xiàn)。

通過給定一篇文檔和一個(gè)基于該文檔的問題，研究人員將PDF格式的文檔轉(zhuǎn)化成多張PNG格式的頁(yè)面截圖，并將這些截圖輸入給LVLMs。作為比較，還使用OCR工具將PDF文檔轉(zhuǎn)化為TXT文本，并使用這些TXT文本評(píng)測(cè)了10個(gè)LLMs的表現(xiàn)。評(píng)測(cè)的具體結(jié)果如下所示。

△LVLMs與LLMs在MMLongBench-Doc上的實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)發(fā)現(xiàn)：

GPT-4o在所有LVLMs中表現(xiàn)最佳，F(xiàn)1分?jǐn)?shù)達(dá)到了約45%；排名第二的GPT-4V的F1分?jǐn)?shù)則為約31%。其余LVLMs的表現(xiàn)則在20%左右甚至更低。這說明，目前的LVLMs尚不足以勝任端到端的長(zhǎng)文檔閱讀理解。

通過對(duì)比LVLMs和OCR+LLMs的表現(xiàn)。盡管OCR解析會(huì)對(duì)PDF文本帶來?yè)p耗（尤其是對(duì)圖表類信息），除了GPT-4o和GPT-4V這兩個(gè)模型外，其他被評(píng)測(cè)的LVLMs整體表現(xiàn)弱于OCR+LLMs。這進(jìn)一步說明目前的LVLMs在長(zhǎng)文檔閱讀理解上還有很大的潛力。

△LVLMs與LLMs的實(shí)驗(yàn)結(jié)果對(duì)比

對(duì)于能力更強(qiáng)的LVLM模型，比如GPT-4o，其直接讀取PDF圖片的表現(xiàn)則優(yōu)于其讀取OCR版本的文檔，這說明了多模態(tài)大語言模型在端到端的長(zhǎng)文檔閱讀理解任務(wù)上具有更高的上限。

此外，研究團(tuán)隊(duì)還對(duì)六個(gè)不同模型進(jìn)行了定性分析。

如下圖所示，這個(gè)問題來自于一個(gè)40頁(yè)長(zhǎng)的文檔，需要綜合第9，10頁(yè)中的兩個(gè)表格和第16頁(yè)中的一個(gè)圖表進(jìn)行多步推理才能夠回答。

可以看到除了GPT-4o回答正確外，GPT-4V也給出了正確的分析思路（但因?yàn)樵诔槿〉?0頁(yè)的信息時(shí)出錯(cuò)導(dǎo)致最終的答案不正確），而其他模型的回答則明顯存在很大的問題。

△案例分析

更多定量和定性的分析討論可閱讀論文原文。

論文地址：https://arxiv.org/pdf/2407.01523
項(xiàng)目頁(yè)：https://mayubo2333.github.io/MMLongBench-Doc/
數(shù)據(jù)集：https://huggingface.co/datasets/yubo2333/MMLongBench-Doc
GitHub：https://github.com/mayubo2333/MMLongBench-Doc

責(zé)任編輯：張燕妮來源：量子位

模型測(cè)評(píng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nav id="mkfle"><fieldset id="mkfle"><legend id="mkfle"></legend></fieldset></nav>