偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型全軍覆沒,中科院自動化所推出多圖數(shù)學推理新基準 | CVPR 2025

人工智能 新聞
近日,中國科學院自動化研究所推出多圖數(shù)學推理全新基準MV-MATH。

挑戰(zhàn)多圖數(shù)學推理新基準,大模型直接全軍覆沒?!

事情是這樣的。

近日,中國科學院自動化研究所推出多圖數(shù)學推理全新基準MV-MATH(該工作已被CVPR 2025錄用),這是一個精心策劃的多圖數(shù)學推理數(shù)據(jù)集,旨在全面評估MLLM(多模態(tài)大語言模型)在多視覺場景中的數(shù)學推理能力。

圖片

結(jié)果評估下來發(fā)現(xiàn),GPT-4o僅得分32.1,類o1模型QvQ得分29.3,所有模型均不及格。

具體咋回事,下面接著看。

給大模型數(shù)學推理上難度

截止目前,多模態(tài)大模型在數(shù)學推理領(lǐng)域展現(xiàn)出了巨大的潛力。

然而,現(xiàn)有的多模態(tài)數(shù)學基準測試大多局限于單一視覺場景(單圖推理),這與現(xiàn)實世界中復雜的多視覺數(shù)學應(yīng)用(多圖推理)相去甚遠。

基于這一情況,多圖數(shù)學推理數(shù)據(jù)集MV-MATH應(yīng)運而生。

MV-MATH介紹

MV-MATH包含2009個高質(zhì)量數(shù)學問題,涵蓋了從K-12教育場景中提取的真實問題。

每個問題都結(jié)合了多個圖像和文本,形成了圖文交錯的多視覺場景。

這些問題分為選擇題、填空題和多步問答題三種類型,覆蓋了11個數(shù)學領(lǐng)域,包括解析幾何、代數(shù)、度量幾何、組合學、變換幾何、邏輯、立體幾何、算術(shù)、組合幾何、描述性幾何和統(tǒng)計學,并分為三個難度級別。

圖片

下圖展示了MV-MATH與現(xiàn)有數(shù)據(jù)集的對比以及分布情況:

(a)與現(xiàn)有數(shù)學基準的比較(圓圈大小代表圖片數(shù)量);(b)每個問題的長度分布;(c)每個問題的圖像數(shù)量分布。

圖片

數(shù)據(jù)集特點

(1)多視覺場景

MV-MATH數(shù)據(jù)集中的每個問題都包含多個圖像(2-8個圖片),這些圖像與文本交織在一起,形成了復雜的多視覺場景。

MV-MATH中的每個問題都是從真實的K-12場景中收集而來,這種設(shè)計更接近于現(xiàn)實世界中的數(shù)學問題,能夠更好地評估MLLM在處理多視覺信息時的推理能力。

(2)豐富的標注

為了確保數(shù)據(jù)集的質(zhì)量和可靠性,每個樣本都經(jīng)過了至少兩名標注者的交叉驗證。標注內(nèi)容包括問題、答案、詳細分析以及圖像關(guān)聯(lián)性,為模型評估提供了詳細的信息。

(3)多樣化的數(shù)學領(lǐng)域

MV-MATH涵蓋了從基礎(chǔ)算術(shù)到高級幾何的11個數(shù)學領(lǐng)域,并根據(jù)詳細答案的長度劃分為3個難度等級,能夠全面評估MLLM在不同數(shù)學領(lǐng)域的推理能力。

(4)圖像關(guān)聯(lián)性

MV-MATH首次引入圖像相關(guān)性這一特征標簽,根據(jù)據(jù)圖像是否相關(guān),數(shù)據(jù)集被分為兩個子集:相互依賴集(Mutually Dependent Set,MD)和獨立集(Independent Set,ID)。

在MD子集中,圖像之間相互關(guān)聯(lián),理解一個圖像需要參考其他圖像;而在ID子集中,圖像之間相互獨立,可以單獨解釋。

例如,下圖中前兩個題目屬于相互依賴集,最后一個為題目屬于獨立集。

圖片

多圖推理綜合評估

研究團隊在MV-MATH上進行了廣泛的實驗,評測了24個主流開源和閉源多模態(tài)大模型。

實驗結(jié)果表明,即使是最先進的MLLM在多視覺數(shù)學任務(wù)中也面臨著巨大的挑戰(zhàn),其表現(xiàn)與人類能力之間存在顯著差距。

圖片

從模型總體表現(xiàn)來看,在MV-MATH數(shù)據(jù)集上,表現(xiàn)最好的模型是Claude-3.5,其整體準確率為33.9%,遠低于人類水平(76.5%)。

其他表現(xiàn)較好的模型還包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。

值得注意的是,開源模型LLaVA-OneVision-Chat-72B取得了26.2%的準確率,僅次于Qwen-vl-max。類o1模型QVQ-72B-Preview性能為29.3%,僅次于GPT-4o,這說明慢思考系統(tǒng)在多圖推理任務(wù)上同樣有效。

此外,模型在不同領(lǐng)域的表現(xiàn)也存在差異。

在算術(shù)領(lǐng)域,Claude-3.5的準確率最高,達到54.2%;而在組合幾何領(lǐng)域,其準確率僅為27.0%。

這表明MLLM在處理需要復雜圖像理解和推理的領(lǐng)域時存在較大困難。

與此同時,團隊針對題目難度模型提示、圖像關(guān)聯(lián)性以及圖像輸入方式四個維度對實驗結(jié)果進行了更細粒度的分析。

圖片

具體而言,如圖中(a)所示,在不同難度級別上,模型的表現(xiàn)也有所不同。

在簡單問題上,GPT-4o的準確率最高,達到40.3%;而在中等難度問題上,Claude-3.5的準確率最高,為37.5%。在困難問題上,所有模型的表現(xiàn)都大幅下降,Claude-3.5的準確率僅為26.6%。

而圖(b)表明,對于閉源模型,CoT和few-shot對MV-MATH多圖推理并不一定有效。對于所有的開源模型,CoT和few-shot都會降點。

在圖像關(guān)聯(lián)性上,MD子集包含相互依賴的圖像,需要更高水平的跨圖像理解。

如圖中(c)所示,絕大多數(shù)模型在MD子集上的性能均低于ID子集,其中Gemini-1.5-pro的性能差距最大,達到 7.8%。

這一觀察結(jié)果表明,大多數(shù)模型在處理數(shù)學場景中的相互依賴圖像任務(wù)上面臨挑戰(zhàn),凸顯了MLLM在處理數(shù)學多視覺環(huán)境中跨圖像相互依賴關(guān)系的潛在局限性。

至于圖像輸入方式,如圖中(d)所示,結(jié)果一致表明,在所有測試模型中,圖像序列輸入的表現(xiàn)都優(yōu)于合并輸入,這表明保留圖像的位置和順序信息對于多圖推理至關(guān)重要

序列輸入的高性能凸顯了結(jié)構(gòu)化視覺信息在增強模型解釋和處理復雜數(shù)學場景的能力方面的重要性。

小結(jié)

隨著最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文本推理上的強大性能。然而目前視覺大模型的慢推理仍然沒有一個固定的范式。

本研究通過大量實驗證實了MLLM在復雜多視覺感知與圖像交叉理解上仍然存在困難,在多圖數(shù)學推理上存在極大的改進空間。

本研究旨在全面評估MLLM在多視覺場景中的數(shù)學推理能力,推動多圖數(shù)學推理的進一步發(fā)展。

論文鏈接:https://arxiv.org/abs/2502.20808
主頁鏈接:https://eternal8080.github.io/MV-MATH.github.io/

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-04-18 10:12:06

模型解碼

2025-06-09 08:30:00

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2025-06-24 11:50:37

模型數(shù)據(jù)開源

2024-08-12 08:20:00

自動化研究

2024-06-11 08:55:00

2025-05-29 09:08:00

模型推理AI

2024-06-05 09:22:43

2021-10-21 15:20:35

智能自動化Science

2024-09-14 12:52:59

個性化定位大模型

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2024-08-08 13:04:28

2014-10-13 10:04:42

2025-05-09 08:40:00

2024-08-12 12:40:40

2024-08-06 12:00:00

監(jiān)督學習視覺

2025-02-08 13:30:00

2018-05-24 14:01:47

服務(wù)器英特爾高通

2015-11-03 11:59:08

戴爾云計算

2022-02-19 08:21:21

中科院量子計算編程軟件
點贊
收藏

51CTO技術(shù)棧公眾號