大模型全軍覆沒，中科院自動化所推出多圖數(shù)學(xué)推理新基準(zhǔn) | CVPR 2025

作者：量子位 2025-03-11 13:49:20

近日，中國科學(xué)院自動化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH。

挑戰(zhàn)多圖數(shù)學(xué)推理新基準(zhǔn)，大模型直接全軍覆沒？！

事情是這樣的。

近日，中國科學(xué)院自動化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH（該工作已被CVPR 2025錄用），這是一個精心策劃的多圖數(shù)學(xué)推理數(shù)據(jù)集，旨在全面評估MLLM（多模態(tài)大語言模型）在多視覺場景中的數(shù)學(xué)推理能力。

結(jié)果評估下來發(fā)現(xiàn)，GPT-4o僅得分32.1，類o1模型QvQ得分29.3，所有模型均不及格。

具體咋回事，下面接著看。

給大模型數(shù)學(xué)推理上難度

截止目前，多模態(tài)大模型在數(shù)學(xué)推理領(lǐng)域展現(xiàn)出了巨大的潛力。

然而，現(xiàn)有的多模態(tài)數(shù)學(xué)基準(zhǔn)測試大多局限于單一視覺場景（單圖推理），這與現(xiàn)實世界中復(fù)雜的多視覺數(shù)學(xué)應(yīng)用（多圖推理）相去甚遠(yuǎn)。

基于這一情況，多圖數(shù)學(xué)推理數(shù)據(jù)集MV-MATH應(yīng)運而生。

MV-MATH介紹

MV-MATH包含2009個高質(zhì)量數(shù)學(xué)問題，涵蓋了從K-12教育場景中提取的真實問題。

每個問題都結(jié)合了多個圖像和文本，形成了圖文交錯的多視覺場景。

這些問題分為選擇題、填空題和多步問答題三種類型，覆蓋了11個數(shù)學(xué)領(lǐng)域，包括解析幾何、代數(shù)、度量幾何、組合學(xué)、變換幾何、邏輯、立體幾何、算術(shù)、組合幾何、描述性幾何和統(tǒng)計學(xué)，并分為三個難度級別。

下圖展示了MV-MATH與現(xiàn)有數(shù)據(jù)集的對比以及分布情況：

（a）與現(xiàn)有數(shù)學(xué)基準(zhǔn)的比較（圓圈大小代表圖片數(shù)量）；（b）每個問題的長度分布；（c）每個問題的圖像數(shù)量分布。

數(shù)據(jù)集特點

（1）多視覺場景

MV-MATH數(shù)據(jù)集中的每個問題都包含多個圖像（2-8個圖片），這些圖像與文本交織在一起，形成了復(fù)雜的多視覺場景。

MV-MATH中的每個問題都是從真實的K-12場景中收集而來，這種設(shè)計更接近于現(xiàn)實世界中的數(shù)學(xué)問題，能夠更好地評估MLLM在處理多視覺信息時的推理能力。

（2）豐富的標(biāo)注

為了確保數(shù)據(jù)集的質(zhì)量和可靠性，每個樣本都經(jīng)過了至少兩名標(biāo)注者的交叉驗證。標(biāo)注內(nèi)容包括問題、答案、詳細(xì)分析以及圖像關(guān)聯(lián)性，為模型評估提供了詳細(xì)的信息。

（3）多樣化的數(shù)學(xué)領(lǐng)域

MV-MATH涵蓋了從基礎(chǔ)算術(shù)到高級幾何的11個數(shù)學(xué)領(lǐng)域，并根據(jù)詳細(xì)答案的長度劃分為3個難度等級，能夠全面評估MLLM在不同數(shù)學(xué)領(lǐng)域的推理能力。

（4）圖像關(guān)聯(lián)性

MV-MATH首次引入圖像相關(guān)性這一特征標(biāo)簽，根據(jù)據(jù)圖像是否相關(guān)，數(shù)據(jù)集被分為兩個子集：相互依賴集（Mutually Dependent Set，MD）和獨立集（Independent Set，ID）。

在MD子集中，圖像之間相互關(guān)聯(lián)，理解一個圖像需要參考其他圖像；而在ID子集中，圖像之間相互獨立，可以單獨解釋。

例如，下圖中前兩個題目屬于相互依賴集，最后一個為題目屬于獨立集。

多圖推理綜合評估

研究團(tuán)隊在MV-MATH上進(jìn)行了廣泛的實驗，評測了24個主流開源和閉源多模態(tài)大模型。

實驗結(jié)果表明，即使是最先進(jìn)的MLLM在多視覺數(shù)學(xué)任務(wù)中也面臨著巨大的挑戰(zhàn)，其表現(xiàn)與人類能力之間存在顯著差距。

從模型總體表現(xiàn)來看，在MV-MATH數(shù)據(jù)集上，表現(xiàn)最好的模型是Claude-3.5，其整體準(zhǔn)確率為33.9%，遠(yuǎn)低于人類水平（76.5%）。

其他表現(xiàn)較好的模型還包括GPT-4o（32.1%）、Gemini-1.5-Pro（29.1%）和Qwen-vl-max（26.9%）。

值得注意的是，開源模型LLaVA-OneVision-Chat-72B取得了26.2%的準(zhǔn)確率，僅次于Qwen-vl-max。類o1模型QVQ-72B-Preview性能為29.3%，僅次于GPT-4o，這說明慢思考系統(tǒng)在多圖推理任務(wù)上同樣有效。

此外，模型在不同領(lǐng)域的表現(xiàn)也存在差異。

在算術(shù)領(lǐng)域，Claude-3.5的準(zhǔn)確率最高，達(dá)到54.2%；而在組合幾何領(lǐng)域，其準(zhǔn)確率僅為27.0%。

這表明MLLM在處理需要復(fù)雜圖像理解和推理的領(lǐng)域時存在較大困難。

與此同時，團(tuán)隊針對題目難度、模型提示、圖像關(guān)聯(lián)性以及圖像輸入方式四個維度對實驗結(jié)果進(jìn)行了更細(xì)粒度的分析。

具體而言，如圖中（a）所示，在不同難度級別上，模型的表現(xiàn)也有所不同。

在簡單問題上，GPT-4o的準(zhǔn)確率最高，達(dá)到40.3%；而在中等難度問題上，Claude-3.5的準(zhǔn)確率最高，為37.5%。在困難問題上，所有模型的表現(xiàn)都大幅下降，Claude-3.5的準(zhǔn)確率僅為26.6%。

而圖（b）表明，對于閉源模型，CoT和few-shot對MV-MATH多圖推理并不一定有效。對于所有的開源模型，CoT和few-shot都會降點。

在圖像關(guān)聯(lián)性上，MD子集包含相互依賴的圖像，需要更高水平的跨圖像理解。

如圖中（c）所示，絕大多數(shù)模型在MD子集上的性能均低于ID子集，其中Gemini-1.5-pro的性能差距最大，達(dá)到 7.8%。

這一觀察結(jié)果表明，大多數(shù)模型在處理數(shù)學(xué)場景中的相互依賴圖像任務(wù)上面臨挑戰(zhàn)，凸顯了MLLM在處理數(shù)學(xué)多視覺環(huán)境中跨圖像相互依賴關(guān)系的潛在局限性。

至于圖像輸入方式，如圖中（d）所示，結(jié)果一致表明，在所有測試模型中，圖像序列輸入的表現(xiàn)都優(yōu)于合并輸入，這表明保留圖像的位置和順序信息對于多圖推理至關(guān)重要。

序列輸入的高性能凸顯了結(jié)構(gòu)化視覺信息在增強(qiáng)模型解釋和處理復(fù)雜數(shù)學(xué)場景的能力方面的重要性。

小結(jié)

隨著最近OpenAI o1，DeepSeek-R1等模型的爆火，大家看到了慢思考模型在文本推理上的強(qiáng)大性能。然而目前視覺大模型的慢推理仍然沒有一個固定的范式。

本研究通過大量實驗證實了MLLM在復(fù)雜多視覺感知與圖像交叉理解上仍然存在困難，在多圖數(shù)學(xué)推理上存在極大的改進(jìn)空間。

本研究旨在全面評估MLLM在多視覺場景中的數(shù)學(xué)推理能力，推動多圖數(shù)學(xué)推理的進(jìn)一步發(fā)展。

論文鏈接：https://arxiv.org/abs/2502.20808
主頁鏈接：https://eternal8080.github.io/MV-MATH.github.io/

責(zé)任編輯：張燕妮來源：量子位

數(shù)學(xué)模型 AI