浙大推出首個「多圖應(yīng)用題」基準(zhǔn)GSM8K-V,全面評估 VLM數(shù)學(xué)推理能力
「小明買了3個蘋果,每個5元,他付了20元,應(yīng)該找回多少錢?」
這是典型的小學(xué)數(shù)學(xué)應(yīng)用題。但在日常生活中,我們更常遇到的是它的視覺版本:看到貨架上的蘋果標(biāo)價牌,數(shù)出購物籃里的蘋果數(shù)量,估算總價,再從收銀員手中接過找零,快速判斷對不對。
這個過程幾乎不需要語言,而是依靠視覺線索完成推理:看到、比較、計(jì)算、驗(yàn)證。
語言讓我們能以符號方式進(jìn)行邏輯、推理與知識的傳遞,但人類真正的理解往往并不止于語言。
人類更擅長通過視覺去「看見」數(shù)量、空間與比例,以具象的方式形成抽象的邏輯。

正是在這一理念啟發(fā)下,研究團(tuán)隊(duì)提出了一個關(guān)鍵問題:
「能否將自然語言表述的數(shù)學(xué)應(yīng)用題轉(zhuǎn)化為純視覺形式的多圖像問題,從而更真實(shí)地評估視覺語言模型(VLMs)的數(shù)學(xué)推理能力?」
視覺語言模型(VLMs)在圖像與文本的聯(lián)合建模上取得了顯著進(jìn)展,其在視覺問答、多模態(tài)理解等任務(wù)中表現(xiàn)優(yōu)異。
但當(dāng)把數(shù)學(xué)推理引入視覺場景時,現(xiàn)有模型仍面臨明顯瓶頸,且現(xiàn)有視覺數(shù)學(xué)基準(zhǔn)存在以下局限:
- 當(dāng)前視覺數(shù)學(xué)基準(zhǔn)大多聚焦在幾何題,任務(wù)范圍過窄,無法覆蓋實(shí)際應(yīng)用題情形。
- 幾乎沒有對數(shù)學(xué)應(yīng)用題的視覺化評估,因此無法衡量模型在真實(shí)數(shù)學(xué)理解任務(wù)中的能力。
- 很少涉及多圖像跨場景推理,這使得難以檢驗(yàn)?zāi)P涂鐖鼍瓣P(guān)聯(lián)能力。
在文本數(shù)學(xué)基準(zhǔn)GSM8K上,許多模型的準(zhǔn)確率已輕松突破 90%,甚至達(dá)到或超越人類水平;
然而,當(dāng)題目被轉(zhuǎn)化為視覺形式后,研究團(tuán)隊(duì)發(fā)現(xiàn):多數(shù)頂級模型瞬間腰斬,與人類水平存在顯著差距。
面對這些問題,浙江大學(xué)的研究團(tuán)隊(duì)提出了GSM8K-V——將廣泛使用的數(shù)學(xué)基準(zhǔn)GSM8K系統(tǒng)性地映射為其視覺對應(yīng)版本,構(gòu)建出一個跨場景、多圖像的視覺數(shù)學(xué)推理基準(zhǔn)。該基準(zhǔn)旨在檢驗(yàn)?zāi)P褪欠裾嬲堋缚吹枚箶?shù)學(xué),而不僅僅是「讀得懂」文字。

論文鏈接:https://arxiv.org/abs/2509.25160
項(xiàng)目地址:https://zju-real.github.io/GSM8K-V
代碼倉庫:https://github.com/ZJU-REAL/GSM8K-V
數(shù)據(jù)集:https://huggingface.co/datasets/ZJU-REAL/GSM8K-V
基準(zhǔn)特點(diǎn)
基準(zhǔn)的數(shù)據(jù)來源可靠:基于GSM8K測試集,共包含1,319道題目,對應(yīng)5,343張高質(zhì)量圖像,平均每題4張圖,最多可達(dá)11張。

任務(wù)覆蓋全面:涵蓋6大類、13個子類數(shù)學(xué)場景,從基礎(chǔ)算術(shù)、測量、圖形識別到時間與比例推理。
跨圖推理能力測試:漫畫式多場景視覺呈現(xiàn),通過多場景組合檢驗(yàn)?zāi)P驮诓煌嬅骈g的邏輯關(guān)聯(lián)能力。

三階段自動化構(gòu)建流程
GSM8K-V的核心在于如何讓「文字題」變成等價的「視覺題」。
為此,研究團(tuán)隊(duì)設(shè)計(jì)了一套三階段自動化構(gòu)建流程,確保視覺題與原始文本題目在語義上一一對應(yīng)、邏輯一致。

階段一:問題分解與場景分配
在這一階段,使用 GPT-4.1 對 GSM8K 中的每道題進(jìn)行數(shù)學(xué)信息分解,自動將題目拆解為結(jié)構(gòu)化三元組 (object, math value, semantic),精確標(biāo)注出每個實(shí)體、對應(yīng)的數(shù)值屬性及其語義信息。隨后,依據(jù)如下原則完成場景分配:
語境聚合(Contextual Grouping):同一類型或同一場景的數(shù)學(xué)信息被歸入同一畫面;
最終隔離(Final Isolation):題干的提問部分保留在最后一張圖,確保推理目標(biāo)清晰;
原子保真(Atomic Fidelity):嚴(yán)格避免推理性整合,僅保留最基礎(chǔ)的數(shù)學(xué)事實(shí)。
此外,還在場景構(gòu)建中引入多維干擾機(jī)制:通過在圖像中加入感知干擾(如無關(guān)但顯眼的物體)和語義干擾(與問題相關(guān)但誤導(dǎo)性的元素),顯著提高模型推理的真實(shí)性與挑戰(zhàn)性。
階段二:場景描述生成
為了讓圖像生成更精準(zhǔn),研究團(tuán)隊(duì)設(shè)計(jì)了基于元策略模板描述體系。針對不同類型的數(shù)學(xué)元素(如時間、百分比等),預(yù)定義專屬提示詞與視覺表達(dá)模板。
每個場景都由 GPT-4.1 生成結(jié)構(gòu)化描述,采用三元組形式:(object:場景中必須出現(xiàn)的核心實(shí)體, action:描述對象的狀態(tài)或動作, composition:定義所有元素在畫面中的空間與層次關(guān)系)。
這種結(jié)構(gòu)化描述確保了不同場景之間的一致性,為后續(xù)圖像生成提供了可復(fù)現(xiàn)的視覺藍(lán)圖。
階段三:圖像生成與交叉驗(yàn)證
在該階段,團(tuán)隊(duì)使用 GPT-Image-1 模型生成多場景漫畫式圖像,每張分辨率達(dá) 1024×1024。所有圖像均經(jīng)過 雙重人工交叉驗(yàn)證,確保其準(zhǔn)確性與合規(guī)性,遵循三條準(zhǔn)則:
- 一致性(Consistency):圖像中的實(shí)體、數(shù)量、約束需完全保留原題語義;
- 完整性(Completeness):解題所需的全部信息都應(yīng)在畫面中可見;
- 合規(guī)性(Compliance):圖像內(nèi)容需安全、清晰,無模糊或誤導(dǎo)元素。
對存在偏差的樣本,人工標(biāo)注者會重新校正場景描述或圖像內(nèi)容,以保證數(shù)據(jù)集質(zhì)量與學(xué)術(shù)可復(fù)現(xiàn)性。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在GSM8K-V上系統(tǒng)評測了19個主流視覺語言模型,包括閉源模型Gemini-2.5-Pro、GPT-5,以及開源代表Llama-4、InternVL3.5、Qwen2.5-VL等,全面分析了它們在視覺數(shù)學(xué)推理任務(wù)中的表現(xiàn)。結(jié)果揭示了視覺推理任務(wù)的巨大挑戰(zhàn)性以及人機(jī)間顯著的差距。

文本推理幾近飽和
在傳統(tǒng)的GSM8K 文本基準(zhǔn) 上,即便是表現(xiàn)最差的模型也能取得78.32%的準(zhǔn)確率,而絕大多數(shù)模型(14/19)已經(jīng)輕松突破90%,說明大模型在純文本數(shù)學(xué)推理任務(wù)上已經(jīng)接近飽和,甚至達(dá)到或超過人類水平。
視覺推理仍是「硬骨頭」
當(dāng)任務(wù)從文字轉(zhuǎn)化為視覺場景后,模型的表現(xiàn)卻出現(xiàn)了顯著下降。在GSM8K-V 上,最強(qiáng)閉源模型Gemini-2.5-Pro僅取得46.93%的準(zhǔn)確率,而包括GPT-5、Llama-4-17B-128E在內(nèi)的模型也僅維持在30%左右。
這表明,VLMs 在面對真實(shí)世界的多圖像數(shù)學(xué)推理時依然存在顯著短板,尤其是在跨場景關(guān)聯(lián)、多圖理解以及數(shù)值邏輯一致性方面。
GSM8K-V因此成為一個極具挑戰(zhàn)性且具有可持續(xù)研究價值的視覺數(shù)學(xué)推理基準(zhǔn),為未來模型能力提升提供了新的方向。
人機(jī)差異:不僅是準(zhǔn)確率,更是理解方式
人類在GSM8K-V上的平均準(zhǔn)確率高達(dá)91.15%,且在所有類別中都保持穩(wěn)定(86.76%–96.05%)。
相比之下,模型不僅整體準(zhǔn)確率偏低,還表現(xiàn)出顯著的不均衡性。例如:GPT-5在「 Signboard & Icon 」和「Measurement」類別上表現(xiàn)相對較好(約 41–46%),但在「Other」類別上急劇下滑,僅24.93%。
開源模型Step3在「Physical Metric」和「Temporal」任務(wù)中表現(xiàn)尚可,但在其他類型中明顯不足于同級模型。
更重要的是,人類與模型在擅長的類別上幾乎完全不重合。人類在「Other」類別上的準(zhǔn)確率高達(dá) 93.25%,甚至超過其在「Signboard & Icon(90.27%)」和「Measurement(86.76%)」上的表現(xiàn);
而模型恰恰相反,往往依賴視覺符號或數(shù)值表征,難以捕捉更抽象的語義邏輯。
這表明,人類的視覺推理更加平衡和可泛化,能夠靈活地從圖像中建立語義聯(lián)系;
而現(xiàn)有 VLMs 仍傾向于依賴類別特征或模式匹配,缺乏深層的語義理解與抽象推理能力。
分析與發(fā)現(xiàn)
為進(jìn)一步分析GSM8K-V的穩(wěn)健性與挑戰(zhàn)性,研究團(tuán)隊(duì)從輸入格式、視覺風(fēng)格、模態(tài)依賴以及錯誤類型等方面進(jìn)行了系統(tǒng)消融實(shí)驗(yàn)與分析。
結(jié)果揭示了視覺數(shù)學(xué)推理任務(wù)中的關(guān)鍵影響因素與典型模型誤差模式。
單圖與多圖輸入
在多圖輸入場景下,模型平均準(zhǔn)確率略高于單圖拼接輸入。研究表明,將問題分解為多張順序圖像有助于模型保持事件的邏輯與時間順序,從而更接近人類推理過程。
相反,將所有場景拼接為單張圖片往往導(dǎo)致語義依存關(guān)系被破壞,使模型難以捕捉跨場景的關(guān)鍵推理線索。

單圖與多圖輸入結(jié)果

單圖與多圖輸入示例
視覺風(fēng)格敏感性
GSM8K-V默認(rèn)采用Pixar風(fēng)格的視覺渲染,以保證圖像清晰、光影自然、語義明確。為檢驗(yàn)?zāi)P蛯D像風(fēng)格的敏感性,研究團(tuán)隊(duì)在子集上重繪了Giphli風(fēng)格版本。
結(jié)果顯示,不同風(fēng)格下的模型性能差異極小(通常低于2%),說明GSM8K-V的結(jié)果具有較高穩(wěn)健性,視覺風(fēng)格變化不會顯著影響數(shù)學(xué)推理表現(xiàn)。

視覺風(fēng)格結(jié)果

視覺風(fēng)格示例
模態(tài)驗(yàn)證實(shí)驗(yàn)
為了驗(yàn)證GSM8K-V的任務(wù)確實(shí)依賴視覺推理而非文本轉(zhuǎn)寫,研究團(tuán)隊(duì)比較了四種輸入模式:文本輸入(text-only)、圖像輸入(image-only)、OCR轉(zhuǎn)寫輸入以及場景描述輸入(caption-based)。
結(jié)果表明,OCR模式下性能極低(10%左右),說明模型無法僅通過圖像轉(zhuǎn)寫的文字獲得有效信息,視覺理解在任務(wù)中不可或缺。
相比之下,結(jié)構(gòu)化場景描述(caption)模式的表現(xiàn)顯著優(yōu)于純圖像輸入,但仍遠(yuǎn)低于文本任務(wù)準(zhǔn)確率,表明視覺信息中存在大量隱含語義和空間關(guān)系,仍難以通過語言重構(gòu)完整還原。

模態(tài)驗(yàn)證結(jié)果
問題表述形式
當(dāng)問題陳述以文字形式直接嵌入輸入中(explicit 模式),模型的準(zhǔn)確率略有提升。這說明文本化的提示有助于消除視覺語義指代的歧義。
然而,即使在這種「顯式」支持下,模型的準(zhǔn)確率依然遠(yuǎn)低于文本任務(wù)(例如 Gemini-2.5-Pro:47.6% vs. 95.2%),表明多模態(tài)推理尚未實(shí)現(xiàn)真正的語義整合。

Explicit輸入示例

Implicit輸入示例

Explicit與Implicit結(jié)果對比
錯誤類型分析
在模型錯誤分布中,研究團(tuán)隊(duì)總結(jié)出兩類典型失誤:
感知—計(jì)算錯誤(Perception–Calculation Errors)模型在面對多個相似物體或細(xì)粒度數(shù)量區(qū)分時,常發(fā)生識別錯誤或類別混淆,進(jìn)而導(dǎo)致后續(xù)計(jì)算結(jié)果偏差。
例如,模型可能誤判物體數(shù)量、混淆計(jì)價單位,從而直接導(dǎo)致推理崩潰。這類錯誤暴露出模型在「視覺計(jì)數(shù)」與「數(shù)值綁定」之間的薄弱環(huán)節(jié)。

儀表讀取錯誤(Instrument-Reading Errors)當(dāng)數(shù)值信息通過日常工具(如鐘表、儀表盤、刻度尺等)呈現(xiàn)時,模型常出現(xiàn)誤讀或誤映射。例如,無法正確讀取鐘表時間、混淆百分比圖表的比例或誤判量表刻度。
這類錯誤揭示了模型在「視覺數(shù)感」方面的顯著不足。

整體來看,GSM8K-V 揭示了當(dāng)前視覺語言模型的真實(shí)瓶頸:文本推理已趨近飽和,但視覺推理仍是尚未攻克的關(guān)鍵挑戰(zhàn)。
這一結(jié)果不僅凸顯了視覺數(shù)學(xué)推理任務(wù)的研究價值,也為下一代通用智能模型的發(fā)展指明了方向:真正的智能,不止能「讀懂文字」,還應(yīng)「看得懂世界」。
作者介紹
論文的共同第一作者是袁凡和顏聿辰。袁凡是浙江大學(xué)碩士研究生,主要研究興趣集中在大模型推理和多模態(tài)大模型;顏聿辰是浙江大學(xué)博士四年級研究生,主要研究興趣集中在大模型推理和智能體。本文通訊作者是浙江大學(xué)百人計(jì)劃研究員沈永亮。































