偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

We-Math 2.0:全新多模態(tài)數(shù)學(xué)推理數(shù)據(jù)集 × 首個綜合數(shù)學(xué)知識體系

人工智能 新聞
隨著 Vision-R1 、MM-Eureka 等工作將強化學(xué)習(xí)引入多模態(tài)推理,數(shù)學(xué)推理也得到了一定提升。然而,在邏輯性與知識系統(tǒng)性要求極高的數(shù)學(xué)任務(wù)中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

本文作者來自北京郵電大學(xué)、騰訊微信、清華大學(xué)。共同第一作者為北京郵電大學(xué)博士生喬潤祺與碩士生譚秋納,其共同完成的代表性工作 We-Math 于 ACL 2025 發(fā)表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發(fā)表。本文的通訊作者為博士生導(dǎo)師張洪剛與微信視覺技術(shù)中心李琛,We-Math 系列工作為喬潤祺在微信實習(xí)期間完成。

  • 論文標題:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
  • 論文鏈接:https://arxiv.org/abs/2508.10433
  • 主頁鏈接:https://we-math2.github.io/
  • 代碼鏈接:https://github.com/We-Math/We-Math2.0
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

近期,多模態(tài)大模型在圖像問答與視覺理解等任務(wù)中進展迅速。隨著 Vision-R1 、MM-Eureka 等工作將強化學(xué)習(xí)引入多模態(tài)推理,數(shù)學(xué)推理也得到了一定提升。然而,在邏輯性與知識系統(tǒng)性要求極高的數(shù)學(xué)任務(wù)中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

對此,我們?nèi)匀徽J為理想的學(xué)習(xí)范式應(yīng)該是讓模型先掌握所需的知識,再進一步提升泛化能力?;谶@一思考,我們提出了 We-Math2.0:

1. MathBook Knowledge System:我們首先搭建了一個系統(tǒng)性、完整、相對正交的知識體系:包含 5 個層級,491 個知識點與 1819 個知識原理,覆蓋了小學(xué)、初中、高中以及部分大學(xué)及競賽的知識。

2. MathBook-Standard:基于知識體系,我們發(fā)現(xiàn)開源數(shù)據(jù)集存在無法完整覆蓋、知識無法完成解構(gòu)等問題,對此我們選擇對每個知識體系進行手動構(gòu)建題目、畫圖,并結(jié)合一題多圖、一圖多題兩種思想,實現(xiàn)每個知識原理對應(yīng)包含多個問題。

3. MathBook-Pro:我們希望進一步構(gòu)造一個以模型為中心的數(shù)據(jù)空間來提升泛化能力。基于 MathBook-Standard 與知識體系,我們通過題目所需知識點數(shù)量、視覺復(fù)雜度、場景復(fù)雜度等三個維度對題目難度進行延展,將一條訓(xùn)練數(shù)據(jù)拓展為 8 個不同難度的樣本。

4. 訓(xùn)練策略:基于所構(gòu)建的數(shù)據(jù)集,我們首先通過 1000 條數(shù)據(jù)進行 SFT 冷啟動微調(diào),旨在改變模型的輸出范式,進一步首先利用 MathBook-Standard 的數(shù)據(jù),構(gòu)建了均值獎勵,旨在通過以知識原理為單位對模型進行獎懲。在此基礎(chǔ)上,我們利用 MathBook-Pro 的數(shù)據(jù),構(gòu)建了動態(tài)調(diào)度訓(xùn)練(知識調(diào)度與模態(tài)調(diào)度)從而提升模型的泛化能力。

5. MathBookEval: 為了進一步評測模型在全面知識與推理深度層面的能力,我們提出了包含 1000 條樣本的 MathBookEval

為了實現(xiàn)嚴謹、高質(zhì)量、具備高復(fù)雜度的圖像數(shù)據(jù),我們的全部數(shù)據(jù)均為手動利用 Geogebra 專業(yè)化軟件新渲染而成,我們希望先通過手動構(gòu)造高精度的數(shù)據(jù)來驗證這一思想的可行性。

目前不僅在 X 上收獲了一定的關(guān)注度,并且榮登 Huggingface Paper 日榜第一名!

We-Math 2.0

知識體系(MathBook knowledge system)

我們按照「定義 — 定理 — 應(yīng)用」的思想構(gòu)建了包含 5 個層級、491 個知識點、1819 個知識原理的知識體系,確保數(shù)學(xué)概念之間的層次關(guān)系與邏輯關(guān)聯(lián)得到清晰呈現(xiàn),知識點之間、知識原理之間盡可能相互獨立。

具體而言,每個知識點均對應(yīng)若干條基本原理。例如,在「三角形的面積」這一知識點下,細分為「三角形面積的基本公式」、「海倫公式」、「三角函數(shù)法面積公式」等不同的知識原理。

做法層面:一方面由人類專家基于教材、維基百科和國家課程標準設(shè)計初始結(jié)構(gòu);另一方面,收集開源數(shù)據(jù)集通過 GPT-4o 進行初步打標,并通過層次聚類生成知識體系。最終,由專家對兩者進行融合與修改,形成高質(zhì)量的知識體系。

可以在我們的網(wǎng)站當中看到可視化的知識體系。

MathBook-Standard:雙向數(shù)據(jù)擴展策略

MathBook-Standard 采用「一題多圖」和「一圖多題」的雙向數(shù)據(jù)擴展策略,每道題目都標注了對應(yīng)的多層級知識點,并嚴格覆蓋所提出的 1819 個數(shù)學(xué)知識原理。

具體而言,「一題多圖」是為同一道題生成不同的視覺變式,例如,一個關(guān)于三角形的種子問題可以通過改變角度生成不同類型的三角形圖像(如銳角、直角、鈍角三角形),從而提升模型在同一知識原理下的泛化能力;「一圖多題」則由專家基于同一圖像設(shè)計多個針對不同知識原理的新問題,全面考察不同的數(shù)學(xué)知識。

  • 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

MathBook-Pro

聚焦以模型為中心的學(xué)習(xí)路徑,MathBook-Pro 首次實現(xiàn)了針對多模態(tài)數(shù)學(xué)題目的三維難度建模。具體來說,我們從以下三個維度對每個種子問題進行難度擴展:

  • 推理步驟復(fù)雜度:通過增加題目涵蓋的知識點數(shù)量(不少于 6 個),系統(tǒng)性提升題目的邏輯難度。
  • 視覺復(fù)雜度:在保持核心幾何結(jié)構(gòu)不變的基礎(chǔ)上,利用 GeoGebra 增加輔助元素或調(diào)整幾何配置,逐步增強圖像的視覺難度。
  • 語境復(fù)雜度:將問題描述從簡明的數(shù)學(xué)敘述拓展到更為復(fù)雜的現(xiàn)實或抽象情境,提升模型對語義和語境的理解能力。

每道種子題目可在這三大維度內(nèi)擴展為 7 個難度層級,為后續(xù)的動態(tài)調(diào)度和強化學(xué)習(xí)訓(xùn)練提供堅實基礎(chǔ),助力模型實現(xiàn)更穩(wěn)健的泛化能力。

  • 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)

訓(xùn)練策略

SFT 冷啟動

首先,我們精選了 1,000 條涵蓋全部知識原理的數(shù)據(jù),通過監(jiān)督微調(diào)(SFT)實現(xiàn)模型冷啟動,讓模型初步掌握知識導(dǎo)向的推理鏈,激發(fā)潛力。隨后,我們采用 GRPO 算法進行兩階段漸進式強化學(xué)習(xí):

預(yù)對齊強化學(xué)習(xí)

基于 MathBook-Standard,在每組包含相同知識原理的問題中,采用均值獎勵計算。對于一組變體題目:

獎勵計算為:

具體而言,平均獎勵不僅聚焦于單個問題,還反映了模型對同一知識原理下所有問題掌握情況,從而提供更全面的評價。

動態(tài)調(diào)度學(xué)習(xí)

基于 MathBook-Pro,動態(tài)調(diào)度策略能夠根據(jù)模型的錯誤類型,智能地調(diào)整訓(xùn)練數(shù)據(jù)。MathBook-Pro 為每個種子問題構(gòu)建了一系列難度逐漸增加的變體,如下所示:

其中,s,v,c 分別表示在推理步驟、視覺和語境上的復(fù)雜度增量,這就為每個種子題目形成了一條從基礎(chǔ)推理到高級推理的漸進路徑,基于此展開的增量學(xué)習(xí)機制如下:

  • 知識增量調(diào)度:對于從 ,若模型在上表現(xiàn)不佳,那么會先在 上進行訓(xùn)練,其中包含多個針對新增知識點所設(shè)計的單知識原理問題。
  • 模態(tài)增量調(diào)度:當從 或  時,如果模型無法解決后者,則調(diào)度學(xué)習(xí)對應(yīng)的  或 ,該集合包含專門聚焦新增視覺復(fù)雜或語境抽象部分的訓(xùn)練樣本。

實驗結(jié)果

主要結(jié)果

  • 較 Baseline 有穩(wěn)定提升:我們基于 Qwen2.5-VL-7B 開發(fā)了 MathBook-7B,并在四個主流數(shù)學(xué)推理測試集(MathVista、MathVision、MathVerse、We-Math)上進行了評估。結(jié)果顯示,MathBook-7B 的平均性能較 Qwen2.5-VL-7B 提升超過 5%。
  • 優(yōu)異的知識泛化能力:在 MathVista 和 We-Math 測試集上,MathBook-7B 展現(xiàn)出優(yōu)異的知識泛化能力,能夠高效解決多領(lǐng)域的復(fù)雜多步問題及其子問題,性能超過了其他強化學(xué)習(xí)方法的基線模型。
  • 用相對較少的數(shù)據(jù)解鎖較大的潛力:MathBook-7B 最終用 10K 左右的數(shù)據(jù)量訓(xùn)練即達到與大規(guī)模數(shù)據(jù)集同等效果,充分凸顯了高質(zhì)量數(shù)據(jù)與結(jié)構(gòu)化知識體系的高效性。

消融實驗分析

  • 每個模塊均有性能提升,預(yù)對齊強化學(xué)習(xí)最有效:冷啟動微調(diào)與兩階段強化學(xué)習(xí)策略均提升了模型性能。特別是預(yù)對齊強化學(xué)習(xí)后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的結(jié)果,這凸顯了知識學(xué)習(xí)在增強數(shù)學(xué)推理能力方面的關(guān)鍵作用。
  • SFT 帶來的性能提升有限,但對于釋放強化學(xué)習(xí)的潛力至關(guān)重要:SFT 有效改變了模型推理范式,為后續(xù) RL 優(yōu)化提供了基礎(chǔ),從而顯著提升了整體性能。(可以從后續(xù)的案例分析中看到變化)
  • SFT 人類自然的語言形式優(yōu)于結(jié)構(gòu)化形式:通過對 SFT 數(shù)據(jù)范式與規(guī)模進行分析,我們發(fā)現(xiàn),采用自然語言形式的 CoT(Chain-of-Thought)作為 SFT 數(shù)據(jù)優(yōu)于結(jié)構(gòu)化推理鏈,更能激發(fā)模型靈活推理能力的提升。
  • SFT 少量數(shù)據(jù)足以釋放強化學(xué)習(xí)的潛力:擴大 SFT 數(shù)據(jù)規(guī)模并非總能帶來更好的性能 —— 在少量精心挑選的 SFT 數(shù)據(jù)上訓(xùn)練的模型,其表現(xiàn)可與大規(guī)模數(shù)據(jù)集模型媲美,甚至更優(yōu)。

實例分析

我們在附錄中提供了具體的回答案例。對比表明,通過在 SFT 階段改變了輸出范式,MathBook-7B 能夠提供更簡潔、更精準的推理過程。例如,在 MathVision 測試集上,MathBook-7B 的回答更加簡潔,平均響應(yīng)長度減少,但仍保留了所有必要的知識推理步驟,解決了基線模型「過度思考」的問題。我們認為這種思路可以與構(gòu)建自我思考、自我反饋的方法結(jié)合,旨在讓模型在正向推理過程中高效有效地利用知識推理。

MathBookEval 中的實驗結(jié)果

  • 知識點數(shù)量影響顯著:模型準確率與題目知識點數(shù)量呈負相關(guān),尤其在涉及 7-10 個知識點時,大多數(shù)模型準確率低于 50%,凸顯多步推理的挑戰(zhàn)性,驗證了知識點數(shù)量作為難度指標的有效性。
  • 代數(shù)與幾何表現(xiàn)差異明顯:模型在代數(shù)題上表現(xiàn)較好,準確率普遍超過 50%;但在幾何題上表現(xiàn)較差,反映出空間推理能力的不足。

We-Math 系列工作

我們希望通過 We-Math 系列工作,以長期且持續(xù)系統(tǒng)性的努力,推動多模態(tài)數(shù)學(xué)推理的發(fā)展。其愿景希望讓模型像人類一樣可以依據(jù)知識解決問題,同樣也能在未來成為人類的學(xué)習(xí)助手。

具體而言,We-Math (ACL 2025) 聚焦于模型的評測,2.0 版本更加聚焦于模型的訓(xùn)練,現(xiàn)階段我們通過手動構(gòu)建高精度的知識體系與題目驗證了這一思路的有效性。

從數(shù)據(jù)集的角度看,2.0 版本更希望凸顯 MathBook-Standard 的高質(zhì)量與知識覆蓋全面性而 MathBook-Pro 則更多的是傳達一個有更多可能性的思路,后續(xù)我們也會進一步依照知識體系與三維空間探索大規(guī)模自動構(gòu)建的可能性。

此外,2.0 版本我們也會將全部的圖像數(shù)據(jù)與 GGB 源文件開源,我們認為這不僅會對多模態(tài)推理有所貢獻,也會對 AI for Education 有著一定的貢獻,相信在未來,知識學(xué)習(xí)會是很重要的基石。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2017-03-27 08:36:08

2023-12-05 13:28:00

AI模型

2012-07-27 09:25:40

2021-01-06 15:29:54

數(shù)據(jù)科學(xué)數(shù)學(xué)知識數(shù)學(xué)工具

2018-05-11 09:43:55

2024-12-02 08:30:00

2025-03-19 08:30:00

AI模型數(shù)據(jù)

2015-07-28 17:52:36

IOS知識體系

2018-03-22 19:48:47

前端HTML5數(shù)學(xué)知識

2017-08-15 17:06:55

前端HTML5手勢原理

2021-07-27 15:40:13

計算機奧運 技術(shù)

2012-03-08 11:13:23

企業(yè)架構(gòu)

2017-06-22 13:07:21

2017-02-27 16:42:23

Spark識體系

2017-04-03 15:35:13

知識體系架構(gòu)

2024-11-07 13:19:03

2025-02-27 10:08:19

2023-12-12 13:51:00

AI訓(xùn)練

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集
點贊
收藏

51CTO技術(shù)棧公眾號