偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學推理自我進化新方法

人工智能 新聞
通過代碼增強CoT、蒙特卡洛樹搜索(MCTS)等,rStar-Math能讓小·大模型在不依賴蒸餾教師模型的情況下,通過多輪自我進化的深度思維,掌握數(shù)學推理。

7B參數(shù)的Qwen2.5數(shù)學推理表現(xiàn)超過o1-preview,這是怎么做到的?!

靠的就是MSRA最新的創(chuàng)新算法,rStar-Math。

通過代碼增強CoT、蒙特卡洛樹搜索(MCTS)等,rStar-Math能讓小·大模型在不依賴蒸餾教師模型的情況下,通過多輪自我進化的深度思維,掌握數(shù)學推理。

圖片

并且戰(zhàn)功赫赫:

在美國數(shù)學競賽AIME 2024測試中,rStar-Math平均解決了53.3%的難題(OpenAI o1-preview為44.6%)打敗所有其它開源大模型,一舉成為最聰明的高中生數(shù)學top20%。

在MATH基準測試中,rStar-Math將阿里開源大模型Qwen2.5-Math-7B的準確率,從58.8%拉升到90.0%;Qwen2.5-Math-1.5B的準確率從51.2%拉升到87.8%;Phi3-mini-3.8B的準確率從41.4%提高到86.4%

——這些成績?nèi)咳砍^了OpenAI o1-preview。

就說牛不牛吧!

小聲說,微軟最近有一股在小·大模型圈子里重拳出擊的態(tài)勢:昨天剛開源了目前最強的小·大模型,14B的phi-4;今天又推出了rStar-Math,論文中直指其面向小語言模型(SLM)。

這個趨勢剛有點苗頭,立刻引得全網(wǎng)討論連連。

有網(wǎng)友不禁開始猜測:

咱就是說,有沒有一種可能,在固定計算預算的情況下,小·大模型其實在某些推理問題上,它就是搶過大模型呢?

圖片

rStar - Math怎么做到的?

Let’s 提問:

讓小語言模型能和o1的數(shù)學推理能力相媲美甚至超越,且無需從高級教師模型中蒸餾,它怎么做到的?

MSRA在論文中表示,這是通過蒙特卡洛樹搜索(MCTS)進行深度思考來實現(xiàn)的,并且,其中一個數(shù)學策略小模型在基于小模型的過程獎勵模型的指導下執(zhí)行測試時搜索。

圖片

目前,業(yè)界普遍依賴自然語言生成的推理步驟來提升數(shù)學推理模型的能力。

這種方法很直給,但其關(guān)鍵在于訓練一個強大的策略模型來生成解決方案步驟,還需要訓練一個可靠的獎勵模型來進行準確評估。

然而上述兩個模型都依賴于高質(zhì)量的訓練數(shù)據(jù)。

眾所周知的壞消息是,高質(zhì)量的數(shù)學推理數(shù)據(jù)在現(xiàn)在是非常非常稀缺的,同時高質(zhì)量的合成數(shù)據(jù)也存在一定bug。

而且實驗過程表明,它容易造成許多不相關(guān)、不必要的步驟,或產(chǎn)生錯誤。

當這種浪費和失誤出現(xiàn)在復雜的數(shù)學問題中時,一般很難被察覺。

現(xiàn)有的辦法,比如基于蒸餾的數(shù)據(jù)合成方法來訓練策略模型(如擴大GPT-4蒸餾的CoT數(shù)據(jù)),已經(jīng)明顯的出現(xiàn)回報遞減,且最終展現(xiàn)的能力無法超過其他教師模型。

與此同時,截至今天,訓練可靠的PRM(Process Reward Model,過程獎勵模型)進行數(shù)學推理仍然是一個懸而未決的問題。

MSRA此次推出的rStar-Math,就引入了三項創(chuàng)新方法,來應對訓練兩個小模型的挑戰(zhàn):

  • 代碼增強CoT數(shù)據(jù)合成方法
  • 過程獎勵模型訓練方法
  • 四輪自我思維深度進化

咱展開來說說~

代碼增強CoT數(shù)據(jù)合成方法

rStar-Math選擇使用代碼增強CoT來解決上述難題。

該方法執(zhí)行廣泛的MCTS部署,從而生成具有自我注釋的MCTS Q值的逐步驗證推理軌跡。

具體來說,一個數(shù)學問題的求解,會在MCTS內(nèi)被分解為多步生成。

模型在生成每一步推理時,作為策略模型的哪個SLM會對候選節(jié)點進行采樣,不僅生成這一步的CoT思維臉解釋,還生成相對應的Python代碼。

為了驗證生成質(zhì)量,只有成功執(zhí)行Python代碼的節(jié)點才會被保留,從而減少中間步驟的錯誤,確保每一步推理的正確性。

圖片

在此基礎(chǔ)上,為了進一步確保推理步驟的質(zhì)量,rStar-Math使用了MCTS來生成逐步推理軌跡(用來分解復雜的數(shù)學問題為多個單步生成任務)。

大量的MCTS回滾會根據(jù)每個中間步驟對最終正確答案的貢獻,自動為其分配一個Q值。

有助于產(chǎn)生更多導致正確答案的軌跡的步驟將被賦予更高的Q值,并被認為具有更高的質(zhì)量。

這確保了SLM生成的推理軌跡,是由正確、高質(zhì)量的中間步驟組成的。

過程獎勵模型訓練方法

現(xiàn)階段,多數(shù)大模型在解決推理數(shù)學問題時,都面臨一個問題:

無法無法提供細粒度的步驟級反饋,以幫助其在推理過程中做出更優(yōu)的選擇。

盡管使用了廣泛的MCTS部署,仍會出現(xiàn)Q值不夠精確的情況,這就導致無法對每個推理步驟進行評分。

為此,rStar-Math通過引入用于訓練充當過程偏好模型(PPM,Process Preference Model)的SLM,來可靠地為每個數(shù)學推理步驟預測獎勵標簽。

PPM的核心思想,是通過構(gòu)建步驟級的正負偏好對來訓練模型,而不是直接依賴于精確的步驟級評分。

它根據(jù)Q值為每個步驟構(gòu)建偏好對,并使用成對排名損失來優(yōu)化PPM對每個推理步驟的分數(shù)預測,實現(xiàn)可靠的標記。

如上所述,Q值雖然不精準、含噪聲,但PPM可以利用它,可靠地區(qū)分正(正確)步驟和負(不相關(guān) / 錯誤)步驟。

四輪自我思維深度進化

由于SLM能力較大模型更弱,團隊設計了四輪自我思維深度進化,以逐步生成更高質(zhì)量的數(shù)據(jù),并通過更具挑戰(zhàn)性的數(shù)學問題擴展訓練集。

值得注意的是,團隊首先選擇了一個包含747k個數(shù)學問題的開源數(shù)據(jù)集。

但在每一輪中,研究團隊沒有使用747k數(shù)學數(shù)據(jù)集中的原始解決方案,而是進行了廣泛的MCTS部署——

四輪中的每一輪,都使用MCTS生成逐步驗證的推理軌跡,然后將其用于訓練新策略SLM和PPM;然后又在下一輪中應用新模型,以生成更高質(zhì)量的訓練數(shù)據(jù)。

圖片

四輪自我思維深度進化具體如下。

第一輪:

通過監(jiān)督微調(diào)對基礎(chǔ)模型進行初步改進,為后續(xù)的自我進化奠定基礎(chǔ)。

改進后的模型表示為SLM-r1。

如表2所示,研究人員使用DeepSeek-Coder-V2-Instruct (236B)運行MCTS來收集SFT數(shù)據(jù)。

由于本輪沒有可用的獎勵模型,研究者對Q值使用終端引導的注釋,并將MCTS限制為8次推出,以提高效率。

為了獲得正確的解決方案,團隊選擇具有最高平均Q值的前2條軌跡作為SFT數(shù)據(jù)。

同時,團隊在這一輪中也訓練了PPM-r1。

這一輪的關(guān)鍵在于生成高質(zhì)量的初始訓練數(shù)據(jù),并利用這些數(shù)據(jù)對基礎(chǔ)模型進行微調(diào)。

第二輪:

訓練可靠的PPM-r2,通過PPM顯著提升模型推理能力。

在這一輪中,隨著策略模型更新到7B SLM-r1,團隊進行了廣泛的MCTS部署,以獲得更可靠的Q值注釋;除此之外,還訓練了第一個可靠的獎勵模型PPM-r2。

具體來說,研究團隊為每個問題執(zhí)行16次MCTS部署。由此產(chǎn)生的逐步驗證推理軌跡表明,質(zhì)量和Q值精度都有了顯著提高。

如表 4 所示,PPM-r2明顯比bootstrap輪次更有效。

圖片

此外,如表3所示,策略模型SLM-r2也如預期的那樣繼續(xù)改進,指導其在后續(xù)的推理中做出更好的選擇。

圖片

第三輪:

通過PPM增強的MCTS生成更高質(zhì)量的數(shù)據(jù),進一步提升模型的推理能力。

借助可靠的PPM-r2,研究人員在這一輪中執(zhí)行PPM增強的MCTS以生成數(shù)據(jù),從而獲得更高質(zhì)量的軌跡。此處涵蓋訓練集中的更多數(shù)學和奧林匹克級別問題(詳細可見表2)。

然后,研究者使用生成的推理軌跡和自我注釋的Q值,來訓練新策略SLM-r3和PPM-r3——這兩者都顯示出顯著的改進。

第四輪:

通過增加MCTS回滾次數(shù),解決具有挑戰(zhàn)性的數(shù)學難題。

前第三輪后,雖然rStar - Math已經(jīng)讓SLM在小學和MATH題目上提高成功率,但奧賽級別題目成績還是只有62.16%。

為此,團隊采用了一種簡單的策略,即對于在16次MCTS部署后未解決的問題,會額外執(zhí)行64次部署。

如果需要,這個次數(shù)可以增加到128次。

此外,研究者們還使用不同的隨機種子進行多個MCTS擴展,最后將奧賽級別問題的成功率提高到80.58%。

圖片
△此處再貼一次表2,方便大家查閱

綜上,經(jīng)過四輪自我進化,747k數(shù)學題的成績已經(jīng)來到了90.25%。

剩下的未解決的問題中,很大一部分都是綜合問題。

研究者人工手動審查了20個問題的隨機樣本,發(fā)現(xiàn)其中19個問題被錯誤地標記為錯誤答案。

基于此,團隊得出結(jié)論:剩余的未解決的問題質(zhì)量較低,因此自我進化的腳步終止在第4輪。

圖片

實驗評估與發(fā)現(xiàn)

下面的表5,顯示了rStar-Math與最先進的推理模型進行比較的結(jié)果。

圖片

有三個值得說道說道的觀察發(fā)現(xiàn):

第一,rStar-Math 顯著提高了SLM的數(shù)學推理能力,以小得多的模型尺寸,實現(xiàn)了與OpenAI o1相當,甚至超過o1的性能。

例如,Qwen2.5-Math-7B最初在MATH上的準確率為58.8%,使用rStar-Math后,準確率顯著提高到90.0%,優(yōu)于o1-preview和Claude 3.5 Sonnet,和o1-mini打了個平手。

在College Math基準測試中,rStar-Math后Qwen2.5-Math-7B的比o1-mini高出 2.7%。

在AIME 2024上,rStar-Math后的Qwen2.5-Math-7B得分為53.3%,不及o1-mini的56.7%。不過,7B模型在AIME I 和 II 中解決了8/15的問題,在最聰明的高中數(shù)學學生中排名前 20%。

而未解決的問題中,有8個是需要視覺里覺的幾何圖形題,這個功能目前rStar-Math還不支持。

圖片

第二,盡管使用較小的政策模型(1.5B-7B)和獎勵模型(7B),但rStar-Math的性能明顯優(yōu)于最先進的System 2基線。

與使用相同的基本模型(Qwen2-Math-7B、Qwen2.5-Math-1.5B/7B)但獎勵模型 (Qwen2.5-Math-RM-72B) 大10倍以上的Qwen Best-of-N基線相比,rStar-Math始終將所有基本模型的推理準確性提高到最先進的水平。

即使與Qwen2.5-Math-72B-Instruct的策略模型大10倍以上的N-Best-of-N對比,使用相同數(shù)量的采樣解決方案,rStar-Math也在除GSM8K之外的所有基準測試中也超過了它。

第三,除了MATH、GSM8K和AIME等可能存在過度優(yōu)化的知名基準測試之外,rStar-Math在其它具有挑戰(zhàn)性的數(shù)學基準測試中表現(xiàn)出很強的通用性。

包括但不限于奧賽基準、大學數(shù)學和中國高考數(shù)學考試 (Gaokao)。

而且需要強調(diào)的是,rStar-Math訓練集主要來自公共數(shù)據(jù)集,并沒有針對這些基準測試進行特定的優(yōu)化。

總的來說,實驗結(jié)果驗證了自進化、逐步驗證推理軌跡和PPM的有效性。

One More Thing

本研究的共同一作分別是MSRA的Xinyu Guan和Li Lyna Zhang。

Li Lyna Zhang是工作的項目leader,本博都畢業(yè)于中國科學技術(shù)大學,目前是MSRA系統(tǒng)與網(wǎng)絡組的高級研究員。

圖片

另一位共同一作,Xinyu Guan,在完成這項工作的時候是MSRA的實習生,這位同學當時還在北大讀書。

BTW,論文中另一位作者Youran Sun參與項目時也是MSRA實習生,這位同學則是清華er。

啊,年輕人的世界,又是實習生呢~

arXiv:https://arxiv.org/pdf/2501.04519

代碼和數(shù)據(jù)詳見GitHub:https://github.com/microsoft/rStar

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-10 12:58:37

2025-05-26 08:52:00

2025-06-25 08:54:03

模型訓練AI

2025-03-10 01:00:00

2025-01-10 09:25:00

模型數(shù)據(jù)微軟

2025-04-26 09:25:00

模型推理AI

2025-02-27 08:00:00

DeepSeek大模型人工智能

2024-11-07 15:40:00

2024-09-24 11:01:03

2024-11-29 13:57:38

2025-02-25 12:30:00

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-12-13 13:04:13

模型Phi-4AI

2024-09-19 14:00:00

模型開源代碼

2025-04-29 08:05:44

2024-11-07 22:59:36

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-02-07 14:40:00

LLM智能模型
點贊
收藏

51CTO技術(shù)棧公眾號