直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開(kāi)源全新SOTA推理模型
32B推理模型,僅用1/8數(shù)據(jù),與同尺寸DeepSeek-R1打成平手!
就在剛剛,來(lái)自斯坦福、UC伯克利、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)手發(fā)布了一款SOTA級(jí)推理模型——OpenThinker-32B,并同時(shí)開(kāi)源了高達(dá)114k的訓(xùn)練數(shù)據(jù)。
項(xiàng)目主頁(yè):https://www.open-thoughts.ai/blog/scale
Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32B
數(shù)據(jù)集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k
團(tuán)隊(duì)發(fā)現(xiàn):采用經(jīng)DeepSeek-R1驗(yàn)證標(biāo)注(基于R1蒸餾)的大規(guī)模優(yōu)質(zhì)數(shù)據(jù)集,便可訓(xùn)練出SOTA的推理模型。
具體方法,就是通過(guò)數(shù)據(jù)規(guī)?;⑼评磉^(guò)程驗(yàn)證以及模型規(guī)模擴(kuò)展。
由此得到的OpenThinker-32B,在數(shù)學(xué)、代碼和科學(xué)等多個(gè)基準(zhǔn)測(cè)試中,OpenThinker-32B性能直接碾壓了李飛飛團(tuán)隊(duì)s1和s1.1模型,直逼R1-Distill-32B。
值得一提的是,相比于使用了800k數(shù)據(jù)(包含600k個(gè)推理樣本)的R1-Distill,OpenThinker-32B僅用了114k數(shù)據(jù),就能拿下幾乎同等的優(yōu)異成績(jī)。
結(jié)果均通過(guò)開(kāi)源評(píng)估框架Evalchemy計(jì)算得出
除此之外,OpenThinker-32還把模型權(quán)重、數(shù)據(jù)集、數(shù)據(jù)生成代碼、訓(xùn)練代碼上,全部都給公開(kāi)了!
數(shù)據(jù)策展
研究人員使用了與之前訓(xùn)練OpenThinker-7B模型相同的OpenThoughts-114k數(shù)據(jù)集來(lái)訓(xùn)練OpenThinker-32B。
他們利用DeepSeek-R1模型,收集了精心挑選的17.3萬(wàn)個(gè)問(wèn)題的推理過(guò)程和解答嘗試。然后將這些原始數(shù)據(jù)作為OpenThoughts-Unverfied-173k數(shù)據(jù)集公開(kāi)發(fā)布。
整個(gè)流程的最后一步是,如果推理過(guò)程未能通過(guò)驗(yàn)證,就過(guò)濾掉相應(yīng)的數(shù)據(jù)樣本。
下圖可視化地展示了整個(gè)過(guò)程。
研究團(tuán)隊(duì)首先輸入源數(shù)據(jù)或問(wèn)題提示,這些內(nèi)容可以來(lái)自不同的領(lǐng)域和平臺(tái),如BAAI/TACO、DeepMind、Python提交等,涉及代碼、謎題、科學(xué)和數(shù)學(xué)等多個(gè)方面。
接著這些多元的輸入會(huì)進(jìn)入核心的處理模塊——DeepSeek-R1,在這里對(duì)數(shù)據(jù)進(jìn)行分析與處理。這些問(wèn)題會(huì)被分成三個(gè)方面,分別是:科學(xué)類(lèi)問(wèn)題、數(shù)學(xué)與謎題和代碼。
有些結(jié)果不需要驗(yàn)證,可能是簡(jiǎn)單的分析或直接輸出。對(duì)于一些需要深入驗(yàn)證的內(nèi)容,利用大語(yǔ)言模型(LLM)采用與GT(Ground Truth)對(duì)比的方式進(jìn)行評(píng)判。如果是代碼,執(zhí)行代碼并進(jìn)行單元測(cè)試,確保代碼的正確性和有效性。
最后能將不同方向的結(jié)果結(jié)合起來(lái),生成開(kāi)放的思考和更為綜合的解決方案。
研究團(tuán)隊(duì)更新了最終的OpenThoughts-114k數(shù)據(jù)集,加入了一個(gè)名為「metadata」的配置,其中包含了一些用于數(shù)據(jù)集構(gòu)建的額外列:
- problem
- ground_truth_solution
- test_cases (code only)
- starter_code (code only)
- DeepSeek_reasoning
- DeepSeek_solution
- domain
- source
這些額外的元數(shù)據(jù)將使得這個(gè)數(shù)據(jù)集更容易用于新的場(chǎng)景,例如數(shù)據(jù)過(guò)濾、領(lǐng)域切換、驗(yàn)證檢查以及更改推理過(guò)程的模板。
這些額外的元數(shù)據(jù)將得使該數(shù)據(jù)集使用起來(lái)更加容易,僅需一行代碼就能完成例如過(guò)濾、更換領(lǐng)域、檢查驗(yàn)證和更改推理跟蹤模板等。
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
研究團(tuán)隊(duì)表示,他們期待看到社區(qū)利用這些問(wèn)題和標(biāo)準(zhǔn)答案,在OpenThinker模型上進(jìn)行強(qiáng)化學(xué)習(xí)(RL)的研究。DeepScaleR已經(jīng)證明,規(guī)模較小時(shí),這種方法效果特別好。
驗(yàn)證
為了得到最終的OpenThoughts-114k數(shù)據(jù)集,研究團(tuán)隊(duì)對(duì)答案進(jìn)行了驗(yàn)證,并剔除了不正確的回答。
如下表所示,保留那些未通過(guò)驗(yàn)證的推理過(guò)程可能會(huì)損害性能,盡管未經(jīng)驗(yàn)證的模型與其他32B推理模型相比仍然表現(xiàn)良好。
驗(yàn)證的作用在于,在擴(kuò)大訓(xùn)練提示集的多樣性和規(guī)模的同時(shí),保持R1注釋的質(zhì)量。另一方面,未經(jīng)驗(yàn)證的數(shù)據(jù)可以更容易地?cái)U(kuò)展,因此也值得進(jìn)一步探索。
對(duì)于代碼問(wèn)題,我們通過(guò)對(duì)照已有的測(cè)試用例來(lái)驗(yàn)證解答嘗試,從而完成推理過(guò)程的驗(yàn)證。
受到代碼執(zhí)行過(guò)程中所面臨挑戰(zhàn)的啟發(fā),我們?cè)贑urator中實(shí)現(xiàn)了一個(gè)代碼執(zhí)行框架,使用戶能夠大規(guī)模、安全地執(zhí)行代碼,并對(duì)照預(yù)期輸出進(jìn)行驗(yàn)證。
對(duì)于數(shù)學(xué)問(wèn)題,研究團(tuán)隊(duì)使用一個(gè)LLM(大語(yǔ)言模型)評(píng)判器來(lái)進(jìn)行驗(yàn)證,它會(huì)同時(shí)接收標(biāo)準(zhǔn)答案和DeepSeek-R1的解答嘗試。
結(jié)果發(fā)現(xiàn),在數(shù)據(jù)生成過(guò)程中,使用LLM評(píng)判器而不是更嚴(yán)格的解析引擎(Math-Verify)進(jìn)行驗(yàn)證,可以獲得更高的有效數(shù)據(jù)率,并能訓(xùn)練出性能更好的下游模型。
訓(xùn)練
研究團(tuán)隊(duì)使用LLaMa-Factory對(duì)Qwen2.5-32B-Instruct在OpenThoughts-114k數(shù)據(jù)集上進(jìn)行了三輪微調(diào),上下文長(zhǎng)度為16k。完整訓(xùn)練配置可在GitHub中找到。
OpenThinker-32B在AWS SageMaker集群上使用四個(gè)8xH100 P5節(jié)點(diǎn)訓(xùn)練了90小時(shí),累計(jì)使用了2,880個(gè)H100小時(shí)。
同時(shí),OpenThinker-32B-Unverified在Leonardo超級(jí)計(jì)算機(jī)上使用96個(gè)4xA100節(jié)點(diǎn)(每個(gè)GPU64GB)訓(xùn)練了30小時(shí),累計(jì)使用了11,520個(gè)A100小時(shí)。
評(píng)估
研究團(tuán)隊(duì)使用開(kāi)源評(píng)估庫(kù)Evalchemy(煉金術(shù))對(duì)所有模型進(jìn)行評(píng)估。
對(duì)于AIME24和AIME25,他們通過(guò)平均五次運(yùn)行的結(jié)果來(lái)計(jì)算準(zhǔn)確率。評(píng)估配置使用0.7的溫度參數(shù),將模型響應(yīng)限制在32,768個(gè)token以內(nèi),不添加任何額外的系統(tǒng)或用戶提示詞,也不使用任何特殊的解碼策略(如預(yù)算強(qiáng)制)。
當(dāng)啟動(dòng)OpenThoughts項(xiàng)目時(shí),他們?cè)O(shè)定了一個(gè)目標(biāo),即創(chuàng)建一個(gè)性能可以達(dá)到DeepSeek-R1-Distill-Qwen-32B的開(kāi)放數(shù)據(jù)模型。
現(xiàn)在這個(gè)差距已經(jīng)幾乎消除。
最后,研究團(tuán)隊(duì)為社區(qū)在過(guò)去幾周在構(gòu)建開(kāi)放數(shù)據(jù)推理模型方面取得的快速進(jìn)展感到振奮,并期待基于彼此的洞見(jiàn)繼續(xù)向前發(fā)展。
OpenThinker-32B的開(kāi)源,證明了數(shù)據(jù)、驗(yàn)證和模型規(guī)模的協(xié)同作用是提升推理能力的關(guān)鍵。
這一成果不僅推動(dòng)了開(kāi)源推理模型的發(fā)展,也為整個(gè)AI社區(qū)提供了寶貴的資源和啟示。