「DeepSeek二代」來(lái)襲!數(shù)學(xué)暴擊o3,英偉達(dá)開(kāi)源LLM登頂
開(kāi)源模型王座再次易主?
昨天,英偉達(dá)開(kāi)源了OpenReasoning-Nemotron:
- 在多個(gè)基準(zhǔn)測(cè)試中,同規(guī)模模型無(wú)敵,取得了SOTA得分
 - 專為數(shù)學(xué)、科學(xué)、代碼定制
 - 提供四種參數(shù)規(guī)模:1.5B、7B、14B和32B,可在本地100%運(yùn)行。
 
不過(guò),這些模型還是「國(guó)產(chǎn)血統(tǒng)」:
架構(gòu)基于Qwen2.5 ,SFT訓(xùn)練使用的是DeepSeek-R1-0528生成的數(shù)據(jù)。

OpenReasoning-Nemotron是目前最強(qiáng)的蒸餾的推理模型。

以后,推理模型也有了強(qiáng)基線模型。
一張圖總結(jié)要點(diǎn):

數(shù)學(xué)基準(zhǔn),超越o3
這次在參數(shù)高達(dá)671B的滿血DeepSeek-R1-0528蒸餾,在5M的數(shù)學(xué)、代碼和科學(xué)推理軌跡上訓(xùn)練。
這次的模型不僅僅進(jìn)行token預(yù)測(cè),還實(shí)現(xiàn)了真正的推理能力。

核心貢獻(xiàn)者、英偉達(dá)研究科學(xué)家Igor Gitman介紹了這次的亮點(diǎn)。

與之前OpenMath/Code/Science發(fā)布時(shí)的提示集相同,這次只是更新了用于生成答案的R1模型,但改進(jìn)幅度巨大!
而作為「教師」模型,新的R1模型表現(xiàn)出色!
而且這次沒(méi)有進(jìn)行任何在線強(qiáng)化學(xué)習(xí),只進(jìn)行了有監(jiān)督微調(diào)(SFT)。
未來(lái)應(yīng)該可以通過(guò)進(jìn)一步優(yōu)化這些模型或使用更少的 token 獲得相似性能。
這些模型支持「重型」推理模式,可以「結(jié)合多個(gè)智能體的工作」。
為此,他們這次使用了AIMO-2論文中提出的GenSelect算法。

使用GenSelect@64,在多個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中超越了OpenAI o3(高算力版)。

還有另一個(gè)令人驚訝的結(jié)果:這些模型只是針對(duì)數(shù)學(xué)問(wèn)題訓(xùn)練了GenSelect算法,但它竟然也泛化到了代碼任務(wù)上!
32B模型的LCB得分從70.2(pass@1)提升到75.3(GenSelect@16)。
需要注意的是,這里沒(méi)有使用強(qiáng)化學(xué)習(xí)(RL),但仍然觀察到從數(shù)學(xué)到代碼的強(qiáng)大泛化能力!
意外的現(xiàn)象
首先澄清一點(diǎn),這是一次「研究性質(zhì)」模型發(fā)布,主要目標(biāo)是驗(yàn)證生成的新數(shù)據(jù)的價(jià)值,并探索僅通過(guò)監(jiān)督微調(diào)(SFT)能將性能推到何種程度。
這次僅針對(duì)數(shù)學(xué)、代碼和科學(xué)推理任務(wù)訓(xùn)練了模型,沒(méi)有進(jìn)行指令微調(diào)或強(qiáng)化學(xué)習(xí)人類反饋(RLHF)。
雖然這些模型在解決推理任務(wù)時(shí)表現(xiàn)優(yōu)異,但未經(jīng)進(jìn)一步訓(xùn)練,它們可能無(wú)法勝任多輪對(duì)話或作為通用助手。
在一系列具有挑戰(zhàn)性的推理基準(zhǔn)測(cè)試中,模型表現(xiàn)出色。
7B、14B和32B模型在各自規(guī)模類別下的創(chuàng)下了多項(xiàng)最先進(jìn)紀(jì)錄。

現(xiàn)在,在開(kāi)發(fā)這些模型時(shí),還發(fā)現(xiàn)了兩點(diǎn)有趣的事情。
(1)參數(shù)規(guī)模影響巨大。
1.5B模型,實(shí)際上并沒(méi)有特別出色。例如,OpenMath-Nemotron-1.5B(我們之前的數(shù)學(xué)模型發(fā)布)在 AIME25 上得分為 49.5,而這個(gè)新模型得分為 45.6。
但是,7B(或更大的模型)進(jìn)步就非常顯著。OpenMath-7B 模型的得分為 61.2,而 OpenReasoning-7B 的得分則達(dá)到了 78.2!
因此,1.5B 模型的表現(xiàn)稍微下滑了,但 7B 模型在使用相同數(shù)據(jù)進(jìn)行訓(xùn)練后提高了近 20%。
研究人員猜測(cè)可能是因?yàn)樵谔幚磔^長(zhǎng)上下文生成時(shí),1.5B模型可能不太一致。
之前的數(shù)據(jù)集僅包含16K輸出token,但這次擴(kuò)展到了32K,而1.5B模型無(wú)法保持推理的一致性。
(2)模型學(xué)會(huì)了兩種不同的行為。
在之前的 OpenMath 發(fā)布中,英偉達(dá)研究團(tuán)隊(duì)也使用了TIR數(shù)據(jù)來(lái)幫助模型學(xué)習(xí)使用Python。
由于沒(méi)有時(shí)間用新的R1重新生成這些數(shù)據(jù),他們決定將一些舊的 TIR 數(shù)據(jù)混入當(dāng)前的訓(xùn)練集中,看看會(huì)發(fā)生什么。
他們?cè)酒谕涸谟?xùn)練過(guò)程中,模型仍然能夠?qū)W習(xí)如何使用 Python,同時(shí)保留來(lái)自新 CoT 樣本的更好推理。
然而,事實(shí)并非如此——如果你使用TIR模式來(lái)評(píng)估OpenReasoning模型,你會(huì)發(fā)現(xiàn)它們與OpenMath模型基本相同,這比帶有CoT的新模型要差得多。
從某種角度來(lái)看,模型學(xué)會(huì)了兩種不同的行為:一種是使用工具,但推理較差;另一種是不使用工具,但推理很強(qiáng),兩者之間沒(méi)有有效的過(guò)渡。非常有趣的是,是否可以通過(guò)在TIR模式下應(yīng)用在線強(qiáng)化學(xué)習(xí)(RL)來(lái)解決這個(gè)問(wèn)題?
本地筆記可跑
如果筆記本電腦上運(yùn)行,詳細(xì)信息如下:

模型鏈接:https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B
體驗(yàn)鏈接:https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning
可以使用LM Studio免費(fèi)運(yùn)行它們:
- 下載適用于macOS、Windows或Linux的LM Studio
 - 在搜索標(biāo)簽頁(yè),輸入「openreasoning」
 - 安裝你想要的版本
 

如果使用ARM處理器,建議使用Bartowski的7B版本。
只要驍龍 X Elite + 32GB RAM,就可以加載量化后的14B模型,并在CPU上運(yùn)行。















 
 
 

















 
 
 
 