歷史分水嶺:DeepSeek GitHub星數(shù)超越OpenAI!大佬揭秘僅用450美元訓(xùn)推理模型
就在剛剛,歷史性的一刻出現(xiàn)了。
DeepSeek項(xiàng)目在GitHub平臺(tái)上的Star數(shù),已經(jīng)超越了OpenAI。
熱度最高的DeepSeek-V3,Star數(shù)如今已達(dá)7.7萬(wàn)。
做出這一發(fā)現(xiàn)的網(wǎng)友們,第一時(shí)間截下了圖
可以說(shuō),這是開(kāi)源AI歷史上的一個(gè)里程碑!
而DeepSeek-R1,更是僅用了3周時(shí)間,就超越了「openai-cookbook」。
前有App Store登頂,今有GitHub超越,網(wǎng)友們高呼:永遠(yuǎn)不要低估開(kāi)源社區(qū)的力量!
如今,DeepSeek的勢(shì)頭越來(lái)越猛。
相信大家都發(fā)現(xiàn),DeepSeek的服務(wù)器簡(jiǎn)直要爆了。

甚至就在昨天,DeepSeek還不得不官宣:暫停API充值。
原因當(dāng)然就是因?yàn)?,用?hù)的熱情實(shí)在太火爆,服務(wù)器真扛不住了。

最近,關(guān)于DeepSeek的一些流傳甚廣的說(shuō)法,也紛紛有專(zhuān)家辟謠了。
澄清一:DeepSeek繞過(guò)了CUDA架構(gòu)
其中一個(gè)廣為流傳的說(shuō)法是DeepSeek繞過(guò)了CUDA。

這源于DeepSeek的論文中提到,模型采用了PTX編程,通過(guò)這樣的定制優(yōu)化,讓模型能更好地釋放底層硬件的性能。
「我們采用定制的PTX(并行線程執(zhí)行)指令并自動(dòng)調(diào)整通信塊大小,這大大減少了L2緩存的使用和對(duì)其他SM的干擾」
嚴(yán)謹(jǐn)來(lái)說(shuō),DeepSeek通過(guò)編寫(xiě)PTX解決了跨芯片通信瓶頸,雖然復(fù)雜,但降低了開(kāi)銷(xiāo)、提升了效率。
本質(zhì)上,PTX仍然是位于CUDA驅(qū)動(dòng)層內(nèi)部的一個(gè)組件,是英偉達(dá)CUDA編程模型的一部分,能將CUDA源代碼(C/C++)轉(zhuǎn)變?yōu)闄C(jī)器指令的一個(gè)中間階段。
在運(yùn)行時(shí),PTX會(huì)進(jìn)一步被編譯成在GPU上運(yùn)行的最終機(jī)器碼(SASS)。

而DeepSeek團(tuán)隊(duì)的聰明之處就在于,用這種方法能更好地實(shí)現(xiàn)對(duì)底層硬件的編程和調(diào)用。
這種主動(dòng)優(yōu)化,無(wú)論在H800還是H100上都能提高通信互聯(lián)效率。
因此,DeepSeek仍然沒(méi)有擺脫CUDA生態(tài)。
澄清二:R1的訓(xùn)練成本,絕不僅僅是600萬(wàn)美元!
而關(guān)于DeepSeek-R1的另一個(gè)謠言,就是R1的訓(xùn)練成本大約是600萬(wàn)美元。
之所以有這個(gè)說(shuō)法,來(lái)源于DeepSeek-V3論文中的相關(guān)論述
開(kāi)發(fā)者大神Sebastian指出,很多人都混淆了DeepSeek-V3和DeepSeek-R1。(前者要早1個(gè)月)
其中,DeepSeek-V3中宣稱(chēng)的550萬(wàn)美元,是基于GPU成本、GPU小時(shí)數(shù)、數(shù)據(jù)集規(guī)模和模型規(guī)模等估算出來(lái)的。
但DeepSeek團(tuán)隊(duì)從沒(méi)公開(kāi)過(guò)R1確切的GPU小時(shí)數(shù)或開(kāi)發(fā)成本,目前已有的任何成本估算都只是猜測(cè)。

除此之外,Stability AI前研究總監(jiān)Tanishq Mathew Abraham也在最近的博文中指出,R1在V3基礎(chǔ)上進(jìn)行的強(qiáng)化學(xué)習(xí),以及最終訓(xùn)練前團(tuán)隊(duì)的大量的小規(guī)模實(shí)驗(yàn)和消融研究都未包含在內(nèi)。
更何況還有研究者的薪資,據(jù)傳已經(jīng)跟OpenAI、Anthropic等頂級(jí)機(jī)構(gòu)的薪資相當(dāng)(高達(dá)100萬(wàn)美元)。
V3和R1,開(kāi)啟推理模型大變局
DeepSeek V3和R1發(fā)布后,將怎樣攪動(dòng)此后的LLM江湖?
預(yù)算緊張的情況下,怎么開(kāi)發(fā)推理模型?
最近,機(jī)器學(xué)習(xí)大神Sebastian Raschka的這篇長(zhǎng)篇博文,為我們做出了硬核預(yù)測(cè),并且破除了不少民間對(duì)DeepSeek的誤解。

Sebastian表示,很多人都來(lái)詢(xún)問(wèn)自己對(duì)DeepSeek-R1的看法。
在他看來(lái),這是一項(xiàng)了不起的成就。
作為一名研究工程師,他非常欣賞那份詳細(xì)的研究報(bào)告,它讓自己對(duì)方法論有了更深入的了解。
最令人著迷的收獲之一,就是推理如何從純強(qiáng)化學(xué)習(xí)行為中產(chǎn)生。
甚至,DeepSeek是在MIT許可下開(kāi)源模型的,比Meta的Llama模型限制更少,令人印象深刻。
在本文中,Sebastian介紹了構(gòu)建推理模型的四種方法,來(lái)提升LLM的推理能力。

圖中總結(jié)了DeepSeek R1的訓(xùn)練流程。

(1)DeepSeek-R1-Zero:該模型基于2024年12月發(fā)布的DeepSeek-V3。研究團(tuán)隊(duì)采用RL進(jìn)行訓(xùn)練,并使用了兩種獎(jiǎng)勵(lì)類(lèi)型。這種方式稱(chēng)為冷啟動(dòng)訓(xùn)練,因?yàn)樗鼪](méi)有采用RLHF中的SFT步驟。
(2)DeepSeek-R1:這是DeepSeek的旗艦推理模型,構(gòu)建于DeepSeek-R1-Zero基礎(chǔ)上。團(tuán)隊(duì)通過(guò)額外的SFT階段和進(jìn)一步的RL訓(xùn)練,對(duì)模型進(jìn)行了優(yōu)化。
(3)DeepSeek-R1-Distill:利用前述步驟中生成的SFT數(shù)據(jù),團(tuán)隊(duì)對(duì)Qwen和Llama模型進(jìn)行了微調(diào),以增強(qiáng)它們的推理能力。盡管不是傳統(tǒng)意義上的蒸餾,但該過(guò)程是用DeepSeek-R1的輸出,來(lái)訓(xùn)練較小的模型(Llama 8B和70B,Qwen 1.5B–30B)。
構(gòu)建推理模型的四種方法
推理時(shí)擴(kuò)展
想要提升LLM的推理能力,或者是其他任何能力,有一種方法叫推理時(shí)擴(kuò)展,就是在推理過(guò)程中增加計(jì)算資源,讓輸出的結(jié)果質(zhì)量更高。
人類(lèi)在解決復(fù)雜問(wèn)題時(shí),如果思考時(shí)間更充裕,往往能給出更好的答案。
有一種推理時(shí)擴(kuò)展的簡(jiǎn)單方法,是巧妙的運(yùn)用提示工程。思維鏈(CoT)提示法是一個(gè)經(jīng)典例子,在處理復(fù)雜問(wèn)題時(shí),通常能得到更準(zhǔn)確的結(jié)果。

另一種推理時(shí)擴(kuò)展的方法是使用投票和搜索策略。
一個(gè)簡(jiǎn)單的例子是多數(shù)投票方法,讓LLM生成多個(gè)答案,然后通過(guò)投票選出正確答案。
同樣,也可以使用束搜索(beam search)和其他搜索算法來(lái)生成更好的響應(yīng)。

推測(cè)OpenAI的o1和o3模型使用了推理時(shí)擴(kuò)展。此外,o1和o3可能還運(yùn)用了與DeepSeek R1類(lèi)似的RL流程來(lái)訓(xùn)練。
純強(qiáng)化學(xué)習(xí)(RL)
DeepSeek R1論文中的一個(gè)亮點(diǎn)是,推理行為可以通過(guò)純強(qiáng)化學(xué)習(xí)(RL)產(chǎn)生。
通常在RL訓(xùn)練之前,會(huì)先進(jìn)行SFT,但DeepSeek-R1-Zero完全通過(guò)RL訓(xùn)練,沒(méi)有初始的SFT階段。

DeepSeek-R1-Zero的一個(gè)關(guān)鍵區(qū)別是它跳過(guò)了SFT階段。
在獎(jiǎng)勵(lì)機(jī)制上,DeepSeek沒(méi)有采用基于人類(lèi)偏好的獎(jiǎng)勵(lì)模型,而是采用了準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。
- 準(zhǔn)確性獎(jiǎng)勵(lì),是用LeetCode編譯器來(lái)驗(yàn)證編程答案,并用確定性系統(tǒng)評(píng)估數(shù)學(xué)回答。
- 格式獎(jiǎng)勵(lì),則靠LLM評(píng)判器,保證回答符合預(yù)期格式,比如把推理步驟放在標(biāo)簽里。
讓人意外的是,靠這種方法,LLM就能發(fā)展出基本的推理能力。
研究人員觀察到「頓悟時(shí)刻」:模型開(kāi)始在回答中生成推理過(guò)程,即使沒(méi)有專(zhuān)門(mén)訓(xùn)練它這么做。

盡管R1-Zero并不是性能最優(yōu)的推理模型,但它通過(guò)生成中間的思考步驟展示了推理能力。這證明用純強(qiáng)化學(xué)習(xí)(RL)開(kāi)發(fā)推理模型是可行的。
監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(SFT+RL)
旗艦?zāi)P虳eepSeek-R1通過(guò)結(jié)合額外的SFT和RL,提升了模型的推理表現(xiàn)。
在RL之前進(jìn)行SFT是常見(jiàn)的做法,標(biāo)準(zhǔn)的RLHF流程就是如此。OpenAI的o1模型很可能也是用類(lèi)似方法開(kāi)發(fā)的。

如圖所示,團(tuán)隊(duì)用DeepSeek-R1-Zero生成了冷啟動(dòng)SFT數(shù)據(jù)。通過(guò)指令微調(diào)訓(xùn)練模型,接著又進(jìn)行了一輪RL。
在這一輪RL中,保留了DeepSeek-R1-Zero的準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì),還新增了一致性獎(jiǎng)勵(lì),來(lái)避免語(yǔ)言混雜。
RL結(jié)束后,又開(kāi)始新一輪SFT數(shù)據(jù)收集。在這個(gè)階段,用最新的模型生成了60萬(wàn)條CoT SFT示例,同時(shí)用DeepSeek-V3基礎(chǔ)模型創(chuàng)建了另外20萬(wàn)條SFT示例。
上述樣本隨后被用于另一輪RL訓(xùn)練。在這個(gè)階段,對(duì)于數(shù)學(xué)和編程問(wèn)題,還是用基于規(guī)則的方法進(jìn)行準(zhǔn)確性獎(jiǎng)勵(lì)。對(duì)于其他類(lèi)型的問(wèn)題,則用人類(lèi)偏好標(biāo)簽來(lái)評(píng)判。
經(jīng)過(guò)多輪訓(xùn)練,DeepSeek-R1的性能有了顯著提升。

純監(jiān)督微調(diào)(SFT)和蒸餾
到目前為止,已經(jīng)介紹了三種用于改進(jìn)LLM推理能力的方法,最后是模型「蒸餾」。
這里「蒸餾」是指用較大LLM生成的數(shù)據(jù)集對(duì)較小的LLM(如Llama 8B和70B以及Qwen 2.5模型,范圍從0.5B到32B)進(jìn)行指令微調(diào)。
實(shí)際上,這個(gè)蒸餾過(guò)程中的SFT數(shù)據(jù)集,和之前用來(lái)訓(xùn)練DeepSeek-R1的數(shù)據(jù)集是一樣的。

為什么開(kāi)發(fā)蒸餾模型?可能有兩個(gè)關(guān)鍵原因:
1 較小的模型更高效。小模型運(yùn)行成本更低,還能在配置較低的硬件上運(yùn)行。對(duì)研究人員來(lái)說(shuō)很有吸引力。
2 純SFT的案例研究。這些模型展示了在沒(méi)有RL的情況下,單純靠SFT能把模型優(yōu)化到什么程度。

團(tuán)隊(duì)將DeepSeek-R1-Zero中的純RL方法直接應(yīng)用于Qwen-32B。
結(jié)果表明,對(duì)于較小的模型,蒸餾遠(yuǎn)比純RL更有效。
僅靠RL可能不足以讓小模型具備強(qiáng)大的推理能力,在高質(zhì)量推理數(shù)據(jù)上進(jìn)行SFT,或許是對(duì)小模型更有效的策略。

接下來(lái)一個(gè)有趣的方向是把RL+SFT和推理時(shí)擴(kuò)展結(jié)合起來(lái),OpenAI的o1很有可能是這樣做的,只不過(guò)它可能基于一個(gè)比DeepSeek-R1更弱的基礎(chǔ)模型。
R1和o1相比如何?
Sebastian認(rèn)為,DeepSeek-R1和OpenAI o1大致在同一水平。
不過(guò)引人注目的一點(diǎn)是,DeepSeek-R1在推理時(shí)間上更高效。
這就揭示了二者的區(qū)別:DeepSeek可能在訓(xùn)練過(guò)程中投入了更多,而OpenAI更依賴(lài)于o1的推理時(shí)擴(kuò)展。
而很難直接比較兩個(gè)模型的難點(diǎn),就在于OpenAI并沒(méi)有披露太多關(guān)于o1的信息。
現(xiàn)在關(guān)于o1,還有很多未解之謎。
比如,o1也是一個(gè)MoE嗎?它究竟有多大?
或許,o1只是GPT-4o的一個(gè)略微改進(jìn)版本,加上最小量的強(qiáng)化學(xué)習(xí)和微調(diào),僅在推理時(shí)進(jìn)行大規(guī)模scaling?

不了解這些細(xì)節(jié),是很難直接比較的。
預(yù)算只有幾十萬(wàn)美元,能開(kāi)發(fā)推理模型嗎
不過(guò),想開(kāi)發(fā)一個(gè)DeepSeek-R1這樣的推理模型,哪怕是基于開(kāi)放權(quán)重的基礎(chǔ)模型,也可能需要幾十萬(wàn)美元甚至更多資金。
這對(duì)預(yù)算有限的研究人員或工程師來(lái)說(shuō),實(shí)在是望而卻步。
好消息是:蒸餾能開(kāi)辟新路徑!
模型蒸餾提供了一個(gè)更具成本效益的替代方案。
DeepSeek團(tuán)隊(duì)的R1蒸餾模型證明了這一點(diǎn),盡管這些模型比DeepSeek-R1小得多,推理表現(xiàn)卻強(qiáng)得驚人。
不過(guò),這種方法也不是完全沒(méi)有成本。他們的蒸餾過(guò)程用了80萬(wàn)條SFT樣本,這需要大量的計(jì)算資源。
有趣的是,就在DeepSeek-R1發(fā)布的前幾天,關(guān)于Sky-T1的文章中,一個(gè)團(tuán)隊(duì)用1.7萬(wàn)條SFT樣本,就訓(xùn)練出了一個(gè)32B參數(shù)的開(kāi)放權(quán)重模型。
總成本僅有450美元,甚至比大多數(shù)人AI會(huì)議的注冊(cè)費(fèi)還低。
Sky-T1的表現(xiàn)和o1大致相當(dāng),考慮到它的訓(xùn)練成本,著實(shí)令人驚嘆。

項(xiàng)目鏈接:https://novasky-ai.github.io/posts/sky-t1/
預(yù)算有限的純強(qiáng)化學(xué)習(xí):TinyZero
TinyZero是3B參數(shù)的模型,它借鑒了DeepSeek-R1-Zero的方法,其訓(xùn)練成本不到30美元。
令人意外的是,盡管只有3B參數(shù),TinyZero仍展現(xiàn)出一些突現(xiàn)的自我驗(yàn)證能力,這證明了小模型通過(guò)純RL也能產(chǎn)生推理能力。

這兩個(gè)項(xiàng)目表明,即使預(yù)算有限,也可以進(jìn)行有趣的推理模型研究。
兩者都借鑒了DeepSeek-R1的方法,一種聚焦于純RL(TinyZero),另一種聚焦于純SFT(Sky-T1)。
超越傳統(tǒng)SFT:旅程學(xué)習(xí)
旅程學(xué)習(xí)被視作捷徑學(xué)習(xí)的替代方案。捷徑學(xué)習(xí)是傳統(tǒng)的指令微調(diào)方法,模型僅通過(guò)正確的解題路徑來(lái)訓(xùn)練。
旅程學(xué)習(xí)不僅包括正確的解題路徑,還包括錯(cuò)誤的解題路徑,讓模型從錯(cuò)誤中學(xué)習(xí)。
這種方法和TinyZero在純RL訓(xùn)練中展現(xiàn)的自我驗(yàn)證能力有相通之處,不過(guò)它完全依靠SFT來(lái)優(yōu)化模型。讓模型接觸錯(cuò)誤推理路徑及修正過(guò)程。
旅程學(xué)習(xí)或許有助于加強(qiáng)自我糾錯(cuò)能力,提升推理模型的可靠性。
論文鏈接:https://arxiv.org/abs/2410.18982
這一方向?qū)τ谖磥?lái)的研究極具吸引力,特別是在低預(yù)算的推理模型開(kāi)發(fā)場(chǎng)景中,RL方法可能由于計(jì)算成本過(guò)高而難以落地。
當(dāng)前在推理模型領(lǐng)域正有諸多有趣的研究,Sebastian充滿期待地表示:相信在未來(lái)幾個(gè)月,還會(huì)看到更多令人興奮的成果!


























