一文讀懂 DeepSeek-R1:大語(yǔ)言模型推理能力進(jìn)化的秘密武器 精華
大家好!今天咱得聊聊人工智能這圈的大新聞?,F(xiàn)在大語(yǔ)言模型,就像雨后春筍一樣冒出來(lái),大家都知道它們厲害,能聊天、能寫(xiě)文章、能做題,可你知道它們的推理能力是咋一步步變強(qiáng)的嗎?最近,DeepSeek - AI搞出了個(gè)大動(dòng)作,整出了DeepSeek - R1系列模型,這就好比給大語(yǔ)言模型的推理能力打了一針超強(qiáng)的“升級(jí)針”,直接讓它們的“智商”上了好幾個(gè)臺(tái)階。這模型到底咋做到的?它又會(huì)給我們的生活帶來(lái)啥意想不到的變化?今天咱就好好扒一扒。
一、大語(yǔ)言模型推理能力進(jìn)化史:從蹣跚學(xué)步到健步如飛
咱先回顧一下大語(yǔ)言模型的推理能力是咋發(fā)展起來(lái)的。以前,這些模型就像剛學(xué)走路的孩子,磕磕絆絆。碰到稍微復(fù)雜點(diǎn)的問(wèn)題,就抓瞎了。后來(lái),大家發(fā)現(xiàn)用大量數(shù)據(jù)訓(xùn)練能讓它們進(jìn)步,就像給孩子請(qǐng)了好多家教,教了好多知識(shí)。但這也有個(gè)問(wèn)題,數(shù)據(jù)量太大了,訓(xùn)練起來(lái)又費(fèi)時(shí)間又費(fèi)錢(qián),就像請(qǐng)了一堆家教,家里快養(yǎng)不起了。
再后來(lái),有了新辦法,就是在模型訓(xùn)練好之后,再給它“開(kāi)小灶”,這就是后訓(xùn)練技術(shù)。比如說(shuō)OpenAI的o1系列模型,通過(guò)增加思維鏈推理過(guò)程的長(zhǎng)度,讓模型在推理的時(shí)候能像我們解題一樣,一步步地想,這一下效果就好多了。就好比孩子學(xué)會(huì)了有條理地思考問(wèn)題,成績(jī)一下子就提高了。但這還不夠完美,怎么在測(cè)試的時(shí)候讓模型更有效地發(fā)揮能力,還是個(gè)難題,大家都在絞盡腦汁想辦法。
二、DeepSeek-R1-Zero:不用“老師”教,自己摸索變強(qiáng)
在這個(gè)時(shí)候,DeepSeek - AI站出來(lái)了,搞出了DeepSeek - R1 - Zero模型。這個(gè)模型可太神奇了,它訓(xùn)練的時(shí)候,居然不用那些“監(jiān)督數(shù)據(jù)”,也就是沒(méi)有“老師”在旁邊告訴它對(duì)錯(cuò),自己通過(guò)強(qiáng)化學(xué)習(xí)就能慢慢變強(qiáng),就像一個(gè)特別自律的孩子,沒(méi)有家長(zhǎng)和老師盯著,自己就能努力學(xué)習(xí)進(jìn)步。
它用的強(qiáng)化學(xué)習(xí)算法叫GRPO,這算法聽(tīng)起來(lái)挺高深,實(shí)際上可以用一個(gè)有趣的例子來(lái)理解。想象一下,學(xué)校舉辦了一場(chǎng)解題大賽,每個(gè)學(xué)生就是模型給出的一個(gè)答案。GRPO就像是這場(chǎng)大賽的特殊評(píng)分規(guī)則。
比賽開(kāi)始,老師從之前表現(xiàn)一般的學(xué)生(舊策略πθold)里挑出一組,比如5個(gè)學(xué)生,讓他們?nèi)ソ馔坏罃?shù)學(xué)題。這5個(gè)學(xué)生給出各自的解題思路和答案,就像模型針對(duì)一個(gè)問(wèn)題生成了不同的回答。
然后,老師要開(kāi)始評(píng)估新的“參賽選手”(新策略πθ)的表現(xiàn)。評(píng)估的時(shí)候,老師會(huì)對(duì)比新學(xué)生和之前那組學(xué)生的答案。如果新學(xué)生的解題思路更好、答案更準(zhǔn)確,那他就能得到高分;要是解題思路和答案不咋地,分?jǐn)?shù)就低。這里的分?jǐn)?shù)就類似GRPO里的“獎(jiǎng)勵(lì)”。
比如說(shuō),有一道數(shù)學(xué)題是計(jì)算一個(gè)復(fù)雜圖形的面積。之前那組學(xué)生里,有的把圖形分割錯(cuò)了,有的計(jì)算過(guò)程出錯(cuò),最后只有一個(gè)學(xué)生勉強(qiáng)算對(duì)了。這時(shí)候來(lái)了個(gè)新學(xué)生,他用了一種特別巧妙的方法,不僅把圖形分割得很合理,計(jì)算過(guò)程也又快又準(zhǔn)。按照GRPO的規(guī)則,這個(gè)新學(xué)生就能得到很高的獎(jiǎng)勵(lì)分。
但是,老師也不能讓學(xué)生們?yōu)榱四酶叻志汀皝y來(lái)”。就像在GRPO里,有兩個(gè)超參數(shù)ε和β來(lái)約束。ε就像是一個(gè)“行為規(guī)范線”,如果新學(xué)生為了拿高分,解題方法變得特別怪異、不合理,超出了這個(gè)規(guī)范線,老師就會(huì)限制他的得分。β則是用來(lái)衡量新學(xué)生和一個(gè)“模范學(xué)生”(參考策略πref)之間的差異,如果新學(xué)生和模范學(xué)生的解題思路差異太大,也會(huì)被扣分。
另外,計(jì)算每個(gè)學(xué)生的“優(yōu)勢(shì)分”(Ai)也很有意思。老師會(huì)把這組學(xué)生的得分做個(gè)統(tǒng)計(jì),算出平均分和標(biāo)準(zhǔn)差。如果某個(gè)學(xué)生的得分比平均分高很多,那他的優(yōu)勢(shì)分就高;要是比平均分低很多,優(yōu)勢(shì)分就低。這就好比在班級(jí)里,成績(jī)比平均分高很多的同學(xué),在排名上就更有優(yōu)勢(shì)。通過(guò)這樣的方式,GRPO就能引導(dǎo)模型不斷改進(jìn),給出更好的答案。
為了訓(xùn)練這個(gè)模型,研究人員還給它設(shè)計(jì)了一個(gè)很有意思的模板。比如說(shuō),用戶問(wèn)一個(gè)問(wèn)題,模型得先在心里“思考”一下,把思考過(guò)程寫(xiě)在標(biāo)簽里,然后再把答案寫(xiě)在標(biāo)簽里。這就好比我們做數(shù)學(xué)題,不能只寫(xiě)個(gè)答案,得把解題步驟也寫(xiě)清楚。
在訓(xùn)練過(guò)程中,DeepSeek - R1 - Zero的表現(xiàn)就像坐了火箭一樣,蹭蹭往上漲。就拿AIME 2024這個(gè)數(shù)學(xué)競(jìng)賽題來(lái)說(shuō),剛開(kāi)始,它的通過(guò)率只有15.6% ,這成績(jī)確實(shí)不咋地。但經(jīng)過(guò)幾千次的強(qiáng)化學(xué)習(xí)訓(xùn)練后,它的通過(guò)率一下子漲到了71.0% ,要是用多數(shù)投票的方法,通過(guò)率能達(dá)到86.7% ,這成績(jī)都快趕上OpenAI的o1 - 0912模型了,簡(jiǎn)直太牛了!
而且,這個(gè)模型在訓(xùn)練過(guò)程中還會(huì)自己進(jìn)化。它思考問(wèn)題的時(shí)間越來(lái)越長(zhǎng),就像我們遇到難題,會(huì)多花點(diǎn)時(shí)間琢磨一樣。它還會(huì)自己反思,看看自己之前的思路對(duì)不對(duì),有沒(méi)有更好的辦法,這種自我進(jìn)化的能力太讓人驚訝了!不過(guò)呢,它也不是十全十美的,它的回答有時(shí)候不太好懂,還會(huì)出現(xiàn)語(yǔ)言混合的情況,就像一個(gè)人說(shuō)話一會(huì)兒中文一會(huì)兒英文,讓人聽(tīng)得有點(diǎn)懵。
三、DeepSeek-R1:吸取經(jīng)驗(yàn),全面升級(jí)
DeepSeek - AI的研究人員一看,DeepSeek - R1 - Zero雖然厲害,但還有問(wèn)題啊,得想辦法改進(jìn)。于是,他們就搞出了DeepSeek - R1模型。這就好比給DeepSeek - R1 - Zero做了一次全面升級(jí),讓它變得更完美。
為了解決DeepSeek - R1 - Zero的那些問(wèn)題,DeepSeek - R1在訓(xùn)練的時(shí)候,先用了一個(gè)小技巧,就是“冷啟動(dòng)”。這就像我們開(kāi)車(chē),冬天的時(shí)候,車(chē)子得先預(yù)熱一下才能開(kāi)得更順。DeepSeek - R1也是這樣,它先收集了幾千條“長(zhǎng)思維鏈”的數(shù)據(jù),用這些數(shù)據(jù)來(lái)微調(diào)模型,讓模型有個(gè)好的開(kāi)始。這些數(shù)據(jù)都是經(jīng)過(guò)精心設(shè)計(jì)的,可讀性很強(qiáng),就像我們看的那些簡(jiǎn)單易懂的科普文章一樣。
接下來(lái),DeepSeek - R1就開(kāi)始進(jìn)行推理導(dǎo)向的強(qiáng)化學(xué)習(xí)。這個(gè)過(guò)程和DeepSeek - R1 - Zero有點(diǎn)像,但它還考慮了一個(gè)新問(wèn)題,就是語(yǔ)言混合。為了讓模型說(shuō)的話更“規(guī)矩”,研究人員加了一個(gè)語(yǔ)言一致性獎(jiǎng)勵(lì)。比如說(shuō),如果模型在思考過(guò)程中,大部分用的是中文,就給它獎(jiǎng)勵(lì),要是一會(huì)兒中文一會(huì)兒英文,就不給獎(jiǎng)勵(lì)。這樣一來(lái),模型說(shuō)的話就更清楚,更好懂了。
當(dāng)推理導(dǎo)向的強(qiáng)化學(xué)習(xí)差不多收斂的時(shí)候,研究人員又做了一件事,就是用拒絕采樣的方法收集數(shù)據(jù),然后進(jìn)行監(jiān)督微調(diào)。這就好比我們?cè)谝欢褨|西里挑挑揀揀,把不好的去掉,留下好的,再用這些好的東西來(lái)訓(xùn)練模型,讓模型變得更厲害。
最后,DeepSeek - R1還進(jìn)行了一次針對(duì)所有場(chǎng)景的強(qiáng)化學(xué)習(xí)。這次強(qiáng)化學(xué)習(xí)的目標(biāo)是讓模型更符合我們?nèi)祟惖南埠茫粌H要推理能力強(qiáng),還要對(duì)我們有幫助,不會(huì)產(chǎn)生有害的內(nèi)容。經(jīng)過(guò)這一系列的操作,DeepSeek - R1的能力得到了全面提升,在很多任務(wù)上的表現(xiàn)都和OpenAI的o1 - 1217模型差不多,甚至在一些數(shù)學(xué)任務(wù)上還超過(guò)了它。
四、模型蒸餾:讓小模型也有大能量
DeepSeek - AI的研究人員還不滿足于此,他們又想到了一個(gè)新點(diǎn)子,就是把DeepSeek - R1的推理能力“復(fù)制”到小模型上,這就是模型蒸餾技術(shù)。這就好比把一個(gè)武林高手的內(nèi)力傳給一個(gè)小徒弟,讓小徒弟也能變得很厲害。
他們用DeepSeek - R1生成了80萬(wàn)條數(shù)據(jù),然后用這些數(shù)據(jù)來(lái)微調(diào)一些開(kāi)源模型,像Qwen和Llama系列的模型。結(jié)果發(fā)現(xiàn),這些小模型經(jīng)過(guò)微調(diào)后,推理能力有了很大的提升。比如說(shuō),DeepSeek - R1 - Distill - Qwen - 7B這個(gè)模型,在AIME 2024的測(cè)試中,通過(guò)率達(dá)到了55.5% ,比一些比它大的模型表現(xiàn)還好。DeepSeek - R1 - Distill - Qwen - 32B模型在很多測(cè)試中,成績(jī)都超過(guò)了之前的開(kāi)源模型,和o1 - mini模型差不多。這說(shuō)明模型蒸餾技術(shù)真的很有效,能讓小模型也有大能量。
五、實(shí)驗(yàn)大揭秘:DeepSeek-R1到底有多強(qiáng)
為了測(cè)試DeepSeek - R1和那些蒸餾出來(lái)的小模型到底有多厲害,研究人員找了一大堆測(cè)試基準(zhǔn),像MMLU、MATH - 500、Codeforces這些,都是很有挑戰(zhàn)性的測(cè)試。
在知識(shí)類的測(cè)試中,比如MMLU、MMLU - Pro和GPQA Diamond這些測(cè)試?yán)?,DeepSeek - R1比DeepSeek - V3表現(xiàn)得好多了。這就好比一個(gè)學(xué)生,之前成績(jī)一般般,經(jīng)過(guò)努力學(xué)習(xí)后,成績(jī)一下子提高了很多。在一些長(zhǎng)文本分析的測(cè)試中,DeepSeek - R1也表現(xiàn)得很出色,說(shuō)明它的理解能力很強(qiáng)。不過(guò),在中文的SimpleQA測(cè)試中,DeepSeek - R1因?yàn)榭紤]了安全問(wèn)題,有些問(wèn)題它拒絕回答,所以成績(jī)比DeepSeek - V3差了點(diǎn),但要是不考慮安全問(wèn)題,它的準(zhǔn)確率能超過(guò)70% 。
在數(shù)學(xué)和編程相關(guān)的測(cè)試中,DeepSeek - R1的表現(xiàn)就更厲害了。在AIME 2024和MATH - 500這些數(shù)學(xué)測(cè)試?yán)?,它的成?jī)和OpenAI的o1 - 1217模型差不多,比其他模型都要好很多。在編程算法的測(cè)試中,像LiveCodeBench和Codeforces這些測(cè)試?yán)?,DeepSeek - R1也表現(xiàn)得非常出色,就像一個(gè)編程高手,在比賽中輕松打敗很多對(duì)手。
那些蒸餾出來(lái)的小模型表現(xiàn)也很不錯(cuò)。DeepSeek - R1 - Distill - Qwen - 7B模型在很多測(cè)試中都超過(guò)了像GPT - 4o - 0513這樣的模型,DeepSeek - R1 - Distill - Qwen - 14B模型在所有評(píng)估指標(biāo)上都超過(guò)了QwQ - 32B - Preview模型,DeepSeek - R1 - Distill - Qwen - 32B和DeepSeek - R1 - Distill - Llama - 70B模型在大多數(shù)測(cè)試中都比o1 - mini模型表現(xiàn)得好。這些結(jié)果都說(shuō)明,DeepSeek - R1和它蒸餾出來(lái)的小模型真的很厲害。
六、技術(shù)大討論:蒸餾和強(qiáng)化學(xué)習(xí),誰(shuí)更勝一籌
在研究過(guò)程中,研究人員還發(fā)現(xiàn)了一個(gè)很有意思的問(wèn)題,就是蒸餾和強(qiáng)化學(xué)習(xí),到底哪個(gè)對(duì)提升模型推理能力更有效呢?他們做了個(gè)實(shí)驗(yàn),用Qwen - 32B - Base模型進(jìn)行大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練,訓(xùn)練了1萬(wàn)多步,得到了DeepSeek - R1 - Zero - Qwen - 32B模型。結(jié)果發(fā)現(xiàn),這個(gè)模型的表現(xiàn)和QwQ - 32B - Preview模型差不多。但是,從DeepSeek - R1蒸餾出來(lái)的DeepSeek - R1 - Distill - Qwen - 32B模型,在所有測(cè)試中都比DeepSeek - R1 - Zero - Qwen - 32B模型表現(xiàn)得好。
這就好比兩個(gè)學(xué)生,一個(gè)學(xué)生自己努力學(xué)習(xí)(強(qiáng)化學(xué)習(xí)),另一個(gè)學(xué)生跟著一個(gè)學(xué)習(xí)特別好的同學(xué)(DeepSeek - R1)學(xué)習(xí)(蒸餾),結(jié)果發(fā)現(xiàn)跟著好同學(xué)學(xué)習(xí)的學(xué)生進(jìn)步更大。這說(shuō)明,把大模型的能力蒸餾到小模型上,效果真的很好,而且比小模型自己進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)更有效。不過(guò),研究人員也說(shuō),要想讓模型的智能有更大的突破,可能還是需要更強(qiáng)大的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。
七、失敗乃成功之母:那些不太成功的嘗試
在開(kāi)發(fā)DeepSeek - R1的過(guò)程中,研究人員也不是一帆風(fēng)順的,他們也遇到了很多失敗和挫折。比如說(shuō),他們嘗試過(guò)用過(guò)程獎(jiǎng)勵(lì)模型(PRM)來(lái)引導(dǎo)模型更好地解決推理問(wèn)題。這就好比給學(xué)生一個(gè)解題的思路指南,讓他們按照這個(gè)思路去解題。但是在實(shí)際操作中,他們發(fā)現(xiàn)這個(gè)方法有很多問(wèn)題。首先,在一般的推理中,很難明確地定義一個(gè)精細(xì)的步驟,就像我們給學(xué)生講題,很難把每一步都講得特別清楚。其次,判斷中間步驟是否正確也很困難,讓模型自己判斷吧,結(jié)果不太好,讓人手動(dòng)標(biāo)注吧,又沒(méi)辦法大規(guī)模進(jìn)行。最后,用了基于模型的PRM之后,還容易出現(xiàn)“獎(jiǎng)勵(lì)作弊”的情況,就是模型為了得到獎(jiǎng)勵(lì),走一些歪路,而且重新訓(xùn)練獎(jiǎng)勵(lì)模型又要花很多資源,讓整個(gè)訓(xùn)練過(guò)程變得很復(fù)雜。所以,雖然PRM在某些方面有點(diǎn)用,但總體來(lái)說(shuō),它的問(wèn)題比好處更多。
他們還嘗試過(guò)用蒙特卡羅樹(shù)搜索(MCTS)來(lái)增強(qiáng)模型在測(cè)試時(shí)的計(jì)算能力。這就好比我們走迷宮,每走一步都看看周?chē)心男┞房梢宰?,然后選擇一條最有可能走出迷宮的路。但是在訓(xùn)練模型的時(shí)候,他們發(fā)現(xiàn)這個(gè)方法也很難。因?yàn)楹妥呙詫m不一樣,模型生成的“路”(也就是答案)的搜索空間太大了,就像一個(gè)超級(jí)大的迷宮,很難找到出口。而且,訓(xùn)練一個(gè)精細(xì)的價(jià)值模型也很困難,這個(gè)價(jià)值模型就像我們?cè)诿詫m里判斷哪條路更好走的指南針,指南針不準(zhǔn),模型就很難進(jìn)步。所以,雖然MCTS在和預(yù)訓(xùn)練的價(jià)值模型一起使用時(shí),能在推理時(shí)提高一點(diǎn)性能,但要想通過(guò)它來(lái)不斷提升模型的性能,還是個(gè)很大的挑戰(zhàn)。
八、未來(lái)展望:DeepSeek-R1的無(wú)限可能
現(xiàn)在,DeepSeek - R1已經(jīng)很厲害了,但研究人員并不滿足于此,他們對(duì)未來(lái)有很多的計(jì)劃。
在通用能力方面,DeepSeek - R1現(xiàn)在在一些功能調(diào)用、多輪對(duì)話、復(fù)雜角色扮演和json輸出這些任務(wù)上,還不如DeepSeek - V3。研究人員打算利用長(zhǎng)思維鏈來(lái)提升這些方面的能力,就像給模型多開(kāi)幾門(mén)課,讓它變得更全能。
在語(yǔ)言混合方面,DeepSeek - R1現(xiàn)在主要是針對(duì)中文和英文進(jìn)行優(yōu)化的,遇到其他語(yǔ)言的問(wèn)題時(shí),就容易出現(xiàn)語(yǔ)言混合的情況。比如說(shuō),用戶用日語(yǔ)問(wèn)問(wèn)題,它可能會(huì)用英文來(lái)推理和回答。研究人員希望在未來(lái)的更新中解決這個(gè)問(wèn)題,讓模型能更好地處理各種語(yǔ)言的問(wèn)題。
在提示工程方面,研究人員發(fā)現(xiàn)DeepSeek - R1對(duì)提示很敏感,用少樣本提示的時(shí)候,它的性能會(huì)下降。所以,他們建議用戶在使用的時(shí)候,直接描述問(wèn)題,用零樣本設(shè)置,這樣模型就能發(fā)揮出最好的水平。這就好比我們和人交流,說(shuō)話越直接越清楚,對(duì)方就越容易理解我們的意思。
在軟件工程任務(wù)方面,由于評(píng)估時(shí)間太長(zhǎng),影響了強(qiáng)化學(xué)習(xí)的效率,所以DeepSeek - R1在軟件工程基準(zhǔn)測(cè)試上,比DeepSeek - V3并沒(méi)有太大的提升。研究人員打算在未來(lái)的版本中,通過(guò)對(duì)軟件工程數(shù)據(jù)進(jìn)行拒絕采樣或者在強(qiáng)化學(xué)習(xí)過(guò)程中加入異步評(píng)估的方法,來(lái)提高效率,讓DeepSeek - R1在軟件工程領(lǐng)域也能大放異彩。
九、總結(jié):DeepSeek-R1帶來(lái)的技術(shù)變革
總的來(lái)說(shuō),DeepSeek - R1系列模型的出現(xiàn),真的給大語(yǔ)言模型的推理能力帶來(lái)了巨大的提升。DeepSeek - R1 - Zero通過(guò)純強(qiáng)化學(xué)習(xí),展現(xiàn)出了強(qiáng)大的自我進(jìn)化能力,雖然它還有一些小問(wèn)題,但為后來(lái)的研究打下了很好的基礎(chǔ)。DeepSeek - R1則通過(guò)冷啟動(dòng)、多階段訓(xùn)練等方法,解決了DeepSeek - R1 - Zero的問(wèn)題,讓模型的性能更上一層樓。而且,通過(guò)模型蒸餾技術(shù),把大模型的能力傳遞給小模型,讓小模型也能在推理任務(wù)中表現(xiàn)出色。
這些技術(shù)創(chuàng)新不僅讓我們看到了大語(yǔ)言模型推理能力的巨大潛力,也為未來(lái)的人工智能發(fā)展開(kāi)辟了新的道路。也許在不久的將來(lái),我們身邊的各種智能設(shè)備,像手機(jī)、智能音箱,都能用上這些強(qiáng)大的模型,為我們提供更智能、更貼心的服務(wù)。說(shuō)不定以后我們的學(xué)習(xí)、工作、生活都會(huì)因?yàn)檫@些技術(shù)的進(jìn)步而變得更加便捷、有趣。讓我們一起期待那一天的到來(lái)吧!
本文轉(zhuǎn)載自 ??旺知識(shí)??,作者: 旺知識(shí)
