DeepSeek-R1-Zero激發(fā)了推理Scaling Law
本文將散落在近期多篇文章中筆者圍繞激發(fā)推理Scaling Law的思考做了一下整理。
方向
MIT對(duì)大模型數(shù)理原理的強(qiáng)有力證明中總結(jié):
基于宏大的人類知識(shí)提取出來(lái)豐富范疇,形成眾多領(lǐng)域的本體知識(shí)結(jié)構(gòu),這是大模型通過(guò)預(yù)訓(xùn)練已經(jīng)構(gòu)建的內(nèi)部世界模型;提高推理采樣的機(jī)制,通過(guò)訓(xùn)練達(dá)成學(xué)習(xí)推理的scaling law,是大模型下一步努力提升的方向。
相比傳統(tǒng)方法,新的大模型機(jī)理,具備更高維度的新穎性、對(duì)能力和技術(shù)細(xì)節(jié)的探索,可以通過(guò)揭示隱藏的聯(lián)系建立更廣泛有用的創(chuàng)新框架。AI 知識(shí)圖驅(qū)動(dòng)的跨學(xué)科研究可能會(huì)成為科學(xué)和哲學(xué)探索的有力工具。
框架
DeepSeek R1 與 Kimi 1.5 的推理強(qiáng)化學(xué)習(xí)中梳理了整體框架:
在已訓(xùn)練的LLM世界模型的基礎(chǔ)上,進(jìn)行專注推理策略的第二階預(yù)訓(xùn)練,給LLM構(gòu)建完整的“大腦皮層”,進(jìn)而皮層指揮LLM推理生成:
圖片
1. 積累推理語(yǔ)料:目前人類推理被“語(yǔ)料化”最多的領(lǐng)域,筆者能想到的還是注釋的代碼、LLM自己積累的人類提示的思維鏈、應(yīng)試答題步驟、科學(xué)文獻(xiàn)中的推導(dǎo)、邏輯與哲學(xué)的思辨等,歡迎大家補(bǔ)充;
2. 預(yù)訓(xùn)練推理策略生成器:有針對(duì)性地基于這些推理語(yǔ)料做預(yù)訓(xùn)練,從中“重整化”提煉出特殊的“推理范疇”,作為整體世界模型采樣變分推理的策略生成器(直接從整體范疇中分離并精調(diào)“推理范疇”或許亦可行);
3. 策略驅(qū)動(dòng)世界模型變分推理:依據(jù)預(yù)訓(xùn)練的推理策略生成器生成的最佳策略,在LLM內(nèi)部整體范疇上,也就是內(nèi)部世界模型上,做范疇內(nèi)或跨范疇采樣變分推理。
策略
重新思考 MoE 進(jìn)一步解讀 “MoE 其實(shí) = 推理采樣策略” :
MoE里的“專家”是一種擬人的形象化的說(shuō)法,如果全文替換成“特定范疇”,讀者會(huì)發(fā)現(xiàn)MoE其實(shí)本質(zhì)上是基于某種人類先驗(yàn)“知識(shí)”或“策略”的“跨范疇采樣”:
“在外部感官輸入下(被提示置于某種上下文),大模型內(nèi)部將限定在相應(yīng)的高維語(yǔ)言概率空間的子空間內(nèi)推理;推理是在子空間中采樣,類比時(shí)跨范疇采樣”。
目前 MoE 可以理解為一種分布式采樣策略,可以GShard硬編碼,或進(jìn)一步DeepSeekMoE細(xì)分,也可以如MoDE基于噪聲更靈活調(diào)節(jié)策略,亦或引入某種優(yōu)化器(類似SQL優(yōu)化器),并最終依賴推理的scaling law涌現(xiàn)出策略。
技術(shù)
通往ASI的大模型推理,詳細(xì)分析了支撐LLM推理涌現(xiàn)的技術(shù):
測(cè)試時(shí)計(jì)算(Test-time Computing)也被寄予厚望。蘇州大學(xué)、新加坡國(guó)立大學(xué)和螞蟻集團(tuán)的研究人員探索了測(cè)試時(shí)計(jì)算,追蹤了其從 System-1 到 System-2 模型的演變。
測(cè)試時(shí)計(jì)算最初應(yīng)用于 System-1 模型,通過(guò)參數(shù)更新、輸入修改和輸出校準(zhǔn)來(lái)解決分布偏移并增強(qiáng)穩(wěn)健性,現(xiàn)在使用重復(fù)采樣、自我校正和樹搜索等策略加強(qiáng)了 System-2 模型中的推理。
測(cè)試時(shí)適應(yīng)(TTA)在推理過(guò)程中使用測(cè)試樣本信息微調(diào)模型。關(guān)鍵考慮因素包括學(xué)習(xí)信號(hào)、參數(shù)更新和確保效率。測(cè)試時(shí)訓(xùn)練 (TTT) 學(xué)習(xí)信號(hào)使用輔助任務(wù),而完全測(cè)試時(shí)適應(yīng) (FTTA) 利用內(nèi)部反饋(如熵最小化)。
筆者認(rèn)為,測(cè)試時(shí)計(jì)算模型更新,等于利用測(cè)試樣本信息在推理階段進(jìn)一步微調(diào)了模型參數(shù),使模型能夠適應(yīng)測(cè)試分布。這樣不僅學(xué)了更多的內(nèi)容(測(cè)試語(yǔ)料),還反復(fù)推敲學(xué)習(xí)如何采樣變分用于推理,本質(zhì)是積累了推理的范疇。
測(cè)試時(shí)計(jì)算的訓(xùn)練方式,如果推廣到更大范圍的語(yǔ)料(甚至重復(fù)利用預(yù)訓(xùn)練時(shí)期的語(yǔ)料),可以積累更多推理范疇,從而提升推理能力。預(yù)訓(xùn)練的語(yǔ)料中,也有大量類似的推理場(chǎng)景,針對(duì)此類場(chǎng)景,采用測(cè)試時(shí)適應(yīng),或類似的測(cè)試時(shí)計(jì)算的策略,在預(yù)訓(xùn)練時(shí)就可以同時(shí)積累推理的范疇,即推理內(nèi)化成內(nèi)部世界模型中的一部分。
突破
DeepSeek R1 與 Kimi 1.5 的推理強(qiáng)化學(xué)習(xí), 簡(jiǎn)要分析了DeepSeek強(qiáng)化學(xué)習(xí)變體:
DeepSeek R1沒(méi)有使用監(jiān)督微調(diào)(SFT)作為冷啟動(dòng),轉(zhuǎn)而通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)提升大模型推理能力。DeepSeek-R1-Zero 沒(méi)用任何SFT數(shù)據(jù),直接將RL應(yīng)用于基礎(chǔ)模型,DeepSeek-R1則是從經(jīng)過(guò)數(shù)千個(gè)長(zhǎng)鏈?zhǔn)酵评恚–oT)示例微調(diào)的檢查點(diǎn)開始應(yīng)用RL。
DeepSeekMath的組相對(duì)策略優(yōu)化(GRPO)是R1成功的關(guān)鍵。GRPO是近端策略優(yōu)化(PPO)的變體,PPO是廣泛用于LLM 微調(diào)階段的演員-評(píng)論家(actor-critic)強(qiáng)化學(xué)習(xí)算法。
PPO中使用的價(jià)值函數(shù)通常是另一個(gè)與策略模型規(guī)模相當(dāng)?shù)哪P?,?huì)帶來(lái)巨大的內(nèi)存和計(jì)算負(fù)擔(dān),而且在LLM上下文中,通常只有最后一個(gè)token會(huì)被獎(jiǎng)勵(lì)模型分配獎(jiǎng)勵(lì)分?jǐn)?shù),而在每個(gè)token上訓(xùn)練一個(gè)準(zhǔn)確的價(jià)值函數(shù)很困難。
因此,GRPO摒棄了通常與策略模型規(guī)模相同的評(píng)論家模型,而是使用針對(duì)同一問(wèn)題生成的多個(gè)采樣輸出的平均獎(jiǎng)勵(lì)作為基線。
DeepSeekMath不僅引入GRPO,而且給出極具深度的洞察:監(jiān)督微調(diào)(SFT)、獎(jiǎng)勵(lì)微調(diào)(RFT)、直接偏好優(yōu)化(DPO)、近端策略優(yōu)化(PPO)、組相對(duì)策略優(yōu)化(GRPO)在邁向統(tǒng)一的范式。
監(jiān)督微調(diào)(SFT):在人類篩選的 SFT 數(shù)據(jù)上對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。
拒絕采樣微調(diào)(RFT):RFT 在基于 SFT 問(wèn)題從 SFT 模型采樣的過(guò)濾輸出上進(jìn)一步微調(diào) SFT 模型。RFT 根據(jù)答案的正確性對(duì)輸出進(jìn)行過(guò)濾。
直接偏好優(yōu)化(DPO):DPO 通過(guò)使用成對(duì) DPO 損失在從 SFT 模型采樣的增強(qiáng)輸出上微調(diào) SFT 模型,進(jìn)一步優(yōu)化模型。
在線拒絕采樣微調(diào)(在線 RFT):與 RFT 不同,在線 RFT 使用 SFT 模型初始化策略模型,并通過(guò)從實(shí)時(shí)策略模型采樣的增強(qiáng)輸出進(jìn)行微調(diào)來(lái)優(yōu)化模型。
PPO/GRPO:PPO/GRPO 使用 SFT 模型初始化策略模型,并通過(guò)從實(shí)時(shí)策略模型采樣的輸出進(jìn)行強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化模型。
原理
GRPO 是DeepSeek魔法的源泉 闡述了GRPO本質(zhì):
組內(nèi)多采樣與大數(shù)定理:
GRPO平均獎(jiǎng)勵(lì)的有效性可能直接源于大數(shù)定理,作為概率基礎(chǔ)理論支撐,大數(shù)定理可以確保獎(jiǎng)勵(lì)基線估計(jì)的統(tǒng)計(jì)合理性。
近似實(shí)現(xiàn)最優(yōu)輸運(yùn):
GRPO通過(guò)采樣同一問(wèn)題的多個(gè)輸出(組內(nèi)樣本),計(jì)算其平均獎(jiǎng)勵(lì)作為基線,并對(duì)獎(jiǎng)勵(lì)進(jìn)行歸一化(減去組均值,除以標(biāo)準(zhǔn)差)。這一過(guò)程本質(zhì)上是在對(duì)齊組內(nèi)輸出的經(jīng)驗(yàn)分布,使其向高獎(jiǎng)勵(lì)區(qū)域集中。
將組內(nèi)樣本的原始獎(jiǎng)勵(lì)分布視為源分布,高獎(jiǎng)勵(lì)區(qū)域視為目標(biāo)分布。GRPO的歸一化操作類似于OT中的分布?xì)w一化,旨在減少分布間的統(tǒng)計(jì)差異。通過(guò)優(yōu)化策略使生成分布向目標(biāo)分布傳輸,隱式利用了Wasserstein距離的特性。
GRPO舍棄大規(guī)模價(jià)值模型,利用組內(nèi)樣本統(tǒng)計(jì)量降低計(jì)算復(fù)雜度,組內(nèi)歸一化基線估計(jì)與OT中的小批量近似或切片Wasserstein距離思路一致,通過(guò)有限樣本近似全局分布特性。優(yōu)勢(shì)函數(shù)僅依賴組內(nèi)相對(duì)獎(jiǎng)勵(lì),類似OT中局部耦合的構(gòu)造,減少高維空間的計(jì)算負(fù)擔(dān)。
實(shí)踐
DeepSeek-R1與R1-Zero通過(guò)創(chuàng)新強(qiáng)化學(xué)習(xí)技術(shù),突破傳統(tǒng)LLM依賴監(jiān)督微調(diào)(SFT)的局限,成功實(shí)踐并開創(chuàng)了推理能力自我進(jìn)化的新范式。
R1-Zero完全跳過(guò)SFT階段,摒棄傳統(tǒng)PPO算法中的價(jià)值模型,直接在基礎(chǔ)模型DeepSeek-V3-Base上應(yīng)用GRPO純強(qiáng)化學(xué)習(xí)方法訓(xùn)練。模型自發(fā)學(xué)會(huì)延長(zhǎng)思維鏈、重新評(píng)估初始答案并修正錯(cuò)誤,甚至出現(xiàn)類似人類“頓悟時(shí)刻”的行為。
模型實(shí)際推理能力驚人,在AIME 2024數(shù)學(xué)競(jìng)賽中的Pass@1準(zhǔn)確率從15.6%躍升至71.0%,多數(shù)投票后達(dá)86.7%,媲美頂尖閉源模型。
R1優(yōu)化改進(jìn)了R1-Zero可讀性差、語(yǔ)言混合等問(wèn)題,通過(guò)冷啟動(dòng)SFT、多階段強(qiáng)化學(xué)習(xí)、拒絕采樣與蒸餾等策略實(shí)現(xiàn)訓(xùn)練效率與推理能力的平衡。
R1系列的突破不僅體現(xiàn)在性能上,更揭示了LLM通過(guò)自我迭代不斷增強(qiáng)推理能力的可能,筆者認(rèn)為其技術(shù)路徑的成功實(shí)踐,是通往AGI的重要里程碑。
擴(kuò)展
更近一步,斯坦福近期提出了一種名為"s1:簡(jiǎn)單測(cè)試時(shí)擴(kuò)展"的方法,在語(yǔ)言建模中實(shí)現(xiàn)了測(cè)試時(shí)計(jì)算的高效擴(kuò)展[文獻(xiàn)1] 。
通過(guò)僅使用1000個(gè)樣本的監(jiān)督微調(diào),結(jié)合預(yù)算強(qiáng)制技術(shù),顯著提升了模型的推理能力,尤其在數(shù)學(xué)競(jìng)賽任務(wù)中超越了OpenAI的閉源模型o1-preview,展現(xiàn)出極高的樣本效率。
學(xué)者們構(gòu)建了包含1000個(gè)問(wèn)題的小型數(shù)據(jù)集s1K,問(wèn)題覆蓋難度、多樣性和質(zhì)量三個(gè)維度,通過(guò)消融實(shí)驗(yàn)驗(yàn)證其有效性。
然后通過(guò)預(yù)算強(qiáng)制技術(shù)控制模型的思維過(guò)程,實(shí)現(xiàn)測(cè)試時(shí)計(jì)算的動(dòng)態(tài)擴(kuò)展,包括強(qiáng)制終止并輸出當(dāng)前最佳答案,多次追加"Wait"指令延長(zhǎng)思考,迫使模型回溯推理步驟,修正錯(cuò)誤路徑等。
基于Qwen2.5-32B-Instruct模型,在s1K數(shù)據(jù)集監(jiān)督微調(diào)并應(yīng)用預(yù)算強(qiáng)制技術(shù)后,數(shù)學(xué)競(jìng)賽MATH和AIME24上的表現(xiàn)超過(guò)o1-preview最高達(dá)27%。進(jìn)一步擴(kuò)展測(cè)試時(shí)計(jì)算量后,無(wú)干預(yù)時(shí)AIME24準(zhǔn)確率從50%提升至57%。
這是樣本效率的革命,傳統(tǒng)方法需依賴數(shù)以萬(wàn)計(jì)的微調(diào)示例(如R1使用近百萬(wàn)樣本強(qiáng)化學(xué)習(xí)),而s1僅用1000樣本即達(dá)到同等水平。
簡(jiǎn)單測(cè)試時(shí)擴(kuò)展,驗(yàn)證了模型預(yù)訓(xùn)練階段已具備推理潛力,微調(diào)僅需"激活"這一能力。這類似筆者在“框架”部分提到的“直接從整體范疇中分離并精調(diào)“推理范疇”。
文獻(xiàn)1,s1: Simple test-time scaling,https://arxiv.org/abs/2501.19393
