強化預(yù)訓(xùn)練(RPT):LLM 預(yù)訓(xùn)練新范式,當模型學(xué)會戰(zhàn)略思考
大家好,我是肆〇柒。在當下,大型語言模型(LLM)正以其卓越的能力在諸多任務(wù)中引人矚目。這些能力的提升,很大程度上得益于在大規(guī)模文本數(shù)據(jù)上的 next-token-prediction 自監(jiān)督學(xué)習(xí)范式。通過預(yù)測文本中的下一個 token,LLM 能夠?qū)W習(xí)到語言的復(fù)雜模式和語義關(guān)系,從而在文本生成、問答系統(tǒng)、機器翻譯等任務(wù)中取得顯著成果。
然而,隨著對模型性能要求的不斷提高,強化學(xué)習(xí)(RL)逐漸成為微調(diào) LLM 的關(guān)鍵技術(shù)。它能夠使模型更好地對齊人類偏好,或者提升特定技能,如復(fù)雜推理等。但 RL 在實際應(yīng)用中面臨諸多挑戰(zhàn):一方面,基于人類反饋的強化學(xué)習(xí)(RLHF)嚴重依賴昂貴的人類偏好數(shù)據(jù),這不僅限制了其可擴展性,還可能導(dǎo)致獎勵劫持問題;另一方面,基于可驗證獎勵的強化學(xué)習(xí)(RLVR)雖能避免一些獎勵劫持問題,卻因標注數(shù)據(jù)的稀缺性,難以在通用預(yù)訓(xùn)練場景中廣泛應(yīng)用。
我曾在覺察流的社區(qū)群里提到過,o3 的一些能力非常強,甚至在跨領(lǐng)域知識的問答方面也很出彩。當時我有一個猜想,它怎么做到的?我的答案是,它可能在預(yù)測 CoT,而今天看到了這篇來自微軟研究院、北京大學(xué)和清華大學(xué)研究團隊的論文《Reinforcement Pre-Training》,讓我對這一點猜測又確信了幾分。
鑒于剛才所提到的挑戰(zhàn),這篇論文所論述的強化預(yù)訓(xùn)練(Reinforcement Pre-Training,RPT)被提出。RPT 為了彌合可擴展自監(jiān)督預(yù)訓(xùn)練與強化學(xué)習(xí)優(yōu)勢之間的差距,創(chuàng)新性地將 next-token-prediction 任務(wù)重構(gòu)為 next-token-reasoning 任務(wù),利用大量無標注文本數(shù)據(jù)進行通用目的強化學(xué)習(xí)。這既能夠顯著提升語言建模的準確性,也為后續(xù)的強化微調(diào)奠定了堅實基礎(chǔ),有望推動 LLM 向更智能、更通用的方向發(fā)展。
RPT 的核心概念:從預(yù)測到推理的認知進化
RPT 基本原理:next-token-prediction 的重構(gòu)
RPT 的核心思想在于對傳統(tǒng)的 next-token-prediction 進行重構(gòu),將其轉(zhuǎn)變?yōu)橐粋€推理任務(wù)。在常規(guī)的 next-token-prediction 中,模型僅僅是基于前面的文本信息直接預(yù)測下一個 token,這種方式主要側(cè)重于學(xué)習(xí)文本表面的模式和關(guān)聯(lián)。然而,RPT 引入了截然不同的機制,它要求模型必須先生成一個推理序列,再進行下一個 token 的預(yù)測。這一過程極具創(chuàng)新性,類似于人類在面對問題時的思考過程,即先分析已有的信息,進行一系列的推理和思考,然后再得出結(jié)論。
例如,當模型在處理一段關(guān)于物理定律的文本時,若要預(yù)測下一個 token,它并非直接根據(jù)已有的詞頻統(tǒng)計等簡單模式來進行預(yù)測,而是需要先理解前面文本中提到的物理概念、定律的適用條件等關(guān)鍵信息。然后,基于這些理解,生成諸如 “考慮到作用在物體上的力與質(zhì)量的關(guān)系,接下來可能會提及加速度” 等推理序列,最終再確定下一個 token 是 “加速度” 或其他相關(guān)詞匯。通過這種方式,模型能夠深入挖掘文本背后的語義和知識,而不僅僅停留在表面的 token 級相關(guān)性上。
RPT 的多重優(yōu)勢
可擴展性和通用性 :RPT 實現(xiàn)了在無標注文本數(shù)據(jù)上的通用目的強化學(xué)習(xí),這是一次重大的突破。傳統(tǒng)上,強化學(xué)習(xí)在 LLM 中的應(yīng)用往往受限于數(shù)據(jù)的標注要求,無論是基于人類反饋的數(shù)據(jù)還是帶有可驗證答案的標注數(shù)據(jù),都難以大規(guī)模獲取。然而,RPT 完全依賴于無標注的文本數(shù)據(jù),這意味著它可以充分利用互聯(lián)網(wǎng)上海量的文本資源。無論是新聞報道、學(xué)術(shù)文獻,還是社交媒體上的帖子等各種文本數(shù)據(jù),都可以成為 RPT 的訓(xùn)練素材。這極大地拓展了模型訓(xùn)練的數(shù)據(jù)來源,使其能夠涵蓋各種不同的領(lǐng)域、主題和語言風(fēng)格,為 LLM 的通用性提供了堅實的數(shù)據(jù)基礎(chǔ)。例如,利用大量的文學(xué)作品訓(xùn)練 RPT 模型,使其能夠更好地理解和生成具有文學(xué)風(fēng)格的文本,如小說創(chuàng)作、詩歌生成等;在技術(shù)文檔領(lǐng)域的應(yīng)用,則有助于模型準確地理解和生成復(fù)雜的代碼文檔、技術(shù)報告等內(nèi)容。
降低獎勵劫持風(fēng)險 :在強化學(xué)習(xí)中,獎勵劫持一直是一個令人頭疼的問題。一些復(fù)雜的、基于學(xué)習(xí)的獎勵模型可能會出現(xiàn)漏洞,模型可能會利用這些漏洞來獲取高獎勵,而并非通過真正有價值的學(xué)習(xí)行為。RPT 則巧妙地避免了這一問題,它采用直接的規(guī)則獎勵信號,即根據(jù)預(yù)測的正確性給予獎勵。這種獎勵機制簡單而有效,只關(guān)心模型預(yù)測的下一個 token 是否與實際文本匹配,而不涉及復(fù)雜的、容易被操縱的獎勵模型。例如,在預(yù)測數(shù)學(xué)問題解答文本中的下一個 token 時,只有當模型準確地預(yù)測出正確的數(shù)學(xué)符號或概念詞匯時,才會獲得獎勵。這使得模型能夠?qū)W⒂趯W(xué)習(xí)真正有價值的推理和預(yù)測能力,確保訓(xùn)練過程的穩(wěn)定性和目標的準確性。
促進泛化而非死記硬背 :RPT 通過鼓勵模型生成推理序列,促使模型深入理解文本背后的邏輯和知識。這種方式使得模型能夠跳出單純的記憶模式,轉(zhuǎn)而培養(yǎng)起強大的泛化能力。在傳統(tǒng)的訓(xùn)練方式下,模型可能會傾向于記憶訓(xùn)練數(shù)據(jù)中的常見表達模式和 token 順序,從而在面對新的、未見過的文本時表現(xiàn)不佳。而 RPT 則引導(dǎo)模型在訓(xùn)練過程中主動思考文本的內(nèi)在邏輯和語義關(guān)系,探索多種可能的推理路徑。例如,在處理一段關(guān)于歷史事件的文本時,模型不會僅僅記住某個歷史事件的固定表述,而是會思考事件發(fā)生的原因、影響等相關(guān)因素。這樣一來,當遇到關(guān)于同一歷史時期但不同具體事件的文本時,模型也能夠基于已有的知識和推理能力進行準確的預(yù)測和理解,大大增強了其在不同文本場景下的適應(yīng)性和泛化性能。
提升推理過程中的計算資源分配效率 :RPT 在預(yù)訓(xùn)練階段就巧妙地引入了推理過程,這相當于為模型分配了更多的 “思考” 時間。在傳統(tǒng)的訓(xùn)練方式中,模型主要側(cè)重于對下一個 token 的直接預(yù)測,而在 RPT 中,模型需要先進行推理序列的生成,然后再進行預(yù)測。這個過程使得模型在訓(xùn)練時就能夠充分地利用計算資源,對每個 token 的預(yù)測進行更深入的思考和分析。類似于在推理時擴展(inference-time scaling)中為每個預(yù)測分配更多的計算資源來提升準確性,RPT 將這種計算資源的高效利用提前到了訓(xùn)練階段。例如,在訓(xùn)練過程中,模型可能會花費更多的計算資源來分析上下文中的關(guān)鍵信息、探索多種可能的推理路徑等,從而在訓(xùn)練完成后,能夠在推理過程中更快速、更準確地進行預(yù)測,提高整體的性能表現(xiàn)。
RPT 的方法論:構(gòu)建智能模型的精巧架構(gòu)
預(yù)訓(xùn)練任務(wù):next-token-reasoning
任務(wù)定義與推理序列生成算法
具體生成算法如下:
1. 初始化 :以輸入序列為起點,模型首先對上下文進行編碼,提取關(guān)鍵語義信息。這一步驟就像人類在閱讀一篇文章時,先快速瀏覽開頭部分,對文章的主題和大致方向有一個初步的把握。例如,當輸入的上下文是關(guān)于物理定律的描述時,模型會識別出其中涉及的物理概念、定律的名稱等關(guān)鍵信息,為后續(xù)的推理和預(yù)測奠定基礎(chǔ)。
2. 迭代推理 :在每一步推理中,模型基于當前上下文和已生成的推理序列,生成下一個推理 token。這一過程會考慮語義連貫性、語法正確性以及與最終預(yù)測目標的相關(guān)性。例如,在處理數(shù)學(xué)問題時,模型可能會生成諸如 “考慮變量之間的關(guān)系”“應(yīng)用定理公式” 等推理 token。這就好比人類在解決數(shù)學(xué)問題時,會一步步地分析問題的條件、應(yīng)用相關(guān)的數(shù)學(xué)定理和公式,逐步向答案靠近。每一個推理 token 都是模型思考過程中的一個 “腳印”,記錄著它對問題的逐步深入理解。
3. 預(yù)測生成 :在完成推理序列后,模型基于推理序列和原始上下文,生成對下一個 token 的預(yù)測。預(yù)測過程會綜合推理序列中的信息,以確定最可能的 token。以數(shù)學(xué)問題為例,經(jīng)過一系列的推理 token 后,模型可能會預(yù)測下一個 token 是某個數(shù)學(xué)符號或特定的數(shù)值,這個預(yù)測結(jié)果是基于前面的推理過程得出的,具有較高的可信度和準確性。
4. 算法終止 :當達到預(yù)設(shè)的推理序列長度或滿足特定終止條件(如預(yù)測置信度超過閾值)時,算法終止,輸出推理序列和預(yù)測 token。終止條件的設(shè)置是為了在推理的充分性和計算效率之間取得平衡,確保模型能夠在合理的時間和計算資源內(nèi)完成任務(wù)。
我們可以通過一個形象的比喻來理解 RPT 的這一創(chuàng)新過程:如果傳統(tǒng)的 next-token-prediction 是在黑暗中直接猜測下一步的位置,那么 RPT 的 next-token-reasoning 就像是在黑暗中先點亮一棵“樹形”的路徑,照亮周圍的環(huán)境,分析路徑的可能性,然后再邁出下一步。這種轉(zhuǎn)變,提升了模型預(yù)測的準確性,賦予了模型更接近人類思考方式的能力(戰(zhàn)略思考)。下圖所示,RPT 通過強化學(xué)習(xí)激勵模型進行推理并準確預(yù)測下一個 token,使得強化學(xué)習(xí)能夠擴展應(yīng)用于大規(guī)模網(wǎng)絡(luò)文本語料庫。
強化預(yù)訓(xùn)練(Reinforcement Pre-Training, RPT)將下一個token預(yù)測重新定義為一個推理任務(wù),其中語言模型通過強化學(xué)習(xí)(Reinforcement Learning, RL)被激勵去推理并正確預(yù)測下一個token。所提出的這種方法使得強化學(xué)習(xí)能夠擴展到網(wǎng)絡(luò)文本語料庫。櫻桃蛋糕頂部的圖片取自LeCun的PPT
上圖展示了 RPT 如何將 next-token-prediction 重新定義為一個推理任務(wù),通過強化學(xué)習(xí)激勵模型進行推理并正確預(yù)測下一個 token。這種設(shè)計使得 RPT 能夠擴展強化學(xué)習(xí)的應(yīng)用范圍,使其適用于大規(guī)模網(wǎng)絡(luò)文本語料庫。
推理模式原理與實現(xiàn)機制
模型實現(xiàn)聯(lián)想、假設(shè)驗證等推理模式的關(guān)鍵在于其內(nèi)部的算法設(shè)計和結(jié)構(gòu)優(yōu)化。以聯(lián)想模式為例,模型通過構(gòu)建語義關(guān)聯(lián)圖譜,將上下文中的關(guān)鍵詞與知識庫中的相關(guān)信息進行鏈接。當處理一段關(guān)于 “氣候變化” 的文本時,模型會基于上下文中的關(guān)鍵詞 “溫室氣體”“全球變暖” 等,聯(lián)想出相關(guān)的概念如 “碳排放”“極地冰川融化” 等。這一過程通過模型內(nèi)部的注意力機制和語義嵌入層實現(xiàn),注意力機制能夠捕捉上下文中的關(guān)鍵信息,并將其與知識庫中的內(nèi)容進行匹配,而語義嵌入層則將這些信息映射到同一語義空間,便于模型進行聯(lián)想和關(guān)聯(lián)。
假設(shè)驗證模式則依賴于模型的概率推理模塊。模型會根據(jù)當前上下文和推理序列,生成多個可能的假設(shè),然后通過計算每個假設(shè)的置信度來驗證其合理性。例如,在處理一段歷史事件的文本時,模型可能會生成 “該事件的起因可能是經(jīng)濟因素”“該事件的起因可能是政治因素” 等多個假設(shè)。通過對上下文信息的深度分析和對歷史知識的調(diào)用,模型計算每個假設(shè)成立的概率,從而篩選出最合理的假設(shè)作為后續(xù)推理的基礎(chǔ)。這一過程涉及到模型內(nèi)部復(fù)雜的概率計算和邏輯判斷機制,確保假設(shè)驗證的準確性和有效性。
為了更直觀地理解標準 next-token-prediction 和 RPT 的 next-token-reasoning 之間的差異,我們可以參考下圖。
next-token prediction 與 next-token reasoning 的范式比較。標準的 next-token predict 直接估計預(yù)訓(xùn)練語料庫中的下一個token,而next-token reasoning 則在進行預(yù)測之前會對多個token進行推理
標準 next-token-prediction 直接估計預(yù)訓(xùn)練語料庫中的下一個 token,而 RPT 的 next-token-reasoning 則在進行預(yù)測之前,先在多個 token 上進行推理。這種差異使得 RPT 能夠更深入地理解文本的語義結(jié)構(gòu),從而提高預(yù)測的準確性。
推理序列長度與復(fù)雜度調(diào)整策略及量化關(guān)系
RPT 模型根據(jù)不同場景靈活調(diào)整推理序列的長度和復(fù)雜度,以適應(yīng)各種不同的任務(wù)需求。這種調(diào)整并非隨意為之,而是基于嚴謹?shù)牧炕P(guān)系和評估指標。
基于上述量化關(guān)系,提出了以下調(diào)整策略:
基于強化學(xué)習(xí)的預(yù)訓(xùn)練(RPT:數(shù)據(jù)與模型的協(xié)同優(yōu)化)
訓(xùn)練過程與參數(shù)更新機制的數(shù)學(xué)解析
強化學(xué)習(xí)在 RPT 中的運用是提升模型性能的關(guān)鍵所在。對于給定的前綴 x<t,模型使用當前策略生成 G 個響應(yīng)(包括推理序列和最終預(yù)測序列)。通過前綴匹配獎勵驗證預(yù)測的正確性,利用獎勵信號更新模型參數(shù)。這一過程就像一個導(dǎo)師在指導(dǎo)學(xué)生思考和回答問題,根據(jù)學(xué)生的回答是否正確給予反饋,并幫助學(xué)生不斷改進自己的思考方式和答案準確性。
模型在每個訓(xùn)練步驟中會生成多個不同的思考軌跡,每個軌跡包含一個推理序列和對應(yīng)的下一個 token 預(yù)測。然后,對比預(yù)測結(jié)果與真實值來計算獎勵,并根據(jù)獎勵值調(diào)整模型參數(shù),鼓勵生成更準確的預(yù)測結(jié)果。參數(shù)更新采用 PPO 算法,其數(shù)學(xué)原理和參數(shù)更新機制如下:
強化預(yù)訓(xùn)練(RPT)的示例說明
上圖直觀地展示了 RPT 的訓(xùn)練過程。給定一個帶有缺失后續(xù)內(nèi)容的上下文,LLM 執(zhí)行策略性展開以生成 G 個不同的思考軌跡。每個軌跡包含一個中間推理步驟和一個對下一個 token 的最終預(yù)測。如果預(yù)測與真實 token 匹配,則賦予正向獎勵;否則,獎勵為零。這一獎勵信號用于更新 LLM,鼓勵生成更準確的延續(xù)內(nèi)容。
獎勵機制優(yōu)化方法與動態(tài)調(diào)整策略
獎勵機制在強化學(xué)習(xí)中起著至關(guān)重要的作用。在 RPT 中,獎勵的定義基于累計字節(jié)長度和有效邊界。對于預(yù)測結(jié)果與真實值完全匹配且字節(jié)長度符合有效邊界的情況,給予正向獎勵;否則給予零獎勵。這種設(shè)計確保獎勵的準確性和合理性。然而,為了進一步優(yōu)化獎勵機制,可以采用以下方法:
預(yù)訓(xùn)練設(shè)置:數(shù)據(jù)與模型的協(xié)同優(yōu)化
數(shù)據(jù)集選擇與預(yù)處理優(yōu)化 :RPT 使用 OmniMATH 數(shù)據(jù)集進行訓(xùn)練,該數(shù)據(jù)集包含 4,428 道競賽級數(shù)學(xué)問題和解決方案,來源于 AoPS Wiki 和 AoPS 論壇等。在預(yù)處理過程中,利用 DeepseekR1-Distill-Qwen-1.5B 小代理模型對 token 進行熵計算,設(shè)置熵閾值以過濾掉低熵位置,優(yōu)先訓(xùn)練具有挑戰(zhàn)性的 token。為了進一步優(yōu)化數(shù)據(jù)預(yù)處理,可以采用以下方法:
- 多級熵過濾 :除了基于單個 token 的熵過濾,還可以考慮上下文窗口內(nèi)的 token 熵分布,進行多級過濾。例如,對于連續(xù)多個低熵 token 的區(qū)域,可能表示簡單的重復(fù)或常見短語,可以整體過濾掉,從而更高效地聚焦于具有挑戰(zhàn)性的文本部分。
- 數(shù)據(jù)增強 :對過濾后的數(shù)據(jù)進行數(shù)據(jù)增強操作,如同義詞替換、語句重組等,增加數(shù)據(jù)的多樣性和模型的泛化能力。
模型與訓(xùn)練參數(shù)優(yōu)化 :基礎(chǔ)模型選擇為 Deepseek-R1-Distill-Qwen-14B。訓(xùn)練框架采用 verl 庫,推理使用 vllm 庫,訓(xùn)練算法為 GRPO。關(guān)鍵訓(xùn)練參數(shù)包括學(xué)習(xí)率 1e-6、批次大小 256、零 KL 懲罰等。詳細的超參數(shù)設(shè)置如下表所示:
用于強化預(yù)訓(xùn)練的超參數(shù)
根據(jù)實際訓(xùn)練需求和資源限制,可以對這些參數(shù)進行優(yōu)化。例如,適當調(diào)整學(xué)習(xí)率可以平衡模型的收斂速度和穩(wěn)定性;確定合適的批次大小可以充分利用計算資源,同時避免內(nèi)存溢出等問題。此外,還可以探索以下優(yōu)化方向:
- 自適應(yīng)學(xué)習(xí)率調(diào)整 :根據(jù)訓(xùn)練過程中的損失變化和獎勵趨勢,動態(tài)調(diào)整學(xué)習(xí)率。當模型性能提升較快時,適當降低學(xué)習(xí)率以精細調(diào)整參數(shù);當性能提升停滯時,適當提高學(xué)習(xí)率以跳出局部最優(yōu)。
- 超參數(shù)搜索算法 :采用貝葉斯優(yōu)化等超參數(shù)搜索算法,在大規(guī)模參數(shù)空間中尋找更優(yōu)的超參數(shù)組合,進一步提升模型性能。
實驗設(shè)計與評估:驗證 RPT 的強大性能
預(yù)訓(xùn)練模型評估:語言建模與擴展性分析
語言建模性能評估與分析 :利用 OmniMATH 驗證集,評估模型在不同難度 token 位置上的 next-token-prediction 準確率。結(jié)果表明,RPT 模型在所有難度級別上均優(yōu)于 R1-Distill-Qwen-14B 的標準 next-token-prediction 和基于推理的預(yù)測。例如,在高難度 token 位置上,RPT 模型的準確率提升顯著,這可能是因為 RPT 更注重挖掘 token 之間的深層語義關(guān)系和推理邏輯,從而在復(fù)雜場景下表現(xiàn)出更強的預(yù)測能力。具體數(shù)值顯示,RPT-14B 在高難度 token 位置上的準確率達到 23.75%,相較于 R1-Distill-Qwen-14B 的 20.43% 有明顯提升,這歸功于 RPT 在預(yù)訓(xùn)練階段對推理能力的強化訓(xùn)練,使得模型能夠更好地理解和預(yù)測復(fù)雜的文本內(nèi)容。
準確率在三個不同難度的基準測試劃分中的 Next-token prediction 表現(xiàn)。RPT在標準的Next-token prediction基線和基于推理的預(yù)測基線方面均表現(xiàn)更優(yōu)
上表提供了不同模型在三種不同難度測試集上的 next-token-prediction 準確率對比。從表中可以看出,RPT 在所有難度級別上都優(yōu)于標準 next-token-prediction 基線和基于推理的預(yù)測基線,這進一步證明了 RPT 的有效性和優(yōu)越性。
擴展性分析與大規(guī)模訓(xùn)練策略 :通過冪律衰減模型擬合 next - token - prediction 準確率與訓(xùn)練計算的關(guān)系,發(fā)現(xiàn) RPT 的性能隨著訓(xùn)練計算量的增加而持續(xù)提升。這表明 RPT 具有良好的擴展性,能夠在增加訓(xùn)練資源時獲得更優(yōu)的性能。例如,在訓(xùn)練計算量增加到 1000 步時,模型的準確率相較于初始階段有了顯著提高,且擬合曲線的高 R2 值(如易難度為 0.995,中等難度為 0.997,高難度為 0.989)表明模型對數(shù)據(jù)的擬合效果非常好。為了進一步優(yōu)化擴展性,可以采用以下策略:
- 分布式訓(xùn)練架構(gòu) :構(gòu)建高效的分布式訓(xùn)練架構(gòu),將模型訓(xùn)練任務(wù)分配到多個計算節(jié)點上并行執(zhí)行。通過優(yōu)化通信機制和數(shù)據(jù)分片策略,減少節(jié)點間通信開銷,提高訓(xùn)練效率。
- 混合精度訓(xùn)練 :結(jié)合 FP16 和 FP32 精度,在保證模型精度的前提下,減少內(nèi)存占用和計算量,加速訓(xùn)練過程。同時,采用梯度累積等技術(shù),確保在大規(guī)模并行訓(xùn)練中的梯度更新穩(wěn)定性。
不同難度水平數(shù)據(jù)上的 next-token prediction 準確率平均表現(xiàn)
上圖展示了 R1-Qwen-14B/32B 在不同難度數(shù)據(jù)上的平均 next-token-prediction 準確率。從圖中可以看出,RPT 模型在不同難度級別上均表現(xiàn)出較高的準確率,進一步證明了其在語言建模性能上的優(yōu)勢。
下圖則展示了 RPT 的 next-token-prediction 準確率隨著訓(xùn)練計算量的增加而一致提升的情況。擬合曲線的高決定系數(shù)表明預(yù)測值與觀測值之間的一致性較高,這表明 RPT 具有良好的擴展性,能夠隨著訓(xùn)練資源的增加而持續(xù)提升性能。
在強化預(yù)訓(xùn)練中,隨著訓(xùn)練計算量的增加,Next-token prediction accuracy 在所有數(shù)據(jù)難度下均持續(xù)提高。擬合曲線顯示出較高的決定系數(shù),表明預(yù)測值與觀測值之間的一致性
強化微調(diào)實驗:挖掘 RPT 的深層潛力
在對強化預(yù)訓(xùn)練(RPT)進行全面評估的過程中,強化微調(diào)實驗扮演著至關(guān)重要的角色。這一實驗環(huán)節(jié)驗證了 RPT 模型在進一步強化學(xué)習(xí)微調(diào)中的表現(xiàn),也深入揭示了 RPT 相較于傳統(tǒng)預(yù)訓(xùn)練模型的優(yōu)勢所在,為 RPT 在實際應(yīng)用中的有效性提供了有力支撐。(擴展閱讀??《強化微調(diào) ReFT:開啟大語言模型推理新范式》)
實驗設(shè)置:精準篩選與嚴謹配置
強化微調(diào)實驗的設(shè)置遵循科學(xué)嚴謹?shù)脑瓌t,從數(shù)據(jù)采樣到參數(shù)配置,每一個步驟都經(jīng)過精心設(shè)計。實驗數(shù)據(jù)源自 Skywork-OR1,從中隨機采樣 256 個問題用于訓(xùn)練,200 個問題用于測試,確保數(shù)據(jù)樣本具有足夠的多樣性和代表性。數(shù)據(jù)篩選流程借鑒 SkyworkOR1 的數(shù)據(jù)過濾管道,利用 R1-Distill-Qwen-32B 模型識別具有挑戰(zhàn)性的實例,從而為模型訓(xùn)練提供更具價值的數(shù)據(jù)素材。
在訓(xùn)練參數(shù)方面,訓(xùn)練批次大小和 PPO 小批次大小均設(shè)置為 64,訓(xùn)練周期數(shù)為 15。這些參數(shù)的選擇基于對模型學(xué)習(xí)效率與資源消耗的綜合考量,這是為了實現(xiàn)模型性能提升與計算成本控制的平衡。評估設(shè)置中,驗證時的最大 token 數(shù)設(shè)定為 32,000,溫度參數(shù)設(shè)定為 0.6,這些參數(shù)配置為模型性能的準確評估提供了標準化的測試環(huán)境。
對比分析:顯著優(yōu)勢與深層原因剖析
對比分析結(jié)果令人矚目。RPT 模型在僅使用 RLVR 進一步訓(xùn)練前后的性能提升顯著,而持續(xù)使用標準 next-token-prediction 目標訓(xùn)練后的性能提升則相對有限。RPT-14B 模型在進一步 RL 訓(xùn)練后,性能從 56.3 提升到 58.3,而 R1-Distill-Qwen-14B 僅從 51.2 提升到 52.7。這一對比鮮明的結(jié)果有力地證明了 RPT 為后續(xù) RL 訓(xùn)練提供了更為堅實的基礎(chǔ)。
這一性能差異的背后,源于 RPT 在預(yù)訓(xùn)練階段所培養(yǎng)的推理能力。RPT 通過強化學(xué)習(xí)激勵模型生成推理序列,使得模型在微調(diào)階段能夠更快地適應(yīng)任務(wù)特定的邏輯要求。例如,在面對復(fù)雜的數(shù)學(xué)推理任務(wù)時,RPT 模型能夠在微調(diào)過程中迅速抓住問題的關(guān)鍵邏輯,基于預(yù)訓(xùn)練階段形成的推理模式,高效地學(xué)習(xí)任務(wù)特定的解題策略。而傳統(tǒng)預(yù)訓(xùn)練模型由于缺乏這種推理能力的培養(yǎng),在微調(diào)階段需要花費更多的時間和計算資源來理解和適應(yīng)任務(wù)邏輯,導(dǎo)致其性能提升較為緩慢。
不同模型的強化微調(diào)性能?!俺掷m(xù)NTP訓(xùn)練”指的是在與RPT-14B相同的語料庫上,使用標準的 next-token prediction 目標進行持續(xù)預(yù)訓(xùn)練。RPT為后續(xù)的強化學(xué)習(xí)訓(xùn)練提供了更強大的基礎(chǔ)
上表展示了不同模型的強化微調(diào)性能對比。可以看出,RPT 在進一步 RL 訓(xùn)練后的性能提升明顯優(yōu)于僅使用標準 next-token-prediction 目標訓(xùn)練的模型,這進一步證明了 RPT 的優(yōu)勢。
推理能力遷移:從預(yù)訓(xùn)練到微調(diào)的橋梁
RPT 的強化微調(diào)實驗還深入探討了推理能力從預(yù)訓(xùn)練到微調(diào)的遷移機制。在預(yù)訓(xùn)練階段,RPT 模型通過生成推理序列來預(yù)測下一個 token,這一過程促使模型深入理解文本背后的邏輯結(jié)構(gòu)和語義關(guān)系。當進入微調(diào)階段時,這種推理能力成為了模型快速適應(yīng)新任務(wù)的有力武器。
以數(shù)學(xué)問題求解任務(wù)為例,在預(yù)訓(xùn)練過程中,RPT 模型已經(jīng)學(xué)會了如何分析數(shù)學(xué)概念之間的關(guān)系、如何應(yīng)用數(shù)學(xué)定理進行推理等。在微調(diào)階段,面對具體的數(shù)學(xué)問題,模型能夠?qū)㈩A(yù)訓(xùn)練階段形成的推理模式遷移到新任務(wù)中,迅速生成針對問題的推理路徑,如 “已知條件是什么”“需要求解的目標是什么”“可以應(yīng)用哪些數(shù)學(xué)公式或定理” 等。這種推理能力的遷移使得模型在微調(diào)過程中能夠以更少的訓(xùn)練數(shù)據(jù)和計算資源達到更高的性能水平,展現(xiàn)出更強的任務(wù)適應(yīng)性和學(xué)習(xí)效率。
性能提升的多維度影響:泛化與穩(wěn)定性的增強
強化微調(diào)實驗還從多個維度分析了 RPT 模型性能提升的影響。在泛化能力方面,RPT 模型在微調(diào)后展現(xiàn)出更強的泛化性能。它能夠在不同類型的數(shù)學(xué)問題上保持穩(wěn)定的高準確率,無論是代數(shù)問題、幾何問題還是概率統(tǒng)計問題等。這表明 RPT 模型在預(yù)訓(xùn)練階段所學(xué)習(xí)到的推理能力具有較強的通用性,能夠跨越具體任務(wù)的差異,為模型提供廣泛適用的推理框架。
在穩(wěn)定性方面,RPT 模型在微調(diào)過程中的訓(xùn)練曲線表現(xiàn)出更少的波動和更快的收斂速度。這得益于 RPT 在預(yù)訓(xùn)練階段通過強化學(xué)習(xí)所形成的穩(wěn)定推理機制。模型在微調(diào)過程中能夠更有效地利用訓(xùn)練數(shù)據(jù),避免因數(shù)據(jù)噪聲或任務(wù)特定偏差而導(dǎo)致的訓(xùn)練不穩(wěn)定問題。這種穩(wěn)定性有助于提高模型的最終性能,使得模型在實際應(yīng)用中的表現(xiàn)更加可靠和可預(yù)測。
零樣本任務(wù)性能評估:跨領(lǐng)域的強大泛化能力
評估基準與設(shè)置優(yōu)化 :選擇 MMLU - Pro 和 SuperGPQA 作為評估基準。下表展示了不同模型在 SuperGPQA 基準測試中的詳細零樣本性能表現(xiàn):
在 SuperGPQA 上的零樣本性能
下表則展示了不同模型在 MMLU-Pro 基準測試中的詳細零樣本性能表現(xiàn):
在 MMLU-Pro 上的零樣本性能
在評估時,MMLU - Pro 的 token 數(shù)量設(shè)置為 12,288,溫度為 0.8;SuperGPQA 的 token 數(shù)量設(shè)置為 12,288,溫度同樣為 0.8,并采用多選題格式進行評估。為了更全面地評估模型性能,可以增加評估基準的多樣性,涵蓋更多領(lǐng)域和任務(wù)類型,如邏輯推理、創(chuàng)意寫作等。
性能對比與原因分析 :RPT-14B 在推理模式下的性能顯著優(yōu)于 R1-Distill-Qwen-14B(標準 next-token-prediction 模式和推理模式)以及 R1-Distill-Qwen-32B(標準 next-token-prediction 模式)。例如,在 SuperGPQA 基準測試中,RPT-14B 的準確率為 39.0%,而 R1-Distill-Qwen-14B 為 32.0%,R1-Distill-Qwen-32B 為 37.2%。這表明 RPT 的推理模式能夠幫助模型更好地理解和生成復(fù)雜推理任務(wù)所需的邏輯連貫、語義準確的文本。其原因在于 RPT 的推理序列生成過程促使模型深入理解文本背后的邏輯結(jié)構(gòu)和語義關(guān)系,使得模型在面對不同領(lǐng)域的零樣本任務(wù)時,能夠基于已有的知識和推理能力進行有效的預(yù)測和推理。
零樣本在通用領(lǐng)域終端任務(wù)上的表現(xiàn)。RPT-14B在推理模式下始終優(yōu)于14B和32B基線模型
上表展示了不同模型在零樣本任務(wù)上的性能對比??梢钥闯觯琑PT-14B 在推理模式下在多個基準測試中均優(yōu)于基線模型,這進一步證明了 RPT 的有效性和優(yōu)勢。
next-token-reasoning 模式分析:推理背后的思維
為了更清晰地展示推理模式的差異,對推理模式進行了分類,并提取了相應(yīng)的關(guān)鍵詞,具體分類和關(guān)鍵詞如下表所示:
模式組和關(guān)鍵詞
下表展示了七種提示模板的具體內(nèi)容:
七個針對 next-token 任務(wù)推理的提示模板
推理模式差異統(tǒng)計與解讀 :對 R1-Distill-Qwen-14B 和 RPT-14B 的推理響應(yīng)進行分類統(tǒng)計發(fā)現(xiàn),RPT-14B 在假設(shè)模式和演繹推理模式上的使用比例顯著更高。假設(shè)模式幫助模型探索多種可能的預(yù)測路徑,而演繹推理模式基于已知信息進行邏輯推導(dǎo),得出更準確的預(yù)測結(jié)果。例如,在處理一段關(guān)于物理現(xiàn)象的文本時,RPT-14B 會生成多種假設(shè),如“假設(shè)接下來會解釋物理現(xiàn)象的原因”“假設(shè)會給出實驗驗證方法”,然后通過演繹推理,結(jié)合上下文信息,確定最合理的預(yù)測路徑,從而生成準確的下一個 token。
實例分析與推理過程解析 :以具體的推理實例來看,RPT-14B 在預(yù)測下一個 token 時,會對語義上下文進行深入分析。例如,在處理一段關(guān)于向量大小計算的文本時,模型會分析上下文中的關(guān)鍵詞,如 “magnitude”“formulas” 等,然后提出假設(shè):“接下來可能會解釋如何計算向量的大小,或者給出具體的計算步驟?!?接著,它會探索多種可能性,如 “可能是列舉計算步驟,也可能是直接給出公式。” 最后,通過自我反思和調(diào)整,結(jié)合上下文的結(jié)構(gòu)和語義信息,確定最可能的下一個 token。這一過程中,模型的推理序列體現(xiàn)了其對文本深層語義的理解和邏輯推理能力,這是其性能優(yōu)于傳統(tǒng)模型的關(guān)鍵所在。
R1-Distill-Qwen-14B 用于問題求解的推理模式統(tǒng)計,以及 RPT-14B 用于 next-token reasoning 的推理模式統(tǒng)計
上圖展示了 R1-Distill-Qwen-14B 和 RPT-14B 在問題解決和 next-token-reasoning 中的推理模式統(tǒng)計??梢钥闯?,RPT-14B 在假設(shè)模式和演繹推理模式上的使用比例顯著更高,這表明 RPT 更傾向于通過多種推理方式來探索和確定下一個 token。下表則提供了一個 RPT 推理模式的具體示例,展示了 RPT 如何在預(yù)測過程中生成推理序列,從而得出更準確的預(yù)測結(jié)果。
RPT的推理模式示例
RPT與傳統(tǒng)范式的比較
大型語言模型的擴展范式
傳統(tǒng) LLM 的擴展范式主要集中在訓(xùn)練時間和測試時間兩個維度。訓(xùn)練時間擴展通過增加模型參數(shù)和訓(xùn)練數(shù)據(jù)來提升性能,而測試時間擴展則通過延長推理計算來增強模型的推理能力。RPT 獨特地將每個 next-token-prediction 視為推理任務(wù)進行擴展,結(jié)合了訓(xùn)練時間和測試時間擴展的優(yōu)點。與傳統(tǒng)范式相比,RPT 在技術(shù)實現(xiàn)上更加注重推理過程的構(gòu)建和優(yōu)化,在應(yīng)用場景上更適用于復(fù)雜推理任務(wù),在性能表現(xiàn)上能夠更有效地提升模型的準確性和泛化能力。例如,與僅通過增加模型參數(shù)進行擴展的方式相比,RPT 在不大幅增加模型規(guī)模的情況下,通過強化推理訓(xùn)練,使得模型在數(shù)學(xué)推理等復(fù)雜任務(wù)上的性能得到了顯著提升,這體現(xiàn)了 RPT 在擴展范式上的創(chuàng)新性和優(yōu)勢。
大型語言模型的強化學(xué)習(xí):RPT 的獨特優(yōu)勢與創(chuàng)新
強化學(xué)習(xí)在 LLM 后訓(xùn)練階段的應(yīng)用已取得顯著成果。例如,基于人類反饋的強化學(xué)習(xí)能夠使模型更好地對齊人類偏好,而大規(guī)模 RL 則提升了模型的推理能力。RPT 與以往工作的主要區(qū)別在于采用基于 next-token 預(yù)測正確性的規(guī)則獎勵信號,有效避免了獎勵劫持問題。這種創(chuàng)新的獎勵機制使得 RPT 在強化學(xué)習(xí)方法上更具有優(yōu)勢,能夠更穩(wěn)定地提升模型的性能和應(yīng)用效果。與傳統(tǒng)的基于獎勵模型的 RL 方法相比,RPT 的規(guī)則獎勵信號更加直接和客觀,減少了因獎勵模型偏差導(dǎo)致的訓(xùn)練不穩(wěn)定問題,從而提高了模型訓(xùn)練的效率和最終性能。
總結(jié):洞察與展望
強化預(yù)訓(xùn)練(RPT)的提出,無疑是大型語言模型(LLM)預(yù)訓(xùn)練領(lǐng)域的一次重大革新。它在技術(shù)層面實現(xiàn)了突破,更深刻地改變了我們對模型認知方式的理解。從傳統(tǒng)的 next-token-prediction 到創(chuàng)新性的 next-token-reasoning,這一轉(zhuǎn)變,已經(jīng)不再是簡單的任務(wù)重構(gòu),而是模型認知模式的一次質(zhì)的飛躍。
在 next-token-prediction 中,模型的角色類似于一位機械的記憶者,僅憑統(tǒng)計規(guī)律預(yù)測下一個 token。然而,RPT 將這一過程進化為 next-token-reasoning,賦予了模型戰(zhàn)略 “思考” 的能力。在 RPT 框架下,模型不再是簡單地根據(jù)已有的詞頻統(tǒng)計等模式進行預(yù)測,而是需要先理解上下文中的關(guān)鍵信息,生成推理序列,再進行預(yù)測。以數(shù)學(xué)問題為例,模型不再死記硬背數(shù)學(xué)符號的順序,而是通過推理序列,如 “考慮變量之間的關(guān)系”“應(yīng)用定理公式” 等,逐步推導(dǎo)出下一個 token。這種類似于人類思考的過程,使模型能夠深入挖掘文本背后的語義和邏輯,而非停留在表面的 token 級相關(guān)性上。
這種進化帶來的影響是深遠而多維的。RPT 模型在語言建模性能上的提升就是最直觀的體現(xiàn)。比如實驗數(shù)據(jù)顯示,RPT-14B 在高難度 token 位置上的準確率達到 23.75%,相較于 R1-Distill-Qwen-14B 的 20.43% 有明顯提升。這表明 RPT 模型能夠更精準地把握文本的深層結(jié)構(gòu)和復(fù)雜語義關(guān)系。這種性能提升不會是偶然的,而是源于 RPT 對模型認知能力的重塑。RPT 通過強化學(xué)習(xí)機制,激勵模型生成推理序列,使模型在訓(xùn)練過程中主動思考文本的內(nèi)在邏輯和語義關(guān)系,探索多種可能的推理路徑。這種學(xué)習(xí)方式使模型能夠跳出單純的記憶模式,轉(zhuǎn)而培養(yǎng)起強大的泛化能力,從而在面對新的、未見過的文本時表現(xiàn)更佳。
更為重要的是,RPT 的推理能力具有強大的泛化潛力。它使模型在面對不同領(lǐng)域和類型的文本時,能夠靈活運用推理策略,而非依賴于對特定數(shù)據(jù)模式的死記硬背。在數(shù)學(xué)領(lǐng)域,RPT 模型能夠通過推理序列深入理解數(shù)學(xué)概念和定理之間的關(guān)系;在文學(xué)領(lǐng)域,它則可以分析文本的情感脈絡(luò)和修辭手法。這種泛化能力的提升,無疑為 LLM 在更多領(lǐng)域的應(yīng)用開辟了廣闊的空間。例如,在教育領(lǐng)域,RPT 可以幫助構(gòu)建更智能的教育輔導(dǎo)系統(tǒng),根據(jù)學(xué)生的學(xué)習(xí)進度和知識掌握情況,生成個性化的學(xué)習(xí)材料和問題解答;在科研領(lǐng)域,RPT 能夠輔助研究人員進行文獻分析和科學(xué)發(fā)現(xiàn),提升科研效率。
當然,我們必須認識到 RPT 當前的局限性。實驗主要基于 14B 參數(shù)模型,預(yù)訓(xùn)練語料以數(shù)學(xué)文檔為主,這使得模型在非數(shù)學(xué)領(lǐng)域的推理能力略顯不足。此外,訓(xùn)練起點依賴推理模型,可能會影響 RPT 的普適性和靈活性。如果初始推理模型在某些特定任務(wù)上存在缺陷或偏差,可能會對 RPT 的訓(xùn)練效果產(chǎn)生負面影響,限制其在不同場景下的應(yīng)用范圍。
RPT 的提出,我認為是 LLM 預(yù)訓(xùn)練領(lǐng)域的一座新里程碑。它為我們提供了當下極具價值的技術(shù)方案。我的理解在于,論文中提到的推理范式的轉(zhuǎn)變,大家不覺得有點類似于從 CoT(Chain-of-Thought,思維鏈)式思考轉(zhuǎn)向了 ToT(Tree-of-Thought,思維樹)式思考嗎。以下我做了簡單的對比。
CoT 與 ToT 的基本概念
- CoT(思維鏈):強調(diào)模型在生成答案之前進行逐步的推理,像是逐步思考和探索的鏈式過程。例如,面對一個數(shù)學(xué)問題,CoT 方法會要求模型先進行分解問題、嘗試不同解決步驟等,最后得到答案。
- ToT(思維樹):在 CoT 的基礎(chǔ)上,增加了探索的廣度,即生成多個可能的推理路徑,形成一個“樹”狀的思考結(jié)構(gòu)。它不僅關(guān)注縱向的推理深度,還注重橫向的多種可能性探索。
RPT 與 CoT、ToT 的關(guān)系
- 與 CoT 的相似性:RPT 的核心思想是將 next - token - prediction 重構(gòu)為 next - token - reasoning 任務(wù),要求模型生成推理序列。這類似于 CoT 的逐步推理方式,強調(diào)在生成答案之前進行深入的思考和分析。
- 與 ToT 的相似性:RPT 中模型需要生成多個不同的思考軌跡(如 G 個響應(yīng)),每個軌跡包含一個推理序列和對應(yīng)的下一個 token 預(yù)測。這一過程類似于 ToT 的多路徑探索,模型在多個可能的推理路徑中進行嘗試和評估,從而提高預(yù)測的準確性和泛化能力。
RPT 的獨特優(yōu)勢
- 更靈活的推理模式:RPT 不僅包含 CoT 的鏈式推理,還融合了 ToT 的樹狀探索,使模型能夠從多個角度思考問題,提升了推理的全面性和深入性。例如,在文本生成任務(wù)中,模型不僅能按部就班地進行邏輯推理,還能同時嘗試多種可能的表述方式,選擇最合適的一種。
- 強化學(xué)習(xí)的激勵作用:RPT 利用強化學(xué)習(xí)直接根據(jù)預(yù)測的正確性給予獎勵,引導(dǎo)模型優(yōu)化推理過程。這種激勵機制促使模型在推理過程中更加注重思考的準確性和有效性,使模型能夠更好地學(xué)習(xí)如何進行合理的推理。
- 在預(yù)訓(xùn)練階段的深度整合:RPT 將推理能力的培養(yǎng)深度融入預(yù)訓(xùn)練過程,使其成為模型內(nèi)在的基礎(chǔ)能力。這與 CoT 和 ToT 通常在模型生成階段的運用不同,為模型提供了更堅實、更通用的推理基礎(chǔ)。
所以基于以上的理解,RPT 的推理范式轉(zhuǎn)變,是否是吸收了 CoT 和 ToT 的優(yōu)點,并通過強化學(xué)習(xí)等機制進一步優(yōu)化了推理過程,為大型語言模型的預(yù)訓(xùn)練和性能提升帶來了新的突破。
我在看這篇論文的時候非常興奮,這不僅是因為 RPT 范式為大型語言模型的預(yù)訓(xùn)練帶來了全新的思路,還因為這讓我又一次看到了模型向上吞噬的能力??赡苡行』锇闀尞惢蛘呓袚?,模型向上吞噬,那這不是意味著應(yīng)用又薄了嗎?那么做工程應(yīng)用的飯碗又淺了一些?模型能力的不斷提升,是否會擠壓工程應(yīng)用的生存空間,甚至讓人類在技術(shù)面前變得無足輕重?
然而,我堅信并非如此。因為現(xiàn)實世界的知識、人類的能力、認知向 AI 壓縮的過程,會進一步提升應(yīng)用智能的飛躍。想想看,AI 的發(fā)展從通用模型到如今廣泛涌現(xiàn)的 Reason Model,這是模型通過 RL 范式的一次向上吞噬,或許這里用吞噬并不合適,因為這是人類的智慧讓模型發(fā)生了躍遷。如今 RPT 范式所展現(xiàn)的類 ToT(Tree of Thought)戰(zhàn)略思考模式,這每一次模型的進化,都并非是對人類的替代,而是對人類能力的有力補充。所帶來的直接收益就是,上層 AI 應(yīng)用性能的增強,AI 應(yīng)用的推理準確性得到提升,自動化智能化的效能更高,最終受益的還是人!
RPT 范式的提出,可以看作是基于之前訓(xùn)練范式的又一次飛躍,這一次模型幾乎是基于 ToT 的戰(zhàn)略思考模式來“定義任務(wù)”,而不單純是“推理任務(wù)”?;叵胍幌麻_篇我提到的 Openai 推理模型 o3 的能力,或許它的背后已應(yīng)用了這樣的戰(zhàn)略思考范式,所以才可以實現(xiàn)模型的“跨域”知識的推理。因為模型“眼界”寬了,“看”到的東西不一樣了,認知就會有“高度”,綜合推理的水平就會上升,Knowledge is power!那么在此,我們思考一下,應(yīng)用可以基于這樣已進化的推理模型做哪些事情?一個單一具體的假設(shè),也許,頂層的 Agent 對于 Graph 的推理可能不再是難題。因為模型已經(jīng)高效的應(yīng)用了類 ToT 的思考模式,這可能將極大地推動 Agent 在 GoT(Graph of Thought)實現(xiàn)算法上的進化,使其更加高效和易于實現(xiàn)。同時,這也意味著 AI Agent 的能力基于模型能力進化的現(xiàn)實,也會帶來協(xié)同進化的增強效應(yīng)。這也正是我閱讀這篇論文讓我興奮的原因,說不定再過半年,類似“戰(zhàn)略思考”的推理范式就會落地并普及。
在此,RL范式再次彰顯了其強大的力量。當我們面對模型的進化時,無需恐懼或退縮。在人類文明的歷史中,每一次人類發(fā)明的工具實現(xiàn)進化,人類與這些進化工具的交互都會推動整個文明的躍遷。我們應(yīng)當正視這一現(xiàn)象,并基于工具的進化,挖掘人類更深層的創(chuàng)造力。人一定是這場技術(shù)革命的核心,人類也必須是這場技術(shù)革命的主宰者!