偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

當(dāng)大語言模型遇上強(qiáng)化學(xué)習(xí):一文讀懂強(qiáng)化預(yù)訓(xùn)練(RPT)如何重塑LLM的推理基因

發(fā)布于 2025-6-18 07:04
瀏覽
0收藏

在大語言模型(LLMs)的發(fā)展歷程中,「規(guī)模效應(yīng)」始終是性能提升的核心驅(qū)動力。從GPT-3的1750億參數(shù)到GPT-4的萬億級架構(gòu),模型通過海量文本 的「下一個token預(yù)測」任務(wù)(NTP)學(xué)習(xí)語言規(guī)律,但這種純粹的自監(jiān)督訓(xùn)練逐漸暴露出局限性:模型更擅長「記憶」而非「推理」,面對復(fù)雜問題時容易陷入「模式匹配」而非邏輯推導(dǎo)。

與此同時,強(qiáng)化學(xué)習(xí)(RL)在對齊人類偏好(如RLHF)和提升推理能力上展現(xiàn)潛力,但傳統(tǒng)RL依賴昂貴的人工標(biāo)注或領(lǐng)域特定獎勵函數(shù),難以在大規(guī)模預(yù)訓(xùn)練中應(yīng)用。如何讓RL突破數(shù)據(jù)瓶頸,與自監(jiān)督預(yù)訓(xùn)練的 scalability 結(jié)合?微軟研究院聯(lián)合北大、清華提出的強(qiáng)化預(yù)訓(xùn)練(Reinforcement Pre-Training, RPT) 給出了全新答案。

一、RPT的核心思想:從「預(yù)測」到「推理」的范式升級

1. 重構(gòu)任務(wù):讓token預(yù)測成為推理過程

當(dāng)大語言模型遇上強(qiáng)化學(xué)習(xí):一文讀懂強(qiáng)化預(yù)訓(xùn)練(RPT)如何重塑LLM的推理基因-AI.x社區(qū)

RPT的核心創(chuàng)新在于將標(biāo)準(zhǔn)的下一個token預(yù)測轉(zhuǎn)化為「推理任務(wù)」:模型在預(yù)測token前,需要生成一段「思維鏈」(chain-of-thought, CoT),通過邏輯推導(dǎo)驗(yàn)證預(yù)測的合理性。例如,當(dāng)輸入上下文為「Electric force grows with charge」時,傳統(tǒng)NTP直接預(yù)測「size」,而RPT要求模型先思考「庫侖定律中電荷與力的關(guān)系」,再得出結(jié)論。

這種轉(zhuǎn)化的關(guān)鍵在于可驗(yàn)證的獎勵機(jī)制:模型每生成一個預(yù)測,若與語料庫中的真實(shí)token完全匹配(基于字節(jié)級前綴匹配),則獲得獎勵1,否則0。這種「對錯分明」的規(guī)則式獎勵,避免了RLHF中人工標(biāo)注的主觀性,也杜絕了獎勵黑客(reward hacking)問題。

2. 規(guī)?;疪L的秘密:讓未標(biāo)注文本成為RL訓(xùn)練集

傳統(tǒng)RLVR(帶可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí))依賴問答對標(biāo)注數(shù)據(jù),而RPT巧妙地將海量未標(biāo)注文本轉(zhuǎn)化為RL訓(xùn)練數(shù)據(jù)。具體而言:

當(dāng)大語言模型遇上強(qiáng)化學(xué)習(xí):一文讀懂強(qiáng)化預(yù)訓(xùn)練(RPT)如何重塑LLM的推理基因-AI.x社區(qū)

這種設(shè)計讓RPT突破了RL的標(biāo)注瓶頸——互聯(lián)網(wǎng)級別的未標(biāo)注文本(如網(wǎng)頁、書籍)都能成為RL訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)了「自監(jiān)督預(yù)訓(xùn)練的規(guī)模」與「RL的推理誘導(dǎo)能力」的融合。

二、RPT的技術(shù)實(shí)現(xiàn):從數(shù)學(xué)框架到訓(xùn)練細(xì)節(jié)

1. 數(shù)學(xué)定義:從NTP到RPT的目標(biāo)函數(shù)升級

當(dāng)大語言模型遇上強(qiáng)化學(xué)習(xí):一文讀懂強(qiáng)化預(yù)訓(xùn)練(RPT)如何重塑LLM的推理基因-AI.x社區(qū)

2. 訓(xùn)練流程:從「單路徑預(yù)測」到「多軌跡搜索」

RPT的訓(xùn)練過程類似「推理軌跡的蒙特卡洛采樣」:

  1. 給定上下文 $x_{?
  2. 驗(yàn)證預(yù)測是否與真實(shí)token匹配,分配二元獎勵(0或1)
  3. 使用GRPO算法更新模型參數(shù),強(qiáng)化高獎勵軌跡的生成概率

以O(shè)mniMATH數(shù)學(xué)數(shù)據(jù)集為例,RPT通過熵過濾策略(篩選高難度token),聚焦需要深度推理的預(yù)測任務(wù)。訓(xùn)練中采用8k序列長度、(10^{-6}) 學(xué)習(xí)率,每次采樣8條軌跡(G=8),并通過動態(tài)采樣提升效率。

三、實(shí)驗(yàn)驗(yàn)證:RPT如何刷新LLM的「推理天花板」

1. 語言建模:準(zhǔn)確率提升與規(guī)模效應(yīng)

在OmniMATH驗(yàn)證集上,RPT-14B在不同難度token上的預(yù)測準(zhǔn)確率全面超越基線:

  • 簡單token:45.11% vs 標(biāo)準(zhǔn)NTP的41.60%
  • 困難token:23.75% vs 標(biāo)準(zhǔn)NTP的20.43%

更驚人的是,RPT-14B的性能竟能匹配規(guī)模兩倍的R1-Distill-Qwen-32B,證明其通過推理誘導(dǎo)實(shí)現(xiàn)了「參數(shù)效率」的突破。從訓(xùn)練計算量(FLOPs)與準(zhǔn)確率的關(guān)系看,RPT呈現(xiàn)顯著的冪律增長規(guī)律,且在困難數(shù)據(jù)上的擬合優(yōu)度 (R^2) 高達(dá)0.989,說明其具備可持續(xù)的規(guī)模化潛力。

2. 下游任務(wù):從「預(yù)訓(xùn)練基礎(chǔ)」到「零樣本能力」

  • 強(qiáng)化微調(diào)(RLFT):在Skywork-OR1數(shù)據(jù)集上,RPT-14B經(jīng)RLFT后準(zhǔn)確率達(dá)58.3%,遠(yuǎn)超基線模型的52.7%;而傳統(tǒng)NTP繼續(xù)訓(xùn)練反而導(dǎo)致性能暴跌至13.0%,證明RPT預(yù)訓(xùn)練與RLFT的目標(biāo)一致性。
  • 零樣本推理:在SuperGPQA(285學(xué)科推理)和MMLU-Pro(多任務(wù)理解)基準(zhǔn)上,RPT-14B的推理模式準(zhǔn)確率比14B基線高7-22個百分點(diǎn),甚至超越32B模型。

3. 推理模式分析:從「模式匹配」到「邏輯探索」

通過關(guān)鍵詞統(tǒng)計,RPT模型的推理軌跡中「假設(shè)生成」(hypothesis)模式使用量比傳統(tǒng)問題解決模型高161.8%,「演繹推理」(deduction)高26.2%。其推理過程兼具高層語義理解(如「向量模長計算」的上下文分析)和底層文本特征判斷(如Markdown格式線索),展現(xiàn)出「多維度推理」能力。

四、行業(yè)影響:RPT如何重塑LLM的訓(xùn)練范式

1. 打破「預(yù)訓(xùn)練-微調(diào)」的目標(biāo)鴻溝

傳統(tǒng)LLM預(yù)訓(xùn)練(NTP)與RL微調(diào)的目標(biāo)存在天然割裂:前者優(yōu)化token概率,后者優(yōu)化任務(wù)獎勵。RPT通過將RL引入預(yù)訓(xùn)練階段,使模型從底層學(xué)習(xí)「推理習(xí)慣」,大幅降低后續(xù)RLFT的適配成本。實(shí)驗(yàn)顯示,RPT預(yù)訓(xùn)練的模型在RLFT時僅需少量數(shù)據(jù)即可快速提升,而NTP模型則需要大量數(shù)據(jù)才能勉強(qiáng)適應(yīng)。

2. 為「通用人工智能」鋪設(shè)推理基石

RPT的核心價值在于將「推理能力」注入預(yù)訓(xùn)練階段,而非依賴下游微調(diào)。這種「從源頭培養(yǎng)思維」的方式,讓模型在零樣本場景下就能展現(xiàn)更強(qiáng)的泛化能力。例如,RPT-14B在MMLU-Pro的「法律」「醫(yī)學(xué)」等專業(yè)領(lǐng)域的零樣本準(zhǔn)確率比基線高10%以上,證明其具備跨領(lǐng)域推理的潛力。

3. 推動RL與自監(jiān)督學(xué)習(xí)的深度融合

RPT揭示了一個重要方向:RL不應(yīng)僅作為微調(diào)工具,而應(yīng)成為預(yù)訓(xùn)練的核心組件。其通過「可驗(yàn)證獎勵+大規(guī)模未標(biāo)注數(shù)據(jù)」的組合,為RL的規(guī)?;瘧?yīng)用提供了范式參考。未來,結(jié)合互聯(lián)網(wǎng)級文本與RPT框架,可能催生出推理能力逼近人類的通用模型。

五、挑戰(zhàn)與未來:RPT的下一站在哪里?

盡管RPT展現(xiàn)出強(qiáng)大潛力,當(dāng)前研究仍存在局限:

  1. 數(shù)據(jù)偏差:實(shí)驗(yàn)主要基于數(shù)學(xué)文本(OmniMATH),在通用領(lǐng)域(如自然語言理解、代碼生成)的效果有待驗(yàn)證。
  2. 初始化依賴:RPT當(dāng)前需從推理模型(如Deepseek-R1)初始化,若從標(biāo)準(zhǔn)LM直接訓(xùn)練,其推理誘導(dǎo)能力是否能保持?
  3. 計算成本:多軌跡采樣(G=8)比標(biāo)準(zhǔn)NTP消耗更多算力,如何在效率與效果間平衡?

未來研究可能從以下方向突破:

  • 擴(kuò)大數(shù)據(jù)規(guī)模:將RPT應(yīng)用于全網(wǎng)文本,構(gòu)建跨領(lǐng)域推理能力
  • 混合推理框架:結(jié)合「系統(tǒng)1-系統(tǒng)2」雙過程理論,動態(tài)觸發(fā)推理軌跡生成
  • 理論建模:建立RPT的縮放定律(scaling laws),指導(dǎo)模型高效擴(kuò)展

結(jié)語:推理,才是大模型的「智能內(nèi)核」

從GPT-1到GPT-4,大模型的進(jìn)化史本質(zhì)是「從記憶到推理」的迭代史。RPT的出現(xiàn),標(biāo)志著LLM訓(xùn)練從「參數(shù)堆砌」轉(zhuǎn)向「思維培養(yǎng)」的關(guān)鍵轉(zhuǎn)折——當(dāng)模型在預(yù)訓(xùn)練階段就被要求「講道理」,其在下游任務(wù)中的「智能表現(xiàn)」便不再是偶然的模式匹配,而是內(nèi)在推理能力的自然流露。

正如論文中所言:「RPT通過重新定義預(yù)訓(xùn)練目標(biāo),為LLM注入了更接近人類的思考方式?!乖谕ㄓ萌斯ぶ悄艿恼鞒躺?,這種讓模型「先思考再回答」的訓(xùn)練范式,或許正是打開下一扇大門的鑰匙。

參考資料

論文原文:Reinforcement Pre-Training: A New Scaling Paradigm for Large Language

Models相關(guān)鏈接:微軟研究院通用AI主頁(https://aka.ms/GeneralAI)

本文轉(zhuǎn)載自??智駐未來??,作者:智駐未來

已于2025-6-18 09:37:13修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦