RLPT:用強化學習“重讀”預(yù)訓練數(shù)據(jù),讓大模型學會思考

大家好,我是肆〇柒。今天要和大家分享的是一項來自騰訊大模型部門(LLM Department, Tencent) 與香港中文大學合作的前沿研究——RLPT(Reinforcement Learning on Pre-Training Data)。面對高質(zhì)量數(shù)據(jù)增長見頂、計算資源持續(xù)膨脹的矛盾,這項工作提出了一種全新的訓練范式:讓大模型在原始預(yù)訓練數(shù)據(jù)上通過強化學習自主探索推理路徑,從而突破傳統(tǒng)監(jiān)督學習的泛化瓶頸。這不僅是一次技術(shù)升級,更是一場從“死記硬背”到“主動思考”的認知革命。
預(yù)訓練范式的瓶頸與突破
想象一下:一個學生反復研讀數(shù)學教材,卻只能死記硬背例題答案,無法掌握解題精髓。如今的大語言模型(LLM)訓練也遭遇類似瓶頸。計算資源呈指數(shù)級飆升,而優(yōu)質(zhì)文本數(shù)據(jù)的增長卻極為有限,二者間差距日益顯著,這嚴重制約了傳統(tǒng)擴展方法的效能。傳統(tǒng)依賴監(jiān)督學習的預(yù)訓練方式,正陷入“死記硬背”的困境,難以培育出深層次的推理能力。
研究表明,在NTP范式下的監(jiān)督微調(diào)(SFT)往往促使模型進行表面級的記憶,而不是培養(yǎng)通過強化學習(RL)能夠?qū)崿F(xiàn)的更深層次的泛化能力。這意味著模型可能記住了“2+2=4”這樣的事實,卻無法理解加法的本質(zhì),更無法解決“2+3=?”這樣的新問題。這種局限性在復雜推理任務(wù)中尤為明顯——當面對需要多步推理的數(shù)學問題時,傳統(tǒng)訓練的模型往往只能給出最終答案,而無法展示解題過程。
RLPT(Reinforcement Learning on Pre-Training data)應(yīng)運而生,它通過讓模型"預(yù)測下一片段"而非"預(yù)測下一個token",引導模型主動探索數(shù)據(jù)中的隱含推理過程。這就像從讓學生死記硬背答案,轉(zhuǎn)變?yōu)橐髮W生展示解題步驟,從而培養(yǎng)真正的理解能力。RLPT不僅解決了數(shù)據(jù)稀缺問題,還為模型能力的持續(xù)提升開辟了新路徑,使訓練性能能夠隨著計算資源的增加而持續(xù)改善。
RLPT:超越監(jiān)督學習的訓練新范式
RLPT的核心思想是讓模型像人類學習一樣,通過預(yù)測"下一片段"來理解數(shù)據(jù)中的推理邏輯。考慮一個簡單的數(shù)學問題:計算函數(shù) 在區(qū)間 上的傅里葉變換。傳統(tǒng)預(yù)訓練模型可能直接輸出答案:"傅里葉變換為 ",但這種記憶式學習無法應(yīng)對稍有變化的問題。
而RLPT則要求模型展示完整的推理過程。論文中提供了一個生動的思維過程示例:

這種"step by step"的思考方式,正是RLPT的核心價值所在——它迫使模型不僅知道"是什么",還要理解"為什么"和"怎么做"。
RLPT與現(xiàn)有方法的本質(zhì)區(qū)別在于其自監(jiān)督獎勵機制。RLHF(Reinforcement Learning from Human Feedback)和RLVR(Reinforcement Learning with Verifiable Rewards)都需要人類標注或驗證,而RLPT直接從原始預(yù)訓練數(shù)據(jù)中獲取獎勵信號。這種設(shè)計使RLPT能夠擴展到海量預(yù)訓練數(shù)據(jù),突破了人類標注的瓶頸。
從token級預(yù)測到segment級推理的目標升級,是RLPT的革命性突破。傳統(tǒng)預(yù)訓練關(guān)注下一個token的預(yù)測(如預(yù)測"4"作為"2+2="的后續(xù)),而RLPT關(guān)注更高級別的語義單元——文本片段(segment),如完整的推理步驟:"首先,將積分范圍限制在[-a, a]內(nèi);然后,將指數(shù)函數(shù)拆分為余弦和正弦部分;接下來,計算余弦積分..."。這種轉(zhuǎn)變使模型能夠捕捉文本中更豐富的語義結(jié)構(gòu),培養(yǎng)更深層次的推理能力。
強化學習為何能夠促進模型挖掘數(shù)據(jù)背后的隱含推理過程?強化學習的關(guān)鍵優(yōu)勢在于它能夠生成中間推理內(nèi)容,揭示數(shù)據(jù)構(gòu)建中潛在的思維過程。正如材料所述:“強化學習使模型能夠揭示數(shù)據(jù)背后的潛在推理過程,這可以被視為在下游性能中反映出來的深思熟慮的思維的一種壓縮形式?!蓖瑫r,強化學習利用自身的探索軌跡進行訓練,保持與原始策略分布的接近性,從而培養(yǎng)出更強的泛化能力。
從訓練時擴展視角看,RLPT代表了一種全新的計算資源利用方式。傳統(tǒng)方法通過擴大模型規(guī)模或擴展預(yù)訓練數(shù)據(jù)來減少預(yù)測損失,而RLPT則讓模型自主探索和學習大規(guī)模預(yù)訓練語料庫。這種從"被動記憶"到"主動思考"的轉(zhuǎn)變,使模型能夠從相同數(shù)據(jù)中提取更深層次的知識,實現(xiàn)訓練效率的質(zhì)的飛躍。
技術(shù)創(chuàng)新:RLPT的架構(gòu)設(shè)計


RLPT系統(tǒng)架構(gòu)
上圖清晰展示了RLPT的完整工作流程:從原始預(yù)訓練數(shù)據(jù)出發(fā),經(jīng)過數(shù)據(jù)準備階段,分割為語義連貫的片段序列,然后通過策略模型進行ASR和MSR任務(wù)的預(yù)測,最后由生成式獎勵模型評估預(yù)測片段與參考文本的語義一致性。
RLPT包含兩個關(guān)鍵任務(wù):自回歸片段推理(Autoregressive Segment Reasoning, ASR)和中間片段推理(Middle Segment Reasoning, MSR)。

Complete the text provided under### Context by predicting the next most probable sentence. Please reason step by step to determine the best possible continuation, and then enclose your final answer within<|startofprediction|> and<|endofprediction|> tags. ### Context{context}
這種設(shè)計不僅要求模型預(yù)測下一個句子,還強制其進行"step by step"的思考過程,模擬人類解題時的思維路徑。例如,在解決傅里葉變換問題時,模型不會直接跳到最終答案,而是逐步推導:先定義積分范圍,再拆分指數(shù)函數(shù),然后分別計算余弦和正弦積分...

##Text Material##: {prompt}
<MASK>{next_step} ## Task##: Fill in the<MASK>section of the material with appropriate sentences or a solution step. Carefully reason step by step to determine the most suitable completion.
這種任務(wù)特別適用于代碼補全或需要上下文理解的場景,如"已知三角形兩邊長分別為3和4,<MASK>,求第三邊長度",模型需要根據(jù)后續(xù)提示"且夾角為90度"來推斷中間缺失的推理步驟。
生成式獎勵模型通過評估預(yù)測片段與參考文本的語義一致性來計算獎勵。最初的嚴格獎勵機制要求預(yù)測片段必須與真實片段傳達完全相同的語義內(nèi)容,但這種方法過于僵化。論文中指出:“我們觀察到,該模型經(jīng)常生成包含多個真實片段的輸出,這主要是由于基于句子的分割導致信息分布不均勻:有些句子只包含一個公式,而另一些句子可能涵蓋了子問題的完整解決方案?!?/span>

嚴格獎勵與前綴獎勵對比
上圖直觀展示了獎勵機制演進的關(guān)鍵優(yōu)勢:(a)前綴獎勵提供了更穩(wěn)定、更高的訓練獎勵信號;(b)前綴獎勵機制自然引導模型生成更長的響應(yīng)(從約200 tokens增加到500+ tokens);(c)更重要的是,響應(yīng)長度的增加直接轉(zhuǎn)化為驗證性能的提升(Pass@1從約0.45提升至0.50)。
讓我們具體理解為什么前綴獎勵如此關(guān)鍵??紤]一個數(shù)學問題的上下文:"已知圓的半徑為r,面積公式為
。"
- 真實后續(xù)片段1:"首先,我們需要計算圓的面積。"
- 真實后續(xù)片段2:"然后,確定半徑的值。"
如果模型預(yù)測:"首先,我們需要計算圓的面積,然后確定半徑的值。",嚴格獎勵會判定為失敗,因為預(yù)測片段包含了兩個真實片段的內(nèi)容。但前綴獎勵會識別出預(yù)測片段包含了正確前綴,從而給予正向反饋。
這種機制解決了句子間信息密度不均的挑戰(zhàn),使模型能夠生成更連貫、更豐富的推理過程,而不是被強制切割成機械的單句預(yù)測。正如上圖(c)所示,這種更自然的推理過程直接轉(zhuǎn)化為下游任務(wù)性能的提升。
實現(xiàn)細節(jié):從理論到實踐的挑戰(zhàn)
理解了RLPT的架構(gòu)設(shè)計后,接下來將探討如何將這一理論框架轉(zhuǎn)化為實際可行的訓練方案。實現(xiàn)RLPT面臨多重技術(shù)挑戰(zhàn),其中冷啟動問題和訓練穩(wěn)定性尤為關(guān)鍵。
RLPT的實施面臨多個技術(shù)挑戰(zhàn),其中冷啟動問題尤為關(guān)鍵。由于RLPT需要模型具備一定的指令遵循能力才能啟動next-segment reasoning,研究者首先進行監(jiān)督微調(diào)(SFT)階段,使用批量大小1024、學習率2×10??(余弦調(diào)度器)訓練3個周期,為后續(xù)強化學習奠定基礎(chǔ)。
數(shù)據(jù)準備流程包含三重保障機制:(i)基于MinHash的近似去重,(ii)個人身份信息(PII)檢測與掩碼,(iii)針對所有開發(fā)和評估集的污染去除。其中,基于規(guī)則的階段消除明顯不適合語言模型訓練的內(nèi)容,而基于模型的階段則使用指令調(diào)優(yōu)的語言模型進行更細粒度的質(zhì)量評估。這種雙重過濾機制確保了訓練數(shù)據(jù)的高質(zhì)量,為RLPT的有效性提供了堅實基礎(chǔ)。
在訓練策略上,RLPT通過超參數(shù)λ平衡ASR和MSR的貢獻,訓練目標定義為:

其中λ∈(0,1)可根據(jù)特定下游應(yīng)用需求調(diào)整。實驗中采用批量大小512、最大響應(yīng)長度8192、恒定學習率1×10??。對每個提示詞,以溫度1.0采樣8個輸出,使用on-policy GRPO(Generalized Reinforcement Policy Optimization)進行優(yōu)化,無需KL正則化。

獎勵機制的演進是解決訓練穩(wěn)定性問題的關(guān)鍵。從嚴格匹配到前綴獎勵的轉(zhuǎn)變,不僅避免了因句子信息密度不均導致的訓練中斷,還自然引導模型生成更長、信息更豐富的響應(yīng)。上圖(b)顯示,前綴獎勵促使模型生成的響應(yīng)長度顯著增加,這與上圖(c)中驗證性能的提升密切相關(guān),表明更豐富的推理過程確實帶來了更好的下游任務(wù)表現(xiàn)。
值得一提的是,RLPT在實現(xiàn)中定義片段單元默認為句子級別,雖然研究者也嘗試了使用LLM提取文本中集成的原子步驟作為分割單元,但初步研究表明句子級分割已能有效工作。這種實用主義的設(shè)計選擇避免了過度復雜化,使RLPT能夠在保持效果的同時易于實現(xiàn)。
實驗驗證:量化分析與洞見
RLPT在通用領(lǐng)域和數(shù)學推理任務(wù)上均展現(xiàn)出顯著優(yōu)勢。在通用領(lǐng)域任務(wù)中,研究者使用MMLU、MMLU-Pro、GPQA-Diamond、SuperGPQA和KOR-Bench等基準進行評估。結(jié)果顯示,當應(yīng)用于Qwen3-4B-Base模型時,RLPT在MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench上分別帶來3.0、5.1、8.1和6.0的絕對提升。
這些數(shù)字背后的實際意義是什么?以MMLU為例,它包含57個學科領(lǐng)域的多項選擇題,涵蓋STEM、人文、社會科學等。3.0的提升意味著模型在這些廣泛領(lǐng)域的知識應(yīng)用能力顯著增強——原本100道題能答對65道,現(xiàn)在能答對68道。在專業(yè)領(lǐng)域如GPQA-Diamond(研究生級物理、化學和生物學問題)上8.1的提升更為驚人,這相當于將模型從"勉強通過資格考試"提升到"能夠進行獨立研究"的水平。
在數(shù)學推理任務(wù)方面,RLPT在MATH-500、AMC23、Minerva Math和AIME24/25等挑戰(zhàn)性數(shù)據(jù)集上取得突破性進展。表中展示了基于Qwen3-4B-Base模型的詳細結(jié)果,使用64個樣本每提示詞的設(shè)置。

數(shù)學推理基準上的性能表現(xiàn)
上表展示了RLPT在多個數(shù)學推理基準上的顯著提升。特別值得注意的是AIME24和AIME25數(shù)據(jù)集上的表現(xiàn):Pass@1指標分別提升了6.6和5.3個百分點,而Pass@8指標的提升更為顯著(分別提升10.9和9.1個百分點)。
AIME(美國數(shù)學邀請賽)是高中數(shù)學競賽的最高水平之一,難度遠超普通數(shù)學課程。Pass@1提升6.6個百分點意味著:原本在15道題中只能正確解答約2.3道(15.3%),現(xiàn)在能解答約3.3道(21.9%)。雖然絕對數(shù)量看似不大,但在這種高難度競賽中,每多解對一道題都可能決定能否進入下一輪比賽。Pass@8指標的更大提升(10.9個百分點)表明RLPT不僅提高了模型生成正確答案的概率,還增強了其探索多種解題路徑的能力,這對解決復雜問題至關(guān)重要。
擴展性分析揭示了RLPT的另一大優(yōu)勢:訓練性能與計算資源之間存在明顯的冪律關(guān)系。圖1展示了隨著訓練token數(shù)量增加,模型在多個基準上的性能提升。

訓練token與性能的冪律關(guān)系
上圖揭示了一個關(guān)鍵發(fā)現(xiàn):隨著訓練token數(shù)量增加,模型性能遵循清晰的冪律關(guān)系。以MMLU為例,其性能可精確表示為
,其中x為訓練tokens數(shù)量(單位:10^9)。這種可預(yù)測的擴展行為表明,RLPT具有明確的持續(xù)改進路徑——只要增加計算資源,性能就能按預(yù)期規(guī)律提升。
思維過程分析進一步揭示了RLPT的工作機制。研究者提供了一個示例,展示了模型如何通過結(jié)構(gòu)化序列處理next-segment reasoning任務(wù):首先抽象先前上下文以捕捉整體流程,然后確定后續(xù)步驟,形成候選延續(xù),驗證其合理性,探索替代可能性,必要時進行回溯,最終產(chǎn)生最終答案。這種結(jié)構(gòu)化軌跡與LLM在復雜問題解決中表現(xiàn)出的多步推理策略一致,解釋了RLPT的有效性。
與SFT的對比實驗表明,RLPT在泛化能力上具有明顯優(yōu)勢。研究表明,監(jiān)督微調(diào)往往促進表層記憶而非深度泛化能力,而RLPT通過自主探索有意義的軌跡,培養(yǎng)了更強的泛化能力。RLPT與SFT代表了兩種截然不同的學習范式:探索vs記憶。監(jiān)督學習促使模型記憶輸入-輸出對,而RLPT鼓勵模型探索多種可能的推理路徑,選擇那些能產(chǎn)生與參考文本語義一致的響應(yīng)。這種探索過程模擬了人類學習中的"思考-驗證-修正"循環(huán),使模型能夠發(fā)展出更穩(wěn)健的推理能力。
此外,RLPT為后續(xù)的RLVR(Reinforcement Learning with Verifiable Rewards)提供了堅實基礎(chǔ),進一步擴展了LLM的推理邊界。當RLPT與RLVR結(jié)合時,在AIME24和AIME25上的Pass@1分別達到29.9%和29.0%,顯著優(yōu)于單獨使用RLVR的結(jié)果。這種組合策略充分利用了兩種方法的優(yōu)勢:RLPT提供廣泛的推理能力基礎(chǔ),而RLVR則針對特定任務(wù)進行精細優(yōu)化。
深層討論:RLPT的理論意義
RLPT為何能更好地挖掘預(yù)訓練數(shù)據(jù)的價值?關(guān)鍵在于它能夠揭示數(shù)據(jù)構(gòu)建中潛在的思維過程。通過生成中間推理內(nèi)容,RLPT不僅增強了原始數(shù)據(jù),還支持更高效的數(shù)據(jù)學習。這種機制使模型能夠從相同數(shù)據(jù)中提取更深層次的知識,突破了傳統(tǒng)監(jiān)督學習的表層記憶局限。
從本質(zhì)上講,RLPT與監(jiān)督微調(diào)代表了兩種截然不同的學習范式:探索vs記憶。監(jiān)督學習促使模型記憶輸入-輸出對,而RLPT鼓勵模型探索多種可能的推理路徑,選擇那些能產(chǎn)生與參考文本語義一致的響應(yīng)。這種探索過程模擬了人類學習中的"思考-驗證-修正"循環(huán),使模型能夠發(fā)展出更穩(wěn)健的推理能力。
RLPT為RLVR提供了理想的訓練基礎(chǔ)。研究表明,當RLPT作為RLVR的預(yù)訓練階段時,模型在數(shù)學推理任務(wù)上的表現(xiàn)進一步提升。這表明RLPT培養(yǎng)的基礎(chǔ)推理能力可以被更專業(yè)的獎勵機制進一步精煉,形成能力提升的層次遞進效應(yīng)。這種組合策略充分利用了兩種方法的優(yōu)勢:RLPT提供廣泛的推理能力基礎(chǔ),而RLVR則針對特定任務(wù)進行精細優(yōu)化。
從數(shù)據(jù)效率視角看,RLPT顯著提升了訓練數(shù)據(jù)的利用效率。通過讓模型主動探索和驗證其推理過程,相同數(shù)量的預(yù)訓練數(shù)據(jù)能夠產(chǎn)生更多的學習信號。研究表明,RLPT生成的推理軌跡比原始文本包含更豐富的語義信息,使模型能夠從更少的數(shù)據(jù)中學習到更復雜的推理模式。
RLPT保持與原始策略分布的接近性,這也是其增強泛化能力的關(guān)鍵因素。與依賴人類標注的方法不同,RLPT的獎勵信號直接來自預(yù)訓練數(shù)據(jù)本身,從而確保策略更新不會過度偏離原始分布。這種接近性使模型能夠保留預(yù)訓練階段獲得的廣泛知識,同時增強其推理能力,避免了“災(zāi)難性遺忘”問題。
RLPT的發(fā)展方向
盡管RLPT已取得顯著成果,但其發(fā)展仍有廣闊空間。在片段分割策略方面,目前主要采用基于NLTK的句子級分割,但研究者已進行初步嘗試,探索使用LLM提取文本中集成的原子步驟作為分割單元。雖然這些方法尚未顯示出比句子級分割的明顯優(yōu)勢,但更精細的分割策略可能進一步提升RLPT的效果。
與測試時擴展方法的協(xié)同是另一個有前景的方向。測試時擴展通過在推理過程中分配更多計算資源(如生成更長的推理鏈)來提升性能,而RLPT則在訓練時擴展模型能力。這兩種方法可能產(chǎn)生互補效應(yīng):RLPT訓練的模型可能更有效地利用測試時擴展,從而實現(xiàn)性能的進一步提升。例如,RLPT訓練的模型在進行思維鏈推理時,可能更少出現(xiàn)邏輯跳躍,從而從更長的推理鏈中獲得更多收益。
探索其他自監(jiān)督RL目標也是未來研究的重要方向。當前的next-segment reasoning關(guān)注文本片段的預(yù)測,但可能還有其他有價值的自監(jiān)督信號,如邏輯一致性、多步推理連貫性等。這些新目標可能進一步豐富RLPT的學習信號,提升模型的推理能力。
RLPT在不同規(guī)模模型上的適應(yīng)性與可擴展性值得關(guān)注。雖然目前實驗主要集中在中等規(guī)模模型(如Qwen3-4B)上,但研究者推測RLPT的效果可能隨模型規(guī)模增大而增強。探索RLPT在超大規(guī)模模型上的表現(xiàn),以及如何針對不同規(guī)模模型調(diào)整訓練策略,將是未來研究的重要課題。
獎勵模型設(shè)計仍有優(yōu)化空間。當前的前綴獎勵機制已顯著優(yōu)于嚴格匹配,但更精細的獎勵設(shè)計(如考慮推理步驟的邏輯連貫性、創(chuàng)新性等)可能進一步提升RLPT的效果。此外,動態(tài)調(diào)整獎勵權(quán)重以適應(yīng)不同訓練階段的需求,也是值得探索的方向。
總結(jié):訓練范式的根本性轉(zhuǎn)變
RLPT代表了大模型訓練范式的根本性轉(zhuǎn)變:從被動學習到主動探索。這種轉(zhuǎn)變不僅解決了高質(zhì)量數(shù)據(jù)有限增長的瓶頸,還為模型能力的持續(xù)提升開辟了新路徑。通過在預(yù)訓練數(shù)據(jù)上進行強化學習,RLPT使模型能夠挖掘數(shù)據(jù)背后的隱含推理過程,從而培養(yǎng)更深層次的泛化能力。
RLPT對模型能力邊界的拓展意義深遠。它不僅在多個基準測試上取得顯著提升,還展示了與計算資源的良好擴展性,預(yù)示著隨著更多計算資源的投入,模型能力有望持續(xù)增強。更重要的是,RLPT為后續(xù)的RLVR提供了堅實基礎(chǔ),進一步擴展了LLM的推理邊界。
通向更強大、更通用AI的新路徑已在RLPT的指引下顯現(xiàn)。通過讓模型自主探索有意義的推理軌跡,RLPT使LLM能夠發(fā)展出更接近人類的思維模式,這種能力對于解決復雜問題、進行創(chuàng)造性思考至關(guān)重要。RLPT所展示的訓練時擴展新范式,為大模型的發(fā)展提供了可持續(xù)的方向。
讓我們回到文章開頭的比喻:RLPT就像是教會學生如何思考,而非僅僅記憶答案。在計算資源持續(xù)增長而數(shù)據(jù)資源相對有限的未來,這種從"記憶"到"思考"的轉(zhuǎn)變,不僅將推動技術(shù)進步,還可能深刻影響我們理解和構(gòu)建智能系統(tǒng)的方式。RLPT所代表的主動探索范式,或許正是解鎖下一代AI潛力的關(guān)鍵。





































