Harvard | RL如何放大pretraining過程中學(xué)到的行為?
今天分享一篇來自 Harvard University 和 Kempner Institute 的文章,標(biāo)題為 Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining (RL后訓(xùn)練放大預(yù)訓(xùn)練中學(xué)到的行為)。
這篇文章旨在系統(tǒng)性地研究強化學(xué)習(xí)(RL)微調(diào)對語言模型行為的影響,特別是其與預(yù)訓(xùn)練數(shù)據(jù)組成、超參數(shù)和模型規(guī)模的相互作用。該研究通過從頭開始訓(xùn)練模型,并使用完全公開的數(shù)據(jù)集混合物進(jìn)行預(yù)訓(xùn)練和RL微調(diào),揭示了RL微調(diào)如何放大預(yù)訓(xùn)練數(shù)據(jù)中的特定模式,并影響模型輸出的分布和性能。
核心發(fā)現(xiàn)是,RL微調(diào)過程會顯著放大模型在預(yù)訓(xùn)練階段學(xué)到的特定行為和輸出模式,如同 “回音室(放大行為)”效應(yīng) ,使得模型輸出趨向于預(yù)訓(xùn)練數(shù)據(jù)中某種主導(dǎo)的分布。這種放大效應(yīng)以及最終模型偏好的輸出模式受到模型規(guī)模和RL超參數(shù)(如KL散列系數(shù))的影響。此外,研究還表明,在相對簡單的問題上進(jìn)行RL后訓(xùn)練,可以提升模型在更難問題上的性能,證明了特定推理能力的泛化性。
該方法特點總結(jié)如下:
1.端到端受控實驗:通過從頭預(yù)訓(xùn)練模型,完全控制預(yù)訓(xùn)練數(shù)據(jù)組成,從而清晰地研究預(yù)訓(xùn)練階段對RL微調(diào)的影響。
2.多因素分析:系統(tǒng)地考察了預(yù)訓(xùn)練數(shù)據(jù)混合、RL算法選擇(PPO, GRPO, EI)、模型規(guī)模(150M, 1B)以及超參數(shù)對模型行為和性能的影響。
3.揭示“回音室”效應(yīng):明確指出RL微調(diào)會放大預(yù)訓(xùn)練中已存在的模式,而非僅僅學(xué)習(xí)新的通用能力。
4.規(guī)模依賴性偏好:發(fā)現(xiàn)不同規(guī)模的模型在RL微調(diào)后可能傾向于預(yù)訓(xùn)練數(shù)據(jù)中不同的主導(dǎo)輸出格式。
5.驗證小規(guī)模代理研究的可行性:證明了在受控環(huán)境下使用中等規(guī)模模型進(jìn)行此類研究可以為理解大型語言模型行為提供有價值的洞見。
一、概述
?Title:Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining
?URL:?? https://arxiv.org/abs/2504.07912??
?Authors:Rosie Zhao, Alexandru Meterez, Sham Kakade, Cengiz Pehlevan, Samy Jelassi, Eran Malach
?Code:?? https://github.com/rosieyzh/openrlhf-pretrain??
?機構(gòu):Harvard University, Kempner Institute
1 Motivation
? 當(dāng)前強化學(xué)習(xí)(RL)微調(diào)已成為提升語言模型在高級數(shù)學(xué)推理和編碼能力的關(guān)鍵步驟,但其底層機制尚不清楚。
? 現(xiàn)有研究缺乏對預(yù)訓(xùn)練數(shù)據(jù)組成、超參數(shù)和模型規(guī)模之間相互作用的控制,這使得難以理解RL微調(diào)的真實效果。許多模型使用的預(yù)訓(xùn)練數(shù)據(jù)是不透明的,加劇了這個問題。
? 需要一項系統(tǒng)性的、端到端的研究,從頭開始訓(xùn)練模型并使用完全開放數(shù)據(jù)集,以清晰地揭示預(yù)訓(xùn)練和RL如何共同塑造模型行為。
2 Methods
省流版總結(jié):
本文通過從頭開始訓(xùn)練不同規(guī)模的語言模型,并使用精心策劃的開放數(shù)據(jù)集混合物進(jìn)行預(yù)訓(xùn)練,然后利用強化學(xué)習(xí)進(jìn)行微調(diào),以系統(tǒng)地研究RL微調(diào)對數(shù)學(xué)推理能力的影響。研究發(fā)現(xiàn)RL微調(diào)會使模型輸出收斂到預(yù)訓(xùn)練數(shù)據(jù)中的一種主導(dǎo)分布,該分布的偏好取決于模型規(guī)模和KL懲罰系數(shù),并且在簡單任務(wù)上的RL微調(diào)能泛化到更困難的任務(wù)。
詳細(xì)方法和步驟:
? 基于OLMo代碼庫構(gòu)建了解碼器-only的語言模型,分別采用150M和1B參數(shù)規(guī)模,并結(jié)合不同的模型寬度與層數(shù)。預(yù)
? 訓(xùn)練階段使用包含F(xiàn)ineMath-3+、Algebraic-Stack、TinyGSM以及多個OpenMathInstruct系列合成數(shù)據(jù)集在內(nèi)的數(shù)學(xué)相關(guān)內(nèi)容進(jìn)行訓(xùn)練,問題與答案以拼接形式組成通用語料庫。
? PPO、GRPO和Expert Iteration等RL算法進(jìn)行微調(diào),重點聚焦于數(shù)學(xué)問答任務(wù)(如GSM8K),并通過可驗證獎勵機制引導(dǎo)模型生成正確答案。微調(diào)過程中還引入KL懲罰以控制探索強度,并通過多次候選生成與監(jiān)督微調(diào)實現(xiàn)迭代優(yōu)化。
? 評估方面,除標(biāo)準(zhǔn)指標(biāo)(pass@1、pass@64、majority@64)外,還考察了模型在未見任務(wù)(如MATH-500、AIME)上的泛化能力,并對生成格式分布、錯誤類型進(jìn)行了定性分析。
? 從輸出分布收斂性、偏好選擇機制、模型規(guī)模影響、RL算法差異、超參數(shù)敏感性等多個維度全面解析了RL微調(diào)對模型行為的影響。
類別 | 內(nèi)容 |
模型架構(gòu)與規(guī)模 | 使用OLMo代碼庫訓(xùn)練解碼器-only語言模型: |
預(yù)訓(xùn)練數(shù)據(jù)集 | 數(shù)學(xué)相關(guān)混合語料: |
預(yù)訓(xùn)練超參數(shù) | AdamW優(yōu)化器,學(xué)習(xí)率=0.001,權(quán)重衰減=0.1 |
強化學(xué)習(xí)微調(diào) | 在預(yù)訓(xùn)練模型上進(jìn)行RL微調(diào): |
評估與分析 | - 指標(biāo):pass@1, pass@64, majority@64 |
實驗分析維度 | - 輸出分布收斂性 |
3 Conclusion
3.1 RL微調(diào)放大預(yù)訓(xùn)練行為,導(dǎo)致輸出收斂到主導(dǎo)分布。
RL微調(diào)會一致性地使模型輸出收斂到預(yù)訓(xùn)練數(shù)據(jù)中一種主導(dǎo)的輸出分布格式,并放大其中的模式,從而顯著提升性能,盡管這可能會降低生成多樣性。
3.1.1 150M模型PPO微調(diào)過程中輸出分布和準(zhǔn)確率變化 (TinyGSM, OMI1, OMI2混合預(yù)訓(xùn)練, 低KL系數(shù))
? 結(jié)論:(左圖)展示了在GSM8K測試集上,模型生成的答案中符合TinyGSM、OMI1和Text (OMI2/自然語言) 格式的百分比隨PPO訓(xùn)練樣本數(shù)的變化。可見模型迅速收斂到TinyGSM格式。
? 結(jié)論:(右圖)展示了對應(yīng)格式的準(zhǔn)確率以及整體pass@1, pass@64, majority@64準(zhǔn)確率。輸出格式的轉(zhuǎn)變與整體準(zhǔn)確率的最大增益同步發(fā)生。majority@64略有提升,而pass@64在訓(xùn)練后期略有下降。
3.1.2 150M模型PPO微調(diào) (與上圖Figure 2相同預(yù)訓(xùn)練模型, 但使用更高KL系數(shù))
? 總結(jié):在更高的KL系數(shù)(0.01 vs 0.001)下,模型仍然主要輸出TinyGSM格式,但也保留了一部分OpenMathInstruct2格式的輸出。最終pass@1準(zhǔn)確率與低KL系數(shù)時相近。
3.1.3 150M模型PPO微調(diào) (TinyGSM + 不同比例OpenMathInstruct1混合預(yù)訓(xùn)練)
? 總結(jié):(a) 當(dāng)預(yù)訓(xùn)練集包含4倍OpenMathInstruct1時,模型初始生成更多OMI1格式答案,但PPO微調(diào)后迅速轉(zhuǎn)向TinyGSM格式。
? 總結(jié):(b) 當(dāng)OpenMathInstruct1比例增加到8倍時,模型在RL微調(diào)后轉(zhuǎn)向輸出OMI1格式,但整體準(zhǔn)確率下降。表明RL微調(diào)并非總是選擇初始最常見或性能最佳的分布,結(jié)果是復(fù)雜的。
3.1.4 不同TinyGSM預(yù)訓(xùn)練數(shù)據(jù)量對150M模型PPO微調(diào)后性能的影響
? 總結(jié):(左圖)展示了在預(yù)訓(xùn)練混合數(shù)據(jù)中包含不同數(shù)量TinyGSM(1x, 2x, 4x, 8x)的150M模型,在PPO微調(diào)后,GSM8K測試集上的最高pass@1, pass@64, majority@64準(zhǔn)確率。預(yù)訓(xùn)練中TinyGSM越多,RL微調(diào)后各項準(zhǔn)確率越高。
? 總結(jié):(右圖)展示了這些模型在PPO微調(diào)過程中的pass@1準(zhǔn)確率曲線,TinyGSM預(yù)訓(xùn)練數(shù)據(jù)量越大的模型,微調(diào)帶來的性能增益也越大。
3.2 模型規(guī)模影響主導(dǎo)輸出分布的偏好。
較小的模型傾向于生成更簡單的代碼式格式(如TinyGSM),而較大的模型則轉(zhuǎn)向自然語言輸出(如OpenMathInstruct2)。這種放大程度還取決于KL懲罰系數(shù)的設(shè)置。
?說明: 1B模型PPO微調(diào)過程中輸出分布和準(zhǔn)確率變化 (TinyGSM, OMI1, OMI2混合預(yù)訓(xùn)練)
? 總結(jié):與Figure 2中的150M模型不同,1B模型在相同的預(yù)訓(xùn)練數(shù)據(jù)和PPO微調(diào)后,放大了自然語言(OMI2)格式的解決方案,盡管在初始化時自然語言的生成比例最低,且TinyGSM可能是性能更優(yōu)的分布。這表明模型規(guī)模會影響RL微調(diào)后偏好的輸出分布。
3.3 RL微調(diào)可以帶來正向遷移,提升模型在困難任務(wù)上的表現(xiàn)。
在像GSM8K這樣簡單數(shù)據(jù)集上進(jìn)行的RL后訓(xùn)練,可以提升模型在MATH等更困難數(shù)學(xué)數(shù)據(jù)集上的性能,這表明某些推理能力可以跨任務(wù)泛化。
?說明: 1B模型在GSM8K上PPO微調(diào)前后在MATH-500上的性能
? 總結(jié):展示了不同預(yù)訓(xùn)練數(shù)據(jù)混合的1B模型,在使用GSM8K訓(xùn)練問題進(jìn)行PPO微調(diào)前后,在MATH-500測試集上的pass@1和majority@64性能。結(jié)果顯示微調(diào)后性能均有一致性提升,表明RL微調(diào)不僅改進(jìn)輸出格式,也增強了通用數(shù)學(xué)能力。預(yù)訓(xùn)練數(shù)據(jù)中包含與下游任務(wù)結(jié)構(gòu)相似數(shù)據(jù)(如OpenMathInstruct數(shù)據(jù)集之于MATH)的模型提升更明顯。
4 Limitation
- 數(shù)據(jù)混合的復(fù)雜性與泛化:當(dāng)前研究主要集中于數(shù)學(xué)推理領(lǐng)域的數(shù)據(jù)集。未來工作需要探索結(jié)果是否能泛化到更復(fù)雜的數(shù)據(jù)混合,例如包含多語言數(shù)據(jù)的情況。
- 最優(yōu)預(yù)訓(xùn)練混合的探索:文章并未明確指出是否存在一種“最優(yōu)”的預(yù)訓(xùn)練數(shù)據(jù)混合,能夠?qū)崿F(xiàn)最佳的下游推理性能,以及這種混合如何隨模型規(guī)模變化。
- RL算法的局限性:Expert Iteration(EI)方法在當(dāng)前設(shè)置中表現(xiàn)持續(xù)遜于PPO,并且向主導(dǎo)格式的轉(zhuǎn)變速度較慢,這可能與重復(fù)從原始基礎(chǔ)模型進(jìn)行微調(diào)有關(guān)。GRPO算法穩(wěn)定性不如PPO,有時會經(jīng)歷性能短暫崩潰,這需要進(jìn)一步研究不同RL算法及其設(shè)計選擇對模型行為的影響。
- 評估泛化性的挑戰(zhàn):盡管在MATH-500上觀察到性能提升,但在AIME等更具挑戰(zhàn)性的OOD(Out-of-Distribution)數(shù)據(jù)集上,性能提升有限,尤其是在2022-2024年AIME基準(zhǔn)測試中,這表明數(shù)據(jù)相似性對遷移至關(guān)重要。
- 預(yù)訓(xùn)練數(shù)據(jù)透明度問題:文章強調(diào)現(xiàn)有文獻(xiàn)中對預(yù)訓(xùn)練模型的依賴是一個主要混淆因素,因為許多預(yù)訓(xùn)練數(shù)據(jù)集是不公開的。雖然本文通過從頭開始使用公開數(shù)據(jù)集來解決這個問題,但其發(fā)現(xiàn)可能不完全適用于那些基于大規(guī)模專有數(shù)據(jù)集預(yù)訓(xùn)練的模型。
三、總結(jié)
結(jié)論1: RL微調(diào)通過“回音室”效應(yīng)放大預(yù)訓(xùn)練行為,使模型輸出收斂到預(yù)訓(xùn)練數(shù)據(jù)中一種主導(dǎo)的格式。 這種效應(yīng)在不同預(yù)訓(xùn)練數(shù)據(jù)混合中一致出現(xiàn),即模型在RL微調(diào)后迅速且一致地收斂到生成一種特定的輸出格式,該格式通常與性能提升同時發(fā)生。這揭示了RL不僅僅是簡單地教導(dǎo)模型如何解決問題,更在于塑造模型以特定方式生成答案。
結(jié)論2: 模型規(guī)模和RL超參數(shù)(特別是KL懲罰系數(shù))共同影響RL微調(diào)后模型對輸出分布的偏好和放大程度。 較小模型(如150M參數(shù))傾向于更簡單的代碼式輸出,而較大模型(如1B參數(shù))則更傾向于自然語言輸出。KL懲罰系數(shù)的增加可以保留一定程度的輸出多樣性,避免完全收斂到單一格式,但最終性能可能與更強的收斂性相似。
結(jié)論3: 在較簡單數(shù)據(jù)集(如GSM8K)上的RL后訓(xùn)練,能帶來對更困難數(shù)學(xué)數(shù)據(jù)集(如MATH)的性能提升,表明推理能力可以跨任務(wù)泛化。 這種正向遷移現(xiàn)象強調(diào)了RL微調(diào)不僅僅是特定任務(wù)的過擬合,而是能夠提升模型更通用的推理能力。同時,研究發(fā)現(xiàn)預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)的數(shù)據(jù)相似性對于這種泛化效果至關(guān)重要。
結(jié)論4: 本文通過從頭開始的受控實驗,為理解RL在塑造語言模型行為方面的科學(xué)作用提供了有價值的見解。 傳統(tǒng)上,許多RLHF研究依賴于不透明的預(yù)訓(xùn)練模型,使得難以分離RL的真實影響。本文的受控設(shè)置(從頭訓(xùn)練和使用公開數(shù)據(jù)集)克服了這一限制,為未來的研究提供了清晰的實驗框架。通過小規(guī)模代理實驗,可以有效地探索RL微調(diào)的復(fù)雜機制,這對于學(xué)術(shù)界和工業(yè)界深入理解和優(yōu)化大型語言模型至關(guān)重要。
本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly
