偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Harvard | RL如何放大pretraining過程中學(xué)到的行為?

發(fā)布于 2025-5-30 06:03
瀏覽
0收藏

今天分享一篇來自 Harvard University 和 Kempner Institute 的文章,標(biāo)題為 Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining (RL后訓(xùn)練放大預(yù)訓(xùn)練中學(xué)到的行為)。

這篇文章旨在系統(tǒng)性地研究強化學(xué)習(xí)(RL)微調(diào)對語言模型行為的影響,特別是其與預(yù)訓(xùn)練數(shù)據(jù)組成、超參數(shù)和模型規(guī)模的相互作用。該研究通過從頭開始訓(xùn)練模型,并使用完全公開的數(shù)據(jù)集混合物進(jìn)行預(yù)訓(xùn)練和RL微調(diào),揭示了RL微調(diào)如何放大預(yù)訓(xùn)練數(shù)據(jù)中的特定模式,并影響模型輸出的分布和性能。

核心發(fā)現(xiàn)是,RL微調(diào)過程會顯著放大模型在預(yù)訓(xùn)練階段學(xué)到的特定行為和輸出模式,如同 “回音室(放大行為)”效應(yīng) ,使得模型輸出趨向于預(yù)訓(xùn)練數(shù)據(jù)中某種主導(dǎo)的分布。這種放大效應(yīng)以及最終模型偏好的輸出模式受到模型規(guī)模和RL超參數(shù)(如KL散列系數(shù))的影響。此外,研究還表明,在相對簡單的問題上進(jìn)行RL后訓(xùn)練,可以提升模型在更難問題上的性能,證明了特定推理能力的泛化性。

該方法特點總結(jié)如下:

1.端到端受控實驗:通過從頭預(yù)訓(xùn)練模型,完全控制預(yù)訓(xùn)練數(shù)據(jù)組成,從而清晰地研究預(yù)訓(xùn)練階段對RL微調(diào)的影響。

2.多因素分析:系統(tǒng)地考察了預(yù)訓(xùn)練數(shù)據(jù)混合、RL算法選擇(PPO, GRPO, EI)、模型規(guī)模(150M, 1B)以及超參數(shù)對模型行為和性能的影響。

3.揭示“回音室”效應(yīng):明確指出RL微調(diào)會放大預(yù)訓(xùn)練中已存在的模式,而非僅僅學(xué)習(xí)新的通用能力

4.規(guī)模依賴性偏好:發(fā)現(xiàn)不同規(guī)模的模型在RL微調(diào)后可能傾向于預(yù)訓(xùn)練數(shù)據(jù)中不同的主導(dǎo)輸出格式。

5.驗證小規(guī)模代理研究的可行性:證明了在受控環(huán)境下使用中等規(guī)模模型進(jìn)行此類研究可以為理解大型語言模型行為提供有價值的洞見。

一、概述

?Title:Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

?URL:?? https://arxiv.org/abs/2504.07912??

?Authors:Rosie Zhao, Alexandru Meterez, Sham Kakade, Cengiz Pehlevan, Samy Jelassi, Eran Malach

?Code:?? https://github.com/rosieyzh/openrlhf-pretrain??

?機構(gòu):Harvard University, Kempner Institute

1 Motivation

? 當(dāng)前強化學(xué)習(xí)(RL)微調(diào)已成為提升語言模型在高級數(shù)學(xué)推理和編碼能力的關(guān)鍵步驟,但其底層機制尚不清楚

? 現(xiàn)有研究缺乏對預(yù)訓(xùn)練數(shù)據(jù)組成、超參數(shù)和模型規(guī)模之間相互作用的控制,這使得難以理解RL微調(diào)的真實效果。許多模型使用的預(yù)訓(xùn)練數(shù)據(jù)是不透明的,加劇了這個問題。

? 需要一項系統(tǒng)性的、端到端的研究,從頭開始訓(xùn)練模型并使用完全開放數(shù)據(jù)集,以清晰地揭示預(yù)訓(xùn)練和RL如何共同塑造模型行為。

2 Methods

省流版總結(jié):

本文通過從頭開始訓(xùn)練不同規(guī)模的語言模型,并使用精心策劃的開放數(shù)據(jù)集混合物進(jìn)行預(yù)訓(xùn)練,然后利用強化學(xué)習(xí)進(jìn)行微調(diào),以系統(tǒng)地研究RL微調(diào)對數(shù)學(xué)推理能力的影響。研究發(fā)現(xiàn)RL微調(diào)會使模型輸出收斂到預(yù)訓(xùn)練數(shù)據(jù)中的一種主導(dǎo)分布,該分布的偏好取決于模型規(guī)模和KL懲罰系數(shù),并且在簡單任務(wù)上的RL微調(diào)能泛化到更困難的任務(wù)。


Harvard | RL如何放大pretraining過程中學(xué)到的行為?-AI.x社區(qū)

詳細(xì)方法和步驟:

? 基于OLMo代碼庫構(gòu)建了解碼器-only的語言模型,分別采用150M和1B參數(shù)規(guī)模,并結(jié)合不同的模型寬度與層數(shù)。預(yù)

? 訓(xùn)練階段使用包含F(xiàn)ineMath-3+、Algebraic-Stack、TinyGSM以及多個OpenMathInstruct系列合成數(shù)據(jù)集在內(nèi)的數(shù)學(xué)相關(guān)內(nèi)容進(jìn)行訓(xùn)練,問題與答案以拼接形式組成通用語料庫。

? PPO、GRPO和Expert Iteration等RL算法進(jìn)行微調(diào),重點聚焦于數(shù)學(xué)問答任務(wù)(如GSM8K),并通過可驗證獎勵機制引導(dǎo)模型生成正確答案。微調(diào)過程中還引入KL懲罰以控制探索強度,并通過多次候選生成與監(jiān)督微調(diào)實現(xiàn)迭代優(yōu)化。

? 評估方面,除標(biāo)準(zhǔn)指標(biāo)(pass@1、pass@64、majority@64)外,還考察了模型在未見任務(wù)(如MATH-500、AIME)上的泛化能力,并對生成格式分布、錯誤類型進(jìn)行了定性分析。

? 從輸出分布收斂性、偏好選擇機制、模型規(guī)模影響、RL算法差異、超參數(shù)敏感性等多個維度全面解析了RL微調(diào)對模型行為的影響。

類別

內(nèi)容

模型架構(gòu)與規(guī)模

使用OLMo代碼庫訓(xùn)練解碼器-only語言模型:
- 參數(shù)量:150M、1B
- 模型寬度:768、2048
- 層數(shù):12、16
- MLP隱藏維度 = 寬度 × 8,SwiGLU激活函數(shù),ROPE位置編碼

預(yù)訓(xùn)練數(shù)據(jù)集

數(shù)學(xué)相關(guān)混合語料:
- FineMath-3+、Algebraic-Stack(文檔式數(shù)學(xué)內(nèi)容)
- TinyGSM(12.3M問題-解決方案對,GPT-3.5生成代碼)
- OpenMathInstruct1(1.8M對,Mixtral-8x7B生成代碼)
- OpenMathInstruct2(14M對,Llama3.1-405B生成自然語言)
- 不使用聊天模板或特殊格式

預(yù)訓(xùn)練超參數(shù)

AdamW優(yōu)化器,學(xué)習(xí)率=0.001,權(quán)重衰減=0.1
- 5000步線性預(yù)熱 + 余弦衰減至峰值的10%

強化學(xué)習(xí)微調(diào)

在預(yù)訓(xùn)練模型上進(jìn)行RL微調(diào):
- RL算法:PPO、GRPO、Expert Iteration (EI)
- 獎勵函數(shù):正確匹配獎勵為1,否則為0
- 微調(diào)任務(wù):GSM8K訓(xùn)練集,部分在MATH訓(xùn)練集
- EI流程:k=64候選答案 → 去重 → 監(jiān)督微調(diào),可迭代
- KL懲罰系數(shù):0, 0.001, 0.01

評估與分析

- 指標(biāo):pass@1, pass@64, majority@64
- 泛化能力:MATH-500、AIME測試集
- 定性分析:生成格式分布變化、錯誤類型分布

實驗分析維度

- 輸出分布收斂性
- 偏好分布選擇機制
- 單一分布內(nèi)性能提升
- 模型規(guī)模影響(150M vs 1B)
- RL算法比較(PPO、GRPO、EI)
- 超參數(shù)敏感性(如KL系數(shù))
- 遷移泛化能力(GSM8K→MATH/AIME)

3 Conclusion

3.1 RL微調(diào)放大預(yù)訓(xùn)練行為,導(dǎo)致輸出收斂到主導(dǎo)分布。

RL微調(diào)會一致性地使模型輸出收斂到預(yù)訓(xùn)練數(shù)據(jù)中一種主導(dǎo)的輸出分布格式,并放大其中的模式,從而顯著提升性能,盡管這可能會降低生成多樣性。

3.1.1 150M模型PPO微調(diào)過程中輸出分布和準(zhǔn)確率變化 (TinyGSM, OMI1, OMI2混合預(yù)訓(xùn)練, 低KL系數(shù))

Harvard | RL如何放大pretraining過程中學(xué)到的行為?-AI.x社區(qū)

? 結(jié)論:(左圖)展示了在GSM8K測試集上,模型生成的答案中符合TinyGSM、OMI1和Text (OMI2/自然語言) 格式的百分比隨PPO訓(xùn)練樣本數(shù)的變化。可見模型迅速收斂到TinyGSM格式。

? 結(jié)論:(右圖)展示了對應(yīng)格式的準(zhǔn)確率以及整體pass@1, pass@64, majority@64準(zhǔn)確率。輸出格式的轉(zhuǎn)變與整體準(zhǔn)確率的最大增益同步發(fā)生。majority@64略有提升,而pass@64在訓(xùn)練后期略有下降。

3.1.2 150M模型PPO微調(diào) (與上圖Figure 2相同預(yù)訓(xùn)練模型, 但使用更高KL系數(shù))

Harvard | RL如何放大pretraining過程中學(xué)到的行為?-AI.x社區(qū)

? 總結(jié):在更高的KL系數(shù)(0.01 vs 0.001)下,模型仍然主要輸出TinyGSM格式,但也保留了一部分OpenMathInstruct2格式的輸出。最終pass@1準(zhǔn)確率與低KL系數(shù)時相近。

3.1.3 150M模型PPO微調(diào) (TinyGSM + 不同比例OpenMathInstruct1混合預(yù)訓(xùn)練)

Harvard | RL如何放大pretraining過程中學(xué)到的行為?-AI.x社區(qū)

? 總結(jié):(a) 當(dāng)預(yù)訓(xùn)練集包含4倍OpenMathInstruct1時,模型初始生成更多OMI1格式答案,但PPO微調(diào)后迅速轉(zhuǎn)向TinyGSM格式。

? 總結(jié):(b) 當(dāng)OpenMathInstruct1比例增加到8倍時,模型在RL微調(diào)后轉(zhuǎn)向輸出OMI1格式,但整體準(zhǔn)確率下降。表明RL微調(diào)并非總是選擇初始最常見或性能最佳的分布,結(jié)果是復(fù)雜的。

3.1.4 不同TinyGSM預(yù)訓(xùn)練數(shù)據(jù)量對150M模型PPO微調(diào)后性能的影響

Harvard | RL如何放大pretraining過程中學(xué)到的行為?-AI.x社區(qū)

? 總結(jié):(左圖)展示了在預(yù)訓(xùn)練混合數(shù)據(jù)中包含不同數(shù)量TinyGSM(1x, 2x, 4x, 8x)的150M模型,在PPO微調(diào)后,GSM8K測試集上的最高pass@1, pass@64, majority@64準(zhǔn)確率。預(yù)訓(xùn)練中TinyGSM越多,RL微調(diào)后各項準(zhǔn)確率越高。

? 總結(jié):(右圖)展示了這些模型在PPO微調(diào)過程中的pass@1準(zhǔn)確率曲線,TinyGSM預(yù)訓(xùn)練數(shù)據(jù)量越大的模型,微調(diào)帶來的性能增益也越大。

3.2 模型規(guī)模影響主導(dǎo)輸出分布的偏好。

較小的模型傾向于生成更簡單的代碼式格式(如TinyGSM),而較大的模型則轉(zhuǎn)向自然語言輸出(如OpenMathInstruct2)。這種放大程度還取決于KL懲罰系數(shù)的設(shè)置。


Harvard | RL如何放大pretraining過程中學(xué)到的行為?-AI.x社區(qū)

?說明: 1B模型PPO微調(diào)過程中輸出分布和準(zhǔn)確率變化 (TinyGSM, OMI1, OMI2混合預(yù)訓(xùn)練)

? 總結(jié):與Figure 2中的150M模型不同,1B模型在相同的預(yù)訓(xùn)練數(shù)據(jù)和PPO微調(diào)后,放大了自然語言(OMI2)格式的解決方案,盡管在初始化時自然語言的生成比例最低,且TinyGSM可能是性能更優(yōu)的分布。這表明模型規(guī)模會影響RL微調(diào)后偏好的輸出分布。

3.3 RL微調(diào)可以帶來正向遷移,提升模型在困難任務(wù)上的表現(xiàn)。

在像GSM8K這樣簡單數(shù)據(jù)集上進(jìn)行的RL后訓(xùn)練,可以提升模型在MATH等更困難數(shù)學(xué)數(shù)據(jù)集上的性能,這表明某些推理能力可以跨任務(wù)泛化。

Harvard | RL如何放大pretraining過程中學(xué)到的行為?-AI.x社區(qū)

?說明: 1B模型在GSM8K上PPO微調(diào)前后在MATH-500上的性能

? 總結(jié):展示了不同預(yù)訓(xùn)練數(shù)據(jù)混合的1B模型,在使用GSM8K訓(xùn)練問題進(jìn)行PPO微調(diào)前后,在MATH-500測試集上的pass@1和majority@64性能。結(jié)果顯示微調(diào)后性能均有一致性提升,表明RL微調(diào)不僅改進(jìn)輸出格式,也增強了通用數(shù)學(xué)能力。預(yù)訓(xùn)練數(shù)據(jù)中包含與下游任務(wù)結(jié)構(gòu)相似數(shù)據(jù)(如OpenMathInstruct數(shù)據(jù)集之于MATH)的模型提升更明顯。

4 Limitation

  • 數(shù)據(jù)混合的復(fù)雜性與泛化:當(dāng)前研究主要集中于數(shù)學(xué)推理領(lǐng)域的數(shù)據(jù)集。未來工作需要探索結(jié)果是否能泛化到更復(fù)雜的數(shù)據(jù)混合,例如包含多語言數(shù)據(jù)的情況。
  • 最優(yōu)預(yù)訓(xùn)練混合的探索:文章并未明確指出是否存在一種“最優(yōu)”的預(yù)訓(xùn)練數(shù)據(jù)混合,能夠?qū)崿F(xiàn)最佳的下游推理性能,以及這種混合如何隨模型規(guī)模變化。
  • RL算法的局限性:Expert Iteration(EI)方法在當(dāng)前設(shè)置中表現(xiàn)持續(xù)遜于PPO,并且向主導(dǎo)格式的轉(zhuǎn)變速度較慢,這可能與重復(fù)從原始基礎(chǔ)模型進(jìn)行微調(diào)有關(guān)。GRPO算法穩(wěn)定性不如PPO,有時會經(jīng)歷性能短暫崩潰,這需要進(jìn)一步研究不同RL算法及其設(shè)計選擇對模型行為的影響。
  • 評估泛化性的挑戰(zhàn):盡管在MATH-500上觀察到性能提升,但在AIME等更具挑戰(zhàn)性的OOD(Out-of-Distribution)數(shù)據(jù)集上,性能提升有限,尤其是在2022-2024年AIME基準(zhǔn)測試中,這表明數(shù)據(jù)相似性對遷移至關(guān)重要。
  • 預(yù)訓(xùn)練數(shù)據(jù)透明度問題:文章強調(diào)現(xiàn)有文獻(xiàn)中對預(yù)訓(xùn)練模型的依賴是一個主要混淆因素,因為許多預(yù)訓(xùn)練數(shù)據(jù)集是不公開的。雖然本文通過從頭開始使用公開數(shù)據(jù)集來解決這個問題,但其發(fā)現(xiàn)可能不完全適用于那些基于大規(guī)模專有數(shù)據(jù)集預(yù)訓(xùn)練的模型。

三、總結(jié)

結(jié)論1: RL微調(diào)通過“回音室”效應(yīng)放大預(yù)訓(xùn)練行為,使模型輸出收斂到預(yù)訓(xùn)練數(shù)據(jù)中一種主導(dǎo)的格式。 這種效應(yīng)在不同預(yù)訓(xùn)練數(shù)據(jù)混合中一致出現(xiàn),即模型在RL微調(diào)后迅速且一致地收斂到生成一種特定的輸出格式,該格式通常與性能提升同時發(fā)生。這揭示了RL不僅僅是簡單地教導(dǎo)模型如何解決問題,更在于塑造模型以特定方式生成答案。

結(jié)論2: 模型規(guī)模和RL超參數(shù)(特別是KL懲罰系數(shù))共同影響RL微調(diào)后模型對輸出分布的偏好和放大程度。 較小模型(如150M參數(shù))傾向于更簡單的代碼式輸出,而較大模型(如1B參數(shù))則更傾向于自然語言輸出。KL懲罰系數(shù)的增加可以保留一定程度的輸出多樣性,避免完全收斂到單一格式,但最終性能可能與更強的收斂性相似。

結(jié)論3: 在較簡單數(shù)據(jù)集(如GSM8K)上的RL后訓(xùn)練,能帶來對更困難數(shù)學(xué)數(shù)據(jù)集(如MATH)的性能提升,表明推理能力可以跨任務(wù)泛化。 這種正向遷移現(xiàn)象強調(diào)了RL微調(diào)不僅僅是特定任務(wù)的過擬合,而是能夠提升模型更通用的推理能力。同時,研究發(fā)現(xiàn)預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)的數(shù)據(jù)相似性對于這種泛化效果至關(guān)重要。

結(jié)論4: 本文通過從頭開始的受控實驗,為理解RL在塑造語言模型行為方面的科學(xué)作用提供了有價值的見解。 傳統(tǒng)上,許多RLHF研究依賴于不透明的預(yù)訓(xùn)練模型,使得難以分離RL的真實影響。本文的受控設(shè)置(從頭訓(xùn)練和使用公開數(shù)據(jù)集)克服了這一限制,為未來的研究提供了清晰的實驗框架。通過小規(guī)模代理實驗,可以有效地探索RL微調(diào)的復(fù)雜機制,這對于學(xué)術(shù)界和工業(yè)界深入理解和優(yōu)化大型語言模型至關(guān)重要。

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-6-3 11:43:14修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦