【LLM】在線合并優(yōu)化器以提升獎(jiǎng)勵(lì)并減輕對(duì)齊開(kāi)銷
一、結(jié)論寫(xiě)在前面
在強(qiáng)化學(xué)習(xí)人類反饋(RLHF)中,有效對(duì)齊大型語(yǔ)言模型(LLMs)與以人為中心的價(jià)值,同時(shí)防止通過(guò)預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)獲得的能力退化,是一個(gè)核心挑戰(zhàn)。插值RLIF和SFT模型參數(shù)可以調(diào)整人類偏好與基本能力之間的權(quán)衡,從而以犧牲對(duì)齊獎(jiǎng)勵(lì)為代價(jià)減少對(duì)齊開(kāi)銷(Alignment Tax)。
受此啟發(fā),論文提出在RLHF的每個(gè)優(yōu)化步驟中整合RL策略和SFT模型,以持續(xù)調(diào)節(jié)訓(xùn)練方向,引入在線合并優(yōu)化器。具體而言,論文通過(guò)合并SFT與預(yù)訓(xùn)練模型之間的參數(shù)差異來(lái)融合梯度,有效地引導(dǎo)梯度向SFT優(yōu)化的方向最大化獎(jiǎng)勵(lì)。
對(duì)各種骨干LLMs進(jìn)行的大量實(shí)驗(yàn)表明,與正則化和離線合并基線相比,在線合并優(yōu)化器能更好地緩解對(duì)齊成本并實(shí)現(xiàn)更優(yōu)的對(duì)齊性能。此外,論文提出了step-K在線合并優(yōu)化器,彌合了在線和離線合并之間的差距,并深入分析了超參數(shù)和消融的效果。論文證明了論文的優(yōu)化器適用于不同的LLM家族,如Qwen和LLaMA,跨越從1.8B到8B的各種模型大小,以及DPO和KTO等不同的RLHF算法,以及現(xiàn)有的模型合并方法。它顯著提升了對(duì)齊獎(jiǎng)勵(lì),同時(shí)減輕了對(duì)齊成本開(kāi)銷,在14個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了更高的整體性能。
限制:在線合并優(yōu)化器的主要限制與參數(shù)效率相關(guān)。在線合并優(yōu)化器增加了內(nèi)存需求,因?yàn)樗鼈冃枰彺鎱⒖寄P偷念~外增量參數(shù),以對(duì)應(yīng)訓(xùn)練中的增量更新權(quán)重。同時(shí),除非參考模型也使用LoRA適配器進(jìn)行訓(xùn)練,否則它們不能應(yīng)用于LoRA訓(xùn)練。然而,通過(guò)將GaLore與在線合并優(yōu)化器結(jié)合使用,可以進(jìn)一步消除這一限制。
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
理想情況下,一個(gè)最佳的RLHF策略應(yīng)在保持對(duì)齊性的獎(jiǎng)勵(lì)同時(shí)避免相關(guān)的代價(jià),力求在最大化獎(jiǎng)勵(lì)的同時(shí)最小化遺忘。依賴于神經(jīng)網(wǎng)絡(luò)的線性模式連通性,模型能力之間的權(quán)衡可簡(jiǎn)潔地描述為模型參數(shù)的插值。研究表明,通過(guò)權(quán)重插值從同一預(yù)訓(xùn)練模型微調(diào)的不同模型結(jié)合,往往能在原始模型間實(shí)現(xiàn)更平衡的性能。
受此啟發(fā),論文初步探索了將RLHF模型與其訓(xùn)練自的參考SFT模型進(jìn)行合并。論文的觀察表明,這種離線模型合并有效地緩解了對(duì)齊成本。如表4所示,離線合并模型在語(yǔ)言基準(zhǔn)和語(yǔ)言熟練度上恢復(fù)了與SFT模型相當(dāng)?shù)男阅?。然而,這種改進(jìn)是以相對(duì)于RLHF模型偏好評(píng)分的減少為代價(jià)的。
鑒于單次參數(shù)插值僅允許在固定能力的模型之間進(jìn)行權(quán)衡,離線合并帶來(lái)的適度性能提升并不令人意外。在RLHF訓(xùn)練過(guò)程中,每個(gè)優(yōu)化步驟都提升了模型的能力。因此,論文有機(jī)會(huì)確保這些變化的方向與參考SFT模型保持一致。本文中,論文將模型合并整合到每個(gè)RLIIF優(yōu)化步驟中,并引入了在線合并優(yōu)化器。這一創(chuàng)新的優(yōu)化器在提升獎(jiǎng)勵(lì)方面比傳統(tǒng)的優(yōu)化器如AdamW更有效,同時(shí)也在減少對(duì)齊成本方面,類似于離線合并。
圖1:RLHF與在線合并優(yōu)化器的示意圖。在每個(gè)RLHF迭代中,論文首先獲取更新權(quán)重A((0,然后對(duì)其進(jìn)行稀疏化處理,并與參考模型的delta參數(shù)達(dá)成共識(shí)。論文使用這種合并的delta作為本次迭代中策略模型的更新。論文還對(duì)比了在線合并與離線合并,如圖下方所示
對(duì)齊開(kāi)銷(Alignment Tax)。通常,使大型語(yǔ)言模型(LLMs)與人類偏好對(duì)齊涉及兩個(gè)階段:首先進(jìn)行監(jiān)督微調(diào)(SFT)以建立遵循指令的模型,隨后通過(guò)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)來(lái)增強(qiáng)人類偏好。當(dāng)前主流的RLHF方法,如PPO和DPO,指導(dǎo)模型在優(yōu)化獎(jiǎng)勵(lì)的同時(shí),引入Kullback-Leibler(KL)散度懲罰項(xiàng),該懲罰項(xiàng)存在于學(xué)習(xí)到的RL策略輸出與參考的SFT模型之間。這一懲罰機(jī)制防止策略在追求偏好獎(jiǎng)勵(lì)時(shí)偏離其原始目標(biāo),即保持已獲得的語(yǔ)言能力。
論文在DPO設(shè)置中嘗試了不同的KL散度權(quán)重β,如圖4所示。β的增加與基準(zhǔn)性能的平均提升相關(guān),但代價(jià)是MT-Bench和AlpacaEval上的性能下降。相反,降低β會(huì)導(dǎo)致模型失去其基本能力。在獎(jiǎng)勵(lì)優(yōu)化與維持語(yǔ)言分類學(xué)之間尋求平衡已成為RLHF訓(xùn)練中的首要挑戰(zhàn)。
2.2 論文的方法--在線合并優(yōu)化器
受到離線合并的啟發(fā),本節(jié)論文探討將模型合并融入到RLHF優(yōu)化步驟中。論文首先審視常用的基于梯度的優(yōu)化器。
2.2.1 從基于梯度的優(yōu)化器到在線合并優(yōu)化器
離線任務(wù)運(yùn)算技術(shù)通過(guò)將LLMs的增量參數(shù)聚合來(lái)合并LLMs。相應(yīng)地,論文旨在合并參考SFT模型和第t次訓(xùn)練步驟的政策模型。
然而,論文實(shí)證發(fā)現(xiàn)直接優(yōu)化等式是不穩(wěn)定的且難以收斂,并且等式需要額外的緩存來(lái)存儲(chǔ)預(yù)訓(xùn)練模型的參數(shù)。因此,論文對(duì)等式進(jìn)行了松弛處理,這種松弛仍然與論文在優(yōu)化步驟中應(yīng)用離線合并的動(dòng)機(jī)很好地一致。這種松弛的另一個(gè)重要好處是避免了緩存額外的參數(shù),增強(qiáng)了內(nèi)存效率。通過(guò)這種松弛,論文表明在每個(gè)優(yōu)化步驟中的在線合并可以通過(guò)基于梯度的增量權(quán)重與參考模型的增量參數(shù)之間的整合來(lái)近似。
2.2.2 實(shí)現(xiàn)方法
需要注意的是,論文的優(yōu)化器框架具有高度的靈活性,并與現(xiàn)有的模型合并方法兼容。論文基于廣泛使用的模型合并方法DARE和TIES開(kāi)發(fā)了兩種在線合并優(yōu)化器:
OnDARE優(yōu)化器。DARE采用隨機(jī)稀疏化方法和線性組合作為共識(shí)方法。
OnTIES優(yōu)化器。TIES使用top-k百分比稀疏化和基于符號(hào)的共識(shí)方法。具體來(lái)說(shuō),它從每個(gè)合并候選中保留關(guān)于絕對(duì)值的top-p百分比的參數(shù)。它根據(jù)符號(hào)和范數(shù)計(jì)算元素級(jí)多數(shù)符號(hào),丟棄與多數(shù)符號(hào)不同的參數(shù),并對(duì)剩余的參數(shù)進(jìn)行加權(quán)求和。
2.3 論文的效果
2.3.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集。論文在廣泛使用的偏好數(shù)據(jù)集ULTRAFEEDBACK上進(jìn)行實(shí)驗(yàn)。與原始版本相比,ULTRAFEEDBACK的訓(xùn)練和評(píng)估部分分別包含約61K和2K個(gè)偏好對(duì),由GPT-4進(jìn)行排序,并通過(guò)人工努力進(jìn)行清理,同時(shí)使用流行的基準(zhǔn)測(cè)試(如TruthfulQA)進(jìn)行了無(wú)害化處理。ULTRAFEEDBACK中的提示規(guī)模龐大、細(xì)粒度且來(lái)源多樣。
訓(xùn)練。論文主要探索了在ULTRAFEEDBACK數(shù)據(jù)集上直接偏好優(yōu)化(DPO)中的在線合并優(yōu)化器,因?yàn)榕c近端策略優(yōu)化(PPO)相比,DPO由于其較低的訓(xùn)練成本而在當(dāng)今大規(guī)模LLM對(duì)齊中得到廣泛應(yīng)用。一般的DPO包括從策略模型中采樣和標(biāo)注響應(yīng)。在這項(xiàng)工作中,論文使用DPO的離線策略設(shè)置,直接在ULTRAFEEDBACK數(shù)據(jù)集上訓(xùn)練論文的策略模型,這也被證明在提高有益性和無(wú)害性方面是有效的。
評(píng)估。評(píng)估對(duì)齊的大型語(yǔ)言模型是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。論文遵循全面評(píng)估產(chǎn)生可信評(píng)估的直接原則。因此,論文的評(píng)估包括7個(gè)類別中的12個(gè)公共基準(zhǔn),評(píng)估對(duì)齊LLM的綜合能力:
數(shù)學(xué):(1)GSM8K(2)Math401(3)Math23K;
編碼:(1)HumanEval(2)MBPP(3)DS1000(4)CodeApex;
指令遵循(IF):(1)IFEval;
閱讀理解(RC):(1)COQA(2)DROP;
知識(shí):(1)MMLU;
agent:(1)NousResearch;
代碼混合;
論文使用類別內(nèi)的平均分?jǐn)?shù)作為最終類別分?jǐn)?shù),使用所有類別中所有基準(zhǔn)的平均分?jǐn)?shù)作為整體評(píng)估。論文還使用基于GPT-4的評(píng)估器,通過(guò)長(zhǎng)度控制評(píng)分,引入了MT-Bench 4和AlpacaEval 2.0,這是兩個(gè)領(lǐng)先且流行的基準(zhǔn),用于評(píng)估LLM與人類偏好的一致性。
基線。論文方法的一個(gè)簡(jiǎn)單基線是普通的AdamW。論文進(jìn)一步考慮離線合并方法,如線性合并、DARE和TIES作為論文的強(qiáng)基線,因?yàn)長(zhǎng)in et al. (2024)表明簡(jiǎn)單合并可以減輕對(duì)齊成本。由于對(duì)齊成本與遺忘有關(guān),論文還將傳統(tǒng)的正則化方法,如KL懲罰、EMA和ChildTuning作為論文的基線。
具體來(lái)說(shuō),DPO算法使用超參數(shù)β調(diào)整KL懲罰。論文還將LoRA作為論文的基線之一,因?yàn)閰?shù)高效方法在訓(xùn)練中應(yīng)用了關(guān)于權(quán)重空間的正則化。
配置。論文使用三種LLM尺寸進(jìn)行實(shí)驗(yàn),即Qwen1.5-1.8B、Qwen1.5-7B和LLaMa3-8B系列。
具體而言,論文使用Qwen-1.8B-Base、Qwen-7B-Base和LLaMa-3-8B作為在線優(yōu)化器的基礎(chǔ)模型。論文在Qwen1.5-1.8B-SFT、Qwen1.5-7B-SFT和LLaMa-3-8B-it作為參考模型上對(duì)ULTRAFEEDBACK進(jìn)行直接偏好優(yōu)化。兩個(gè)Qwen1.5監(jiān)督微調(diào)模型在多語(yǔ)言指令數(shù)據(jù)上進(jìn)行了訓(xùn)練,但與ULTRAFEEDBACK數(shù)據(jù)集沒(méi)有重疊。
2.3.2 主要結(jié)果
論文在表4中展示了論文的主要結(jié)果,其中展示了基線方法和論文提出的在線合并優(yōu)化器在ULTRAFEEDBACK上的性能,分別在Qwen1.5-1.8BChat、Qwen1.5-7B-Chat和LLaMa-3-8B-Chat上訓(xùn)練??偟膩?lái)說(shuō),與原始的AdamW相比,正則化和離線模型合并方法在大多數(shù)設(shè)置下并沒(méi)有顯著提高RLHF模型在基準(zhǔn)測(cè)試上的平均性能,反而導(dǎo)致MT-Bench和AlpacaEval 2.0的偏好分?jǐn)?shù)下降。這表明,僅僅依靠梯度dropout(ChildTuning)、抑制模型梯度更新的變化(EMA)或基于SFT模型對(duì)RLHF模型參數(shù)進(jìn)行一次性調(diào)整(Merging)等技術(shù),都不能有效解決對(duì)齊獎(jiǎng)勵(lì)-稅收的權(quán)衡問(wèn)題。
正則化基線在LLama-3-8B-It上表現(xiàn)特別好,所有正則化方法在平均基準(zhǔn)測(cè)試分?jǐn)?shù)以及MT-Bench和AlpacaEval分?jǐn)?shù)上都取得了一致的改進(jìn)。相比之下,論文提出的在線合并優(yōu)化器,特別是OnDARE變體,在所有測(cè)試集上都取得了最顯著的改進(jìn)。OnDARE在基準(zhǔn)測(cè)試平均分上取得了最高的改進(jìn),并在所有三個(gè)主干LLM上持續(xù)增強(qiáng)了MT-Bench和AlpacaEval 2.0,顯著超過(guò)其他基線,尤其是在LLaMa-3-8B-Instruct實(shí)驗(yàn)中,分別在基準(zhǔn)測(cè)試、MT-Bench和AlpacaEval上取得了1.3、0.19和1.57的改進(jìn)。
盡管OnTIES和OnDARE在提高獎(jiǎng)勵(lì)和減輕稅收方面都顯示出了有效性,但在大多數(shù)情況下,OnDARE在平均基準(zhǔn)測(cè)試分?jǐn)?shù)方面略優(yōu)于OnTIES,而OnTIES在AlpacaEval 2.0上有時(shí)具有更高的LC勝率。每個(gè)基準(zhǔn)測(cè)試的詳細(xì)分?jǐn)?shù)在表5、表6、表7中報(bào)告。
2.3.3 超參數(shù)效應(yīng)
本節(jié)分析了兩個(gè)主要超參數(shù),即參數(shù)保留率和合并權(quán)重,如何影響在線合并優(yōu)化器的整體性能。
參數(shù)保留率是在線合并期間的參數(shù)保留率。論文在Qwen1.5-1.8B-Chat上探索了從1到1e-5的保留率,以在有限的計(jì)算資源內(nèi)最大化搜索空間。如圖2所示,即使在低至5e-4的低參數(shù)保留率下,在線合并優(yōu)化器仍然保持穩(wěn)健。這表明,在每個(gè)RLHF步驟中丟棄99.95%的基于梯度的參數(shù)修改仍然可以得到穩(wěn)定的訓(xùn)練。與OnDARE相比,OnTIES對(duì)極低的參數(shù)保留率更敏感。這種敏感性是由于OnDARE采用了無(wú)偏隨機(jī)稀疏化方法,而OnTIES使用的top-k稀疏化在訓(xùn)練過(guò)程中引入了顯著的偏差。
合并權(quán)重是參考(SFT)模型的梯度和增量參數(shù)的聚合權(quán)重。較大的合并權(quán)重在在線合并優(yōu)化器中引入更強(qiáng)的正則化。論文嘗試了從10?4到10?7的各種合并權(quán)重,并在表2中報(bào)告了結(jié)果。
隨著合并權(quán)重的增加,由于訓(xùn)練過(guò)程中添加的正則化減少,MT-Bench分?jǐn)?shù)上升,而平均基準(zhǔn)測(cè)試分?jǐn)?shù)先增加后減少,在α=5e?7時(shí)達(dá)到峰值。與EMA訓(xùn)練中的指數(shù)系數(shù)類似,較大的合并權(quán)重會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。因此,論文建議從10?7這樣的小數(shù)字開(kāi)始合并權(quán)重的超參數(shù)搜索。值得注意的是,特殊情況合并權(quán)重=0使OnDARE等同于梯度dropout正則化方法,如論文基線中的ChildTuning。
2.3.4 RLHF算法的影響
論文進(jìn)一步研究了它們?cè)谄渌鸕LHF算法中的應(yīng)用。具體而言,論文在IPO和KTO中實(shí)現(xiàn)了OnDARE和OnTIES。論文在這些設(shè)置下在ULTRAFEEDBACK數(shù)據(jù)集上訓(xùn)練Qwen1.5-7B-Chat,并在表3中展示了結(jié)果。
除了IPO算法的平均基準(zhǔn)測(cè)試分?jǐn)?shù)外,在線合并優(yōu)化器OnDARE和OnTIES在MT-Bench上的表現(xiàn)都優(yōu)于AdamW。這表明它們的有效性可以擴(kuò)展到多個(gè)RLHF算法變體。
論文標(biāo)題:Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment
論文鏈接:??https://arxiv.org/pdf/2405.17931??
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺
