為什么明明很準(zhǔn),獎(jiǎng)勵(lì)模型就是不work?新研究:準(zhǔn)確度 is not all you need
我們知道,一個(gè) RLHF 算法是否成功的一大關(guān)鍵在于其獎(jiǎng)勵(lì)模型(RM)的質(zhì)量。但是,我們應(yīng)該如何衡量 RM 的質(zhì)量呢?近日,普林斯頓大學(xué)一個(gè)研究團(tuán)隊(duì)發(fā)現(xiàn),如果僅用準(zhǔn)確度來衡量 RM 的質(zhì)量,可能無法完全體現(xiàn)一個(gè)獎(jiǎng)勵(lì)模型作為有效教師的特性。為此,他們選擇了從優(yōu)化角度來研究這個(gè)問題。

- 論文標(biāo)題:What Makes a Reward Model a Good Teacher? An Optimization Perspective
 - 論文鏈接:https://arxiv.org/pdf/2503.15477
 
在這篇論文中,他們證明:無論獎(jiǎng)勵(lì)模型有多準(zhǔn)確,如果它會(huì)導(dǎo)致獎(jiǎng)勵(lì)方差較低,那么 RLHF 目標(biāo)優(yōu)化起來就會(huì)比較緩慢。即使是完全準(zhǔn)確的獎(jiǎng)勵(lì)模型也會(huì)導(dǎo)致優(yōu)化速度極其緩慢,性能表現(xiàn)趕不上會(huì)導(dǎo)致獎(jiǎng)勵(lì)方差較高但準(zhǔn)確度較低的模型。
他們還表明,對(duì)一種語言模型有效的獎(jiǎng)勵(lì)模型可能會(huì)讓另一種語言模型的獎(jiǎng)勵(lì)方差較低,從而導(dǎo)致優(yōu)化過程變得緩慢。
這些結(jié)果說明:如果在設(shè)計(jì)獎(jiǎng)勵(lì)模型時(shí)僅基于準(zhǔn)確度或不考慮具體的語言模型,那么就會(huì)遭遇一些根本性的限制。總體而言,除了準(zhǔn)確度之外,獎(jiǎng)勵(lì)模型還需要誘導(dǎo)出足夠的方差才能實(shí)現(xiàn)有效優(yōu)化。
考慮到強(qiáng)化學(xué)習(xí)與生物大腦學(xué)習(xí)機(jī)制具有一定的共通性,于是我們求助了 Claude,讓它通過「人訓(xùn)練狗」的類比給我們提供了更為直觀易懂的解釋:

看起來這個(gè)解釋還不錯(cuò)?
這項(xiàng)工作吸引了不少研究者的注意。其中,來自斯坦福大學(xué)的 AI 研究者Rajan Vivek 不止肯定了該工作的價(jià)值,還給出了一些讓獎(jiǎng)勵(lì)更加細(xì)粒度(誘導(dǎo)獎(jiǎng)勵(lì)方差)的技巧,包括:
- 在最小對(duì)比對(duì)上進(jìn)行訓(xùn)練:可以人工合成這些對(duì)比對(duì),要求獎(jiǎng)勵(lì)模型能夠可靠地為其中一個(gè)輸出賦予略高的分?jǐn)?shù)。
 - 從生成式獎(jiǎng)勵(lì)模型中計(jì)算連續(xù)獎(jiǎng)勵(lì):通過取 token 概率和分?jǐn)?shù)的加權(quán)和來實(shí)現(xiàn)。
 - 結(jié)合監(jiān)督微調(diào)(SFT)、均方誤差(MSE)和偏好損失:這些方法使模型能夠生成推理依據(jù),優(yōu)化其連續(xù)獎(jiǎng)勵(lì),并有效地從最小對(duì)比對(duì)中學(xué)習(xí)!
 

下面繼續(xù)來看原論文給出的更為技術(shù)化的描述。
從優(yōu)化視角看如何設(shè)計(jì)優(yōu)良的獎(jiǎng)勵(lì)模型
該團(tuán)隊(duì)研究的是通過策略梯度最大化 RLHF 目標(biāo)(如下 (1) 式)時(shí)預(yù)期的真實(shí)獎(jiǎng)勵(lì) r_G 增加到所需量所需的時(shí)間。這個(gè)時(shí)間越短越好。

他們證明,如果獎(jiǎng)勵(lì)模型 r_RM 會(huì)為初始策略引入較低的獎(jiǎng)勵(lì)方差,則由于目標(biāo)圖景平坦,r_RM 和 r_G 都會(huì)以較慢的速度增加。因此,為了實(shí)現(xiàn)高效優(yōu)化,r_RM 需要確保獎(jiǎng)勵(lì)方差不會(huì)太低。
之后,他們確立了獎(jiǎng)勵(lì)方差和優(yōu)化率之間關(guān)系的兩個(gè)主要含義。
1、由于獎(jiǎng)勵(lì)方差與準(zhǔn)確度沒有綁定,因此更準(zhǔn)確的獎(jiǎng)勵(lì)模型不一定是更好的教師。
2、由于相同的獎(jiǎng)勵(lì)模型可能會(huì)給一種策略引入較高的獎(jiǎng)勵(lì)方差,但為另一種策略引入較低的獎(jiǎng)勵(lì)方差,因此對(duì)于不同的初始策略,使用不同的獎(jiǎng)勵(lì)模型會(huì)有更好的效果。
圖 1 展示了準(zhǔn)確度與獎(jiǎng)勵(lì)方差對(duì) RLHF 目標(biāo)圖景的影響。

具體來說,準(zhǔn)確度和獎(jiǎng)勵(lì)方差體現(xiàn)了獎(jiǎng)勵(lì)模型的不同方面:前者控制著與 ground truth 獎(jiǎng)勵(lì)的對(duì)齊,而后者決定了目標(biāo)圖景的平坦度。
準(zhǔn)確度越低,獎(jiǎng)勵(lì)模型越容易受到獎(jiǎng)勵(lì) hacking 攻擊 —— 獎(jiǎng)勵(lì)模型認(rèn)為有益的方向可能并不會(huì)提升 ground truth 獎(jiǎng)勵(lì)。另一方面,即使獎(jiǎng)勵(lì)模型完全準(zhǔn)確,低獎(jiǎng)勵(lì)方差也意味著平坦的圖景有礙策略梯度方法的效率。
低獎(jiǎng)勵(lì)方差意味著最大化獎(jiǎng)勵(lì)的速度緩慢
這里將預(yù)期獎(jiǎng)勵(lì)所需的時(shí)間下限設(shè)為一個(gè)加法常數(shù)。定理 1 表明,這個(gè)時(shí)間的增長(zhǎng)與 
 成反比,這是  r_RM 針對(duì)初始策略與訓(xùn)練集 S 中的提示詞得到的平均獎(jiǎng)勵(lì)方差。這樣一來,如果提示詞 x ∈ S 的
 較低(即當(dāng) r_RM 無法充分地分離在初始策略下可能的輸出時(shí)),則策略梯度就會(huì)出現(xiàn)優(yōu)化速度慢的問題。

定理 1 是原論文中定理 4 的精簡(jiǎn)版,對(duì)其的證明請(qǐng)?jiān)L問原論文附錄部分。
眾所周知,低獎(jiǎng)勵(lì)方差意味著通過 softmax 產(chǎn)生下一 token 分布的策略出現(xiàn)了梯度消失現(xiàn)象。
具體而言,對(duì)于任何提示詞 x 和策略 π_θ,
 都會(huì)隨著 
 衰減。然而,僅憑這一點(diǎn)并不能得到令人滿意的獎(jiǎng)勵(lì)最大化率下限,因?yàn)槿绻麤]有進(jìn)一步的知識(shí),梯度范數(shù)可能會(huì)在訓(xùn)練過程中迅速增加。
但研究表明情況并非如此:當(dāng)獎(jiǎng)勵(lì)方差較低時(shí),RLHF 目標(biāo)的高階導(dǎo)數(shù)會(huì)與梯度一起消失,從而阻止梯度范數(shù)的快速增加。這會(huì)限制策略參數(shù) θ(t) 的移動(dòng),從而導(dǎo)致獎(jiǎng)勵(lì)增長(zhǎng)率的下限。
更準(zhǔn)確的獎(jiǎng)勵(lì)模型不一定是更好的教師
上一小節(jié)表明:低獎(jiǎng)勵(lì)方差會(huì)阻礙策略梯度的效率。值得注意的是,獎(jiǎng)勵(lì)方差與通常用于評(píng)估獎(jiǎng)勵(lì)模型的指標(biāo)(準(zhǔn)確度)無關(guān)。準(zhǔn)確度僅取決于獎(jiǎng)勵(lì)模型如何排序不同的輸出,而不考慮其獎(jiǎng)勵(lì)之間的分離程度,而獎(jiǎng)勵(lì)方差則由這種分離程度決定。定理 2 確定的一個(gè)關(guān)鍵含義是:準(zhǔn)確的獎(jiǎng)勵(lì)模型 r_RM 也可能有較低的獎(jiǎng)勵(lì)方差。
需要明確一下,定理 2 考慮了兩點(diǎn):(i) 存在 r_RM 完全準(zhǔn)確而 r′_RM 幾乎完全不準(zhǔn)確的極端情況;(ii) 對(duì)于提示詞 x 和獎(jiǎng)勵(lì)模型 r_RM,關(guān)于無序輸出對(duì)的均勻分布的準(zhǔn)確度用 accx (rRM) 表示。關(guān)于該定理的詳細(xì)版本(定理 5)的證明請(qǐng)?jiān)L問原論文附錄。

該團(tuán)隊(duì)指出,定理 2 并不意味著高準(zhǔn)確度的獎(jiǎng)勵(lì)模型就一定是糟糕的教師。事實(shí)上,在幾乎任何準(zhǔn)確度水平上,一些獎(jiǎng)勵(lì)模型都會(huì)導(dǎo)致優(yōu)化低效,而其他獎(jiǎng)勵(lì)模型則表現(xiàn)良好。定理 2 只是形式化了準(zhǔn)確度本身不足以評(píng)估 RLHF 中的獎(jiǎng)勵(lì)模型的原因。
盡管如此,準(zhǔn)確度仍是一個(gè)需要努力追求的屬性,因?yàn)楦鼫?zhǔn)確的模型通常不太容易受到獎(jiǎng)勵(lì) hacking 攻擊。也就是說,當(dāng)使用不完美的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練時(shí),由于兩個(gè)獎(jiǎng)勵(lì)不匹配,最終 ground truth 獎(jiǎng)勵(lì)可能會(huì)開始減少。因此,通常的做法是只運(yùn)行幾個(gè) epoch 的策略梯度。定理 2 體現(xiàn)到了這種情況,其中準(zhǔn)確度較低的獎(jiǎng)勵(lì)模型可以通過推動(dòng) ground truth 獎(jiǎng)勵(lì)的更快增加而勝過更準(zhǔn)確的獎(jiǎng)勵(lì)模型。
準(zhǔn)確度的作用取決于對(duì)齊方法。雖然準(zhǔn)確度本身并不能保證 RLHF 的有效性,但其重要性因?qū)R方法而異。例如,在 Best-of-N 采樣中,很容易證明完全準(zhǔn)確的獎(jiǎng)勵(lì)模型始終是最佳的。
對(duì)于不同的初始策略,不同的獎(jiǎng)勵(lì)模型更好
獎(jiǎng)勵(lì)方差取決于獎(jiǎng)勵(lì)模型和策略。特別是,對(duì)一個(gè)策略產(chǎn)生高獎(jiǎng)勵(lì)方差的獎(jiǎng)勵(lì)模型可能會(huì)對(duì)另一個(gè)策略產(chǎn)生低獎(jiǎng)勵(lì)方差。因此,獎(jiǎng)勵(lì)方差和優(yōu)化之間的聯(lián)系意味著對(duì)于不同的初始策略,使用不同的獎(jiǎng)勵(lì)模型會(huì)更好,見定理 3。這表明,為了忠實(shí)地評(píng)估 RLHF 的獎(jiǎng)勵(lì)模型,需要考慮正在對(duì)齊的策略。

實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)部分,作者驗(yàn)證了從理論分析中得出的結(jié)論在實(shí)踐中是成立的。
首先,他們表明,在策略梯度期間,獎(jiǎng)勵(lì)方差與獎(jiǎng)勵(lì)最大化率密切相關(guān)。具體來說,在固定訓(xùn)練預(yù)算下,更準(zhǔn)確的獎(jiǎng)勵(lì)模型如果產(chǎn)生較低的獎(jiǎng)勵(lì)方差,反而可能導(dǎo)致性能下降。更令人意外的是,這一現(xiàn)象甚至適用于真實(shí)(ground truth)獎(jiǎng)勵(lì)本身:作者發(fā)現(xiàn),即使能夠直接獲取真實(shí)獎(jiǎng)勵(lì),在某些情況下使用代理獎(jiǎng)勵(lì)模型反而能取得更好的效果。
如下圖 2 所示,作者使用一些獎(jiǎng)勵(lì)模型,通過策略梯度方法(RLOO)訓(xùn)練了一個(gè) Pythia-2.8B 語言模型。這些獎(jiǎng)勵(lì)模型的特性如表 1 所示。作為對(duì)比,作者還直接使用真實(shí)獎(jiǎng)勵(lì)進(jìn)行了策略梯度訓(xùn)練。圖 2 展示了代理獎(jiǎng)勵(lì)(左圖,即用于訓(xùn)練的獎(jiǎng)勵(lì))和真實(shí)獎(jiǎng)勵(lì)(右圖)隨訓(xùn)練輪數(shù)增加的變化情況。與定理 2 一致,一個(gè)完美、準(zhǔn)確但導(dǎo)致低獎(jiǎng)勵(lì)方差的獎(jiǎng)勵(lì)模型(紅色標(biāo)記)的表現(xiàn)不如一些準(zhǔn)確度較低的模型。更有趣的是,在最初幾輪訓(xùn)練中,使用代理獎(jiǎng)勵(lì)模型的效果甚至優(yōu)于直接優(yōu)化真實(shí)獎(jiǎng)勵(lì)。


圖 7 展示了一個(gè)這種差距更為明顯的實(shí)驗(yàn)。

接下來,作者證明了對(duì)于不同的語言模型,不同的獎(jiǎng)勵(lì)模型會(huì)帶來更高的真實(shí)獎(jiǎng)勵(lì)。如下圖 3 所示,作者使用公開可用的獎(jiǎng)勵(lì)模型,通過策略梯度方法(RLOO)在 UltraFeedback 的提示上訓(xùn)練了不同的語言模型;獎(jiǎng)勵(lì)模型的特性見表 9。圖中數(shù)據(jù)顯示,與定理 3 一致,能夠產(chǎn)生最高真實(shí)獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)模型會(huì)隨著初始策略的不同而變化。


有關(guān)這些實(shí)驗(yàn)的更多詳情以及定理證明請(qǐng)參閱原論文。















 
 
 

















 
 
 
 