無需數(shù)據(jù)標(biāo)注:RLSC 如何用“自我信心”優(yōu)化語言模型

大家好,我是肆〇柒。當(dāng)下,大型語言模型(LLM)如 ChatGPT、Qwen 等展現(xiàn)出了卓越的推理能力,能夠在多種任務(wù)中提供高質(zhì)量的解決方案。然而,盡管這些模型具有強大的基礎(chǔ)能力,但要使其行為與特定任務(wù)目標(biāo)精準(zhǔn)對齊,后訓(xùn)練優(yōu)化仍然是不可或缺的關(guān)鍵步驟?,F(xiàn)有的強化學(xué)習(xí)(RL)方法,如 RLHF(Reinforcement Learning from Human Feedback)、TTRL(Test-Time Reinforcement Learning)等,往往依賴于昂貴的人工標(biāo)注數(shù)據(jù)或復(fù)雜的外部獎勵模型,這不僅增加了成本,還限制了它們的廣泛應(yīng)用。
為突破這一瓶頸,RLSC(Reinforcement Learning via Self-Confidence)被 Airi 與 Skoltech Moscow 的研究人員提出。作為一種創(chuàng)新的強化學(xué)習(xí)微調(diào)方法,RLSC 是利用模型自身對輸出的信心作為獎勵信號,無需借助外部標(biāo)簽、偏好模型或繁瑣的手動獎勵設(shè)計,為 LLM 的優(yōu)化開辟了一條高效、低成本的新路徑。這一方法在論文《CONFIDENCE IS ALL YOU NEED: FEW-SHOT RL FINE-TUNING OF LANGUAGE MODELS》中得到了詳細(xì)闡述,下面我們一起來了解一下。
為啥提出 RLSC 方法
在探索 LLM 優(yōu)化方法的過程中,研究者們發(fā)現(xiàn)現(xiàn)有 RL 方法存在諸多局限。以 TTRL 為例,它需要為每個問題生成大量樣本(通常至少 64 個),并依賴多數(shù)投票機制生成偽標(biāo)簽。雖然這種方法能在一定程度上提升模型性能,但其計算開銷極為龐大,且對數(shù)據(jù)預(yù)處理要求極高,需要清晰分離答案與推理痕跡,這在實際應(yīng)用中往往難以實現(xiàn)。
鑒于此,RLSC 的提出動機便是尋找一種更高效、更經(jīng)濟(jì)的微調(diào)方案。它直接利用模型自身的內(nèi)部信息,摒棄對外部監(jiān)督的依賴,從而在保證性能提升的同時,大幅降低成本與資源消耗,使微調(diào)過程更加簡潔、靈活,便于在不同場景和資源約束下應(yīng)用。

通過增強“自信心”實現(xiàn)強化學(xué)習(xí)的工作流程圖
上圖展示了 RLSC 方法的工作流程,通過自我信心的強化來優(yōu)化模型的輸出分布,使模型在訓(xùn)練過程中逐漸集中于高置信度的答案。
RLSC 的理論基礎(chǔ)
RLSC 的核心思想聚焦于模型輸出分布的眾數(shù)銳化。也就是在模型針對同一問題生成的多個樣本中,通過優(yōu)化使輸出更傾向于集中在最可能正確的答案上。其背后的原理在于:當(dāng)兩個獨立樣本的輸出相同時,模型對這一輸出的信心最強。因此,最大化這種相同輸出概率的期望,就能提升模型對正確答案的確定性。

這一公式可以提升模型對同一問題不同樣本輸出一致性的概率,從而增強其對正確答案的信心。例如,在一個簡單的文本分類任務(wù)中,若模型對某段文本屬于 “正面情感” 類別的判斷輸出分布較為分散,經(jīng)過 RLSC 優(yōu)化后,其輸出將更傾向于集中在 “正面情感” 這一正確答案上,概率值顯著提高,體現(xiàn)出更強的自信。

訓(xùn)練前后的概率分布
如上圖所示,經(jīng)過 RLSC 優(yōu)化后,模型的輸出概率分布更加集中于高置信度的答案,從而顯著提升了模型的推理能力和穩(wěn)定性。
RLSC 的損失函數(shù)與梯度計算

平滑項 α 的引入是為了應(yīng)對 Pold 出現(xiàn)高度尖銳或稀疏分布的情況。當(dāng) α 取較小正值(如 0.1)時,它能有效穩(wěn)定優(yōu)化過程,提升模型收斂的平穩(wěn)性與泛化能力。以圖像分類任務(wù)中的長尾分布問題類比,某些類別樣本極少,模型對其初始判斷可能極為不自信,分布稀疏且不均勻。此時,α 的加入相當(dāng)于給這些小概率類別輸出提供了一定的基礎(chǔ)權(quán)重,使模型在更新時不會過度忽略它們,從而有助于整體性能的均衡提升。
在梯度計算方面,通過對損失函數(shù)求梯度并利用反向傳播算法,即可實現(xiàn)模型參數(shù) θ 的更新。具體推導(dǎo)中,借助 log-trick 技巧,將梯度表達(dá)式轉(zhuǎn)化為易于計算的形式,從而高效地指導(dǎo)模型優(yōu)化方向。
損失函數(shù)的適用場景與選擇策略
在實際應(yīng)用中,選擇合適的損失函數(shù)至關(guān)重要。當(dāng)模型的輸出分布較為均勻,即各個可能輸出的概率相對接近時,L1 損失函數(shù)能夠有效地引導(dǎo)模型逐漸集中注意力于高置信度的輸出上。然而,在模型輸出分布已經(jīng)較為尖銳,即存在少數(shù)高概率輸出的情況下,L2 損失函數(shù)的優(yōu)勢便凸顯出來。平滑項 α 可以防止模型過于自信于當(dāng)前的輸出分布,避免陷入局部最優(yōu),同時有助于提升模型對未見過樣本的泛化能力。
例如,在對 Qwen2.5-Math-7B 模型進(jìn)行微調(diào)時,若初始階段模型對數(shù)學(xué)問題的答案輸出呈現(xiàn)多樣化且無明顯主導(dǎo)答案,此時采用 L1 損失函數(shù)能夠快速篩選出潛在的正確答案方向。隨著訓(xùn)練的推進(jìn),當(dāng)模型逐漸傾向于某些特定答案但尚未完全穩(wěn)定時,切換至 L2 損失函數(shù),并結(jié)合適當(dāng)?shù)?α 值(如 0.1),可進(jìn)一步精細(xì)化模型的輸出分布,增強其對正確答案的穩(wěn)定性。
log-trick 技巧的深入解析
log-trick 技巧是 RLSC 梯度計算中的關(guān)鍵環(huán)節(jié)。其核心思想在于將期望梯度的計算轉(zhuǎn)換為更易處理的形式。根據(jù)期望的性質(zhì):

而通過引入對數(shù)概率,可以巧妙地將梯度計算與模型的生成過程相結(jié)合:

這一轉(zhuǎn)換在數(shù)學(xué)上更加優(yōu)雅,而且在實際計算中具有顯著優(yōu)勢。首先,它將梯度計算轉(zhuǎn)化為對模型輸出概率的簡單加權(quán)求和,避免了直接對高維概率分布進(jìn)行復(fù)雜求導(dǎo)。其次,利用對數(shù)概率的形式,能夠更有效地利用自動微分工具進(jìn)行計算,在深度學(xué)習(xí)框架中實現(xiàn)高效的梯度傳播。
以一個簡單的文本生成任務(wù)為例,假設(shè)模型需要生成單詞序列作為答案。在計算梯度時,對于每個可能的單詞輸出,只需獲取其對數(shù)概率以及對應(yīng)的梯度信息,然后通過加權(quán)求和的方式即可得到整體梯度。這一過程提高了計算效率,還增強了數(shù)值穩(wěn)定性,避免了直接操作概率值可能導(dǎo)致的下溢或上溢問題。
RLSC 的訓(xùn)練設(shè)置
在實際應(yīng)用 RLSC 進(jìn)行微調(diào)時,以 Qwen2.5-Math-7B 模型為例,訓(xùn)練過程如下:首先,采用基礎(chǔ)模型為每個訓(xùn)練樣本生成 16 個候選完成,生成溫度固定,確保多樣性與穩(wěn)定性兼具。這些樣本被視為從舊模型分布 Pold 中獨立抽取的樣本點。
接下來,對于每個生成樣本,計算其在更新后模型
下的對數(shù)概率。通過對比不同樣本的對數(shù)概率,結(jié)合損失函數(shù)(L1 或 L2),評估當(dāng)前模型參數(shù)的優(yōu)劣。隨后,利用標(biāo)準(zhǔn)的自回歸解碼和訓(xùn)練流程,包括對問題和答案對的標(biāo)記化處理、應(yīng)用助手掩碼鎖定答案標(biāo)記、計算掩碼標(biāo)記的對數(shù)概率之和以獲取響應(yīng)的對數(shù)似然度等步驟,精準(zhǔn)計算損失值并反向傳播更新模型參數(shù)。
整個訓(xùn)練過程僅在 AIME2024 數(shù)據(jù)集上進(jìn)行 10 或 20 步迭代,借助 8 塊 NVIDIA A100 GPU(80GB)的強大算力,并采用 AdamW 優(yōu)化器,設(shè)置學(xué)習(xí)率為 1X10-5,配合常規(guī)權(quán)重衰減策略,生成序列長度上限為 3072 token。在這一輕量化、高效的訓(xùn)練設(shè)置下,無需輔助數(shù)據(jù)集、指令調(diào)優(yōu)或偏好模型,即可實現(xiàn)零標(biāo)簽的強化學(xué)習(xí)微調(diào),充分挖掘模型潛力。

RLSC 方法
上述算法展示了 RLSC 方法在 LLM 中的具體實現(xiàn)步驟,通過生成樣本、計算概率和更新模型參數(shù)來實現(xiàn)自我信心的強化。
實驗與結(jié)果
實驗設(shè)置
為全面評估 RLSC 的性能,研究者們選用了多個極具挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集,涵蓋數(shù)學(xué)推理任務(wù),如 AIME2024、MATH500、AMC23、GSM8K,以及 GPQADiamond 問答基準(zhǔn)等。這些數(shù)據(jù)集涵蓋了從基礎(chǔ)數(shù)學(xué)問題到復(fù)雜科學(xué)問題的廣泛領(lǐng)域,能夠充分檢驗?zāi)P驮诓煌瑘鼍跋碌耐评砼c泛化能力。
在評估指標(biāo)方面,采用準(zhǔn)確率(Acc)作為核心衡量標(biāo)準(zhǔn),其定義為正確回答樣本數(shù)與總評估樣本數(shù)的比值。同時,也計算 Pass@1 分?jǐn)?shù),即綜合考慮多個可能答案后,模型正確回答的概率。這些指標(biāo)從不同角度反映了模型的實際性能,確保評估結(jié)果的全面性與客觀性。
實驗結(jié)果對比
實驗結(jié)果顯示,RLSC 調(diào)優(yōu)后的模型在各項基準(zhǔn)測試中均取得了顯著的性能提升。以下是在不同數(shù)據(jù)集上的提升情況:
- AIME2024:從 13.3% 提升至 26.7%(+13.4%)
- MATH500:從 51.4% 提升至 72.6%(+21.2%)
- AMC23:從 45.0% 提升至 54.7%(+9.7%)
- GPQA:從 21.4% 提升至 24.1%(+2.7%)
- Olympiadbench:從 15.1% 提升至 35.9%(+20.8%)
- Minerva Math:從 10.7% 提升至 32.4%(+21.7%)
- MMLU Stem:從 52.3% 提升至 57.6%(+5.3%)

基線版本的Qwen2.5模型及其經(jīng)過RLSC調(diào)整的變體在推理基準(zhǔn)測試中的準(zhǔn)確率
上表直觀地展示了 RLSC 調(diào)優(yōu)前后模型在各個基準(zhǔn)測試上的準(zhǔn)確率對比,突出了 RLSC 在多個數(shù)據(jù)集上取得的顯著提升。
結(jié)果分析
RLSC 取得如此優(yōu)異成果的關(guān)鍵在于其獨特的自我信心強化機制。通過直接利用模型自身的輸出分布信息,無需外部監(jiān)督,便能精準(zhǔn)地引導(dǎo)模型優(yōu)化方向。這種內(nèi)在驅(qū)動的優(yōu)化方式使模型在學(xué)習(xí)過程中更加聚焦于高頻正確答案,不斷增強對這些答案的信心,從而在實際推理任務(wù)中能夠更穩(wěn)定、更準(zhǔn)確地輸出正確結(jié)果。
尤其值得一提的是,RLSC 的高效性使其在資源受限環(huán)境下表現(xiàn)出色。相較于依賴大規(guī)模數(shù)據(jù)和算力的微調(diào)方法,RLSC 僅需極少量的訓(xùn)練樣本和計算步驟即可達(dá)成顯著性能提升,這對于在邊緣設(shè)備或計算資源有限場景中部署 LLM 具有重要意義,極大地拓展了其應(yīng)用場景和實用價值。
案例分析與效果展示
案例 1:AIME2024 數(shù)學(xué)問題求解
在 AIME2024 數(shù)學(xué)問題中,給定分段函數(shù) f(x),要求找出使得 y = f(x) 圖像與水平線 y = 2017 至少相交兩次的最小 a 值。原始 Qwen2.5-Math-7B 模型在解答時陷入了復(fù)雜的符號推導(dǎo),最終得出了錯誤答案
。而經(jīng)過 RLSC 調(diào)優(yōu)后的模型則展現(xiàn)出截然不同的推理過程。
它首先對函數(shù) f(x) 的兩部分分別進(jìn)行分析:對于 x ≥ a 時的 ax2,確定其取值范圍為 [a3, ∞);對于 x < a 時的 ax + 2a,明確其取值范圍為 (?∞, a2 + 2a)。為了滿足圖像與水平線 y = 2017 至少相交兩次的條件,這兩個范圍必須存在重疊,即 a3 ≤ a2 + 2a。通過巧妙地變形和因式分解該不等式,得到 a(a ? 2)(a + 1) ≤ 0,進(jìn)而求得滿足條件的 a 的區(qū)間為 (?∞, ?1] ∪ [0, 2]。由于題目要求最小的 a 值,模型精準(zhǔn)地得出 a 的最大可能值為 2,這一結(jié)果,邏輯嚴(yán)謹(jǐn)、條理清晰,并且正確。
為了進(jìn)一步驗證答案的正確性,調(diào)優(yōu)后的模型還提供了 Python 代碼實現(xiàn),通過編程計算再次確認(rèn)了理論推導(dǎo)的準(zhǔn)確性。這一案例生動地體現(xiàn)了 RLSC 在優(yōu)化模型推理能力方面的顯著效果,使其能夠避開原始模型的冗長錯誤路徑,直接、準(zhǔn)確地抵達(dá)正確答案。

案例 1:模型輸出結(jié)果的比較
上面這個用例展示了 RLSC 調(diào)優(yōu)前后模型在 AIME2024 數(shù)學(xué)問題上的輸出對比,突出了調(diào)優(yōu)后模型的準(zhǔn)確性和邏輯性。
案例 2:幾何問題求解
在求解兩點 (2, ?6) 和 (?4, 3) 間距離的幾何問題中,原始模型僅給出了錯誤答案 10,未提供任何有效的推理過程。相比之下,RLSC 調(diào)優(yōu)后的模型則詳細(xì)地展示了正確的解題步驟。

這一案例凸顯了 RLSC 在提升模型幾何問題求解能力方面的優(yōu)勢,使其能夠正確運用公式進(jìn)行計算,并以清晰的邏輯呈現(xiàn)完整的推理過程,避免了原始模型的盲目猜測和錯誤輸出。

案例 2: 模型輸出結(jié)果的比較
上面這個用例展示了 RLSC 調(diào)優(yōu)前后模型在幾何問題上的輸出對比,突出了調(diào)優(yōu)后模型的正確性和詳細(xì)推理過程。
案例 3:AIME 風(fēng)格博弈論問題求解
面對一個典型的 AIME 風(fēng)格博弈論問題,即 Alice 和 Bob 輪流取令牌的游戲,要求找出在 n ≤ 2024 的正整數(shù)中,Bob 有必勝策略的 n 的數(shù)量。RLSC 調(diào)優(yōu)后的模型展現(xiàn)了卓越的復(fù)雜問題求解能力。
它首先定義了游戲中的位置狀態(tài)為 “獲勝態(tài)” 或 “失敗態(tài)”,并引入函數(shù) f(n) 來描述這一狀態(tài)關(guān)系。根據(jù)游戲規(guī)則,遞推地構(gòu)建了 f(n) 的邏輯表達(dá)式,即若 n ? 1 或 n ? 4 為失敗態(tài),則當(dāng)前 n 為獲勝態(tài),否則為失敗態(tài)。通過迭代計算所有 1 ≤ n ≤ 2024 的狀態(tài),模型精準(zhǔn)地統(tǒng)計出失敗態(tài)的數(shù)量為 809,這直接對應(yīng)了 Bob 能夠必勝的 n 的數(shù)量。
為確保結(jié)果的準(zhǔn)確性,模型還提供了相應(yīng)的 Python 驗證代碼,通過動態(tài)規(guī)劃的方法重新計算并驗證了這一結(jié)果。這一案例充分展示了 RLSC 在處理復(fù)雜博弈論問題時的推理深度和精確性,能夠?qū)嶋H問題轉(zhuǎn)化為數(shù)學(xué)模型,并高效求解,體現(xiàn)了其在多領(lǐng)域問題求解中的強大適應(yīng)性。

模型輸出(正確答案):Qwen2.5在AIME風(fēng)格的博弈論問題上的表現(xiàn)
上面展示了 RLSC 調(diào)優(yōu)后模型在 AIME 風(fēng)格博弈論問題上的正確輸出,體現(xiàn)了其在復(fù)雜問題求解中的優(yōu)勢。
案例 4:對數(shù)方程組求解問題
在一個涉及對數(shù)方程組的數(shù)學(xué)問題中,要求求解未知數(shù) x、y、z 滿足的對數(shù)關(guān)系,并最終得到表達(dá)式 log?(x?y3z2) 的值。RLSC 調(diào)優(yōu)后的模型靈活地運用對數(shù)性質(zhì),將原始方程組巧妙地轉(zhuǎn)化為線性方程組。
通過變量替換 a = log?(x)、b = log?(y)、c = log?(z),模型將復(fù)雜的對數(shù)方程組簡化為線性方程組:

接著,通過對方程組進(jìn)行整體求和,得出 a + b + c = ?13/12。再分別求解各變量,得到 a = ?7/24、b = ?3/8、c = ?5/12。最終,模型代入這些值計算目標(biāo)表達(dá)式,得出 log?(x?y3z2) = 4a + 3b + 2c = ?25/8,即其絕對值為 25/8,因此 m = 25、n = 8,m + n = 33。
整個推理過程邏輯嚴(yán)密、步驟清晰,從對數(shù)方程組的轉(zhuǎn)換到線性方程組的求解,再到最終結(jié)果的代入計算,環(huán)環(huán)相扣,毫無破綻。這一案例再次印證了 RLSC 在優(yōu)化模型數(shù)學(xué)問題求解能力方面的顯著成效,使其能夠精準(zhǔn)地處理復(fù)雜的對數(shù)運算和方程求解任務(wù),為解決各類數(shù)學(xué)難題提供了可靠的保障。

模型輸出(正確答案),Qwen2.5-Math-7B帶強化學(xué)習(xí)自我糾正
上面展示了 RLSC 調(diào)優(yōu)后模型在對數(shù)方程組求解問題上的正確輸出,體現(xiàn)了其在數(shù)學(xué)問題求解中的精確性和邏輯性。
與同類工作的比較
強化學(xué)習(xí)在推理任務(wù)中的應(yīng)用
強化學(xué)習(xí)在提升 LLM 推理能力方面發(fā)揮了至關(guān)重要的作用。眾多前沿模型紛紛借助強化學(xué)習(xí)的力量來增強自身的推理技能。例如,DeepSeek-R1 通過分解復(fù)雜問題為多個中間步驟,并在每一步都進(jìn)行深度思考與權(quán)衡,從而有效提升了模型的推理深度和準(zhǔn)確性;ChatGPT 憑借其強大的語言理解和生成能力,在與用戶的交互過程中不斷學(xué)習(xí)和優(yōu)化推理策略,能夠針對不同領(lǐng)域的問題給出合理且具有邏輯性的回答;QwQ 則專注于特定領(lǐng)域的推理任務(wù),通過強化學(xué)習(xí)精細(xì)調(diào)優(yōu)模型參數(shù),使其在專業(yè)領(lǐng)域內(nèi)展現(xiàn)出卓越的推理性能。
這些模型的共同點在于,它們都借助強化學(xué)習(xí)的框架,以不同的方式激勵模型探索更優(yōu)的推理路徑,從而在復(fù)雜任務(wù)中取得突破。然而,它們大多依賴于外部的獎勵信號或大量的標(biāo)注數(shù)據(jù)來指導(dǎo)學(xué)習(xí)過程,這在一定程度上限制了強化學(xué)習(xí)在推理任務(wù)中的廣泛應(yīng)用,特別是在資源受限或難以獲取高質(zhì)量標(biāo)注數(shù)據(jù)的場景中。
基于人類反饋的強化學(xué)習(xí)(RLHF)
RLHF 作為一種經(jīng)典的強化學(xué)習(xí)方法,其核心在于利用人類標(biāo)注的數(shù)據(jù)或偏好模型來生成獎勵信號,進(jìn)而引導(dǎo)模型行為與人類偏好相匹配。具體來說,RLHF 通常需要收集大量人類對模型生成結(jié)果的評價數(shù)據(jù),如評分、排名等,然后訓(xùn)練一個獎勵模型來預(yù)測人類對不同回答的偏好程度。在模型訓(xùn)練過程中,將這個獎勵模型的輸出作為強化學(xué)習(xí)的獎勵信號,指導(dǎo)模型優(yōu)化策略,使模型生成的回答更符合人類的期望。
然而,RLHF 的局限性也十分明顯。因為獲取人類標(biāo)注數(shù)據(jù)的成本極高,這需要耗費大量的人力和時間,還可能受到標(biāo)注者主觀因素的影響,導(dǎo)致標(biāo)注數(shù)據(jù)的不一致性。另外,訓(xùn)練獎勵模型本身也是一個復(fù)雜的任務(wù),需要大量的計算資源和專業(yè)的數(shù)據(jù)處理技巧。此外,由于依賴于人類標(biāo)注的靜態(tài)數(shù)據(jù),RLHF 在面對新領(lǐng)域或新任務(wù)時,往往需要重新收集數(shù)據(jù)和訓(xùn)練獎勵模型,缺乏靈活性和適應(yīng)性。
可驗證獎勵的強化學(xué)習(xí)(RLVR)
RLVR 則另辟蹊徑,試圖擺脫對人工標(biāo)注的依賴。它的核心思想是僅基于問題 - 答案對本身來計算可驗證的獎勵。例如,在數(shù)學(xué)問題求解中,可以通過將模型生成的答案與已知的正確答案進(jìn)行比較,從而確定獎勵值。這種方法的優(yōu)勢在于,無需額外的標(biāo)注數(shù)據(jù),只要問題本身具有明確的驗證標(biāo)準(zhǔn),就能為模型提供即時的反饋信號。
盡管如此,RLVR 也存在一些局限。它要求問題具有明確且易于驗證的正確答案,這在許多實際場景中并不總是滿足,例如開放性問題、創(chuàng)造性任務(wù)等。其次,對于一些需要評估中間推理過程質(zhì)量的任務(wù),RLVR 難以提供有效的獎勵信號,因為它僅關(guān)注最終答案的正確性。此外,RLVR 仍然需要一定量的人工標(biāo)注的問答對來進(jìn)行初始的模型訓(xùn)練和驗證,這在一定程度上限制了其完全擺脫人工干預(yù)的可能性。
測試時訓(xùn)練(TTT)方法
TTT 作為強化學(xué)習(xí)領(lǐng)域的新興方向,聚焦于在模型推理階段進(jìn)行實時優(yōu)化。其中,SelfPlay Critic(SPC)和 Absolute Zero Reasoner(AZR)等方法借鑒了博弈論中的對抗學(xué)習(xí)思想。在 SPC 中,兩個模型相互對抗:一個模型負(fù)責(zé)生成可能的推理步驟或答案,另一個模型則扮演 “批評者” 角色,試圖找出其中的錯誤或薄弱環(huán)節(jié)。通過這種對抗訓(xùn)練,兩個模型相互促進(jìn)、共同提升。AZR 則進(jìn)一步強化了這種對抗機制,使模型能夠在零樣本條件下通過自我博弈和推理,逐步構(gòu)建對問題的理解和解決方案。
Test-Time Reinforcement Learning(TTRL)同樣是 TTT 領(lǐng)域的重要代表。它通過為每個問題生成多個候選回答,并采用多數(shù)投票機制來確定偽標(biāo)簽,從而為模型更新提供獎勵信號。這種基于投票的偽標(biāo)簽生成方法能夠在一定程度上減少錯誤標(biāo)簽對模型訓(xùn)練的影響,提高模型的魯棒性。然而,TTRL 的不足之處在于需要為每個問題生成大量的樣本(如 64 個),導(dǎo)致計算開銷巨大,難以在實際應(yīng)用中大規(guī)模推廣,尤其對于大規(guī)模語言模型和復(fù)雜的任務(wù)來說,其計算成本更是令人望而卻步。
分析對比
RLSC 與 RLHF、RLVR、TTT 等方法的對比如下表所示:
方法 | 原理 | 依賴資源 | 優(yōu)點 | 缺點 |
RLHF | 基于人類標(biāo)注數(shù)據(jù)或偏好模型生成獎勵信號 | 大量人工標(biāo)注數(shù)據(jù)、偏好模型訓(xùn)練 | 能有效使模型行為與人類偏好一致 | 依賴人工標(biāo)注,成本高、靈活性差 |
RLVR | 僅基于問題 - 答案對計算可驗證獎勵 | 問題的驗證標(biāo)準(zhǔn)、少量標(biāo)注問答對 | 無需大量標(biāo)注數(shù)據(jù),降低成本 | 適用于有限場景,對問題答案可驗證性要求高 |
TTT(如 SPC、AZR) | 利用對抗學(xué)習(xí)或自我博弈在推理階段優(yōu)化模型 | 可能需要外部工具(如代碼執(zhí)行器)提供反饋 | 擺脫對人工監(jiān)督的依賴,提升模型推理能力 | 部分方法依賴外部工具,增加系統(tǒng)復(fù)雜性 |
TTRL | 通過多數(shù)投票生成偽標(biāo)簽進(jìn)行強化學(xué)習(xí) | 大量樣本生成(如 64 個 / 問題) | 無需人工監(jiān)督,提高模型魯棒性 | 計算開銷大,難以大規(guī)模應(yīng)用 |
RLSC | 利用模型自身輸出分布的眾數(shù)銳化,最大化自我信心 | 無需標(biāo)注數(shù)據(jù)、偏好模型或大量樣本 | 高效、低成本,適用于資源受限環(huán)境 | 可能在某些需要多樣化輸出的任務(wù)中表現(xiàn)欠佳 |
上表對比可以看出,RLSC 在擺脫外部依賴、降低成本和提高效率方面具有顯著優(yōu)勢,為 LLM 的微調(diào)提供了一種全新的思路。它巧妙地利用模型自身的內(nèi)部信息,避免了復(fù)雜的數(shù)據(jù)標(biāo)注流程和大規(guī)模的樣本生成,使得強化學(xué)習(xí)微調(diào)更加簡潔、高效,易于在各種場景下實施。
總結(jié)認(rèn)知
RLSC 方法,其核心貢獻(xiàn)在于提出了一種無需依賴外部標(biāo)簽、偏好模型或手動設(shè)計獎勵信號的強化學(xué)習(xí)微調(diào)框架。通過巧妙地利用模型自身對輸出的信心作為內(nèi)在獎勵信號,RLSC 實現(xiàn)了在極少量訓(xùn)練數(shù)據(jù)和低計算成本下對模型性能的顯著提升,為 LLM 的優(yōu)化提供了一種高效、經(jīng)濟(jì)且實用的新途徑。
在多個權(quán)威基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果有力地證明了 RLSC 的有效性。它在數(shù)學(xué)推理等復(fù)雜任務(wù)中取得了性能提升,還展現(xiàn)出了強大的泛化能力和適應(yīng)性。尤其是在資源受限的環(huán)境中,RLSC 憑借其輕量級的訓(xùn)練設(shè)置和對計算資源的低需求,展現(xiàn)了巨大的應(yīng)用潛力,有望使更多研究者和開發(fā)者能夠輕松地對 LLM 進(jìn)行優(yōu)化和定制。
RLSC 的創(chuàng)新性
RLSC 的創(chuàng)新性則主要體現(xiàn)在以下幾個關(guān)鍵方面:
1. 自我信心驅(qū)動的優(yōu)化機制 :首次將模型自身對輸出的信心轉(zhuǎn)化為強化學(xué)習(xí)的獎勵信號,開創(chuàng)性地實現(xiàn)了完全基于模型內(nèi)部信息的自我監(jiān)督學(xué)習(xí)模式。這一機制摒棄了傳統(tǒng)方法對外部監(jiān)督數(shù)據(jù)的依賴,從根本上降低了數(shù)據(jù)獲取和處理成本,簡化了微調(diào)流程。
2. 眾數(shù)銳化的理論突破 :通過深入分析多數(shù)投票機制的本質(zhì),首次從理論上揭示了其與模型輸出分布眾數(shù)銳化的內(nèi)在聯(lián)系,并將其轉(zhuǎn)化為可微分的優(yōu)化目標(biāo)。這種基于數(shù)學(xué)推導(dǎo)的創(chuàng)新方法為 RLSC 提供了堅實的理論基礎(chǔ),還為未來類似方法的研究提供了新的思路和方向。
3. 高效的訓(xùn)練策略 :設(shè)計了簡潔高效的訓(xùn)練策略,僅需少量樣本和訓(xùn)練步驟即可實現(xiàn)顯著性能提升。例如,在 Qwen2.5-Math-7B 模型上,僅使用 16 個樣本和 10 至 20 步訓(xùn)練,即可在多個基準(zhǔn)測試中取得超過 10% 至 20% 的準(zhǔn)確率提升。這種高效的訓(xùn)練方式極大地提高了微調(diào)的可行性和實用性,特別適用于計算資源有限的場景。
RLSC 的局限性
盡管 RLSC 具備諸多優(yōu)勢,但其也存在一些局限性。例如,在某些需要高度多樣化輸出的任務(wù)中,RLSC 可能會因為過度追求輸出一致性而導(dǎo)致模型生成結(jié)果的多樣性不足。此外,對于一些數(shù)據(jù)分布極為特殊或噪聲較大的任務(wù),RLSC 的自我信心強化機制可能需要進(jìn)一步調(diào)整和優(yōu)化才能發(fā)揮最佳效果。
針對這些局限性,未來可以嘗試以下下幾個方面:
- 增強輸出多樣性 :探索在 RLSC 框架中引入多樣性正則化項或采用多模態(tài)分布建模的方法,使模型在保持高置信度的同時,能夠生成 更加豐富多樣的輸出結(jié)果,滿足不同任務(wù)對多樣性的需求。
- 適應(yīng)復(fù)雜數(shù)據(jù)分布 :研究如何結(jié)合數(shù)據(jù)增強技術(shù)或自適應(yīng)學(xué)習(xí)策略,提升 RLSC 在面對復(fù)雜、噪聲數(shù)據(jù)時的魯棒性和適應(yīng)性。例如,通過在訓(xùn)練過程中動態(tài)調(diào)整平滑項 α 或采用數(shù)據(jù)驅(qū)動的采樣策略,使模型能夠更好地應(yīng)對不同類型的分布變化。
- 與其他方法的融合 :進(jìn)一步探索 RLSC 與現(xiàn)有其他強化學(xué)習(xí)方法(如 RLHF、TTT 等)的融合方式,充分發(fā)揮各自的優(yōu)勢,實現(xiàn)更強大的模型優(yōu)化效果。例如,在 RLSC 的基礎(chǔ)上,結(jié)合少量人工標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),或與其他測試時訓(xùn)練方法聯(lián)合使用,以進(jìn)一步提升模型性能。
綜上,RLSC 作為一種創(chuàng)新的強化學(xué)習(xí)微調(diào)方法,憑借其獨特的自我信心驅(qū)動機制和高效的訓(xùn)練策略,在 LLM 的優(yōu)化領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。傳統(tǒng)的強化學(xué)習(xí)方法往往讓人聯(lián)想到復(fù)雜的標(biāo)注流程、龐大的計算資源需求以及繁瑣的外部模型依賴。RLSC 通過利用模型對輸出的信心,RLSC 讓模型在自我反思和自我強化中實現(xiàn)成長,這種內(nèi)在驅(qū)動的優(yōu)化方式既優(yōu)雅,又具有創(chuàng)新性。
RLSC 給我的感覺有點像再次強化特定任務(wù)目標(biāo)的概率分布,它應(yīng)該是進(jìn)一步放大了特定任務(wù)的先驗概率,使模型的輸出更穩(wěn)健。甚至,這個方法還激發(fā)了我對 inference-time 時 Agent 采樣的思考,通過 Repeat 采樣,其實也可以實現(xiàn)類似的效果,當(dāng)然這會消耗 inference-time 的算力。在這里要特別注意的是所強化的任務(wù)類型。我的理解,具有強泛化、弱標(biāo)準(zhǔn)類的任務(wù)(比如創(chuàng)作),RLSC 方法就未必適用;如果過度使用,反而可能會降低模型的泛化能力,發(fā)生在此類任務(wù)上的過擬合現(xiàn)象,而導(dǎo)致模型性能下降。而如果任務(wù)具有確定解或者具有強標(biāo)準(zhǔn)的結(jié)果(比如數(shù)學(xué)或 SOP 等),則應(yīng)該很適合用 RLSC 方法進(jìn)行強化。所以,RLSC 這類方法,用對任務(wù)場景很重要,且從 RFT 的 ROI 角度來看,它很高效。































