RL微調(diào),關(guān)鍵在前10%獎(jiǎng)勵(lì)!基于評(píng)分準(zhǔn)則,Scale AI等提出新方法
讓大模型按照人類意圖行事,一直是AI領(lǐng)域的核心挑戰(zhàn)。目前主流的強(qiáng)化學(xué)習(xí)微調(diào)(RFT)方法雖然有效,但存在一個(gè)致命弱點(diǎn):獎(jiǎng)勵(lì)過(guò)度優(yōu)化(reward over-optimization)。
獎(jiǎng)勵(lì)過(guò)度優(yōu)化是大模型對(duì)齊的「阿喀琉斯之踵」。
簡(jiǎn)單來(lái)說(shuō),就是模型學(xué)會(huì)了「鉆空子」——它們不是真正變得更好,而是學(xué)會(huì)了如何在獎(jiǎng)勵(lì)模型上刷高分,實(shí)際輸出質(zhì)量反而下降。這就像考試時(shí)學(xué)生死記硬背標(biāo)準(zhǔn)答案來(lái)應(yīng)付老師,而不是真正理解知識(shí)。
Scale AI的最新研究直擊這一痛點(diǎn),從理論層面揭示了問(wèn)題的根源,并提出了創(chuàng)新的解決方案。

論文鏈接:https://arxiv.org/abs/2509.21500
代碼開源:https://github.com/Jun-Kai-Zhang/rubrics
數(shù)據(jù)開源:https://huggingface.co/datasets/JunkaiZ/Rubrics
理論突破
高分區(qū)才是關(guān)鍵戰(zhàn)場(chǎng)
來(lái)自Scale AI、UCLA和芝加哥大學(xué)的研究團(tuán)隊(duì),首次從理論上給出了明確答案:
獎(jiǎng)勵(lì)過(guò)度優(yōu)化的根源,在于獎(jiǎng)勵(lì)模型在高分區(qū)的不準(zhǔn)確性。
- 高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確性決定一切:當(dāng)代理獎(jiǎng)勵(lì)在高分區(qū)域出現(xiàn)偏差時(shí),模型性能會(huì)隨著訓(xùn)練進(jìn)程急劇崩潰;而低分區(qū)域的誤差影響微乎其微。
- 只需要準(zhǔn)確識(shí)別Top 2響應(yīng):即使只能正確排序前10%的優(yōu)質(zhì)回答,模型性能就能接近最優(yōu),效果幾乎與完美獎(jiǎng)勵(lì)模型相當(dāng)。
這意味著:我們不需要在所有回復(fù)上都準(zhǔn)確,只需要準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」!

方法創(chuàng)新
用評(píng)分準(zhǔn)則捕捉「卓越」
理論清晰了,但新問(wèn)題來(lái)了:如何獲得高質(zhì)量樣本來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型?這里存在一個(gè)悖論:
從基礎(chǔ)模型采樣?太低效了——高分樣本本來(lái)就稀少。
用更強(qiáng)模型生成?又會(huì)引入分布偏移——獎(jiǎng)勵(lì)模型可能學(xué)到的是表面特征而非真實(shí)能力。
研究團(tuán)隊(duì)提出了基于評(píng)分準(zhǔn)則(rubric)的解決方案。評(píng)分準(zhǔn)則是一組衡量回答好壞的明確準(zhǔn)則,每個(gè)準(zhǔn)則都有相應(yīng)權(quán)重。比如對(duì)于醫(yī)療診斷問(wèn)題,可能包括:
高權(quán)重準(zhǔn)則:「正確識(shí)別疾病」「標(biāo)明緊急程度」
低權(quán)重準(zhǔn)則:「提及治療方案」
Rubric的核心優(yōu)勢(shì)在于:
- 將評(píng)分分解為多個(gè)可驗(yàn)證的具體標(biāo)準(zhǔn)
- 每個(gè)標(biāo)準(zhǔn)都是二元判斷(滿足/不滿足)
- 最終得分是滿足標(biāo)準(zhǔn)的加權(quán)平均
更重要的是,Rubric天然具有分布不變性——它關(guān)注的是回復(fù)本身的質(zhì)量特征,而非生成來(lái)源。

兩大原則:如何構(gòu)建有效的Rubric
為了讓Rubric真正捕捉高分區(qū)的差異,研究團(tuán)隊(duì)提出兩大關(guān)鍵原則:
- 原則1:區(qū)分「優(yōu)秀」與「卓越」。通過(guò)對(duì)比兩個(gè)都很好的回答,識(shí)別它們的細(xì)微差異,將這些差異編碼為新的評(píng)分準(zhǔn)則。
- 原則2:在多樣化的優(yōu)質(zhì)回答中尋找差異。擴(kuò)大候選池,從16個(gè)頂尖模型中采樣,確保覆蓋不同的優(yōu)秀回答模式。

實(shí)驗(yàn)驗(yàn)證
全面碾壓基線方法
研究在通用和醫(yī)療兩個(gè)領(lǐng)域進(jìn)行了大規(guī)模實(shí)驗(yàn):
性能提升明顯
- 使用優(yōu)質(zhì)樣本改進(jìn)的評(píng)分準(zhǔn)則,勝率從31.3%提升至39.7%
- 醫(yī)療領(lǐng)域的HealthBench得分從0.3004提升至0.3513
有效緩解獎(jiǎng)勵(lì)過(guò)度優(yōu)化
- 初始評(píng)分準(zhǔn)則訓(xùn)練的模型在60步后性能急劇下降
- 改進(jìn)后的評(píng)分準(zhǔn)則將崩潰點(diǎn)推遲到160步,延長(zhǎng)了近3倍

高獎(jiǎng)勵(lì)區(qū)域準(zhǔn)確率大幅提升
評(píng)分準(zhǔn)則改進(jìn)后,在高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率提升顯著,而低獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率基本不變,完美驗(yàn)證了理論預(yù)測(cè)。
質(zhì)的飛躍:優(yōu)秀樣本帶來(lái)更深層的改進(jìn)
研究團(tuán)隊(duì)還分析了不同質(zhì)量樣本帶來(lái)的Rubric改進(jìn)類型:
優(yōu)秀樣本驅(qū)動(dòng)的改進(jìn):
- 添加懲罰項(xiàng),避免明顯錯(cuò)誤
- 放寬過(guò)于嚴(yán)格的標(biāo)準(zhǔn)
- 糾正錯(cuò)誤或?qū)R預(yù)期標(biāo)準(zhǔn)
卓越樣本驅(qū)動(dòng)的改進(jìn):
- 將復(fù)雜標(biāo)準(zhǔn)分解為子標(biāo)準(zhǔn)
- 增強(qiáng)驗(yàn)證和證據(jù)標(biāo)準(zhǔn)
- 明確范圍、邊界和約束
- 納入風(fēng)險(xiǎn)分析和安全約束
以醫(yī)療案例為例:
初始Rubric只要求「提到正確診斷」和「說(shuō)明緊急性」——兩個(gè)優(yōu)秀回復(fù)都滿足。
精煉后的Rubric新增標(biāo)準(zhǔn):「明確指出需要緊急影像學(xué)檢查(如增強(qiáng)CT或MRI/MRV)來(lái)確認(rèn)診斷」,成功區(qū)分出了更好的那個(gè)。
這就是質(zhì)的飛躍:從表面判斷到深層驗(yàn)證標(biāo)準(zhǔn)。
產(chǎn)業(yè)意義與展望
這項(xiàng)研究為大模型對(duì)齊提供了全新視角:
- 理論指導(dǎo)實(shí)踐:明確了獎(jiǎng)勵(lì)建模的優(yōu)化方向——聚焦高獎(jiǎng)勵(lì)區(qū)域
- 方法可操作性強(qiáng):基于評(píng)分準(zhǔn)則的方法易于實(shí)施和解釋
- 領(lǐng)域適應(yīng)性好:在醫(yī)療等專業(yè)領(lǐng)域表現(xiàn)尤其出色
當(dāng)然,研究也指出了當(dāng)前的局限:
- 簡(jiǎn)單的加權(quán)平均可能不是最優(yōu)的分?jǐn)?shù)聚合方式
對(duì)于大模型從業(yè)者來(lái)說(shuō),這項(xiàng)工作提供了一個(gè)清晰的方向:
不要試圖在所有地方都完美,專注于準(zhǔn)確區(qū)分頂尖回復(fù),這才是對(duì)齊的關(guān)鍵。

































