偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RL微調(diào),關(guān)鍵在前10%獎(jiǎng)勵(lì)!基于評(píng)分準(zhǔn)則,Scale AI等提出新方法

人工智能 新聞
大模型強(qiáng)化學(xué)習(xí)總是「用力過(guò)猛」?Scale AI聯(lián)合UCLA、芝加哥大學(xué)的研究團(tuán)隊(duì)提出了一種基于評(píng)分準(zhǔn)則(rubric)的獎(jiǎng)勵(lì)建模新方法,從理論和實(shí)驗(yàn)兩個(gè)維度證明:要想讓大模型對(duì)齊效果好,關(guān)鍵在于準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」的回答。這項(xiàng)研究不僅揭示了獎(jiǎng)勵(lì)過(guò)度優(yōu)化的根源,還提供了實(shí)用的解決方案。

讓大模型按照人類意圖行事,一直是AI領(lǐng)域的核心挑戰(zhàn)。目前主流的強(qiáng)化學(xué)習(xí)微調(diào)(RFT)方法雖然有效,但存在一個(gè)致命弱點(diǎn):獎(jiǎng)勵(lì)過(guò)度優(yōu)化(reward over-optimization)。

獎(jiǎng)勵(lì)過(guò)度優(yōu)化是大模型對(duì)齊的「阿喀琉斯之踵」。

簡(jiǎn)單來(lái)說(shuō),就是模型學(xué)會(huì)了「鉆空子」——它們不是真正變得更好,而是學(xué)會(huì)了如何在獎(jiǎng)勵(lì)模型上刷高分,實(shí)際輸出質(zhì)量反而下降。這就像考試時(shí)學(xué)生死記硬背標(biāo)準(zhǔn)答案來(lái)應(yīng)付老師,而不是真正理解知識(shí)。

Scale AI的最新研究直擊這一痛點(diǎn),從理論層面揭示了問(wèn)題的根源,并提出了創(chuàng)新的解決方案。

論文鏈接:https://arxiv.org/abs/2509.21500 

代碼開源:https://github.com/Jun-Kai-Zhang/rubrics

數(shù)據(jù)開源:https://huggingface.co/datasets/JunkaiZ/Rubrics

理論突破

高分區(qū)才是關(guān)鍵戰(zhàn)場(chǎng)

來(lái)自Scale AI、UCLA和芝加哥大學(xué)的研究團(tuán)隊(duì),首次從理論上給出了明確答案:

獎(jiǎng)勵(lì)過(guò)度優(yōu)化的根源,在于獎(jiǎng)勵(lì)模型在高分區(qū)的不準(zhǔn)確性。

  • 高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確性決定一切:當(dāng)代理獎(jiǎng)勵(lì)在高分區(qū)域出現(xiàn)偏差時(shí),模型性能會(huì)隨著訓(xùn)練進(jìn)程急劇崩潰;而低分區(qū)域的誤差影響微乎其微。
  • 只需要準(zhǔn)確識(shí)別Top 2響應(yīng):即使只能正確排序前10%的優(yōu)質(zhì)回答,模型性能就能接近最優(yōu),效果幾乎與完美獎(jiǎng)勵(lì)模型相當(dāng)。

這意味著:我們不需要在所有回復(fù)上都準(zhǔn)確,只需要準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」!

方法創(chuàng)新

用評(píng)分準(zhǔn)則捕捉「卓越」

理論清晰了,但新問(wèn)題來(lái)了:如何獲得高質(zhì)量樣本來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型?這里存在一個(gè)悖論:

從基礎(chǔ)模型采樣?太低效了——高分樣本本來(lái)就稀少。

用更強(qiáng)模型生成?又會(huì)引入分布偏移——獎(jiǎng)勵(lì)模型可能學(xué)到的是表面特征而非真實(shí)能力。

研究團(tuán)隊(duì)提出了基于評(píng)分準(zhǔn)則(rubric)的解決方案。評(píng)分準(zhǔn)則是一組衡量回答好壞的明確準(zhǔn)則,每個(gè)準(zhǔn)則都有相應(yīng)權(quán)重。比如對(duì)于醫(yī)療診斷問(wèn)題,可能包括:

高權(quán)重準(zhǔn)則:「正確識(shí)別疾病」「標(biāo)明緊急程度」

低權(quán)重準(zhǔn)則:「提及治療方案」

Rubric的核心優(yōu)勢(shì)在于:

  • 將評(píng)分分解為多個(gè)可驗(yàn)證的具體標(biāo)準(zhǔn)
  • 每個(gè)標(biāo)準(zhǔn)都是二元判斷(滿足/不滿足)
  • 最終得分是滿足標(biāo)準(zhǔn)的加權(quán)平均

更重要的是,Rubric天然具有分布不變性——它關(guān)注的是回復(fù)本身的質(zhì)量特征,而非生成來(lái)源。

兩大原則:如何構(gòu)建有效的Rubric

為了讓Rubric真正捕捉高分區(qū)的差異,研究團(tuán)隊(duì)提出兩大關(guān)鍵原則:

  • 原則1:區(qū)分「優(yōu)秀」與「卓越」。通過(guò)對(duì)比兩個(gè)都很好的回答,識(shí)別它們的細(xì)微差異,將這些差異編碼為新的評(píng)分準(zhǔn)則。
  • 原則2:在多樣化的優(yōu)質(zhì)回答中尋找差異。擴(kuò)大候選池,從16個(gè)頂尖模型中采樣,確保覆蓋不同的優(yōu)秀回答模式。

實(shí)驗(yàn)驗(yàn)證

全面碾壓基線方法

研究在通用和醫(yī)療兩個(gè)領(lǐng)域進(jìn)行了大規(guī)模實(shí)驗(yàn):

性能提升明顯

  • 使用優(yōu)質(zhì)樣本改進(jìn)的評(píng)分準(zhǔn)則,勝率從31.3%提升至39.7%
  • 醫(yī)療領(lǐng)域的HealthBench得分從0.3004提升至0.3513

有效緩解獎(jiǎng)勵(lì)過(guò)度優(yōu)化

  • 初始評(píng)分準(zhǔn)則訓(xùn)練的模型在60步后性能急劇下降
  • 改進(jìn)后的評(píng)分準(zhǔn)則將崩潰點(diǎn)推遲到160步,延長(zhǎng)了近3倍

高獎(jiǎng)勵(lì)區(qū)域準(zhǔn)確率大幅提升

評(píng)分準(zhǔn)則改進(jìn)后,在高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率提升顯著,而低獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率基本不變,完美驗(yàn)證了理論預(yù)測(cè)。

質(zhì)的飛躍:優(yōu)秀樣本帶來(lái)更深層的改進(jìn)

研究團(tuán)隊(duì)還分析了不同質(zhì)量樣本帶來(lái)的Rubric改進(jìn)類型:

優(yōu)秀樣本驅(qū)動(dòng)的改進(jìn)

  • 添加懲罰項(xiàng),避免明顯錯(cuò)誤
  • 放寬過(guò)于嚴(yán)格的標(biāo)準(zhǔn)
  • 糾正錯(cuò)誤或?qū)R預(yù)期標(biāo)準(zhǔn)

卓越樣本驅(qū)動(dòng)的改進(jìn)

  • 將復(fù)雜標(biāo)準(zhǔn)分解為子標(biāo)準(zhǔn)
  • 增強(qiáng)驗(yàn)證和證據(jù)標(biāo)準(zhǔn)
  • 明確范圍、邊界和約束
  • 納入風(fēng)險(xiǎn)分析和安全約束

以醫(yī)療案例為例:

初始Rubric只要求「提到正確診斷」和「說(shuō)明緊急性」——兩個(gè)優(yōu)秀回復(fù)都滿足。

精煉后的Rubric新增標(biāo)準(zhǔn):「明確指出需要緊急影像學(xué)檢查(如增強(qiáng)CT或MRI/MRV)來(lái)確認(rèn)診斷」,成功區(qū)分出了更好的那個(gè)。

這就是質(zhì)的飛躍:從表面判斷到深層驗(yàn)證標(biāo)準(zhǔn)。

產(chǎn)業(yè)意義與展望

這項(xiàng)研究為大模型對(duì)齊提供了全新視角:

  1. 理論指導(dǎo)實(shí)踐:明確了獎(jiǎng)勵(lì)建模的優(yōu)化方向——聚焦高獎(jiǎng)勵(lì)區(qū)域
  2. 方法可操作性強(qiáng):基于評(píng)分準(zhǔn)則的方法易于實(shí)施和解釋
  3. 領(lǐng)域適應(yīng)性好:在醫(yī)療等專業(yè)領(lǐng)域表現(xiàn)尤其出色

當(dāng)然,研究也指出了當(dāng)前的局限:

  • 簡(jiǎn)單的加權(quán)平均可能不是最優(yōu)的分?jǐn)?shù)聚合方式

對(duì)于大模型從業(yè)者來(lái)說(shuō),這項(xiàng)工作提供了一個(gè)清晰的方向:

不要試圖在所有地方都完美,專注于準(zhǔn)確區(qū)分頂尖回復(fù),這才是對(duì)齊的關(guān)鍵。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-25 10:04:10

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2023-12-27 18:12:50

2025-02-21 09:35:00

3DAI生成

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2022-12-08 13:00:10

AI性別偏見

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2025-06-30 09:08:00

2024-12-30 07:11:00

大型視覺語(yǔ)言模型VLMs人工智能

2024-10-23 19:47:54

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2015-07-20 11:49:56

Wi-Fi

2021-11-26 18:37:39

技術(shù)人工智能計(jì)算機(jī)

2025-04-10 09:38:37

2023-11-23 15:05:02

玻璃歸檔存儲(chǔ)微軟

2024-09-29 10:40:00

數(shù)據(jù)模型

2025-09-22 10:44:20

2010-09-30 14:05:27

JavascriptIE6

2024-07-25 12:33:45

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)