偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Deepseek新論文!如何讓AI自己學(xué)會(huì)更公平地打分?

發(fā)布于 2025-4-11 00:26
瀏覽
0收藏

一、為啥要研究這個(gè)問(wèn)題?

現(xiàn)在的AI大模型(比如ChatGPT)雖然很厲害,但它們?cè)谧鲆恍┬枰按蚍帧钡娜蝿?wù)時(shí)(比如判斷哪個(gè)回答更好、更安全),還是得靠人類(lèi)提前設(shè)定好規(guī)則。

比如,告訴AI“答案要準(zhǔn)確”、“不能有偏見(jiàn)”等等。但現(xiàn)實(shí)情況超級(jí)復(fù)雜,很多問(wèn)題沒(méi)法靠幾條固定規(guī)則解決,比如怎么評(píng)價(jià)一篇作文的好壞,或者怎么判斷一段對(duì)話(huà)有沒(méi)有冒犯性。

這時(shí)候,AI就需要自己學(xué)會(huì)“打分”——這就是獎(jiǎng)勵(lì)建模(Reward Modeling)。不過(guò),現(xiàn)有的AI在遇到新問(wèn)題時(shí),要么生搬硬套舊規(guī)則,要么在復(fù)雜問(wèn)題上表現(xiàn)不穩(wěn)定,甚至出現(xiàn)不公平的情況。

二、SPCT是個(gè)啥?

Deepseek新論文!如何讓AI自己學(xué)會(huì)更公平地打分?-AI.x社區(qū)

image.png|550

SPCT就像給AI裝了一個(gè)“自動(dòng)評(píng)分委員會(huì)”,讓它自己制定規(guī)則、檢查答案,最后綜合大家的意見(jiàn)給出公平的分?jǐn)?shù)。

這樣一來(lái),AI不僅能處理簡(jiǎn)單問(wèn)題,還能在復(fù)雜場(chǎng)景中越來(lái)越聰明,甚至幫人類(lèi)發(fā)現(xiàn)以前沒(méi)想到的評(píng)分維度!

SPCT全稱(chēng)是自原則批判調(diào)優(yōu),簡(jiǎn)單說(shuō)就是教AI自己制定評(píng)分標(biāo)準(zhǔn),然后根據(jù)這些標(biāo)準(zhǔn)給回答打分。它有兩個(gè)核心步驟:

自己定規(guī)矩(原則生成)

比如,當(dāng)用戶(hù)問(wèn)“怎么減肥最有效?”時(shí),AI不是直接給答案打分,而是先自己想幾個(gè)評(píng)判標(biāo)準(zhǔn):“這個(gè)方法科學(xué)嗎?”、“有沒(méi)有副作用?”、“適合普通人嗎?”。

這些標(biāo)準(zhǔn)不是人教的,而是AI根據(jù)問(wèn)題自己生成的。 傳統(tǒng)方法中,獎(jiǎng)勵(lì)原則(Principle)通常作為預(yù)定義規(guī)則輸入模型(如Constitutional AI)。

SPCT創(chuàng)新地將原則生成與獎(jiǎng)勵(lì)生成解耦,允許模型基于輸入動(dòng)態(tài)生成原則

Deepseek新論文!如何讓AI自己學(xué)會(huì)更公平地打分?-AI.x社區(qū)

其中,pθ是由參數(shù)θ控制的原則生成函數(shù),它與獎(jiǎng)勵(lì)生成函數(shù)rθ共享同一模型參數(shù)。

通過(guò)這種方式,GRM能夠根據(jù)不同查詢(xún)(Query)和響應(yīng)(Response)自動(dòng)生成適應(yīng)性強(qiáng)的評(píng)判標(biāo)準(zhǔn)(Principle),再基于原則生成具體批判(Critique),最終提取數(shù)值獎(jiǎng)勵(lì)(Reward)。

基于規(guī)則的強(qiáng)化學(xué)習(xí)

接著,AI會(huì)根據(jù)自己定的標(biāo)準(zhǔn),一條條檢查回答。比如發(fā)現(xiàn)某個(gè)回答說(shuō)“每天吃黃瓜能瘦10斤”,AI就會(huì)批判:“這個(gè)方法不科學(xué),缺乏科學(xué)依據(jù),可能有健康風(fēng)險(xiǎn)?!?SPCT采用兩階段訓(xùn)練策略:

  • 拒絕微調(diào)(Rejective Fine-Tuning):通過(guò)過(guò)濾低質(zhì)量軌跡(如獎(jiǎng)勵(lì)與真實(shí)值不一致的樣本),使模型適應(yīng)生成多樣化原則和批判。
  • 規(guī)則化在線(xiàn)RL(Rule-Based Online RL):引入KL散度懲罰和二分類(lèi)獎(jiǎng)勵(lì)函數(shù),強(qiáng)制模型生成符合預(yù)設(shè)格式的獎(jiǎng)勵(lì)信號(hào),同時(shí)鼓勵(lì)區(qū)分最優(yōu)響應(yīng)。

公式化的獎(jiǎng)勵(lì)機(jī)制為:

Deepseek新論文!如何讓AI自己學(xué)會(huì)更公平地打分?-AI.x社區(qū)

這一設(shè)計(jì)既保證了獎(jiǎng)勵(lì)信號(hào)的可解釋性,又通過(guò)在線(xiàn)學(xué)習(xí)提升了模型的泛化能力。

最后,AI把這些批判總結(jié)成一個(gè)分?jǐn)?shù),告訴用戶(hù)哪個(gè)回答更好。

三、怎么教AI學(xué)會(huì)這招?

Deepseek新論文!如何讓AI自己學(xué)會(huì)更公平地打分?-AI.x社區(qū)

傳統(tǒng)方法是靠人類(lèi)手動(dòng)調(diào)整規(guī)則,但SPCT用了兩個(gè)聰明的辦法:

  1. 邊學(xué)邊改(在線(xiàn)強(qiáng)化學(xué)習(xí))讓AI不斷嘗試不同的評(píng)分方式,如果它給的分?jǐn)?shù)和人類(lèi)認(rèn)可的結(jié)果一致,就獎(jiǎng)勵(lì)它;如果錯(cuò)了,就糾正它。比如,如果AI因?yàn)槟硞€(gè)回答用了專(zhuān)業(yè)術(shù)語(yǔ)而給高分,但實(shí)際上用戶(hù)更想要簡(jiǎn)單解釋?zhuān)到y(tǒng)就會(huì)提醒它:“下次要考慮用戶(hù)的理解程度!”
  2. 集體投票(元獎(jiǎng)勵(lì)模型)為了減少AI自己犯錯(cuò)的可能,SPCT會(huì)讓AI生成多個(gè)不同的評(píng)分標(biāo)準(zhǔn),然后挑出最靠譜的那個(gè)。比如,對(duì)同一個(gè)回答,AI可能第一次說(shuō)“很好”,第二次說(shuō)“一般”,第三次說(shuō)“有問(wèn)題”——這時(shí)候系統(tǒng)會(huì)綜合多次結(jié)果,選出最合理的分?jǐn)?shù)。

四、實(shí)驗(yàn)設(shè)計(jì)

數(shù)據(jù)與模型

  • 基準(zhǔn)數(shù)據(jù)集:覆蓋Reward Bench(聊天、推理、安全)、PPE(可驗(yàn)證任務(wù))、RMB(多響應(yīng)偏好)和ReaLMistake(單響應(yīng)錯(cuò)誤檢測(cè))。
  • 模型架構(gòu):基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型,通過(guò)并行采樣(Parallel Sampling)擴(kuò)展推理計(jì)算。

關(guān)鍵實(shí)驗(yàn)設(shè)置

  1. 采樣策略:每次推理生成8-32組原則和批判,通過(guò)投票(Voting)聚合結(jié)果,減少噪聲。
  2. 元獎(jiǎng)勵(lì)模型(Meta RM):額外訓(xùn)練一個(gè)標(biāo)量RM,用于過(guò)濾低質(zhì)量樣本,進(jìn)一步提升投票效果。

五、結(jié)果與分析

1. 性能對(duì)比

在多個(gè)基準(zhǔn)測(cè)試中,DeepSeek-GRM-27B顯著優(yōu)于現(xiàn)有模型:

  • Reward Bench:準(zhǔn)確率86.0%,超越GPT-4o(86.7%)和Nemotron-4-340B(92.0%需更大參數(shù))。
  • PPE Correctness:準(zhǔn)確率67.2%,在可驗(yàn)證任務(wù)中接近標(biāo)量模型的上限(如Gemini-1.5-Pro的66.1%)。
  • ReaLMistake:ROC-AUC達(dá)70.3%,優(yōu)于所有對(duì)比模型。Deepseek新論文!如何讓AI自己學(xué)會(huì)更公平地打分?-AI.x社區(qū)

2. 推理擴(kuò)展性

通過(guò)并行采樣+元RM引導(dǎo)投票,DeepSeek-GRM-27B實(shí)現(xiàn)推理效率與性能的雙重提升

  • 8次采樣:準(zhǔn)確率70.6%(較貪心解碼提升2.7%)。
  • 32次采樣+Meta RM:準(zhǔn)確率72.8%(超過(guò)671B參數(shù)模型的訓(xùn)練時(shí)間擴(kuò)展效果)。

Deepseek新論文!如何讓AI自己學(xué)會(huì)更公平地打分?-AI.x社區(qū)

3. 消融實(shí)驗(yàn)

  • 原則生成:移除原則生成模塊后,性能下降3.3%(72.8% → 69.5%)。
  • 元RM引導(dǎo):關(guān)閉元RM后,投票效果降低1.6%(72.8% → 71.2%)。
  • 輸入靈活性:支持單響應(yīng)、多響應(yīng)和帶參考答案的輸入,性能波動(dòng)小于1%。

六、未來(lái)還能干啥?

雖然SPCT已經(jīng)很棒,但作者覺(jué)得還能更進(jìn)一步:

  • 和人類(lèi)協(xié)作:讓AI在打分時(shí)實(shí)時(shí)詢(xún)問(wèn)人類(lèi)的意見(jiàn),不斷優(yōu)化自己的標(biāo)準(zhǔn)。
  • 處理復(fù)雜任務(wù):比如同時(shí)評(píng)價(jià)一篇文章的內(nèi)容、邏輯和文筆,而不是只看單一指標(biāo)。
  • 解決長(zhǎng)文本問(wèn)題:現(xiàn)在SPCT處理短回答沒(méi)問(wèn)題,但面對(duì)小說(shuō)或研究報(bào)告,可能還需要更長(zhǎng)時(shí)間思考。

論文鏈接:https://arxiv.org/pdf/2504.02495

本文轉(zhuǎn)載自??沐白AI筆記??,作者:楊沐白

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦