偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大騰訊突破獎勵模型瓶頸!讓AI理解人類偏好,泛化能力比肩GPT-4.1

人工智能
總是“死記硬背”“知其然不知其所以然”?獎勵模型訓(xùn)練也形成了學(xué)生選擇標(biāo)準(zhǔn)答案的學(xué)習(xí)模式,陷入諸如“長回答=好回答”“好格式=好答案”等錯誤規(guī)律之中。北京大學(xué)知識計(jì)算實(shí)驗(yàn)室聯(lián)合騰訊微信模式識別中心、William&Mary、西湖大學(xué)等機(jī)構(gòu)提出的RewardAnything突破了這一瓶頸——通過讓獎勵模型直接理解自然語言描述的評判原則,實(shí)現(xiàn)了從”死記硬背”到”融會貫通”的范式躍遷。RewardAnyt

總是“死記硬背”“知其然不知其所以然”?

獎勵模型訓(xùn)練也形成了學(xué)生選擇標(biāo)準(zhǔn)答案的學(xué)習(xí)模式,陷入諸如“長回答=好回答”“好格式=好答案”等錯誤規(guī)律之中。

北京大學(xué)知識計(jì)算實(shí)驗(yàn)室聯(lián)合騰訊微信模式識別中心、William&Mary、西湖大學(xué)等機(jī)構(gòu)提出的RewardAnything突破了這一瓶頸——通過讓獎勵模型直接理解自然語言描述的評判原則,實(shí)現(xiàn)了從”死記硬背”到”融會貫通”的范式躍遷。

圖片圖片

RewardAnything降低了傳統(tǒng)模式針對不同場景需要收集偏好數(shù)據(jù)訓(xùn)練獎勵模型再進(jìn)行RL的高昂成本,能夠直接利用自然語言作為RLHF的標(biāo)準(zhǔn)。

其作為獎勵模型,僅需一句話描述的準(zhǔn)則即可刷新傳統(tǒng)Benchmark的SOTA,在RABench上展示出了與GPT-4.1等頂尖模型相媲美的原則跟隨能力與泛化能力。

圖片圖片

獎勵模型與偏好優(yōu)化

盡管LLM展現(xiàn)出強(qiáng)大的性能,一個核心挑戰(zhàn)始終存在:如何讓LLM的行為和輸出精準(zhǔn)契合人類多樣化而細(xì)膩的偏好、多元的價值觀以及特定任務(wù)場景下的復(fù)雜需求?

獎勵模型(Reward Model)就是LLM對齊與RL訓(xùn)練的關(guān)鍵組件——實(shí)現(xiàn)AI對齊(Alignment),讓AI的行為和輸出符合人類期望與價值觀。它通過學(xué)習(xí)海量的偏好數(shù)據(jù)建模人類的偏好,學(xué)會“什么是好的回答”。

但是,傳統(tǒng)獎勵模型存在致命缺陷:在學(xué)習(xí)過程中形成了嚴(yán)重的偏見,它們通常在固定的、針對特定偏好標(biāo)準(zhǔn)收集的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這導(dǎo)致它們學(xué)習(xí)到的偏好分布是靜態(tài)的,難以適應(yīng)真實(shí)世界中多樣化、動態(tài)變化的需求。

清華大學(xué)團(tuán)隊(duì)在ICLR‘25提出的RM-Bench評測基準(zhǔn)揭露了一個現(xiàn)狀:當(dāng)前最先進(jìn)的獎勵模型在抵抗格式偏見測試中,準(zhǔn)確率僅為46.6%——甚至不如隨機(jī)猜測!

看2個例子,大家就明白了。

△問答Prompt和Response均來自RewardBench數(shù)據(jù)集△問答Prompt和Response均來自RewardBench數(shù)據(jù)集

案例一:Length = Quality Bias問題:哪些熊類已經(jīng)滅絕了?回答A(事實(shí)正確,豐富且格式化),回答B(yǎng)(事實(shí)錯誤,簡潔)。人類判斷:A更好。

上述案例是來自獎勵模型的常用基準(zhǔn)測試集RewardBench的常見情況,盡管其數(shù)據(jù)和標(biāo)簽均無事實(shí)性錯誤,但使用類似的數(shù)據(jù)訓(xùn)練獎勵模型,會隱含一種偏見:模型在訓(xùn)練數(shù)據(jù)中觀察到“正確的答案往往比較長”,于是錯誤地將“長度”本身當(dāng)作了高質(zhì)量的標(biāo)志。

案例二:Format Over Substance問題:Chrome瀏覽器有哪些替代品?回答A(事實(shí)正確,結(jié)構(gòu)化內(nèi)容),回答B(yǎng)(事實(shí)正確,自然表述)。人類判斷:A更好。

同樣來自RewardBench,對于事實(shí)均無錯誤的回答,帶來了另一種常見偏見:RM可能因?yàn)橛?xùn)練數(shù)據(jù)中某種特定格式(如列表化的,Markdown風(fēng)格的回答)與“好答案”同時出現(xiàn)的頻率較高,而對這種格式本身產(chǎn)生了不合理的偏好,忽視了內(nèi)容表達(dá)的自然性和多樣性

在技術(shù)層面,獎勵模型的訓(xùn)練過程通常是這樣的:

收集偏好數(shù)據(jù):給定一個問題(prompt),讓多個不同的AI生成多個不同的回答。

人工標(biāo)注:請專業(yè)標(biāo)注員對收集好的數(shù)據(jù)進(jìn)行兩兩比較,判斷哪個回答更好(chosen)、哪個較差(rejected)。這些標(biāo)注通常遵循一定的標(biāo)注規(guī)范,但這些標(biāo)注規(guī)范背后的具體原因往往不會完全傳遞給模型。

模型學(xué)習(xí):獎勵模型通過分析大量的“問題-好回答-差回答”三元組(即偏好對)來學(xué)習(xí)人類偏好,目標(biāo)是給“好回答”打高分,給“差回答”打低分(或是直接從兩個回答中選出較好的)。

指導(dǎo)優(yōu)化:訓(xùn)練好的獎勵模型會輸出一個標(biāo)量獎勵信號,用于指導(dǎo)大型語言模型(作為策略模型)通過強(qiáng)化學(xué)習(xí)算法(如PPO,GRPO)進(jìn)行優(yōu)化,使其生成更符合人類期望的內(nèi)容。這個過程被稱為基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),是當(dāng)前主流AI對齊技術(shù)的核心。獎勵模型有時也直接用作評估指標(biāo)(LLM-as-a-judge)。

而上述偏見的存在,根源在于獎勵模型的學(xué)習(xí)方式存在根本性缺陷:

訓(xùn)練:只見結(jié)果,不知原因(隱式與“唯結(jié)果論”的學(xué)習(xí)):訓(xùn)練數(shù)據(jù)通常只告訴模型“回答A比回答B(yǎng)好”,卻很少明確解釋“為什么A更好”的深層原因。模型只能從結(jié)果中猜測和推斷人類偏好,學(xué)習(xí)的是相關(guān)性而非因果性。這種“知其然,不知其所以然”的隱式學(xué)習(xí),使得模型難以捕捉人類意圖的精髓,且容易導(dǎo)致模型學(xué)習(xí)到虛假關(guān)聯(lián)。

即便近期多個獎勵模型工作通過在獎勵學(xué)習(xí)過程中引入深度思考顯著提升獎勵效果,仍然沒有根本性改善這種學(xué)習(xí)方式帶來的缺陷,模型依然需要“猜測因果”。

評估:單一價值觀難以概括人類偏好:在許多偏好數(shù)據(jù)集中,更詳細(xì)、更長的回答往往質(zhì)量更高,這本身是合理的。但模型可能錯誤地學(xué)習(xí)到“長=好”或“列表=好”這類膚淺的規(guī)律,完全忽視了內(nèi)容本身的準(zhǔn)確性、邏輯性或特定場景下的適用性。對于獎勵模型的評估,其評測過程與訓(xùn)練過程十分相似,主要檢查模型預(yù)測的偏好是否與人類標(biāo)注一致。

然而,這一過程忽略了人類偏好的多元性,嘗試通過使用一種價值觀定義人類的總體偏好,因此現(xiàn)有獎勵模型的評估指標(biāo)也具有很大不足。這樣的評估方式,同樣忽視模型是通過“作弊”(例如,永遠(yuǎn)選擇更長的回答)來達(dá)到高分的情況,與LLM的基準(zhǔn)測試的數(shù)據(jù)泄露問題類似。這種評估方式難以衡量模型是否真正理解了多樣化和新穎的評價原則。

方法:RewardAnything

既然人類能用語言清楚地表達(dá)評判標(biāo)準(zhǔn),為什么不直接告訴AI呢?

這正是研究團(tuán)隊(duì)提出RewardAnything項(xiàng)目的核心理念——用自然語言定義“好”。不再讓模型從成千上萬的例子中猜測模糊的規(guī)律,而是直接用自然語言告訴它評判標(biāo)準(zhǔn),例如:“我需要簡潔實(shí)用的回答,不要長篇大論”,“請確保事實(shí)準(zhǔn)確性高于一切,即使回答簡短也沒關(guān)系”。

圖片圖片

RewardAnything引入了“原則跟隨”(Principle-Following)范式,是一款新型的、專門為理解和遵循自然語言原則而設(shè)計(jì)和訓(xùn)練的生成式獎勵模型,且確保其可用于下游RL訓(xùn)練。這與LLM本身具備的“指令跟隨”(Instruction-Following)能力異曲同工。

圖片圖片

它采用了多項(xiàng)創(chuàng)新技術(shù)來實(shí)現(xiàn)這一目標(biāo):

1.列表式評分與推理(Listwise Scoring with Reasoning)

傳統(tǒng)模型要么給單個回答打分(Pointwise),要么在兩個回答之間進(jìn)行比較(Pairwise)。如果有10個候選回答,兩兩比較可能需要高達(dá)45次調(diào)用(C(n, 2)),如果采取同期工作類似的做法,每次調(diào)用都涉及數(shù)千token的輸入輸出,其計(jì)算開銷將完全成為GRPO等RL算法的瓶頸,因此實(shí)際難以將其應(yīng)用于RL訓(xùn)練。與之對應(yīng)的,RewardAnything則能一次性評估所有候選回答。

輸入:原則P:例如,“偏好準(zhǔn)確簡潔的回答,準(zhǔn)確性優(yōu)先于詳細(xì)程度”問題Q:“Python中如何反轉(zhuǎn)列表?”候選回答集 X1,X2,…,Xk:例如,[10個不同的Python代碼或解釋]

輸出(一次調(diào)用完成)推理過程:模型會闡述它是如何理解給定原則,并將該原則應(yīng)用于評估各個候選回復(fù)的。例如:“根據(jù)原則,我需要優(yōu)先考慮準(zhǔn)確性…回答A雖然簡短但完全正確,回答B(yǎng)很詳細(xì)但包含錯誤信息…”打分:為每一個候選回復(fù)都賦予一個數(shù)值分?jǐn)?shù) S(P,Q,Xi),以量化其對原則的遵循程度。例如:{A: 5分, B: 2分, C: 4分…}排序:將所有候選回復(fù)從最符合原則到最不符合原則進(jìn)行排序。例如:A > C > D >… > B

2.群體相對策略優(yōu)化(Group Relative Preference Learning)

為了讓RewardAnything具備強(qiáng)大的原則跟隨能力,團(tuán)隊(duì)采用了GRPO算法進(jìn)行訓(xùn)練。

與傳統(tǒng)工作利用GRPO(Group Relative Policy Optimization)算法激發(fā)LLM的深度思考能力不同的是,團(tuán)隊(duì)直接利用現(xiàn)有的、已經(jīng)具備深度思考能力的基座模型,如Qwen3,讓RM通過GRPO的高效采樣,從一組候選評價結(jié)果之間選出其中相對最為優(yōu)秀的。RM在訓(xùn)練過程中,學(xué)會的是理解在特定原則指導(dǎo)下,一組候選回復(fù)之間的相對優(yōu)劣,而非僅僅死記硬背孰優(yōu)孰劣,強(qiáng)化那些能準(zhǔn)確反映原則遵守情況的評估,使RM更關(guān)注相對質(zhì)量的辨別,從而培養(yǎng)更好的泛化能力。

訓(xùn)練過程中,RewardAnything自身作為一個策略模型,學(xué)習(xí)生成高質(zhì)量的評估輸出(包含推理、分?jǐn)?shù)和排名)。其獎勵函數(shù)經(jīng)過精心設(shè)計(jì),包含格式獎勵:激勵模型生成結(jié)構(gòu)完整、邏輯一致的評估和準(zhǔn)確性獎勵:衡量模型判斷與“真實(shí)”共識判斷的對齊程度,并懲罰對質(zhì)量差異大的回復(fù)的錯誤排序。

具體獎勵設(shè)計(jì)以及如何防止數(shù)據(jù)泄露以及合成訓(xùn)練數(shù)據(jù)的構(gòu)建等細(xì)節(jié),請參見文末給的論文鏈接。

效果評估與新評測基準(zhǔn)

效果評估

RewardAnything 在近期的、具有挑戰(zhàn)性的來自清華大學(xué)的ICLR‘25基準(zhǔn)測試 RM-Bench上進(jìn)行了測試。

RM-Bench以其“困難”(hard) 設(shè)置而聞名,該設(shè)置專門用于探測獎勵模型中一個常見的偏見:無法有效區(qū)分一個事實(shí)正確但簡潔的回復(fù)與一個不正確但內(nèi)容詳盡、格式美觀的回復(fù)(即所謂的“長度偏見”或“格式偏見”)。

結(jié)果顯示,RewardAnything 取得了目前最佳的總體性能,尤其是在最具挑戰(zhàn)性的“困難”設(shè)置上表現(xiàn)突出,顯著超越了包括通用大模型(如GPT-4.1, Gemini 2.5 Pro)和一些非常近期的其他獎勵模型工作(RM-R1 32B)。

圖片圖片

這一結(jié)果不僅驗(yàn)證了RewardAnything作為通用獎勵模型的有效性,更解釋了——傳統(tǒng)獎勵模型試圖從隱含偏好數(shù)據(jù)中費(fèi)力“猜測”的、可能導(dǎo)致偏見的因素,其實(shí)可以通過明確的自然語言原則進(jìn)行更直接、更有效的規(guī)避和緩解。當(dāng)我們給它一個清晰的、強(qiáng)調(diào)準(zhǔn)確性的原則時,RewardAnything能夠更好地抵制表面線索的干擾,做出更符合任務(wù)本質(zhì)的判斷。

RABench:專為“原則遵循”設(shè)計(jì)的評估基準(zhǔn)

傳統(tǒng)的獎勵模型基準(zhǔn)大多關(guān)注模型在固定、隱含偏好下的表現(xiàn),難以有效衡量模型適應(yīng)和遵循用戶明確給出的、多樣化自然語言原則的能力。

為了全面評估獎勵模型理解和遵循不同原則的能力,團(tuán)隊(duì)構(gòu)建了RABench(Reward Anything Benchmark)評測基準(zhǔn),旨在通過引入判斷原則,填補(bǔ)現(xiàn)有評測方法的空白。

評測設(shè)計(jì)

1.原則的多樣性

團(tuán)隊(duì)從人工整理的200個原則中,專門挑選出50個與訓(xùn)練集原則完全不同的、具有多樣性的原則用于基準(zhǔn)測試。這些原則被歸納為五個與文本質(zhì)量相關(guān)的基本維度:

內(nèi)容 (Content): 規(guī)定模型應(yīng)呈現(xiàn)哪些信息,例如“鼓勵包含相關(guān)例證的詳細(xì)回答”。

結(jié)構(gòu) (Structure): 定義文本的組織和布局方式,例如“重視信息組織清晰、條理分明的回答”。

語氣 (Tone): 捕捉文本所傳達(dá)的情感和態(tài)度,例如“對帶有鼓勵性和幫助性語氣的回答給予更高分?jǐn)?shù)”。

邏輯 (Logic): 關(guān)系到文本的推理過程和思路流程,例如“好的回答應(yīng)展現(xiàn)連貫的思考過程”。

風(fēng)格 (Style): 指明對語言表達(dá)方式的偏好,例如“偏好使用清晰、簡潔、無專業(yè)術(shù)語的語言”。

2.真實(shí)景覆蓋

為了確保評估的挑戰(zhàn)性和多樣性,測試提示(prompts)主要來源于現(xiàn)有的RewardBench數(shù)據(jù)集,覆蓋了日常對話、代碼編程、數(shù)學(xué)推理、安全相關(guān)四大領(lǐng)域。

3.豐富的模型覆蓋

候選回復(fù)生成:對于RABench中的每一個“原則-提示”對,團(tuán)隊(duì)使用了來自6個不同家族(如GPT, Claude, Qwen, LLaMA, DeepSeek等)的10種不同的大型語言模型來生成候選回復(fù)。每個模型都被指示(通過系統(tǒng)提示)嘗試遵循給定的原則來生成回復(fù)。

多LLM初步評估與共識算法:團(tuán)隊(duì)利用了四個頂尖的LLM(如Claude-3.7 Sonnet, GPT-4.1等)作為獨(dú)立的評估者,對所有候選回復(fù)進(jìn)行評分和排序。然后,采用一種基于動態(tài)規(guī)劃的共識算法來綜合它們的評估結(jié)果,找到最受評委們一致認(rèn)可的排序。

人工最終驗(yàn)證:最后,每一個由算法生成的共識判斷(包含原則、提示、一組回復(fù)以及LLM共識得到的分?jǐn)?shù)和排序)都由兩名人類標(biāo)注員進(jìn)行獨(dú)立驗(yàn)證,確保其準(zhǔn)確反映了對特定原則的遵守情況。只有兩名標(biāo)注員都認(rèn)為有效的條目才被保留。這一過程的標(biāo)注員間一致率達(dá)到了89%。

最終,RABench包含1002個經(jīng)過驗(yàn)證的偏好排序列表,由于每個列表包含多個回復(fù),相當(dāng)于傳統(tǒng)成對比較基準(zhǔn)中的約31,806個偏好對。

團(tuán)隊(duì)將RewardAnything與強(qiáng)大的通用LLM(它們本身也常被用作評估器)以及領(lǐng)先的判別式獎勵模型進(jìn)行了比較。結(jié)果顯示,RewardAnything 在RABench上展示出了與GPT-4.1等頂尖模型相媲美的原則跟隨能力。

這意味著RewardAnything能夠很好地適應(yīng)和應(yīng)用在其訓(xùn)練階段并未見過的、甚至是更為復(fù)雜的自然語言原則。

應(yīng)用:簡單語言描述,定制AI的行為模式

基準(zhǔn)測試的優(yōu)異表現(xiàn)固然令人鼓舞,但RewardAnything的真正價值在于其應(yīng)用:它能讓任何人通過簡單的自然語言描述,就能定制AI的行為模式。

我們面臨一個復(fù)雜的挑戰(zhàn):如何讓AI既能準(zhǔn)確識別并堅(jiān)定拒絕有害的用戶請求,又不會對本身安全無害或僅輕微觸及邊界的良性查詢過度敏感地拒絕,同時還能在必要拒絕時保持溫暖、富有同情心、甚至能給出積極替代方案的交流風(fēng)格?

傳統(tǒng)方法通常需要:收集數(shù)萬條專門標(biāo)注的偏好數(shù)據(jù),細(xì)致區(qū)分“合理的拒絕”“過度的拒絕”“生硬的拒絕”和“溫暖的拒絕”;聘請專業(yè)團(tuán)隊(duì)進(jìn)行標(biāo)注,確保對各種細(xì)微差別的一致理解;花費(fèi)數(shù)周甚至數(shù)月時間訓(xùn)練或微調(diào)特定的獎勵模型,反復(fù)調(diào)試和評估,以在安全性和實(shí)用性之間達(dá)到微妙的平衡。

使用RewardAnything,我們只需要一個精心設(shè)計(jì)的自然語言原則——這條原則是OOD的,與訓(xùn)練原則沒有重疊,以及來自公開訓(xùn)練數(shù)據(jù)集PKU-RLHF的大約2000個prompt。重要的是,這些提示僅為輸入文本,不包含任何人工標(biāo)注的偏好數(shù)據(jù)或是來自其他模型的輸出蒸餾,也無需為這項(xiàng)特定任務(wù)重新訓(xùn)練或定制RewardAnything模型本身。

團(tuán)隊(duì)將RewardAnything作為GRPO的唯一獎勵,對Qwen3-8B進(jìn)行了對齊訓(xùn)練。

圖片圖片

作為對比,團(tuán)隊(duì)選擇了在RM-Bench安全領(lǐng)域表現(xiàn)領(lǐng)先的Skywork RM作為基線獎勵模型,在完全相同的GRPO設(shè)置和相同的2000個prompt下,對齊訓(xùn)練了另一個Qwen3-8B模型。

評估對齊效果主要使用了兩個基準(zhǔn):XSTest(一個專門用于評估LLM在安全場景下是否過度拒絕的測試集)和MT-Bench(一個廣泛使用的對話模型評估基準(zhǔn),這里用于通過GPT-4.1進(jìn)行成對文本質(zhì)量比較)。

實(shí)驗(yàn)結(jié)果清晰地展示了這種由原則驅(qū)動的對齊方法的有效性:

在安全行為上: 由RewardAnything對齊的模型(圖中標(biāo)注為“Ours-Aligned”)不僅在處理安全提示時,略微減少了不正確的拒絕率(相比原始Qwen3-8B和Skywork對齊的模型),更重要的是,在處理不安全提示方面表現(xiàn)出了顯著的提升。具體來說,它在保持對不安全內(nèi)容的高拒絕率的同時(Full Refusal比例仍然很高),將更多必要的拒絕轉(zhuǎn)化為了更具建設(shè)性、富有同情心、并能提供替代方案的回復(fù)(Partial Refusal,即部分拒絕但提供了有益信息或引導(dǎo)的比例有所增加)。這充分展現(xiàn)了一種負(fù)責(zé)任的、更接近人類理想溝通方式的應(yīng)對策略。

在文本質(zhì)量上: 在MT-Bench上進(jìn)行的文本質(zhì)量比較(由GPT-4.1作為裁判)顯示,“Ours-Aligned”模型生成的回復(fù)質(zhì)量顯著優(yōu)于原始的Qwen3-8B模型以及由Skywork RM對齊的模型。這表明,這種基于原則的、旨在實(shí)現(xiàn)細(xì)致入微安全行為的對齊,同時也帶來了模型整體回復(fù)質(zhì)量的提升。

這項(xiàng)案例研究有力地證實(shí),RewardAnything不僅僅是在基準(zhǔn)測試中取得高分的理論模型,它更展示了一種LLM對齊的新范式。

它賦予了用戶一種前所未有的能力——僅僅通過清晰的自然語言規(guī)范,就能靈活、直接地引導(dǎo)大型語言模型朝著復(fù)雜的、符合期望的行為方向演進(jìn)。

這真正體現(xiàn)了“RewardAnything”(獎勵任何事物)的愿景,并顯著降低了創(chuàng)建高度定制化、深度對齊的AI系統(tǒng)的技術(shù)門檻和資源壁壘,對齊的重心從“數(shù)據(jù)驅(qū)動”轉(zhuǎn)向了更靈活、更直接的“原則驅(qū)動”。

論文鏈接:https://arxiv.org/abs/2506.03637
代碼鏈接:https://zhuohaoyu.github.io/RewardAnything


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-05-06 00:22:00

2024-06-28 13:39:15

2025-02-24 14:03:43

2025-06-30 08:50:00

2025-05-15 11:54:11

GPT-4.1PlusAPI

2025-04-24 08:29:59

OpenAIGPT-4.1人工智能

2025-06-03 08:12:00

模型框架訓(xùn)練

2025-04-16 09:30:16

2025-04-14 09:00:00

模型AI數(shù)據(jù)

2025-04-15 08:51:05

2019-08-05 12:33:46

AI深度學(xué)習(xí)泛化

2024-06-17 18:04:38

2022-04-29 16:47:57

AI騰訊

2023-08-15 14:18:19

智能研究

2025-05-15 09:16:00

2025-03-05 09:32:00

2023-08-22 13:21:07

AI算法

2023-07-14 11:47:08

AI醫(yī)生

2025-05-26 08:40:00

2016-04-07 14:18:33

阿里云人工智能小Ai
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號