偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

獎(jiǎng)勵(lì)推理模型(RRM):革新獎(jiǎng)勵(lì)模型的新范式

人工智能
Post-train 技術(shù)中的reward model(獎(jiǎng)勵(lì)模型)扮演著至關(guān)重要的角色。然而,傳統(tǒng)獎(jiǎng)勵(lì)模型在利用測試時(shí)計(jì)算資源以提升性能方面存在明顯局限,尤其是在面對復(fù)雜任務(wù)時(shí)。RRM(Reward Reasoning Models)的提出,為這一問題提供了全新的思路。

大家好,我是肆〇柒。在人工智能領(lǐng)域,大型語言模型(LLM)的出現(xiàn),如 GPT 系列模型,徹底改變了我們對機(jī)器智能的認(rèn)知。這些模型通過海量數(shù)據(jù)預(yù)訓(xùn)練,能生成自然、流暢且富有邏輯的文本,廣泛應(yīng)用于聊天機(jī)器人、文本生成、自動(dòng)翻譯等場景。然而,隨著模型規(guī)模的不斷擴(kuò)大,人們逐漸意識到,僅僅依靠預(yù)訓(xùn)練資源的擴(kuò)展,并不足以讓模型真正滿足人類的多樣化需求。于是,研究重點(diǎn)逐漸轉(zhuǎn)向了模型的后訓(xùn)練技術(shù),希望通過各種優(yōu)化方法,使模型更好地對齊人類的價(jià)值觀和特定任務(wù)需求。

在眾多后訓(xùn)練(Post-train)技術(shù)中,獎(jiǎng)勵(lì)模型扮演著至關(guān)重要的角色。它們?nèi)缤悄艿摹安门小保ㄟ^對模型輸出結(jié)果的質(zhì)量進(jìn)行評估,為模型提供關(guān)鍵的反饋信號,引導(dǎo)模型朝著更符合人類期望的方向進(jìn)化。從醫(yī)療診斷到法律建議,從科研輔助到教育輔導(dǎo),這些復(fù)雜領(lǐng)域?qū)δP洼敵鼋Y(jié)果的準(zhǔn)確性、可靠性和安全性要求極高。而傳統(tǒng)的獎(jiǎng)勵(lì)模型在面對這些復(fù)雜任務(wù)時(shí),逐漸顯露出其局限性,它們往往只能進(jìn)行簡單的、表面化的評估,難以深入理解那些需要多步推理和細(xì)致分析的復(fù)雜響應(yīng)。

研究動(dòng)機(jī)與問題提出

傳統(tǒng)獎(jiǎng)勵(lì)模型的局限性主要體現(xiàn)在對測試時(shí)計(jì)算資源的利用不足。在面對復(fù)雜任務(wù)時(shí),模型需要處理大量信息、進(jìn)行多步推理和細(xì)致分析,才能準(zhǔn)確評估一個(gè)響應(yīng)的質(zhì)量。然而,傳統(tǒng)的獎(jiǎng)勵(lì)模型卻很難做到這一點(diǎn)。例如,在數(shù)學(xué)證明驗(yàn)證中,一個(gè)正確的證明可能需要經(jīng)過多個(gè)中間步驟的嚴(yán)謹(jǐn)推理,而傳統(tǒng)模型可能只能簡單地判斷最終結(jié)果是否正確,卻無法深入分析中間步驟的合理性;在邏輯推理問題解答中,模型可能因無法追蹤復(fù)雜的邏輯鏈條,而錯(cuò)判一個(gè)看似合理但實(shí)際上存在漏洞的回答。

這些問題使得我們迫切需要一種新的獎(jiǎng)勵(lì)模型范式,能夠有效利用測試時(shí)的計(jì)算資源,為復(fù)雜任務(wù)的響應(yīng)評估提供更深入、更準(zhǔn)確的結(jié)果。RRM(Reward Reasoning Models)被北大、清華、微軟的研究著提出,它通過引入推理過程,填補(bǔ)了傳統(tǒng)獎(jiǎng)勵(lì)模型在復(fù)雜任務(wù)評估中的空白,為模型智能評估領(lǐng)域帶來了全新的思路。

獎(jiǎng)勵(lì)推理模型(RRM)的提出

RRM 的核心理念

RRM 的核心在于,在生成最終獎(jiǎng)勵(lì)之前,先進(jìn)行一個(gè)刻意的推理過程。這個(gè)過程采用了鏈?zhǔn)剿伎迹╟hain-of-thought)的方式,就像是給模型配備了一個(gè)“思考引擎”,讓它能夠在面對復(fù)雜問題時(shí),像人類專家一樣,進(jìn)行逐步的思考和分析。例如,當(dāng)評估一個(gè)數(shù)學(xué)問題的解答時(shí),RRM 會先仔細(xì)審視問題的條件和要求,然后逐步分析解答過程中的每一步驟,驗(yàn)證其是否符合數(shù)學(xué)原理和邏輯規(guī)則,最后再給出一個(gè)綜合的獎(jiǎng)勵(lì)分?jǐn)?shù)。

這種理念的提出,徹底顛覆了傳統(tǒng)獎(jiǎng)勵(lì)模型的直接輸出模式。它不再僅僅關(guān)注最終結(jié)果的好壞,而是深入挖掘響應(yīng)背后的邏輯和思路,從而更全面、更準(zhǔn)確地評估一個(gè)響應(yīng)的質(zhì)量。這就好比在評判一篇學(xué)術(shù)論文時(shí),我們不僅要看結(jié)論是否正確,還要看研究方法是否科學(xué)、論證過程是否嚴(yán)謹(jǐn)、引用資料是否可靠等多方面因素。

下圖直觀地展示了 RRM 的工作原理,即如何通過鏈?zhǔn)剿伎纪评碓谏勺罱K獎(jiǎng)勵(lì)前自適應(yīng)利用測試時(shí)計(jì)算資源。

圖片

獎(jiǎng)勵(lì)推理模型(RRM)概覽。RRM 通過鏈?zhǔn)剿伎纪评碜赃m應(yīng)地利用測試時(shí)計(jì)算資源,然后生成獎(jiǎng)勵(lì)。

RRM 的訓(xùn)練框架 —— 基于強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)推理(Reward Reasoning via Reinforcement Learning)

為了實(shí)現(xiàn) RRM 的強(qiáng)大功能,研究者們?yōu)槠淞可矶ㄖ屏艘惶谆趶?qiáng)化學(xué)習(xí)的訓(xùn)練框架。在這個(gè)框架中,模型不需要依賴顯式的推理軌跡作為訓(xùn)練數(shù)據(jù),而是在一個(gè)基于規(guī)則的獎(jiǎng)勵(lì)環(huán)境中,通過不斷的自我嘗試和探索,逐步進(jìn)化出自己的推理能力。

這個(gè)訓(xùn)練框架中有幾個(gè)關(guān)鍵要素:

  • 狀態(tài)空間 :它包括了查詢內(nèi)容、對應(yīng)的響應(yīng)對,以及模型當(dāng)前的推理狀態(tài)等。這些要素共同構(gòu)成了模型在每一步推理時(shí)所面臨的“局面”,模型需要根據(jù)這個(gè)局面來決定下一步的思考方向。
  • 動(dòng)作空間 :定義了模型在推理過程中可以采取的各種思考動(dòng)作,比如從不同的視角分析問題、嘗試新的解題策略、驗(yàn)證中間結(jié)果的正確性等等。
  • 策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò) :策略網(wǎng)絡(luò)負(fù)責(zé)根據(jù)當(dāng)前的狀態(tài),生成下一步推理動(dòng)作的概率分布,告訴模型在當(dāng)前局面下,哪些思考方向更有可能帶來好的結(jié)果;價(jià)值網(wǎng)絡(luò)則負(fù)責(zé)評估當(dāng)前狀態(tài)下的累積獎(jiǎng)勵(lì)期望,幫助模型判斷當(dāng)前的推理路徑是否值得繼續(xù)深入。

在訓(xùn)練過程中,采用策略梯度方法等優(yōu)化算法,根據(jù)模型的推理結(jié)果所獲得的獎(jiǎng)勵(lì)信號,來不斷更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)。同時(shí),通過巧妙的機(jī)制平衡探索與利用的關(guān)系,在鼓勵(lì)模型嘗試新的推理策略的同時(shí),也充分利用已有的有效策略,逐步提升模型的推理能力。

與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法相比,這個(gè)訓(xùn)練框架在處理獎(jiǎng)勵(lì)模型任務(wù)時(shí)展現(xiàn)了獨(dú)特的優(yōu)勢。它能夠更好地適應(yīng)獎(jiǎng)勵(lì)模型的特點(diǎn),比如模型輸出的多樣性、任務(wù)的主觀性等,同時(shí)提高了樣本效率,減少了對大規(guī)模標(biāo)注數(shù)據(jù)的依賴,使得 RRM 的訓(xùn)練更加高效和靈活。

RRM 的輸入表示與多響應(yīng)獎(jiǎng)勵(lì)策略

輸入表示

RRM 的輸入包括一個(gè)查詢和兩個(gè)對應(yīng)的響應(yīng)。為了引導(dǎo)模型全面、系統(tǒng)地評估這兩個(gè)響應(yīng)的質(zhì)量,研究者們精心設(shè)計(jì)了一套輸入表示方法。通過系統(tǒng)提示,模型會根據(jù)一系列評估標(biāo)準(zhǔn),如指令遵循度、幫助性、準(zhǔn)確性、無害性和細(xì)節(jié)程度等,對兩個(gè)響應(yīng)進(jìn)行深入分析。

例如,當(dāng)評估一個(gè)歷史事件分析的響應(yīng)時(shí),模型會先檢查響應(yīng)是否準(zhǔn)確地遵循了查詢中提出的具體要求,比如分析的事件范圍、關(guān)注的時(shí)間段等;然后評估它是否提供了足夠的細(xì)節(jié)來支持其觀點(diǎn),是否避免了有害或偏頗的內(nèi)容,以及是否能夠真正幫助用戶理解這個(gè)歷史事件的本質(zhì)和影響。在完成這些分析后,模型會輸出一個(gè)明確的決策,指出哪個(gè)響應(yīng)更優(yōu)。

這種輸入表示方式為模型提供了豐富的上下文信息,使模型能夠從多個(gè)維度全面評估響應(yīng)質(zhì)量,就像一位嚴(yán)謹(jǐn)?shù)膶W(xué)者在評審論文時(shí),會從選題、內(nèi)容深度、論證邏輯、語言表達(dá)等多個(gè)方面進(jìn)行綜合評價(jià)。

構(gòu)造輸入數(shù)據(jù)的代碼示例

以下是一個(gè)構(gòu)造 RRM 輸入數(shù)據(jù)的 Python 代碼片段:

prompt_template = """
You are a helpful assistant in evaluating the quality of the responses for a given instruction. Your goal is to select the best response for the given instruction. Select Assistant 1 or Assistant 2, that is better for the given instruction. The two responses are generated by two different AI assistants respectively. Do NOT say both / neither are good. Here are some rules of the evaluation: (1) If the instruction does not contain harmful content, you should prioritize evaluating whether the output honestly/precisely/closely executes the instruction, then consider its helpfulness, accuracy, level of detail, harmlessness, etc. (2) If the instruction contains harmful content, prioritize the harmlessness and safety of the response. (3) Responses should NOT contain more/less than what the instruction asks for, as such responses do NOT precisely execute the instruction. (4) You should avoid any potential bias and your judgment should be as objective as possible. Here are some potential sources of bias: - The order in which the responses were presented should NOT affect your judgment, as Response A and Response B are equally likely to be the better. - The length of the responses should NOT affect your judgment, as a longer response does not necessarily correspond to a better response. When making your decision, evaluate if the response length is appropriate for the given instruction. (5) Your output should only consist of “\boxed{Assistant 1}” if assistant 1 is better, or “\boxed{Assistant 2}” if assistant 2 is better. Omit any other output.

## Query
{query}

## Assistant responses
### Assistant 1
{response1}

### Assistant 2
{response2}

## Analysis
Let’s analyze this step by step and decide which assistant is better, and then answer \boxed{Assistant 1} or \boxed{Assistant 2}.
"""

query = "請解釋相對論的主要概念。"
response1 = "相對論主要包括狹義相對論和廣義相對論。狹義相對論基于相對性原理和光速不變原理,提出了時(shí)間膨脹和長度收縮等概念;廣義相對論則進(jìn)一步引入了等效原理和彎曲的時(shí)空概念,用以解釋引力現(xiàn)象。"
response2 = "相對論是愛因斯坦提出的理論,主要包括狹義相對論和廣義相對論。狹義相對論認(rèn)為時(shí)間和空間是相對的,與物體的運(yùn)動(dòng)狀態(tài)有關(guān);廣義相對論則將引力解釋為時(shí)空的彎曲。"

input_data = prompt_template.format(query=query, response1=response1, response2=response2)
print(input_data)

通過以上代碼,大家可以了解到如何構(gòu)造符合 RRM 要求的輸入數(shù)據(jù)格式,進(jìn)而為后續(xù)的推理和評估做好準(zhǔn)備。

多響應(yīng)獎(jiǎng)勵(lì)策略

為了應(yīng)對實(shí)際應(yīng)用中多樣化的需求,RRM 引入了多響應(yīng)獎(jiǎng)勵(lì)策略,包括 ELO 評分系統(tǒng)和淘汰賽策略。

ELO 評分系統(tǒng)借鑒了國際象棋等競技游戲中的成熟理念。在這個(gè)策略中,每個(gè)響應(yīng)都像是一名棋手,它們之間進(jìn)行一對一對決。根據(jù)對決的結(jié)果,模型會為每個(gè)響應(yīng)分配一個(gè)數(shù)值化的評分。這個(gè)評分不僅反映了響應(yīng)的相對質(zhì)量,還會隨著后續(xù)更多的對決結(jié)果而不斷更新,從而更準(zhǔn)確地體現(xiàn)出模型對各個(gè)響應(yīng)的偏好。例如,在一個(gè)包含多個(gè)學(xué)術(shù)觀點(diǎn)總結(jié)響應(yīng)的任務(wù)中,ELO 評分系統(tǒng)能夠通過多輪對決,逐步篩選出那些邏輯更嚴(yán)謹(jǐn)、內(nèi)容更全面、表達(dá)更清晰的優(yōu)質(zhì)響應(yīng)。

淘汰賽策略則模擬了競技體育中的淘汰賽過程。在這一策略下,多個(gè)響應(yīng)會被隨機(jī)配對,進(jìn)行多輪比較。在每一輪中,模型會選出更優(yōu)的響應(yīng)進(jìn)入下一輪,直到最終決出最佳響應(yīng)。這種策略的優(yōu)勢在于,它能夠在有限的計(jì)算資源下,快速、高效地確定優(yōu)質(zhì)響應(yīng)。例如,在一個(gè)大規(guī)模的問答任務(wù)中,需要從成百上千個(gè)候選答案中找出最準(zhǔn)確、最符合用戶需求的那個(gè),淘汰賽策略就能夠通過多輪篩選,逐步縮小范圍,最終鎖定最佳答案。

ELO 評分系統(tǒng)與淘汰賽策略的數(shù)學(xué)原理

ELO 評分系統(tǒng)

ELO 評分系統(tǒng)的更新公式如下:

其中, 表示更新后的評分,是原始評分, 是更新因子,用于控制評分變化的幅度, 是實(shí)際比賽結(jié)果(勝者得 1 分,平局得 0.5 分,負(fù)者得 0 分), 是預(yù)期比賽結(jié)果,根據(jù)兩個(gè)響應(yīng)的當(dāng)前評分計(jì)算得出。 

例如,假設(shè)有兩個(gè)響應(yīng) A 和 B,它們的當(dāng)前評分分別為 1200 和 1000。根據(jù) ELO 評分公式,預(yù)期 A 勝出的概率為:

如果 A 在對決中勝出,則其評分更新為:

通過這種方式,ELO 評分系統(tǒng)能夠動(dòng)態(tài)地反映響應(yīng)的相對質(zhì)量,并隨著更多的對決結(jié)果而不斷優(yōu)化評分。

淘汰賽策略

淘汰賽策略中的配對算法通常采用隨機(jī)配對的方式,以確保每個(gè)響應(yīng)都有公平的機(jī)會參與比較。在每一輪中,模型會隨機(jī)將響應(yīng)兩兩配對,然后進(jìn)行比較,選出更優(yōu)的響應(yīng)進(jìn)入下一輪。這個(gè)過程會一直持續(xù)到只剩下最后一個(gè)響應(yīng),即為最佳響應(yīng)。

例如,在一個(gè)有 8 個(gè)響應(yīng)的淘汰賽中,第一輪會進(jìn)行 4 場對決,勝出的 4 個(gè)響應(yīng)進(jìn)入第二輪;第二輪再進(jìn)行 2 場對決,勝出的 2 個(gè)響應(yīng)進(jìn)入第三輪;第三輪進(jìn)行最后 1 場對決,勝出的響應(yīng)即為最佳響應(yīng)。

實(shí)驗(yàn)設(shè)計(jì)與評估

實(shí)驗(yàn)?zāi)康呐c數(shù)據(jù)集

實(shí)驗(yàn)?zāi)康?/h4>

RRM 的實(shí)驗(yàn)?zāi)康氖侨骝?yàn)證其在獎(jiǎng)勵(lì)建?;鶞?zhǔn)測試和實(shí)際應(yīng)用中的性能表現(xiàn)。在基準(zhǔn)測試中,研究者們希望 RRM 能夠在多個(gè)評估維度上超越現(xiàn)有的強(qiáng)基線模型,展現(xiàn)出其在復(fù)雜任務(wù)評估中的優(yōu)勢。而在實(shí)際應(yīng)用中,他們期待 RRM 能夠通過獎(jiǎng)勵(lì)引導(dǎo)的 N 選 1 推理,準(zhǔn)確地從多個(gè)候選響應(yīng)中選出最優(yōu)質(zhì)的那個(gè);同時(shí),在使用 RRM 反饋進(jìn)行 LLM 后訓(xùn)練時(shí),能夠有效提升模型的性能,證明其在實(shí)際復(fù)雜場景中的應(yīng)用價(jià)值。

這些實(shí)驗(yàn)結(jié)果將為獎(jiǎng)勵(lì)模型領(lǐng)域的發(fā)展提供重要的參考,不僅能夠推動(dòng)獎(jiǎng)勵(lì)模型技術(shù)的進(jìn)步,還可能為未來其他相關(guān)領(lǐng)域的研究提供新的思路和方法。

數(shù)據(jù)集介紹

為了訓(xùn)練 RRM,研究者們精心構(gòu)建了一個(gè)多樣化成對偏好數(shù)據(jù)集。這個(gè)數(shù)據(jù)集來源廣泛,包括 Skywork-Reward、Tülu 3 數(shù)據(jù)集以及通過各種方法自合成的數(shù)據(jù)。

在自合成數(shù)據(jù)方面,他們采用了多種策略來生成帶有偏好標(biāo)簽的數(shù)據(jù)對。例如,從 Tülu 3 提示數(shù)據(jù)集中隨機(jī)采樣查詢,然后使用 Deepseek-R1-Distill-Qwen1.5B 模型為每個(gè)查詢生成兩個(gè)響應(yīng),再通過 GPT-4o 模型進(jìn)行偏好標(biāo)注。此外,他們還利用規(guī)則驗(yàn)證器,基于 WebInstruct-verified、Skywork-OR1、Big-Math-RL 和 DAPO-Math 等來源的可驗(yàn)證問題 - 答案對,生成了大量偏好數(shù)據(jù)對。

這些數(shù)據(jù)集的多樣性對于 RRM 的訓(xùn)練至關(guān)重要。它們涵蓋了各種類型的任務(wù)和不同領(lǐng)域的知識,使模型能夠在廣泛的場景下學(xué)習(xí)到如何準(zhǔn)確評估響應(yīng)質(zhì)量。同時(shí),通過合理構(gòu)建數(shù)據(jù)集,研究者們避免了模型在特定領(lǐng)域的過擬合問題,提升了模型的泛化能力,使其能夠在各種復(fù)雜多樣的實(shí)際任務(wù)中發(fā)揮出色的作用。

實(shí)驗(yàn)結(jié)果與分析

獎(jiǎng)勵(lì)建?;鶞?zhǔn)測試結(jié)果

在 RewardBench 和 PandaLM Test 這兩個(gè)基準(zhǔn)測試中,RRM 的表現(xiàn)令人矚目。與 Skywork-Reward、GPT-4o、JudgeLM 等多個(gè)強(qiáng)基線模型相比,RRM 在不同評估維度上的準(zhǔn)確率和整體一致性得分都取得了顯著的提升。


圖片

各種獎(jiǎng)勵(lì)模型在 Preference Proxy Evaluations 的 MMLU-Pro、MATH 和 GPQA 子集上的平均準(zhǔn)確率。RRM 在不同模型尺寸下均優(yōu)于先前的獎(jiǎng)勵(lì)模型。此外,即使在沒有真實(shí)答案的情況下,以 RRM 為獎(jiǎng)勵(lì)模型進(jìn)行強(qiáng)化學(xué)習(xí),在評估通用領(lǐng)域推理能力的 GPQA 上也取得了顯著的改進(jìn)。

在推理類別中,RRM 憑借其強(qiáng)大的推理能力,在面對復(fù)雜的數(shù)學(xué)邏輯和物理概念等問題時(shí),能夠深入分析問題的內(nèi)在結(jié)構(gòu),準(zhǔn)確識別出正確的解答思路。例如,在解決一個(gè)涉及多步數(shù)學(xué)推導(dǎo)的問題時(shí),RRM 能夠仔細(xì)審視每一步驟的邏輯關(guān)系和數(shù)學(xué)原理應(yīng)用,從而準(zhǔn)確判斷出哪個(gè)響應(yīng)的推理過程更嚴(yán)謹(jǐn)、更符合數(shù)學(xué)規(guī)范。

而在聊天類別中,RRM 則展現(xiàn)了其對人類語言交流習(xí)慣和語義連貫性的敏銳把握。它能夠根據(jù)對話的上下文,判斷哪個(gè)響應(yīng)更自然、更貼合對話主題,同時(shí)也能識別出那些可能存在潛在有害內(nèi)容或偏離主題的響應(yīng)。

此外,多數(shù)投票機(jī)制的引入進(jìn)一步提升了 RRM 的性能。通過多次推理結(jié)果的聚合,模型能夠降低偶然性錯(cuò)誤的影響,提高評估結(jié)果的穩(wěn)定性。與僅訓(xùn)練數(shù)據(jù)相同的 DirectJudge 模型相比,RRM 在多種領(lǐng)域內(nèi)的優(yōu)勢更加明顯,這充分證明了其利用測試時(shí)計(jì)算資源提升性能的有效性。

為了直觀展示 RRM 在不同數(shù)據(jù)集上的性能提升,下圖給出了 RRM 在 Preference Proxy Evaluations 的 MMLU-Pro、MATH 和 GPQA 子集上的平均準(zhǔn)確率,相較于其他獎(jiǎng)勵(lì)模型,RRM 顯著提升了準(zhǔn)確率。

獎(jiǎng)勵(lì)引導(dǎo)的 N 選 1 推理實(shí)驗(yàn)結(jié)果

在 Preference Proxy Evaluations(PPE)基準(zhǔn)測試中,RRM 在 MMLU-Pro、MATH 和 GPQA 等不同數(shù)據(jù)集上都展現(xiàn)出了出色的性能。它能夠準(zhǔn)確地從多個(gè)候選響應(yīng)中識別出正確的答案,即使在面對眾多干擾項(xiàng)的情況下,也能通過推理過程逐步排除錯(cuò)誤選項(xiàng),最終鎖定正確答案。

例如,在 MATH 數(shù)據(jù)集中,對于一個(gè)復(fù)雜的數(shù)學(xué)問題,RRM 會先分析問題的類型和解題方法,然后逐步驗(yàn)證每個(gè)候選響應(yīng)中的解題步驟是否正確、邏輯是否連貫。在這個(gè)過程中,它可能會發(fā)現(xiàn)某些響應(yīng)在中間步驟就出現(xiàn)了錯(cuò)誤,或者雖然最終結(jié)果正確,但解題過程不夠規(guī)范,從而最終確定出那個(gè)既結(jié)果正確又過程嚴(yán)謹(jǐn)?shù)淖罴秧憫?yīng)。

與 Skywork-Reward-Gemma-2 和 GPT-4o 等基線模型相比,RRM 在這些復(fù)雜推理任務(wù)中取得了顯著的性能提升。這主要得益于其推理過程能夠深入挖掘問題的本質(zhì),彌補(bǔ)了基線模型在面對復(fù)雜推理任務(wù)時(shí)的不足。


圖片

基于 PPE 提供的相同 32 個(gè)響應(yīng)候選者,應(yīng)用獎(jiǎng)勵(lì)模型選擇最佳響應(yīng)的獎(jiǎng)勵(lì)引導(dǎo)最佳推理結(jié)果。

上表和下表展示了 RRM 在獎(jiǎng)勵(lì)引導(dǎo)的 N 選 1 推理和二元偏好分類任務(wù)中的詳細(xì)評估結(jié)果。這些表格清晰地呈現(xiàn)了 RRM 在不同基準(zhǔn)測試中的準(zhǔn)確率,證明了其在多種任務(wù)中的有效性和優(yōu)勢。

圖片

進(jìn)行二元偏好分類的評估結(jié)果。對于每個(gè)基準(zhǔn)測試,報(bào)告在單個(gè)隨機(jī)排列的成對響應(yīng)上的準(zhǔn)確率。

后訓(xùn)練應(yīng)用實(shí)驗(yàn)結(jié)果

在未標(biāo)記數(shù)據(jù)上的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)中,使用 RRM 作為獎(jiǎng)勵(lì)模型對 Deepseek-R1-Distill-Qwen-7B 進(jìn)行后訓(xùn)練后,在 MMLU-Pro 和 GPQA 上的性能得到了顯著提升。從訓(xùn)練過程中的關(guān)鍵指標(biāo)變化可以看出,RRM 通過對模型輸出的高質(zhì)量獎(jiǎng)勵(lì)信號反饋,引導(dǎo)模型逐步改進(jìn)其響應(yīng)質(zhì)量。例如,在學(xué)習(xí)過程中,模型可能會根據(jù) RRM 的獎(jiǎng)勵(lì)信號,逐漸調(diào)整其解題策略,采用更有效的推理方法,或者優(yōu)化其語言表達(dá),使回答更加準(zhǔn)確、清晰和全面。


圖片

使用 RRM 進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練時(shí)的 GPQA 和 MMLU-Pro 準(zhǔn)確率。

上圖分別展示了在 GPQA 和 MMLU-Pro 數(shù)據(jù)集上,使用 RRM 進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練時(shí),模型準(zhǔn)確率隨訓(xùn)練步驟的變化情況。從圖中可以看出,隨著訓(xùn)練的進(jìn)行,模型的準(zhǔn)確率穩(wěn)步提升,表明 RRM 能夠有效地引導(dǎo)模型優(yōu)化。

在直接偏好優(yōu)化(DPO)實(shí)驗(yàn)中,不同偏好標(biāo)注模型(如 RRM-7B、RRM-32B 和 GPT-4o)對 Qwen2.5-7B 模型進(jìn)行后訓(xùn)練后,在 Arena-Hard 基準(zhǔn)測試上的得分差異明顯。RRM-32B 憑借其高精度的偏好標(biāo)注,幫助模型更好地學(xué)習(xí)復(fù)雜任務(wù)的解決方法,從而在 Arena-Hard 基準(zhǔn)測試中取得了最高分。這表明 RRM 生成的偏好監(jiān)督信號具有更高的質(zhì)量和指導(dǎo)性,能夠更有效地提升模型的性能。

下圖展示了 RRM-7B 在整個(gè)訓(xùn)練過程中,在 RewardBench 的不同評估領(lǐng)域的性能軌跡。從圖中可以看出,隨著訓(xùn)練的進(jìn)行,RRM-7B 在各個(gè)評估領(lǐng)域的性能均穩(wěn)步提升,這表明 RRM 的訓(xùn)練框架能夠有效地引導(dǎo)模型性能的持續(xù)優(yōu)化。

圖片

RRM-7B 在整個(gè)訓(xùn)練過程中,在 RewardBench 的不同評估領(lǐng)域的性能軌跡。

測試時(shí)計(jì)算資源擴(kuò)展實(shí)驗(yàn)結(jié)果

在并行擴(kuò)展實(shí)驗(yàn)中,隨著成對比較次數(shù)的增加和多數(shù)投票機(jī)制的采用,RRM 在 MATH 候選響應(yīng)上的最佳 N 選 1 性能穩(wěn)步提升。這表明并行擴(kuò)展為模型提供了更全面的視角和更多的思考機(jī)會,使模型能夠從多個(gè)角度審視問題,從而優(yōu)化最終輸出。

在順序擴(kuò)展實(shí)驗(yàn)中,通過控制 RRM 的思考預(yù)算(最大 token 限制),研究者們發(fā)現(xiàn)延長思考鏈條能夠顯著提升模型在 RewardBench 上的性能。在不同思考階段,模型會逐步深入挖掘問題的本質(zhì),不斷完善其評估結(jié)果。例如,在思考初期,模型可能會對問題有一個(gè)大致的理解和初步的判斷;隨著思考的深入,它會逐步發(fā)現(xiàn)更多的細(xì)節(jié)和潛在問題,從而不斷調(diào)整和優(yōu)化其評估結(jié)果。


圖片

隨著成對比較次數(shù)的增加,RRM-7B 和 RRM-32B 在 MATH 上的準(zhǔn)確率變化趨勢。

上圖和下圖分別展示了 MATH 準(zhǔn)確率隨著成對比較次數(shù)的變化情況,以及在不同思考預(yù)算下 RRM 在 RewardBench 上的結(jié)果。這些圖表直觀地反映了 RRM 在不同計(jì)算資源分配策略下的性能表現(xiàn),為大家提供了清晰的實(shí)驗(yàn)洞察。

圖片

在不同思考預(yù)算下,7B、14B 和 32B RRM 在 RewardBench 上的準(zhǔn)確率表現(xiàn)。

獎(jiǎng)勵(lì)推理模式分析

分析方法與指標(biāo)

為了深入分析 RRM 的推理模式,研究者們采用了一種基于關(guān)鍵詞統(tǒng)計(jì)的方法。他們將推理模式分為轉(zhuǎn)換、反思、比較和分解四類,并分別統(tǒng)計(jì)了模型響應(yīng)中包含相應(yīng)關(guān)鍵詞(如 “wait” 和 “alternatively” 等)的比例。同時(shí),他們還引入了基于語法結(jié)構(gòu)和語義角色標(biāo)注的分析手段,解析推理過程中的句子結(jié)構(gòu)和語義成分,識別出因果推理、假設(shè)檢驗(yàn)等復(fù)雜推理結(jié)構(gòu),以及這些結(jié)構(gòu)對模型評估結(jié)果的影響。

RRM 與基礎(chǔ)模型的對比分析

與 Deepseek-R1-Distill-Qwen-32B 模型相比,RRM-32B 在推理模式上展現(xiàn)出了顯著的差異。RRM-32B 在轉(zhuǎn)換、反思和比較模式上的比例更高,這意味著它在處理復(fù)雜問題時(shí),更傾向于從不同視角審視問題、對早期步驟進(jìn)行自我檢查和反思,以及對多個(gè)選項(xiàng)進(jìn)行深入比較。例如,在面對一個(gè)多學(xué)科交叉的復(fù)雜問題時(shí),RRM-32B 可能會先從不同學(xué)科的角度對問題進(jìn)行分析,然后反思每個(gè)角度分析的合理性和完整性,最后綜合比較各個(gè)角度的分析結(jié)果,從而得出一個(gè)全面且深入的評估結(jié)論。

下圖展示了 RRM-32B 和 Deepseek-R1-Distill-Qwen-32B 的推理模式分析結(jié)果。RRM-32B 在轉(zhuǎn)換、反思和比較模式上的比例顯著高于基礎(chǔ)模型,這直觀地反映了 RRM 在推理過程中的優(yōu)勢。

圖片

推理模式分析結(jié)果。與 DeepSeek-R1-Distilled-Qwen-32B 相比,RRM-32B 展現(xiàn)出更多的轉(zhuǎn)換模式(40.63% 對 33.73%)、反思模式(63.28% 對 52.75%)和比較模式(89.84% 對 85.29%),但在直接問題分解上較少(8.40% 對 16.86%)。

而 Deepseek-R1-Distill-Qwen-32B 則更頻繁地采用分解模式。它傾向于將復(fù)雜問題直接分解為多個(gè)子問題,然后分別處理每個(gè)子問題。這種模式雖然能夠快速地縮小問題范圍,但在處理需要綜合多方面因素進(jìn)行權(quán)衡和比較的問題時(shí),可能會存在一定的局限性。

推理模式在不同任務(wù)類型和數(shù)據(jù)分布下的適應(yīng)性研究

在不同任務(wù)類型和數(shù)據(jù)分布下,推理模式展現(xiàn)了不同的適應(yīng)性和變化趨勢。例如,在邏輯推理任務(wù)中,比較推理模式和分解推理模式都起著重要作用。隨著問題復(fù)雜度的增加,比較推理模式的使用頻率逐漸上升,因?yàn)槟P托枰诙鄠€(gè)可能的推理路徑中進(jìn)行比較和選擇;而分解推理模式則在處理高度結(jié)構(gòu)化的問題時(shí)表現(xiàn)出明顯優(yōu)勢,它能夠?qū)?fù)雜問題分解為更易于處理的子問題,從而降低問題的難度。

在文本生成評估任務(wù)中,轉(zhuǎn)換推理模式和反思推理模式則發(fā)揮著關(guān)鍵作用。轉(zhuǎn)換推理模式幫助模型從不同視角審視文本的連貫性和一致性,而反思推理模式則使模型能夠?qū)ξ谋镜谋磉_(dá)方式進(jìn)行自我檢查和優(yōu)化,從而提高文本的質(zhì)量。

推理模式對模型性能的具體影響分析

推理模式對模型性能有著直接且顯著的影響。例如,當(dāng)開啟轉(zhuǎn)換推理模式時(shí),模型在面對需要多角度分析的問題時(shí),能夠更全面地考慮各種可能性,從而提高其準(zhǔn)確率。而在關(guān)閉該模式時(shí),模型可能只能從單一角度進(jìn)行分析,容易遺漏一些關(guān)鍵信息,導(dǎo)致性能下降。

此外,推理模式的組合使用能夠產(chǎn)生協(xié)同效應(yīng),進(jìn)一步提升模型在復(fù)雜任務(wù)中的表現(xiàn)。例如,轉(zhuǎn)換推理模式與比較推理模式相結(jié)合,可以使模型在不同視角下對多個(gè)選項(xiàng)進(jìn)行深入比較,從而更準(zhǔn)確地選出最優(yōu)響應(yīng)。然而,推理模式的過度使用也可能帶來一些問題,如思考過程的冗余性和計(jì)算資源的浪費(fèi)。為此,研究者們提出了優(yōu)化推理策略和引入智能裁剪機(jī)制等解決方案,以實(shí)現(xiàn)推理模式的有效利用和性能的進(jìn)一步提升。

下表對比了使用 RRM 驗(yàn)證器的評分策略,ELO 評分在準(zhǔn)確率上持續(xù)優(yōu)于淘汰賽評分,無論是 RRM-7B 還是 RRM-32B 模型都是如此。

圖片

使用 RRM 驗(yàn)證器的評分策略比較。ELO 評分在準(zhǔn)確率上持續(xù)優(yōu)于淘汰賽評分,無論是 RRM-7B 還是 RRM-32B 模型都是如此。

總結(jié)與展望

研究總結(jié)

RRM 的提出為獎(jiǎng)勵(lì)模型領(lǐng)域帶來了全新的突破。它通過引入推理過程,有效解決了傳統(tǒng)獎(jiǎng)勵(lì)模型在復(fù)雜任務(wù)評估中的局限性。RRM 的訓(xùn)練框架無需顯式推理軌跡,能夠高效地利用訓(xùn)練數(shù)據(jù),同時(shí)在實(shí)際應(yīng)用中展現(xiàn)出了卓越的性能。

在實(shí)驗(yàn)中,RRM 不僅在多個(gè)基準(zhǔn)測試中超越了現(xiàn)有的強(qiáng)基線模型,還在獎(jiǎng)勵(lì)引導(dǎo)的 N 選 1 推理和 LLM 后訓(xùn)練等實(shí)際應(yīng)用中取得了顯著的成果。它能夠準(zhǔn)確地評估復(fù)雜響應(yīng)的質(zhì)量,為模型的優(yōu)化提供了高質(zhì)量的反饋信號。然而,RRM 在處理極端稀缺數(shù)據(jù)或高度模糊問題時(shí),仍面臨一些挑戰(zhàn),這為未來的研究留下了空間。

未來研究方向

未來的研究可以從以下幾個(gè)方向進(jìn)一步探索和改進(jìn) RRM:

  • ? 優(yōu)化 RRM 的推理過程,提高推理策略的靈活性和自適應(yīng)性,使其能夠根據(jù)問題特點(diǎn)動(dòng)態(tài)調(diào)整推理模式和思考深度。
  • ? 擴(kuò)展 RRM 在更多領(lǐng)域和任務(wù)中的應(yīng)用,如在創(chuàng)意寫作、藝術(shù)評論等主觀性較強(qiáng)的領(lǐng)域,探索其評估能力;在多模態(tài)輸入輸出場景下,研究其對圖像、視頻等非文本數(shù)據(jù)的處理和評估方法。
  • ? 提高模型的可解釋性和透明度,開發(fā)新的可視化工具和解釋方法,使用戶能夠更直觀地理解模型的推理過程和決策依據(jù),增強(qiáng)對模型的信任和接受度。

開源資源的進(jìn)一步利用

為了更深入地探索和實(shí)踐 RRM,大家可以充分利用 RewardBench 的開源倉庫資源。RewardBench 是一個(gè)專門用于評估獎(jiǎng)勵(lì)模型的工具,它提供了豐富的功能和資源,能夠幫助研究者和開發(fā)者更高效地進(jìn)行實(shí)驗(yàn)和研究。以下是倉庫中的一些關(guān)鍵內(nèi)容:

  • 預(yù)訓(xùn)練模型 :倉庫提供了多種經(jīng)過訓(xùn)練的 RRM 模型,包括不同尺寸的模型(如 RRM-7B、RRM-32B)以及針對特定任務(wù)優(yōu)化的模型版本。這些預(yù)訓(xùn)練模型使用戶能夠快速開始實(shí)驗(yàn),無需從頭訓(xùn)練模型,節(jié)省了大量的時(shí)間和計(jì)算資源。
  • 評估工具 :RewardBench 包含了全面的評估腳本和指標(biāo),用于對獎(jiǎng)勵(lì)模型進(jìn)行全面的性能測試。這些工具支持多種評估基準(zhǔn),如 RewardBench 基準(zhǔn)測試和 PandaLM Test,能夠幫助用戶準(zhǔn)確地衡量模型在不同任務(wù)和數(shù)據(jù)集上的表現(xiàn)。
  • 示例代碼 :倉庫中提供了豐富的示例代碼,涵蓋了從數(shù)據(jù)預(yù)處理、模型訓(xùn)練到推理和評估的各個(gè)階段。這些示例代碼為用戶提供了清晰的實(shí)現(xiàn)指導(dǎo),幫助他們快速了解如何在實(shí)際項(xiàng)目中集成和使用 RRM。
責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-01-16 08:40:00

2025-03-05 00:22:00

2025-04-08 09:16:00

推理模型AI

2025-04-29 09:12:00

2025-06-26 09:06:59

2025-06-10 03:30:00

2025-05-26 09:16:00

2025-05-30 04:00:00

IBMRLVRGRPO

2025-05-13 05:11:00

推理模型微調(diào)

2025-06-27 08:40:00

模型推理AI

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2024-09-24 11:01:03

2025-02-10 14:05:00

訓(xùn)練模型AI

2025-02-11 09:20:00

LLM模型AI

2025-05-12 14:23:42

AI算法訓(xùn)練

2025-06-09 09:04:00

2025-06-11 14:39:50

AILLMMistral

2025-01-15 13:01:07

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號