偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

當(dāng)異常獎勵遇上 AI 推理:一場意料之外的智力提升

人工智能
當(dāng)隨意的獎勵信號仍可以大幅提升模型性能,就得重新思考:到底RL是在學(xué)習(xí),還是在放大某種“先驗(yàn)”行為。

大家好,我是肆〇柒。今天,我們來聊 AI 領(lǐng)域里一個特別有意思的現(xiàn)象。在強(qiáng)化學(xué)習(xí)(RL)時(shí),尤其是具有可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)這一分支,通常我們認(rèn)為模型的獎勵信號必須和正確答案緊密相關(guān),這樣才能有效地提升模型的推理能力。然而,最近由華盛頓大學(xué)、艾倫人工智能研究所(Allen Institute for Artificial Intelligence)和加州大學(xué)伯克利分校聯(lián)合發(fā)布的論文《Spurious Rewards: Rethinking Training Signals in RLVR》卻揭示了一個令人意外的事實(shí):某些模型,比如 Qwen2.5-Math,在面對和正確答案相關(guān)性極低甚至呈負(fù)相關(guān)的異常獎勵信號時(shí),其數(shù)學(xué)推理能力卻能實(shí)現(xiàn)顯著提升。這一發(fā)現(xiàn),不僅挑戰(zhàn)了我們對 RLVR 的傳統(tǒng)認(rèn)知,還為模型訓(xùn)練策略的創(chuàng)新開辟了全新的路徑,引發(fā)了我們對 RLVR 機(jī)制的重新思考。

RLVR 在提升 LLM 數(shù)學(xué)推理能力方面已展現(xiàn)出顯著成效。眾多研究表明,通過 RLVR,模型能夠基于正確答案的反饋不斷優(yōu)化自身推理過程,從而在諸如 MATH-500 等基準(zhǔn)測試中取得優(yōu)異成績。然而,異常獎勵現(xiàn)象的出現(xiàn)為我們提供了一個全新的視角,促使我們重新審視 RLVR 的內(nèi)部運(yùn)作機(jī)制。深入探究這一現(xiàn)象,不僅有助于我們更精準(zhǔn)地把握模型訓(xùn)練過程,還可能催生出更高效、更經(jīng)濟(jì)的模型訓(xùn)練方法。下面我們一起來看看。

異常獎勵的定義與分類

在 RLVR 的語境下,異常獎勵特指那些與正確答案相關(guān)性極低或呈負(fù)相關(guān)的獎勵信號。這些獎勵信號無法直接反映模型輸出的正確性,卻在某些特定條件下對模型性能的提升產(chǎn)生了意想不到的影響。

分類及特點(diǎn)

  • 隨機(jī)獎勵 :此類獎勵完全獨(dú)立于模型輸出,以隨機(jī)的方式賦予模型 rollout。例如,設(shè)定一個固定概率 γ,模型的每個 rollout 隨機(jī)獲得獎勵 1(概率 γ)或 0(概率 1-γ)。這種獎勵機(jī)制完全忽視模型輸出的質(zhì)量與內(nèi)容,僅僅依靠概率來決定獎勵的賦予。
  • 錯誤標(biāo)簽獎勵 :基于錯誤答案的獎勵信號??赡苁怯捎跀?shù)據(jù)標(biāo)注錯誤,或者故意設(shè)計(jì)的錯誤標(biāo)簽,模型在訓(xùn)練過程中被錯誤地引導(dǎo),卻在這種 “誤導(dǎo)” 下意外地提升了推理能力。
  • 格式獎勵 :僅關(guān)注模型輸出的格式是否符合要求,而不考慮輸出內(nèi)容的正確性。例如,只要模型輸出中包含至少一個非空的 \boxed{} 表達(dá)式,無論其中的答案是否正確,模型都將獲得獎勵。這種獎勵機(jī)制旨在激勵模型遵循特定的輸出格式規(guī)范。

不同類型異常獎勵對模型性能的影響

  • 短期與長期影響 :部分異常獎勵在訓(xùn)練初期能迅速激發(fā)模型性能的顯著提升,但隨著訓(xùn)練的推進(jìn),其效果可能逐漸趨于平穩(wěn);而另一些異常獎勵則可能在長期訓(xùn)練過程中持續(xù)發(fā)揮作用,逐步引導(dǎo)模型性能的穩(wěn)步提升。例如,隨機(jī)獎勵在訓(xùn)練初期可能通過引入多樣性來拓寬模型的探索空間,從而快速提升性能;而在后期,模型可能會逐漸適應(yīng)這種隨機(jī)性,并在此基礎(chǔ)上進(jìn)一步優(yōu)化自身的推理策略。
  • 不同問題類型的差異 :不同類型數(shù)學(xué)問題對模型推理能力的要求各異,異常獎勵對模型在不同類型問題上的性能影響也呈現(xiàn)出明顯差異。以代數(shù)問題為例,模型可能更依賴于對數(shù)學(xué)公式和規(guī)則的靈活運(yùn)用,隨機(jī)獎勵在這種情況下可能有助于模型發(fā)現(xiàn)新的解題思路和方法;而在幾何問題中,模型可能更注重圖形的理解與空間關(guān)系的分析,格式獎勵則可能通過引導(dǎo)模型規(guī)范輸出幾何圖形的描述方式,從而提升其在幾何問題上的表現(xiàn)。

關(guān)鍵發(fā)現(xiàn)與實(shí)驗(yàn)結(jié)果

Qwen2.5-Math 模型在異常獎勵下的卓越表現(xiàn)

Qwen2.5-Math-7B 模型在多種異常獎勵下的表現(xiàn)堪稱驚艷。在 MATH-500 基準(zhǔn)測試中,隨機(jī)獎勵使其性能提升了 21.4%,錯誤標(biāo)簽獎勵帶來了 24.6% 的提升,格式獎勵也貢獻(xiàn)了 16.4% 的增益,與基于真實(shí)正確答案的獎勵信號效果幾乎持平。這一結(jié)果表明,Qwen2.5-Math 模型在面對異常獎勵時(shí),能夠積極探索并利用自身的預(yù)訓(xùn)練知識和推理能力,從而實(shí)現(xiàn)性能的顯著提升。

在各種訓(xùn)練信號下,經(jīng)過150步RLVR后的MATH-500準(zhǔn)確率從訓(xùn)練過程來看,Qwen2.5-Math 模型在不同階段對異常獎勵的響應(yīng)也各不相同。在訓(xùn)練初期,模型可能對異常獎勵的適應(yīng)性較強(qiáng),能夠迅速調(diào)整自身的推理策略以獲取更高的獎勵;隨著訓(xùn)練的深入,模型逐漸趨于穩(wěn)定,異常獎勵的影響力相對減弱,但模型在此過程中所形成的優(yōu)化后的推理策略得以保留并進(jìn)一步鞏固。

模型在MATH和AMC上的表現(xiàn),其訓(xùn)練獎勵變化在10的窗口大小下進(jìn)行了平滑處理

其他模型在異常獎勵下的表現(xiàn)差異

與 Qwen 模型家族相比,其他模型在相同異常獎勵下的表現(xiàn)則相形見絀。例如,OLMo2-7B 在隨機(jī)獎勵下的性能幾乎持平,而 Llama3.1-8B-Instruct 在錯誤標(biāo)簽獎勵下性能甚至出現(xiàn)了下降。這主要是由于這些模型在預(yù)訓(xùn)練階段所接觸的數(shù)據(jù)分布和形成的推理策略與 Qwen2.5-Math 模型存在顯著差異。

在額外的模型類別中變化的獎勵

以 Llama3 模型為例,其預(yù)訓(xùn)練數(shù)據(jù)可能更側(cè)重于自然語言生成和對話任務(wù),較少涉及數(shù)學(xué)推理相關(guān)的訓(xùn)練內(nèi)容。這使得 Llama3 模型在面對異常獎勵時(shí),難以像 Qwen2.5-Math 模型那樣有效地利用獎勵信號來引導(dǎo)自身推理策略的優(yōu)化。其在預(yù)訓(xùn)練階段形成的推理策略,如基于模式匹配和模板生成的文本生產(chǎn)能力,在異常獎勵的作用下,無法得到有效的強(qiáng)化和調(diào)整,從而導(dǎo)致在數(shù)學(xué)推理任務(wù)上的性能提升受限甚至出現(xiàn)下降。

深入分析:模型預(yù)訓(xùn)練差異與推理模式

Qwen2.5-Math 模型的獨(dú)特推理模式 —— 代碼推理

Qwen2.5-Math 模型具備一種獨(dú)特的推理能力 —— 代碼推理。在解決數(shù)學(xué)問題的過程中,該模型頻繁地生成 Python 代碼來輔助思考,即便在沒有實(shí)際代碼執(zhí)行環(huán)境的情況下,也能通過這種方式來模擬數(shù)學(xué)運(yùn)算和邏輯推理過程。這一特性使其在數(shù)學(xué)推理任務(wù)中展現(xiàn)出強(qiáng)大的優(yōu)勢。

Qwen2.5-Math-7B代碼推理示例代碼推理與模型性能之間存在著緊密的關(guān)聯(lián)。實(shí)驗(yàn)數(shù)據(jù)顯示,Qwen2.5-Math 模型的代碼推理頻率從 66.7% 顯著提升至 90% 以上,且在代碼推理模式下,模型答案的準(zhǔn)確率遠(yuǎn)高于僅使用自然語言推理的準(zhǔn)確率。這表明,代碼推理作為一種更精確、更具邏輯性的推理方式,能夠有效地提升模型在數(shù)學(xué)問題求解中的表現(xiàn)。

跟蹤模型生成的包含Python代碼的MATH-500回答的百分比

為了更直觀地展示這種關(guān)系,我們可以通過下圖來觀察模型在不同獎勵信號下的推理策略轉(zhuǎn)換和細(xì)粒度性能變化。這張圖詳細(xì)展示了 Qwen2.5-Math-7B 模型在 MATH-500 測試集上,在不同訓(xùn)練信號下的推理策略轉(zhuǎn)換情況。從圖中可以看到,無論是使用哪種獎勵信號,模型在訓(xùn)練后都傾向于更多地使用代碼推理策略。特別是那些原本僅使用自然語言推理的問題,在訓(xùn)練后大部分轉(zhuǎn)換為使用代碼推理,且這些轉(zhuǎn)換后的子集在性能上有了顯著提升。這進(jìn)一步證明了代碼推理頻率的增加對模型性能提升的重要作用。

在不同訓(xùn)練信號下,Qwen2.5-Math-7B 在 MATH-500 測試集上強(qiáng)化學(xué)習(xí)價(jià)值回歸(RLVR)前后推理策略切換及細(xì)粒度性能

通過具體的代碼示例,我們可以更直觀地理解模型的代碼推理過程。例如,在解決一個坐標(biāo)轉(zhuǎn)換問題時(shí),Qwen2.5-Math 模型首先對問題進(jìn)行分析,明確轉(zhuǎn)換的目標(biāo)和方法,然后逐步編寫 Python 代碼來實(shí)現(xiàn)坐標(biāo)轉(zhuǎn)換的計(jì)算過程。最終,模型依據(jù)代碼的輸出結(jié)果得出最終答案,并以清晰的格式呈現(xiàn)出來。這種代碼推理過程不僅體現(xiàn)了模型對數(shù)學(xué)知識的深入理解和運(yùn)用能力,還展示了其在邏輯推理和問題解決方面的強(qiáng)大潛力。

Qwen2.5-Math-7B在從MATH-500中隨機(jī)挑選的一個問題上的定性輸出示例

預(yù)訓(xùn)練數(shù)據(jù)與模型推理行為的關(guān)系

模型在預(yù)訓(xùn)練階段所接觸的數(shù)據(jù)分布對其推理模式和對獎勵信號的響應(yīng)具有決定性的影響。Qwen2.5-Math 模型可能在預(yù)訓(xùn)練過程中接觸了大量的帶有代碼輔助的數(shù)學(xué)推理示例,如數(shù)學(xué)公式推導(dǎo)、代碼化的數(shù)學(xué)問題解決方案等。這些數(shù)據(jù)使得模型在預(yù)訓(xùn)練階段就逐漸形成了對代碼推理的偏好和能力。

追蹤MATH-500的性能以及生成答案中包含Python代碼塊的比例

Qwen2.5-Math 模型的預(yù)訓(xùn)練數(shù)據(jù)可能涵蓋了豐富的數(shù)學(xué)問題類型和相應(yīng)的代碼解決方案,這些數(shù)據(jù)不僅包括了數(shù)學(xué)問題的描述和正確答案,還詳細(xì)展示了如何通過編寫代碼來逐步解決這些問題的過程。在預(yù)訓(xùn)練過程中,模型通過學(xué)習(xí)這些數(shù)據(jù),逐漸掌握了代碼推理的模式和技巧,形成了將數(shù)學(xué)問題轉(zhuǎn)化為代碼邏輯并進(jìn)行求解的能力。因此,在 RLVR 訓(xùn)練中,即便面對異常獎勵信號,模型也能夠憑借其在預(yù)訓(xùn)練階段所形成的代碼推理能力,有效地利用獎勵信號來優(yōu)化自身的推理策略,從而在數(shù)學(xué)推理任務(wù)中取得優(yōu)異的性能表現(xiàn)。

RLVR 機(jī)制的重新審視

異常獎勵信號激發(fā)模型潛在能力的假設(shè)與分析

基于實(shí)驗(yàn)觀察,我們提出假設(shè):在 RLVR 訓(xùn)練過程中,當(dāng)缺乏有效的獎勵信號時(shí),模型可能會通過某種機(jī)制激發(fā)并利用其在預(yù)訓(xùn)練階段習(xí)得的潛在推理表示。對于 Qwen2.5-Math 模型而言,異常獎勵信號可能促使模型更加頻繁地探索和利用其預(yù)訓(xùn)練階段形成的高概率行為模式,例如代碼推理,從而間接提升其性能。

從模型訓(xùn)練動態(tài)的角度來看,獎勵信號在很大程度上影響著模型對不同推理策略的選擇和強(qiáng)化。在正常情況下,基于正確答案的獎勵信號會引導(dǎo)模型朝著更接近正確解的方向優(yōu)化自身的推理策略。然而,在異常獎勵的情況下,模型無法依賴于準(zhǔn)確的獎勵反饋來判斷自身輸出的正確性。此時(shí),模型可能會更多地依賴于其預(yù)訓(xùn)練階段所形成的內(nèi)部知識和推理模式,通過不斷嘗試不同的推理策略來探索能夠獲取更高獎勵的路徑。對于 Qwen2.5-Math 模型來說,其在預(yù)訓(xùn)練階段形成的代碼推理能力在這種情況下成為了其探索的優(yōu)勢所在,模型會傾向于更頻繁地使用代碼推理來解決問題,即使這些代碼推理的答案并非完全正確,但在某些情況下卻能夠意外地獲得較高的獎勵,從而促使模型進(jìn)一步強(qiáng)化這種推理策略。

優(yōu)化算法在異常獎勵中的作用 —— 以 GRPO 為例

GRPO 算法作為 RLVR 中的關(guān)鍵優(yōu)化方法,在模型訓(xùn)練過程中發(fā)揮著至關(guān)重要的作用。其核心思想是通過對策略模型的更新,最大化模型在長期收益上的表現(xiàn)。在 GRPO 算法中,裁剪機(jī)制是一項(xiàng)關(guān)鍵的技術(shù)手段,它通過限制策略更新的范圍,防止模型參數(shù)過度偏離初始分布,從而保證了訓(xùn)練過程的穩(wěn)定性和模型性能的逐步提升。

在隨機(jī)獎勵等異常情況下,GRPO 算法的裁剪機(jī)制依然能夠?yàn)槟P吞峁┯幸饬x的訓(xùn)練信號。具體來說,當(dāng)模型的 rollout 獲得獎勵時(shí),無論是基于正確答案還是隨機(jī)賦予的獎勵,GRPO 算法都會根據(jù)當(dāng)前策略模型的參數(shù)和 rollout 的優(yōu)勢函數(shù)來計(jì)算梯度更新。裁剪機(jī)制在此過程中起到了限制梯度更新幅度的作用,確保模型參數(shù)在每次更新時(shí)不會發(fā)生劇烈變化。這種穩(wěn)定的更新方式使得模型能夠在隨機(jī)獎勵的環(huán)境下,依然沿著一定的方向逐步調(diào)整自身參數(shù),從而在一定程度上利用其預(yù)訓(xùn)練階段形成的潛在能力。

使用不同概率γ ∈ {0.7, 0.5, 0.3, 0.001, 0}的隨機(jī)獎勵的GRPO來訓(xùn)練Qwen2.5-Math-7B

為了更直觀地展示裁剪機(jī)制的作用,我們可以通過下圖來觀察在 RLVR 訓(xùn)練中,使用復(fù)合獎勵(即原始獎勵與禁止 Python 代碼的獎勵相結(jié)合)時(shí),模型在 MATH 和 AMC 基準(zhǔn)測試中的表現(xiàn)。這張圖詳細(xì)展示了當(dāng)原始獎勵與禁止 Python 代碼的獎勵相結(jié)合時(shí),模型在不同基準(zhǔn)測試中的性能變化。從圖中可以看到,裁剪機(jī)制在復(fù)合獎勵的情況下對模型性能有顯著影響。當(dāng)裁剪機(jī)制被禁用時(shí),模型的性能提升不明顯,甚至在某些情況下會出現(xiàn)下降;而當(dāng)裁剪機(jī)制被啟用時(shí),模型的性能顯著提升,尤其是在 MATH 基準(zhǔn)測試中。這進(jìn)一步證明了裁剪機(jī)制在異常獎勵中的重要作用。

RLVR采用復(fù)合獎勵機(jī)制,將(i)原有的獎勵與(ii)無Python獎勵相結(jié)合。無Python獎勵僅對不含Python代碼的回答給予獎勵

GRPO 算法的梯度更新公式及其在隨機(jī)獎勵下的表現(xiàn)

GRPO 算法的梯度更新公式如下:

在Qwen2.5-Math-7B中,移除剪枝項(xiàng)后GRPO的性能和代碼推理頻率

簡化的 GRPO 算法偽代碼示例

以下是簡化的 GRPO 算法偽代碼片段,用于幫助讀者更直觀地理解其在隨機(jī)獎勵情況下的訓(xùn)練過程:

# 簡化的 GRPO 算法偽代碼片段
for epoch in range(num_epochs):
    for prompt in prompts:
        # 生成模型輸出
        outputs = model.generate(prompt)
        # 計(jì)算隨機(jī)獎勵
        rewards = np.random.choice([0, 1], size=len(outputs))
        # 計(jì)算優(yōu)勢函數(shù)
        advantages = compute_advantages(rewards)
        # 更新模型參數(shù)
        model.update_with_grpo(outputs, advantages, clip_range=epsilon_clip)

在這個偽代碼中,模型首先根據(jù)給定的提示生成輸出,然后為每個輸出賦予隨機(jī)獎勵。接著,計(jì)算每個輸出的優(yōu)勢函數(shù)值,該值反映了輸出在當(dāng)前策略下的相對優(yōu)勢。最后,模型根據(jù)這些獎勵和優(yōu)勢函數(shù)值,結(jié)合裁剪機(jī)制來更新自身的參數(shù)。盡管獎勵是隨機(jī)的,但裁剪機(jī)制確保了模型參數(shù)的更新不會過于劇烈,從而使模型能夠在一定程度上利用其預(yù)訓(xùn)練階段形成的能力。

實(shí)驗(yàn)驗(yàn)證與進(jìn)一步探討

針對代碼推理的干預(yù)實(shí)驗(yàn)

提示工程的具體操作與效果

為了驗(yàn)證代碼推理頻率提升對 Qwen2.5-Math 模型性能的提升作用,研究人員設(shè)計(jì)了提示工程實(shí)驗(yàn)。在實(shí)驗(yàn)中,通過在問題提示中添加 “讓我們用 Python 來解決這個問題” 等引導(dǎo)性語句,激發(fā)模型的代碼推理能力。

具體來說,實(shí)驗(yàn)人員精心設(shè)計(jì)了一系列包含引導(dǎo)性語句的提示模板。例如,在一個數(shù)學(xué)問題提示前加上 “為了準(zhǔn)確求解這個問題,我們可以借助 Python 代碼來逐步計(jì)算,首先我們需要……”,以此引導(dǎo)模型在思考過程中主動運(yùn)用 Python 代碼進(jìn)行推理。這些提示模板被應(yīng)用于模型輸入,使模型在處理問題時(shí)更容易進(jìn)入代碼推理模式。

實(shí)驗(yàn)結(jié)果顯示,這一提示工程對 Qwen2.5-Math 模型的性能提升效果顯著。以 Qwen2.5-Math-7B 為例,其性能從 52.6% 提升至 64.4%,提升了 11.8%。這一結(jié)果有力地證明了代碼推理頻率的增加與模型性能提升之間存在著密切的因果關(guān)系。

在將提示詞擴(kuò)展以激勵代碼推理后,模型在MATH-500上的表現(xiàn)。在本實(shí)驗(yàn)中,強(qiáng)制模型生成的第一句話為“讓我們用Python來解決這個問題?!碑?dāng)應(yīng)用于具有強(qiáng)大代碼推理先驗(yàn)的Qwen2.5-Math模型時(shí),使用“代碼引導(dǎo)”提示策略顯著提高了測試準(zhǔn)確率。

基于 RL 的干預(yù)方法

研究人員還采用了基于 RL 的干預(yù)方法來刻意增加 Qwen2.5-Math 模型的代碼推理頻率。在這一方法中,設(shè)計(jì)了一個專門獎勵代碼生成行為的獎勵函數(shù),即當(dāng)模型輸出中包含 Python 代碼時(shí),無論代碼的正確性如何,都將給予一定的獎勵。

基于 PPO 算法,研究人員對模型進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。在訓(xùn)練過程中,模型的參數(shù)更新策略和獎勵反饋機(jī)制都經(jīng)過了精心設(shè)計(jì)。具體來說,模型在每次生成輸出后,會根據(jù)是否包含 Python 代碼來獲得相應(yīng)的獎勵。通過這種方式,模型逐漸學(xué)會了在更多的輸出中生成代碼推理,以獲取更高的獎勵。

實(shí)驗(yàn)結(jié)果表明,經(jīng)過 20 步的訓(xùn)練,Qwen2.5-Math 模型生成代碼推理解決方案的比例超過了 99%,并且模型性能也隨之得到了顯著提升。這進(jìn)一步驗(yàn)證了代碼推理對模型性能的積極影響。

使用Python獎勵機(jī)制來明確鼓勵模型進(jìn)行代碼推理時(shí)的表現(xiàn)

對其他有益推理模式的探索

無重復(fù)推理模式的發(fā)現(xiàn)與驗(yàn)證

除了代碼推理,研究人員還發(fā)現(xiàn) RLVR 可能能夠激發(fā)其他與正確答案相關(guān)性高的推理模式,例如無重復(fù)推理模式。這種模式旨在避免模型生成重復(fù)冗余的內(nèi)容,從而提高回答的質(zhì)量和可讀性。

為了驗(yàn)證這一假設(shè),研究人員設(shè)計(jì)了無重復(fù)獎勵函數(shù),專門獎勵模型避免重復(fù)生成內(nèi)容的行為。在實(shí)驗(yàn)中,模型的輸出會經(jīng)過檢測,若未出現(xiàn)明顯的重復(fù)字符串,則給予獎勵;反之則不給予獎勵。通過這種方式,引導(dǎo)模型在推理過程中注重內(nèi)容的獨(dú)特性和創(chuàng)新性。

實(shí)驗(yàn)結(jié)果表明,這種無重復(fù)獎勵對 Qwen2.5-Math 模型的性能有一定的提升作用。這表明,RLVR 具有激發(fā)多種有益推理模式的潛力,而不僅僅局限于代碼推理。

設(shè)計(jì)了一種新型獎勵機(jī)制——無重復(fù)獎勵,對于不包含明顯重復(fù)內(nèi)容的回答賦予1分,對于包含明顯字符串重復(fù)的回答賦予0分

其他推理模式的潛在價(jià)值與應(yīng)用前景

無重復(fù)推理模式的提升機(jī)制主要體現(xiàn)在避免信息冗余、提高回答質(zhì)量和可讀性等方面。通過引導(dǎo)模型生成更加精煉、獨(dú)特的回答,無重復(fù)推理模式能夠使模型在文本生成任務(wù)中更好地滿足用戶對高質(zhì)量內(nèi)容的需求。

此外,研究人員還探討了其他可能的有益推理模式,如分步推理、假設(shè)驗(yàn)證等。分步推理模式要求模型在解決復(fù)雜問題時(shí)按照清晰的步驟逐步展開思考,這樣可以使推理過程更加透明和易于理解;假設(shè)驗(yàn)證模式則鼓勵模型在生成答案之前先提出假設(shè),并通過驗(yàn)證假設(shè)的正確性來逐步逼近最終答案。這些模式在不同的任務(wù)和應(yīng)用場景中具有廣闊的潛在價(jià)值和應(yīng)用前景。

對現(xiàn)有 RLVR 研究的啟示與建議

模型選擇對 RLVR 研究結(jié)論的影響

目前,許多 RLVR 研究僅基于單一模型(如 Qwen2.5-Math)進(jìn)行實(shí)驗(yàn)驗(yàn)證,這可能導(dǎo)致研究結(jié)論的局限性和片面性。例如,近期的一些 RLVR 研究方法在 Qwen 模型上表現(xiàn)出色,但在其他模型上的有效性卻未能得到充分驗(yàn)證。

以測試時(shí)訓(xùn)練(TTRL)和單次 RL 方法為例,這些方法在 Qwen 模型上的實(shí)驗(yàn)結(jié)果顯示出了良好的性能提升。然而,當(dāng)將這些方法應(yīng)用于其他模型(如 Llama3、OLMo2 等)時(shí),實(shí)驗(yàn)結(jié)果卻顯示性能提升微弱甚至出現(xiàn)下降。這說明,不同模型對 RLVR 訓(xùn)練策略的響應(yīng)存在顯著差異,僅基于單一模型得出的結(jié)論難以適用于更廣泛的模型群體。

在多種基礎(chǔ)模型上評估了兩種最近的弱監(jiān)督強(qiáng)化學(xué)習(xí)方法——TTRL 和單樣本強(qiáng)化學(xué)習(xí)

因此,在 RLVR 研究中,應(yīng)當(dāng)更加注重使用多種不同預(yù)訓(xùn)練背景的模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。這樣可以更全面地評估訓(xùn)練策略的有效性和普適性,確保研究結(jié)論的可靠性和可信度。例如,在開展新的 RLVR 研究時(shí),可以選取包括 Qwen、Llama、OLMo 等多個模型家族的代表性模型進(jìn)行實(shí)驗(yàn)對比,分析不同模型在相同訓(xùn)練策略下的性能表現(xiàn)和變化趨勢,從而得出更具普適性的研究結(jié)論。

未來 RLVR 研究的方向與改進(jìn)

注重模型預(yù)訓(xùn)練階段推理策略的分析

未來的研究應(yīng)更加深入地分析模型預(yù)訓(xùn)練階段所形成的推理策略。通過研究模型預(yù)訓(xùn)練數(shù)據(jù)的特點(diǎn)、架構(gòu)設(shè)計(jì)以及訓(xùn)練過程中的行為模式,我們可以更好地理解模型在 RLVR 訓(xùn)練中的表現(xiàn),并據(jù)此設(shè)計(jì)更有效的獎勵信號和訓(xùn)練方法。

例如,可以對 Qwen2.5-Math 模型的預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行深入挖掘,分析其中數(shù)學(xué)問題的類型分布、代碼示例的多樣性以及數(shù)學(xué)推理過程的呈現(xiàn)方式等。同時(shí),對比其他模型的預(yù)訓(xùn)練數(shù)據(jù)特點(diǎn),找出導(dǎo)致模型在面對異常獎勵時(shí)不同表現(xiàn)的關(guān)鍵因素。此外,還可以研究模型架構(gòu)中的特定組件(如注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)等)在數(shù)學(xué)推理任務(wù)中的作用,以及這些組件在 RLVR 訓(xùn)練中的變化情況,為優(yōu)化模型架構(gòu)和訓(xùn)練策略提供依據(jù)。

開發(fā)新的評估指標(biāo)和方法

為了更準(zhǔn)確地衡量和比較不同模型在 RLVR 訓(xùn)練過程中推理模式的變化及其對性能的影響,我們需要開發(fā)新的評估指標(biāo)和方法。例如,可以設(shè)計(jì)用于量化推理策略多樣性和質(zhì)量的指標(biāo),通過分析模型輸出的推理步驟、邏輯連貫性、創(chuàng)新性等方面來評估其推理能力的發(fā)展。

同時(shí),開發(fā)動態(tài)監(jiān)測模型推理能力發(fā)展的工具也具有重要意義。這些工具可以實(shí)時(shí)跟蹤模型在訓(xùn)練過程中的性能變化、推理策略的演變以及對不同獎勵信號的響應(yīng)情況,為研究人員提供更全面、細(xì)致的實(shí)驗(yàn)數(shù)據(jù),從而更深入地理解 RLVR 訓(xùn)練機(jī)制,并及時(shí)調(diào)整訓(xùn)練策略以優(yōu)化模型性能。

結(jié)論

綜上所述,RLVR 中的異常獎勵現(xiàn)象為我們展示了模型預(yù)訓(xùn)練差異在其中所起的關(guān)鍵作用,以及異常獎勵信號如何通過激發(fā)模型潛在推理能力或利用優(yōu)化算法特性來影響模型性能。這一現(xiàn)象不僅拓寬了我們對 RLVR 機(jī)制的理解,也為提升 LLM 推理能力提供了新的思路和方法。

然而,我們也應(yīng)清醒地認(rèn)識到,當(dāng)前的研究還存在諸多局限性。例如,異常獎勵現(xiàn)象在不同語言模型架構(gòu)和任務(wù)領(lǐng)域中的適用性仍有待進(jìn)一步探索;對于模型在 RLVR 訓(xùn)練過程中推理模式變化的微觀機(jī)制,我們還需要更深入的研究來揭示其本質(zhì)。另外,當(dāng)隨意的獎勵信號仍可以大幅提升模型性能,就得重新思考:到底RL是在學(xué)習(xí),還是在放大某種“先驗(yàn)”行為?

各位,看過此文有什么感想?如有其他想法可以在評論區(qū)留言,我們聊聊?;蛘呒尤搿坝X察流”社區(qū)群,與群里的小伙伴一起學(xué)習(xí)、交流。加入方法,私信回復(fù)“入群”“加群”即可。

參考資料

  • Spurious Rewards: Rethinking Training Signals in RLVR

     https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

  • GitHub - Rethink_RLVR

     https://github.com/ruixin31/Rethink_RLVR

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2016-10-09 10:27:29

H3C

2010-09-17 14:31:11

Oracle第一季度

2022-06-21 11:48:13

AI隱私計(jì)算

2022-06-20 15:38:40

AI核聚變反應(yīng)DeepMind

2023-06-27 16:53:50

2020-02-21 17:23:21

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)魔力象限

2021-09-08 15:02:28

人工智能AIRFID

2025-08-22 07:40:24

2017-03-20 19:40:29

AndroidSwipeRefres下拉刷新

2019-07-08 13:35:03

無人駕駛人工智能AI

2025-10-31 01:25:00

2013-01-24 11:03:30

2019-11-11 09:39:54

AI 行業(yè) 人工智能

2015-05-26 15:17:44

OpenStack

2011-03-08 11:42:56

2025-03-07 09:57:01

2018-03-17 17:33:13

云計(jì)算AI人工智能

2013-05-22 09:33:09

交互設(shè)計(jì)設(shè)計(jì)時(shí)間

2016-10-21 15:57:39

Rust編輯語言Fedora
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號