偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

不用強化學習也能推理,哈佛新采樣算法竟能讓基礎模型比肩GRPO后訓練版本

人工智能 新聞
近日,哈佛大學一篇論文探索了能否不使用任何額外訓練,通過純粹的采樣讓基礎模型表現(xiàn)出推理能力。

強化學習能力強大,幾乎已經(jīng)成為推理模型訓練流程中的標配,也有不少研究者在探索強化學習可以為大模型帶來哪些涌現(xiàn)行為。

現(xiàn)在,問題來了:要讓大模型學會推理,強化學習是必需的嗎?

近日,哈佛大學一篇論文探索了能否不使用任何額外訓練,通過純粹的采樣讓基礎模型表現(xiàn)出推理能力。

他們的探索成功了,提出了一種利用基礎模型自身似然度的簡單迭代采樣算法。

  • 論文標題:Reasoning with Sampling: Your Base Model is Smarter Than You Think
  • 論文地址:https://www.arxiv.org/pdf/2510.14901
  • 項目網(wǎng)站:https://aakaran.github.io/reasoning_with_sampling/
  • 代碼地址:https://github.com/aakaran/reasoning-with-sampling

他們還證明,在不同的基礎模型上,該算法都能大幅提升推理能力。

也就是說:直接從基礎模型進行采樣,可以實現(xiàn)與強化學習相媲美的單次推理能力!

更重要的是,該算法無需訓練、無需數(shù)據(jù)集、無需驗證器,從而可避免了強化學習方法的一些固有弱點,包括為避免訓練不穩(wěn)定而進行的大量超參數(shù)搜索、整理多樣化且龐大的后訓練數(shù)據(jù)集的需求,以及無法保證獲取真實驗證器 / 獎勵信號的問題。

不得不說,這個結果著實讓人驚訝。

基礎概念:分布銳化

這個哈佛團隊的核心設計基于分布銳化(distribution sharpening)概念。

具體來說,針對一個參考分布(reference distribution),銳化是指對該分布進行重新加權,使得高似然度區(qū)域的權重被進一步提升,而低似然度區(qū)域的權重被降低,從而使采樣大幅偏向于參考分布下的高似然度樣本。

基于此,如果經(jīng)過 RL 后訓練的模型實際上只是基礎模型的某個銳化版本,就應該能夠明確指定一個目標采樣分布來實現(xiàn)相同的效果。

也就是說,只要找到這個目標采樣分布就能讓模型具備推理能力!

使用冪分布進行推理

該團隊發(fā)現(xiàn),對于分布 p,一種自然的銳化方法是從冪分布 (power distribution) p^α 中采樣。

由于 那么對 p 取冪會增加高似然度序列 (x) 的相對權重,同時減少低似然度序列 (x') 的相對權重。下圖給出了可視化演示:

一個眾所周知且相關的銳化策略是低溫采樣 (low-temperature sampling) ,即在每一步都對條件性下一 token 分布進行冪運算:

這里的溫度是 τ = 1/α。一個常見的誤解是,在 T 個 token 上使用上式進行采樣等同于從 p^α 中采樣;然而,該團隊指出:這在一種微妙但關鍵的方面是錯誤的。

命題:低溫采樣并非從冪分布 p^α 中采樣。

對該命題的證明參閱原論文,這里不再詳述。

一種理解這種差異的直觀方式是:低溫采樣沒有考慮到冪運算如何銳化時間步 t 時的「未來路徑」的似然度,而是「貪婪地」平均了所有這些未來的似然度。另一方面,從 p^α 采樣則內(nèi)在地考慮了未來的完成情況,因為它在計算下一 token 預測的權重之前,對所有未來路徑進行了冪運算。

這帶來了一個結論:冪分布會提升那些未來路徑數(shù)量少但似然度高的 token 的權重,而低溫采樣則會提升那些未來路徑完成可能多但似然度低的 token 的權重。

下面展示了一個示例:

因此,從 p^α 采樣會鼓勵采樣那些具有較少但似然度更高的「未來路徑」的 token,而不是那些具有多個較低似然度完成可能的 token。而這種行為對于推理任務非常有價值。

例如,選擇那些平均似然度高但會將輸出陷入低似然度個體未來的「錯誤」token,是關鍵窗口 (critical windows) 或關鍵性 token (pivotal tokens) 的典型案例,這是一種少數(shù)幾個 token 對語言模型輸出的正確性有巨大影響的現(xiàn)象。

事實上,已有研究表明,尖銳的關鍵窗口與推理失敗有很強的相關性。相反,從冪分布采樣的過程內(nèi)在地包含了一種偏向,即規(guī)劃未來的高似然度 token。

Metropolis-Hastings 算法

我們已經(jīng)從理論上看到從 p^α 采樣可以如何幫助提升底層 LLM 的推理能力?;诖?,該團隊構建了一個算法,以便能夠準確從中采樣。

給定一個 LLM p,我們可以獲取任意序列長度的 p^α 的值;然而,這些值是未歸一化的。直接從真實概率進行采樣需要對所有序列 (x_0, ..., x_T) 進行歸一化,這在計算上是不可行的。

為了解決這個問題,他們采用了一種名為 Metropolis-Hastings (MH) 的馬爾可夫鏈蒙特卡洛 (MCMC) 算法 [Metropolis et al., 1953],它恰好能實現(xiàn)這個目標:從一個未歸一化的概率分布中進行近似采樣。

MH 算法使用一個任意的提議分布 (proposal distribution) q (x|x^i) 來選擇下一個候選樣本 x_{i+1},從而構建一個樣本序列的馬爾可夫鏈 。候選樣本 x 以如下概率被接受為 x^{i+1}:

否則,MH 算法設置 x^{i+1} = x^i。這個算法特別方便,因為它只需要由 p^α 給出的相對權重 (因為 A 中的歸一化權重會抵消),并且可以與任何通用但易于處理的采樣器 q 配合使用,限制極少。值得注意的是,只要 n 足夠大,并且提議分布滿足以下 (相當寬松的) 條件,這個過程就會收斂到從目標分布 p^α 中采樣 :

定義 1: 如果對于在目標分布 p^α 下具有非零質(zhì)量的任何集合 X,提議分布 q 最終從 X 中采樣的概率為非零,則稱 q 是不可約的 (irreducible)。如果所導出的樣本鏈不會在固定的步數(shù)間隔后返回到同一個樣本,則稱該提議是非周期的 (aperiodic)。

因此,只需確保提議分布滿足不可約性和非周期性,Metropolis-Hastings 算法就能處理剩下的事情。

在實踐層面上,我們自然還希望 q (x|x^i) 和其逆過程 q (x^i|x) 都易于計算。

以以下一類隨機重采樣提議分布為例,見下圖:

設 p_prop 是一個提議 LLM。以均勻概率 1/T,從 [1, T] 中選擇一個隨機位置 t,并使用 p_prop 從索引 t 開始重采樣序列。那么轉(zhuǎn)移似然度 q (x|x^i) 就是這次重采樣的似然度。注意,在每個候選選擇步驟中,我們都有非零概率在任意兩個序列 x、x'  之間轉(zhuǎn)換,因為我們總是有可能從 x 的開頭就進行重采樣。這確保了提議分布既是不可約的也是非周期的。此外,由于對稱性,q (x^i|x) 也很容易計算,因為我們可以將 x^i 視為 x 的一個重采樣版本。

借助 Metropolis-Hastings 賦予的靈活性,可以為提議 LLM p_prop 選擇任何 LLM,并采用任何采樣策略 (例如,低溫采樣)。

使用自回歸 MCMC 進行冪采樣

直接為 LLM 實現(xiàn) Metropolis-Hastings 算法,將涉及用一個長度為 T 的采樣 token 序列進行初始化,然后通過 (9) 式在許多次迭代中生成新的長度為 T 的候選序列。

然而,由于需要對 LLM 進行重復的、全序列的推理調(diào)用,這個過程的計算成本非常高。

實際上,MCMC 算法在實踐中的主要缺點是可能存在指數(shù)級的混合時間 (mixing time) ,即糟糕的初始化或提議分布選擇可能導致需要指數(shù)級數(shù)量的樣本才能收斂到目標分布。如果樣本空間維度很高,這個問題會更加嚴重,而 token 序列空間 X^T 正好表現(xiàn)出這一特點,尤其是對于長序列/大 T 值的情況。

為了解決這個問題,這個哈佛團隊提出了一種利用自回歸采樣順序結構的算法。

他們定義了一系列中間分布,并從中逐步采樣,直到收斂到目標分布 p^α。具體來說,從一個中間分布中采樣的樣本會啟動下一個中間分布的 Metropolis-Hastings 過程,這有助于避免病態(tài)的初始化。

該算法的偽代碼如下所示:

實驗

該團隊也通過實驗驗證了該算法的有效性。

他們?yōu)榇耸褂昧艘惶讟藴实耐评砘鶞?,涵蓋數(shù)學、編程和 STEM (MATH500, HumanEval, GPQA),以及一個評估通用幫助能力的不可驗證基準 (AlpacaEval 2.0)。他們對所有方法和基線都進行單次評估;即,基于一個最終的響應字符串。

模型方面,為了展示新采樣算法的有效性,他們使用了 Qwen2.5Math-7B、Qwen2.5-7B 和 Phi-3.5-mini-instruct 這些基礎模型。對于對比 RL 基線,他們使用了論文《Spurious rewards: Rethinking training signals in RLVR》中的 GRPO 實現(xiàn),該實現(xiàn)用 MATH 訓練集對這些模型進行后訓練。

對于其冪采樣 (算法 1) 實現(xiàn),該團隊將最大 T 設置為 T_max = 3072 (遇到 EOS token 可能提前終止),塊大小 B = 3072/16 = 192。根據(jù)經(jīng)驗,他們發(fā)現(xiàn)對于推理任務,α = 4.0 結合一個選擇為基礎模型并將采樣溫度設為 1/α 的提議 LLM p_prop 表現(xiàn)最佳。對于 AlpacaEval 2.0,他們發(fā)現(xiàn)使用更高溫度 (τ = 0.5) 的提議分布能提升性能。

主要結果

主要結果見表 1??梢钥吹剑瑢τ诓煌易宓幕A模型,新提出的采樣算法在各種推理和評估任務上,相對于不同基線都實現(xiàn)了近乎普遍的顯著的單次準確度和分數(shù)提升,例如,讓 Phi-3.5-mini 在 HumanEval 提升了 51.9%,讓 Qwen2.5-Math 在 MATH500 上提升了 25.2%。

特別要指出,在 MATH500 這個 RL 后訓練的領域內(nèi)任務上,冪采樣實現(xiàn)的準確度與 GRPO 獲得的準確度相當。

此外,在領域外推理任務上,新算法在 GPQA 上再次與 GRPO 持平,而在 HumanEval 上甚至超越了 GRPO,最高提升達 59.8%。

同樣,冪采樣在不可驗證的 AlpacaEval 2.0 上也穩(wěn)定地優(yōu)于基線,這表明新算法帶來的性能提升可以推廣到可驗證性之外的領域。

這個從根本上簡單且無需訓練的采樣算法所取得的驚人成功,凸顯了現(xiàn)有基礎模型潛藏的推理能力。

優(yōu)勢總結

該團隊也對新提出的算法進行了更加細致的分析,總結起來其優(yōu)勢如下:

  • 實現(xiàn)了「兩全其美」的性能:冪采樣能像 GRPO 一樣,生成高似然度、長篇幅的優(yōu)質(zhì)推理答案。但與 GRPO 不同的是,它成功避免了「多樣性崩潰」。在多次嘗試 (pass@k, k>1) 的場景下,其性能遠超因答案單一而性能迅速飽和的 GRPO。這解決了強化學習方法以犧牲多樣性換取單次性能的長期痛點。
  • 推理時可靈活擴展且參數(shù)穩(wěn)健:該方法提供了一個有效的「測試時計算換性能」的途徑??梢酝ㄟ^增加 MCMC 的迭代步數(shù)來換取更高的準確率,即使只增加幾步,性能提升也十分顯著。算法對關鍵超參數(shù) α (冪指數(shù)) 的選擇不敏感 (相對穩(wěn)健),這使得它在實際應用中更容易部署和調(diào)優(yōu)。
  • 計算成本具有可行性:雖然增加了推理時的計算量,但其總成本大致只相當于進行一輪 GRPO 訓練,這意味著它是一種無需重新訓練模型、成本可控的性能提升方案。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-27 15:44:35

蘋果AI模型

2025-05-26 09:16:00

2025-06-23 09:07:00

2025-05-30 04:00:00

IBMRLVRGRPO

2022-09-04 14:38:00

世界模型建模IRIS

2025-02-17 10:40:20

2025-06-09 09:32:35

2025-06-30 09:08:00

2021-04-29 14:53:14

谷歌強化學習開發(fā)

2025-10-08 10:44:16

2025-03-11 01:00:00

GRPO算法模型

2025-04-21 09:10:00

2022-12-01 08:00:00

2025-10-27 08:54:00

2025-03-24 09:50:00

大模型自動駕駛AI

2025-05-28 02:25:00

2022-11-02 14:02:02

強化學習訓練

2025-02-18 15:02:13

點贊
收藏

51CTO技術棧公眾號