偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

TTS和TTT已過時?TTRL橫空出世,推理模型擺脫「標注數(shù)據(jù)」依賴,性能暴漲

人工智能 新聞
在最新的一篇論文中,清華大學和上海人工智能實驗室提出了一種新方法 —— 測試時強化學習(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標注數(shù)據(jù)上對 LLM 進行強化學習訓練。

在大語言模型(LLMs)競爭日趨白熱化的今天,「推理能力」已成為評判模型優(yōu)劣的關(guān)鍵指標。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的驚艷表現(xiàn)背后,測試時縮放(TTS)技術(shù)功不可沒。

測試時縮放(TTS,Test-Time Scaling)是一種提升大語言模型推理能力的新興策略,通過在測試階段優(yōu)化推理過程(如多數(shù)投票、蒙特卡洛樹搜索等)提升大型語言模型(LLMs)的性能,而無需修改模型參數(shù)。

研究表明,TTS 在計算效率上優(yōu)于預訓練階段擴大模型規(guī)模,能以更低資源成本實現(xiàn)更好表現(xiàn)。然而,TTS 依賴預訓練知識,在面對未標注新數(shù)據(jù)或輸入分布變化時,泛化能力受限。如 OpenAI o3 在某基準任務上達到 75.7% 的成功率,對更復雜的新任務卻僅能解決 4% 的問題。

為克服 TTS 的局限,測試時訓練(TTT,Test-Time Training)一度受到廣泛關(guān)注。TTT 通過在測試階段利用 RL 等技術(shù)動態(tài)更新模型參數(shù),使模型適應新數(shù)據(jù)或任務,彌補了 TTS 在泛化能力上的不足。但 TTT 同樣面臨自身的挑戰(zhàn):測試階段缺乏獎勵函數(shù)或驗證信號,而人工標注數(shù)據(jù)的高成本使得無監(jiān)督環(huán)境下的 RL 應用受限。

在最新的一篇論文中,清華大學和上海人工智能實驗室提出了一種新方法 —— 測試時強化學習(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標注數(shù)據(jù)上對 LLM 進行強化學習訓練。

image.png

  • 論文標題:TTRL: Test-Time Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2504.16084
  • GitHub:https://github.com/PRIME-RL/TTRL
  • HuggingFace:https://huggingface.co/papers/2504.16084

TTRL 通過利用預訓練模型中的先驗知識,使 LLM 具備自我演化的能力。實驗證明,TTRL 在多種任務和模型上都能持續(xù)提升性能:在僅使用未標注測試數(shù)據(jù)的情況下,TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024 任務中的 pass@1 指標提升了約 159%。

image.png

值得注意的是,雖然 TTRL 僅依靠 Maj@N 指標進行監(jiān)督,但其表現(xiàn)不僅能持續(xù)超越初始模型的性能上限,更能接近于那些直接在有標注測試數(shù)據(jù)上進行監(jiān)督訓練的模型性能。實驗結(jié)果驗證了 TTRL 在多種任務中的廣泛有效性,充分展示了該方法在更廣闊領(lǐng)域中的應用潛力。

方法

image.png

圖 2 展示了研究者提出的 TTRL 方法如何應對此類挑戰(zhàn)。給定狀態(tài)表示為輸入提示 x(prompt x),模型依據(jù)參數(shù)化策略 π_θ(y | x) 生成輸出 y。為了在無真實標簽的條件下構(gòu)造獎勵信號,研究者通過重復采樣的方法,從模型中生成多個候選輸出 {y?, y?, ..., y_N}。接著,使用多數(shù)投票(majority voting)或其他聚合方法從這些候選中推導出共識輸出 y*,作為近似的最優(yōu)動作(optimal action)的替代。

環(huán)境反饋的獎勵 r (y, y*) 則根據(jù)當前動作 y 與共識輸出 y* 之間的一致性進行設(shè)定。模型的 RL 目標是最大化期望獎勵:

圖片

通過梯度上升(gradient ascent)更新參數(shù) θ:

圖片

該方法能夠在推理階段實現(xiàn)模型的動態(tài)適應,無需標注數(shù)據(jù)即可提升模型應對分布變化輸入時的性能。

多數(shù)投票獎勵函數(shù)(Majority Voting Reward Function)

多數(shù)投票獎勵機制的核心在于:首先借助多數(shù)投票策略估算一個偽標簽(pseudo-label),再基于該估計標簽計算規(guī)則驅(qū)動的獎勵(rule-based rewards),并作為最終用于 RL 訓練的獎勵信號。

在具體操作上,給定一個輸入問題 x,研究者對其輸入到大型語言模型中,并生成一組輸出結(jié)果。隨后,答案抽取器(answer extractor)對這些輸出進行處理,提取對應的預測答案,記為 P = {??}?_{i=1}。接著,研究者在集合 P 上應用第 4 節(jié)定義的多數(shù)投票策略函數(shù) s (y, x),選出出現(xiàn)頻次最高的預測 y,作為估計標簽。

隨后,該多數(shù)投票結(jié)果 y 被用作標簽估計,用于計算基于規(guī)則的獎勵信號:

image.png

image.png

實驗

TTRL 在大多數(shù)任務和模型上都表現(xiàn)出色。盡管 TTRL 完全依賴于使用無標注測試數(shù)據(jù)的自我進化,但其性能卻可媲美基于大規(guī)模標注數(shù)據(jù)集訓練的現(xiàn)有 RL 模型。如表 1 所示,在 AIME 2024 上,TTRL 實現(xiàn)了 159.3% 的大幅提升,超過了所有在大規(guī)模數(shù)據(jù)集上訓練的模型。此外,當應用于 Qwen2.5-Math-7B 時,TTRL 在三個基準測試中平均提高了 84.1%。

截屏2025-04-24 09.15.54.png

TTRL 自然擴展。另一個值得注意的現(xiàn)象是,隨著模型大小的增加(從 1.5B 到 7B),其在 AIME 2024 和 AMC 上的性能提升也在增加,這凸顯了 TTRL 的自然擴展行為:更大的模型可以在自我改進過程中產(chǎn)生更準確的多數(shù)投票獎勵,從而更有效地學習新數(shù)據(jù)。不過,LLaMA-3.1-8B-Instruct 和 Qwen2.5-Math-1.5B 可能由于容量有限,未能通過 TTRL 在 AIME 2024 上取得有意義的進展。相比之下,Qwen2.5-Math-7B 的模型容量更大,知識更充分,因此可以從自我改進中獲益,從而取得明顯的性能提升(第 4.3 節(jié)會詳細討論這一點)。

TTRL 在目標任務之外也有很好的通用性。研究者以 Qwen2.5-Math-7B 為骨干,在每個基準上執(zhí)行了 TTRL,并在其他基準上進行了進一步評估。圖 3 展示了結(jié)果。盡管這種設(shè)置具有分布外的性質(zhì),但 TTRL 在所有基準上都取得了實質(zhì)性的改進。這表明 TTRL 并沒有依賴過擬合(過擬合會導致在其他任務上的取舍),而是在自我改進過程中獲得了可推廣的收益。

截屏2025-04-24 09.17.07.png

TTRL 與不同的 RL 算法兼容。圖 4 展示了結(jié)果。研究者在 MATH-500 上使用 PPO 應用 TTRL,以評估其與不同強化學習算法的兼容性。PPO 和 GRPO 的性能軌跡非常接近。與 GRPO 相比,PPO 能產(chǎn)生更穩(wěn)定的結(jié)果,同時實現(xiàn)相似的整體性能。

討論

Q1:TTRL 的性能能有多好?

研究者使用了兩個上限來分析 TTRL 的潛在性能。第一個上限是 Maj@N,用于計算 TTRL 訓練過程中的獎勵。第二個上限是在基準數(shù)據(jù)集上的直接訓練,它假定可以訪問 ground-truth 標簽,因此會向策略模型泄露標簽信息。

關(guān)鍵發(fā)現(xiàn)如下:

1. TTRL 不僅超越了其訓練信號和初始模型的直觀上界 Maj@N,還接近了用標注測試數(shù)據(jù)訓練的直接 RL 的性能。這一進步可能要歸功于 TTRL 使用 RL 進行測試時間訓練:通過將基于投票的偽標簽轉(zhuǎn)換為獎勵,它提高了有效監(jiān)督的質(zhì)量,同時使學習擺脫了 Maj@N 的限制。

2. TTRL 的經(jīng)驗上限是在測試數(shù)據(jù)上進行訓練(即在測試數(shù)據(jù)上進行訓練),這凸顯了它與標準訓練評估協(xié)議相比在功效上的潛在優(yōu)勢。

3. 對于具有挑戰(zhàn)性的任務,TTRL 只需使用 1.5B 模型即可達到經(jīng)驗上限。這表明,現(xiàn)在 LLM 可以通過 TTRL 有效地自我進化,從而在大規(guī)模數(shù)據(jù)集上實現(xiàn)無限制的終身學習。

TTRL 受 Maj@N 監(jiān)督,卻超越了 Maj@N。圖 6 展示了 TTRL 在 Qwen2.5-Math-7B 上的測試結(jié)果??梢钥闯?,在所有基準測試中,TTRL Avg@64 均優(yōu)于 Qwen2.5-Math-7B Maj@64,大大超出預期。此外,在應用多數(shù)表決時,TTRL 的性能也有大幅提升。

截屏2025-04-24 10.08.25.png

TTRL 的「性能增益法」基準訓練,圖 7 展示了結(jié)果。令人驚訝的是,TTRL 的性能曲線非常接近 RL(泄漏)的性能曲線。

截屏2025-04-24 10.05.10.png

Q2:TTRL 為何有效?

這一節(jié)主要分析了 TTRL 在無監(jiān)督條件下實現(xiàn)穩(wěn)定有效的 RL 的因素,包括兩個關(guān)鍵方面:標簽估計和獎勵計算。

標簽估計。TTRL 與標準 RL 算法的一個直接區(qū)別是,TTRL 涉及標簽估計,而標簽估計會帶來獎勵誤差。研究者認為,盡管存在這些誤差,TTRL 仍能正常工作,原因有以下兩點:

(i) 現(xiàn)有研究表明,RL 可以容忍一定程度的獎勵不準確性。此外,與通常依賴于記憶訓練數(shù)據(jù)的監(jiān)督微調(diào)(SFT)相比,RL 的泛化效果往往更好。在 RL 中,獎勵通常是模糊的,主要是作為探索的方向信號,這導致了 RL 對獎勵噪聲的魯棒性。

(ii) 之前的研究還從優(yōu)化的角度研究了什么是好的獎勵模型,發(fā)現(xiàn)更準確的獎勵模型不一定是更好的教師。因此,由政策模型本身估計的獎勵信號可能會為學習提供更合適的指導。

獎勵計算。當模型能夠通過多數(shù)投票估算出準確的標簽時,隨后估算出的獎勵一般都是可靠的。然而,一個自然而然的問題出現(xiàn)了:為什么在 AIME 2024 等具有挑戰(zhàn)性的基準上,即使模型無法估算出準確的標簽,TTRL 仍然有效?

研究者表示,最根本的原因在于 RL 中獎勵的定義?;谝?guī)則的獎勵是根據(jù)預測答案是否與「標簽」匹配來分配的。因此,即使估計的標簽不是 ground-truth,只要它與錯誤預測的答案不同,系統(tǒng)仍可分配正確的「負」獎勵。

為了提供更詳細的案例研究,研究者在 Qwen2.5-Math-7B 上檢驗了 TTRL 在 AIME 2024 上的性能。圖 8 顯示了三個指標的變化曲線。

截屏2025-04-24 10.18.20.png

研究者發(fā)現(xiàn)了 TTRL 在 AIME 2024 上依然有效的兩個主要原因:

  • 首先,獎勵比標簽更密集,即使估計的標簽不準確,也有更多機會恢復有用的學習信號。
  • 其次,當模型能力較弱時,TTRL 給出的獎勵可能更準確。

Q3:TTRL 何時失效?

在算法層面,TTRL 與現(xiàn)有的 RL 算法并無本質(zhì)區(qū)別,因此繼承了它們的一些特點,如對數(shù)據(jù)難度的敏感性、對先驗的強烈依賴性以及在某些條件下崩潰的風險。

在實現(xiàn)層面上,這些問題因 TTRL 的限制而進一步擴大,TTRL 通過多數(shù)投票來估計標簽,并且只在稀疏和以前未見過的測試數(shù)據(jù)上運行,在某些情況下可能會導致失敗。

在初步實驗中,研究者發(fā)現(xiàn)了兩個潛在問題:

缺乏對目標任務的先驗知識。如表 2 所示,研究者發(fā)現(xiàn),隨著問題難度的增加,性能提高率和長度縮減率都呈下降趨勢。這表明主干系統(tǒng)的可用先驗知識不足以支持對更具挑戰(zhàn)性問題的學習。

截屏2025-04-24 11.00.39.png

不恰當?shù)?RL 超參數(shù)。圖 10 比較了在 AIME 2024 上的幾次失敗嘗試。

截屏2025-04-24 11.03.29.png

更多研究細節(jié),可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2010-03-25 10:04:10

UbuntuOne M

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2013-11-01 09:07:15

2022-05-12 15:25:16

惡意軟件網(wǎng)絡攻擊

2016-10-08 23:30:58

Power8云計算

2010-12-09 09:09:37

2016-04-27 11:01:11

SparkStormApache Apex

2009-05-07 18:50:35

四核Nehalem服務器

2011-05-04 15:09:56

激光打印機奔圖科技

2023-04-19 07:34:21

AutoGPT程序員GitHub

2014-01-17 14:08:45

移動os國產(chǎn)軟件

2023-02-21 21:48:29

2014-11-13 16:37:50

2015-06-19 09:21:52

JointForce解放號

2020-10-28 11:54:05

AI 數(shù)據(jù)人工智能

2025-05-22 08:10:37

2020-10-12 14:47:25

芯片半導體技術(shù)

2014-01-17 17:27:05

QNAPvNAS虛擬機
點贊
收藏

51CTO技術(shù)棧公眾號