偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

TTS和TTT已過時?TTRL橫空出世,推理模型擺脫「標(biāo)注數(shù)據(jù)」依賴,性能暴漲

人工智能 新聞
在最新的一篇論文中,清華大學(xué)和上海人工智能實驗室提出了一種新方法 —— 測試時強(qiáng)化學(xué)習(xí)(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標(biāo)注數(shù)據(jù)上對 LLM 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

在大語言模型(LLMs)競爭日趨白熱化的今天,「推理能力」已成為評判模型優(yōu)劣的關(guān)鍵指標(biāo)。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的驚艷表現(xiàn)背后,測試時縮放(TTS)技術(shù)功不可沒。

測試時縮放(TTS,Test-Time Scaling)是一種提升大語言模型推理能力的新興策略,通過在測試階段優(yōu)化推理過程(如多數(shù)投票、蒙特卡洛樹搜索等)提升大型語言模型(LLMs)的性能,而無需修改模型參數(shù)。

研究表明,TTS 在計算效率上優(yōu)于預(yù)訓(xùn)練階段擴(kuò)大模型規(guī)模,能以更低資源成本實現(xiàn)更好表現(xiàn)。然而,TTS 依賴預(yù)訓(xùn)練知識,在面對未標(biāo)注新數(shù)據(jù)或輸入分布變化時,泛化能力受限。如 OpenAI o3 在某基準(zhǔn)任務(wù)上達(dá)到 75.7% 的成功率,對更復(fù)雜的新任務(wù)卻僅能解決 4% 的問題。

為克服 TTS 的局限,測試時訓(xùn)練(TTT,Test-Time Training)一度受到廣泛關(guān)注。TTT 通過在測試階段利用 RL 等技術(shù)動態(tài)更新模型參數(shù),使模型適應(yīng)新數(shù)據(jù)或任務(wù),彌補(bǔ)了 TTS 在泛化能力上的不足。但 TTT 同樣面臨自身的挑戰(zhàn):測試階段缺乏獎勵函數(shù)或驗證信號,而人工標(biāo)注數(shù)據(jù)的高成本使得無監(jiān)督環(huán)境下的 RL 應(yīng)用受限。

在最新的一篇論文中,清華大學(xué)和上海人工智能實驗室提出了一種新方法 —— 測試時強(qiáng)化學(xué)習(xí)(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標(biāo)注數(shù)據(jù)上對 LLM 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

image.png

  • 論文標(biāo)題:TTRL: Test-Time Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2504.16084
  • GitHub:https://github.com/PRIME-RL/TTRL
  • HuggingFace:https://huggingface.co/papers/2504.16084

TTRL 通過利用預(yù)訓(xùn)練模型中的先驗知識,使 LLM 具備自我演化的能力。實驗證明,TTRL 在多種任務(wù)和模型上都能持續(xù)提升性能:在僅使用未標(biāo)注測試數(shù)據(jù)的情況下,TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024 任務(wù)中的 pass@1 指標(biāo)提升了約 159%。

image.png

值得注意的是,雖然 TTRL 僅依靠 Maj@N 指標(biāo)進(jìn)行監(jiān)督,但其表現(xiàn)不僅能持續(xù)超越初始模型的性能上限,更能接近于那些直接在有標(biāo)注測試數(shù)據(jù)上進(jìn)行監(jiān)督訓(xùn)練的模型性能。實驗結(jié)果驗證了 TTRL 在多種任務(wù)中的廣泛有效性,充分展示了該方法在更廣闊領(lǐng)域中的應(yīng)用潛力。

方法

image.png

圖 2 展示了研究者提出的 TTRL 方法如何應(yīng)對此類挑戰(zhàn)。給定狀態(tài)表示為輸入提示 x(prompt x),模型依據(jù)參數(shù)化策略 π_θ(y | x) 生成輸出 y。為了在無真實標(biāo)簽的條件下構(gòu)造獎勵信號,研究者通過重復(fù)采樣的方法,從模型中生成多個候選輸出 {y?, y?, ..., y_N}。接著,使用多數(shù)投票(majority voting)或其他聚合方法從這些候選中推導(dǎo)出共識輸出 y*,作為近似的最優(yōu)動作(optimal action)的替代。

環(huán)境反饋的獎勵 r (y, y*) 則根據(jù)當(dāng)前動作 y 與共識輸出 y* 之間的一致性進(jìn)行設(shè)定。模型的 RL 目標(biāo)是最大化期望獎勵:

圖片

通過梯度上升(gradient ascent)更新參數(shù) θ:

圖片

該方法能夠在推理階段實現(xiàn)模型的動態(tài)適應(yīng),無需標(biāo)注數(shù)據(jù)即可提升模型應(yīng)對分布變化輸入時的性能。

多數(shù)投票獎勵函數(shù)(Majority Voting Reward Function)

多數(shù)投票獎勵機(jī)制的核心在于:首先借助多數(shù)投票策略估算一個偽標(biāo)簽(pseudo-label),再基于該估計標(biāo)簽計算規(guī)則驅(qū)動的獎勵(rule-based rewards),并作為最終用于 RL 訓(xùn)練的獎勵信號。

在具體操作上,給定一個輸入問題 x,研究者對其輸入到大型語言模型中,并生成一組輸出結(jié)果。隨后,答案抽取器(answer extractor)對這些輸出進(jìn)行處理,提取對應(yīng)的預(yù)測答案,記為 P = {??}?_{i=1}。接著,研究者在集合 P 上應(yīng)用第 4 節(jié)定義的多數(shù)投票策略函數(shù) s (y, x),選出出現(xiàn)頻次最高的預(yù)測 y,作為估計標(biāo)簽。

隨后,該多數(shù)投票結(jié)果 y 被用作標(biāo)簽估計,用于計算基于規(guī)則的獎勵信號:

image.png

image.png

實驗

TTRL 在大多數(shù)任務(wù)和模型上都表現(xiàn)出色。盡管 TTRL 完全依賴于使用無標(biāo)注測試數(shù)據(jù)的自我進(jìn)化,但其性能卻可媲美基于大規(guī)模標(biāo)注數(shù)據(jù)集訓(xùn)練的現(xiàn)有 RL 模型。如表 1 所示,在 AIME 2024 上,TTRL 實現(xiàn)了 159.3% 的大幅提升,超過了所有在大規(guī)模數(shù)據(jù)集上訓(xùn)練的模型。此外,當(dāng)應(yīng)用于 Qwen2.5-Math-7B 時,TTRL 在三個基準(zhǔn)測試中平均提高了 84.1%。

截屏2025-04-24 09.15.54.png

TTRL 自然擴(kuò)展。另一個值得注意的現(xiàn)象是,隨著模型大小的增加(從 1.5B 到 7B),其在 AIME 2024 和 AMC 上的性能提升也在增加,這凸顯了 TTRL 的自然擴(kuò)展行為:更大的模型可以在自我改進(jìn)過程中產(chǎn)生更準(zhǔn)確的多數(shù)投票獎勵,從而更有效地學(xué)習(xí)新數(shù)據(jù)。不過,LLaMA-3.1-8B-Instruct 和 Qwen2.5-Math-1.5B 可能由于容量有限,未能通過 TTRL 在 AIME 2024 上取得有意義的進(jìn)展。相比之下,Qwen2.5-Math-7B 的模型容量更大,知識更充分,因此可以從自我改進(jìn)中獲益,從而取得明顯的性能提升(第 4.3 節(jié)會詳細(xì)討論這一點)。

TTRL 在目標(biāo)任務(wù)之外也有很好的通用性。研究者以 Qwen2.5-Math-7B 為骨干,在每個基準(zhǔn)上執(zhí)行了 TTRL,并在其他基準(zhǔn)上進(jìn)行了進(jìn)一步評估。圖 3 展示了結(jié)果。盡管這種設(shè)置具有分布外的性質(zhì),但 TTRL 在所有基準(zhǔn)上都取得了實質(zhì)性的改進(jìn)。這表明 TTRL 并沒有依賴過擬合(過擬合會導(dǎo)致在其他任務(wù)上的取舍),而是在自我改進(jìn)過程中獲得了可推廣的收益。

截屏2025-04-24 09.17.07.png

TTRL 與不同的 RL 算法兼容。圖 4 展示了結(jié)果。研究者在 MATH-500 上使用 PPO 應(yīng)用 TTRL,以評估其與不同強(qiáng)化學(xué)習(xí)算法的兼容性。PPO 和 GRPO 的性能軌跡非常接近。與 GRPO 相比,PPO 能產(chǎn)生更穩(wěn)定的結(jié)果,同時實現(xiàn)相似的整體性能。

討論

Q1:TTRL 的性能能有多好?

研究者使用了兩個上限來分析 TTRL 的潛在性能。第一個上限是 Maj@N,用于計算 TTRL 訓(xùn)練過程中的獎勵。第二個上限是在基準(zhǔn)數(shù)據(jù)集上的直接訓(xùn)練,它假定可以訪問 ground-truth 標(biāo)簽,因此會向策略模型泄露標(biāo)簽信息。

關(guān)鍵發(fā)現(xiàn)如下:

1. TTRL 不僅超越了其訓(xùn)練信號和初始模型的直觀上界 Maj@N,還接近了用標(biāo)注測試數(shù)據(jù)訓(xùn)練的直接 RL 的性能。這一進(jìn)步可能要歸功于 TTRL 使用 RL 進(jìn)行測試時間訓(xùn)練:通過將基于投票的偽標(biāo)簽轉(zhuǎn)換為獎勵,它提高了有效監(jiān)督的質(zhì)量,同時使學(xué)習(xí)擺脫了 Maj@N 的限制。

2. TTRL 的經(jīng)驗上限是在測試數(shù)據(jù)上進(jìn)行訓(xùn)練(即在測試數(shù)據(jù)上進(jìn)行訓(xùn)練),這凸顯了它與標(biāo)準(zhǔn)訓(xùn)練評估協(xié)議相比在功效上的潛在優(yōu)勢。

3. 對于具有挑戰(zhàn)性的任務(wù),TTRL 只需使用 1.5B 模型即可達(dá)到經(jīng)驗上限。這表明,現(xiàn)在 LLM 可以通過 TTRL 有效地自我進(jìn)化,從而在大規(guī)模數(shù)據(jù)集上實現(xiàn)無限制的終身學(xué)習(xí)。

TTRL 受 Maj@N 監(jiān)督,卻超越了 Maj@N。圖 6 展示了 TTRL 在 Qwen2.5-Math-7B 上的測試結(jié)果??梢钥闯?,在所有基準(zhǔn)測試中,TTRL Avg@64 均優(yōu)于 Qwen2.5-Math-7B Maj@64,大大超出預(yù)期。此外,在應(yīng)用多數(shù)表決時,TTRL 的性能也有大幅提升。

截屏2025-04-24 10.08.25.png

TTRL 的「性能增益法」基準(zhǔn)訓(xùn)練,圖 7 展示了結(jié)果。令人驚訝的是,TTRL 的性能曲線非常接近 RL(泄漏)的性能曲線。

截屏2025-04-24 10.05.10.png

Q2:TTRL 為何有效?

這一節(jié)主要分析了 TTRL 在無監(jiān)督條件下實現(xiàn)穩(wěn)定有效的 RL 的因素,包括兩個關(guān)鍵方面:標(biāo)簽估計和獎勵計算。

標(biāo)簽估計。TTRL 與標(biāo)準(zhǔn) RL 算法的一個直接區(qū)別是,TTRL 涉及標(biāo)簽估計,而標(biāo)簽估計會帶來獎勵誤差。研究者認(rèn)為,盡管存在這些誤差,TTRL 仍能正常工作,原因有以下兩點:

(i) 現(xiàn)有研究表明,RL 可以容忍一定程度的獎勵不準(zhǔn)確性。此外,與通常依賴于記憶訓(xùn)練數(shù)據(jù)的監(jiān)督微調(diào)(SFT)相比,RL 的泛化效果往往更好。在 RL 中,獎勵通常是模糊的,主要是作為探索的方向信號,這導(dǎo)致了 RL 對獎勵噪聲的魯棒性。

(ii) 之前的研究還從優(yōu)化的角度研究了什么是好的獎勵模型,發(fā)現(xiàn)更準(zhǔn)確的獎勵模型不一定是更好的教師。因此,由政策模型本身估計的獎勵信號可能會為學(xué)習(xí)提供更合適的指導(dǎo)。

獎勵計算。當(dāng)模型能夠通過多數(shù)投票估算出準(zhǔn)確的標(biāo)簽時,隨后估算出的獎勵一般都是可靠的。然而,一個自然而然的問題出現(xiàn)了:為什么在 AIME 2024 等具有挑戰(zhàn)性的基準(zhǔn)上,即使模型無法估算出準(zhǔn)確的標(biāo)簽,TTRL 仍然有效?

研究者表示,最根本的原因在于 RL 中獎勵的定義?;谝?guī)則的獎勵是根據(jù)預(yù)測答案是否與「標(biāo)簽」匹配來分配的。因此,即使估計的標(biāo)簽不是 ground-truth,只要它與錯誤預(yù)測的答案不同,系統(tǒng)仍可分配正確的「負(fù)」獎勵。

為了提供更詳細(xì)的案例研究,研究者在 Qwen2.5-Math-7B 上檢驗了 TTRL 在 AIME 2024 上的性能。圖 8 顯示了三個指標(biāo)的變化曲線。

截屏2025-04-24 10.18.20.png

研究者發(fā)現(xiàn)了 TTRL 在 AIME 2024 上依然有效的兩個主要原因:

  • 首先,獎勵比標(biāo)簽更密集,即使估計的標(biāo)簽不準(zhǔn)確,也有更多機(jī)會恢復(fù)有用的學(xué)習(xí)信號。
  • 其次,當(dāng)模型能力較弱時,TTRL 給出的獎勵可能更準(zhǔn)確。

Q3:TTRL 何時失效?

在算法層面,TTRL 與現(xiàn)有的 RL 算法并無本質(zhì)區(qū)別,因此繼承了它們的一些特點,如對數(shù)據(jù)難度的敏感性、對先驗的強(qiáng)烈依賴性以及在某些條件下崩潰的風(fēng)險。

在實現(xiàn)層面上,這些問題因 TTRL 的限制而進(jìn)一步擴(kuò)大,TTRL 通過多數(shù)投票來估計標(biāo)簽,并且只在稀疏和以前未見過的測試數(shù)據(jù)上運行,在某些情況下可能會導(dǎo)致失敗。

在初步實驗中,研究者發(fā)現(xiàn)了兩個潛在問題:

缺乏對目標(biāo)任務(wù)的先驗知識。如表 2 所示,研究者發(fā)現(xiàn),隨著問題難度的增加,性能提高率和長度縮減率都呈下降趨勢。這表明主干系統(tǒng)的可用先驗知識不足以支持對更具挑戰(zhàn)性問題的學(xué)習(xí)。

截屏2025-04-24 11.00.39.png

不恰當(dāng)?shù)?RL 超參數(shù)。圖 10 比較了在 AIME 2024 上的幾次失敗嘗試。

截屏2025-04-24 11.03.29.png

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2010-03-25 10:04:10

UbuntuOne M

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2016-10-08 23:30:58

Power8云計算

2010-12-09 09:09:37

2013-11-01 09:07:15

2022-05-12 15:25:16

惡意軟件網(wǎng)絡(luò)攻擊

2025-07-09 08:51:04

2025-07-15 02:00:00

UIUCEBT架構(gòu)

2009-05-07 18:50:35

四核Nehalem服務(wù)器

2016-04-27 11:01:11

SparkStormApache Apex

2023-02-21 21:48:29

2014-01-17 14:08:45

移動os國產(chǎn)軟件

2023-04-19 07:34:21

AutoGPT程序員GitHub

2025-07-25 07:59:42

2011-05-04 15:09:56

激光打印機(jī)奔圖科技

2020-10-12 14:47:25

芯片半導(dǎo)體技術(shù)

2014-11-13 16:37:50

2015-06-19 09:21:52

JointForce解放號
點贊
收藏

51CTO技術(shù)棧公眾號