偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<thead id="g7fys"></thead>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

TTS和TTT已過時？TTRL橫空出世，推理模型擺脫「標注數(shù)據(jù)」依賴，性能暴漲

作者：機器之心 2025-04-25 09:12:00

人工智能新聞

在最新的一篇論文中，清華大學和上海人工智能實驗室提出了一種新方法 —— 測試時強化學習（Test-Time Reinforcement Learning，TTRL），該方法能夠在無標注數(shù)據(jù)上對 LLM 進行強化學習訓練。

在大語言模型（LLMs）競爭日趨白熱化的今天，「推理能力」已成為評判模型優(yōu)劣的關(guān)鍵指標。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的驚艷表現(xiàn)背后，測試時縮放（TTS）技術(shù)功不可沒。

測試時縮放（TTS，Test-Time Scaling）是一種提升大語言模型推理能力的新興策略，通過在測試階段優(yōu)化推理過程（如多數(shù)投票、蒙特卡洛樹搜索等）提升大型語言模型（LLMs）的性能，而無需修改模型參數(shù)。

研究表明，TTS 在計算效率上優(yōu)于預訓練階段擴大模型規(guī)模，能以更低資源成本實現(xiàn)更好表現(xiàn)。然而，TTS 依賴預訓練知識，在面對未標注新數(shù)據(jù)或輸入分布變化時，泛化能力受限。如 OpenAI o3 在某基準任務上達到 75.7% 的成功率，對更復雜的新任務卻僅能解決 4% 的問題。

為克服 TTS 的局限，測試時訓練（TTT，Test-Time Training）一度受到廣泛關(guān)注。TTT 通過在測試階段利用 RL 等技術(shù)動態(tài)更新模型參數(shù)，使模型適應新數(shù)據(jù)或任務，彌補了 TTS 在泛化能力上的不足。但 TTT 同樣面臨自身的挑戰(zhàn)：測試階段缺乏獎勵函數(shù)或驗證信號，而人工標注數(shù)據(jù)的高成本使得無監(jiān)督環(huán)境下的 RL 應用受限。

在最新的一篇論文中，清華大學和上海人工智能實驗室提出了一種新方法 —— 測試時強化學習（Test-Time Reinforcement Learning，TTRL），該方法能夠在無標注數(shù)據(jù)上對 LLM 進行強化學習訓練。

論文標題：TTRL: Test-Time Reinforcement Learning
論文地址：https://arxiv.org/abs/2504.16084
GitHub：https://github.com/PRIME-RL/TTRL
HuggingFace：https://huggingface.co/papers/2504.16084

TTRL 通過利用預訓練模型中的先驗知識，使 LLM 具備自我演化的能力。實驗證明，TTRL 在多種任務和模型上都能持續(xù)提升性能：在僅使用未標注測試數(shù)據(jù)的情況下，TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024 任務中的 pass@1 指標提升了約 159%。

值得注意的是，雖然 TTRL 僅依靠 Maj@N 指標進行監(jiān)督，但其表現(xiàn)不僅能持續(xù)超越初始模型的性能上限，更能接近于那些直接在有標注測試數(shù)據(jù)上進行監(jiān)督訓練的模型性能。實驗結(jié)果驗證了 TTRL 在多種任務中的廣泛有效性，充分展示了該方法在更廣闊領(lǐng)域中的應用潛力。

方法

圖 2 展示了研究者提出的 TTRL 方法如何應對此類挑戰(zhàn)。給定狀態(tài)表示為輸入提示 x（prompt x），模型依據(jù)參數(shù)化策略 π_θ(y | x) 生成輸出 y。為了在無真實標簽的條件下構(gòu)造獎勵信號，研究者通過重復采樣的方法，從模型中生成多個候選輸出 {y?, y?, ..., y_N}。接著，使用多數(shù)投票（majority voting）或其他聚合方法從這些候選中推導出共識輸出 y*，作為近似的最優(yōu)動作（optimal action）的替代。

環(huán)境反饋的獎勵 r (y, y*) 則根據(jù)當前動作 y 與共識輸出 y* 之間的一致性進行設(shè)定。模型的 RL 目標是最大化期望獎勵：

通過梯度上升（gradient ascent）更新參數(shù) θ：

該方法能夠在推理階段實現(xiàn)模型的動態(tài)適應，無需標注數(shù)據(jù)即可提升模型應對分布變化輸入時的性能。

多數(shù)投票獎勵函數(shù)（Majority Voting Reward Function）

多數(shù)投票獎勵機制的核心在于：首先借助多數(shù)投票策略估算一個偽標簽（pseudo-label），再基于該估計標簽計算規(guī)則驅(qū)動的獎勵（rule-based rewards），并作為最終用于 RL 訓練的獎勵信號。

在具體操作上，給定一個輸入問題 x，研究者對其輸入到大型語言模型中，并生成一組輸出結(jié)果。隨后，答案抽取器（answer extractor）對這些輸出進行處理，提取對應的預測答案，記為 P = {??}?_{i=1}。接著，研究者在集合 P 上應用第 4 節(jié)定義的多數(shù)投票策略函數(shù) s (y, x)，選出出現(xiàn)頻次最高的預測 y，作為估計標簽。

隨后，該多數(shù)投票結(jié)果 y 被用作標簽估計，用于計算基于規(guī)則的獎勵信號：

實驗

TTRL 在大多數(shù)任務和模型上都表現(xiàn)出色。盡管 TTRL 完全依賴于使用無標注測試數(shù)據(jù)的自我進化，但其性能卻可媲美基于大規(guī)模標注數(shù)據(jù)集訓練的現(xiàn)有 RL 模型。如表 1 所示，在 AIME 2024 上，TTRL 實現(xiàn)了 159.3% 的大幅提升，超過了所有在大規(guī)模數(shù)據(jù)集上訓練的模型。此外，當應用于 Qwen2.5-Math-7B 時，TTRL 在三個基準測試中平均提高了 84.1%。

截屏2025-04-24 09.15.54.png

TTRL 自然擴展。另一個值得注意的現(xiàn)象是，隨著模型大小的增加（從 1.5B 到 7B），其在 AIME 2024 和 AMC 上的性能提升也在增加，這凸顯了 TTRL 的自然擴展行為：更大的模型可以在自我改進過程中產(chǎn)生更準確的多數(shù)投票獎勵，從而更有效地學習新數(shù)據(jù)。不過，LLaMA-3.1-8B-Instruct 和 Qwen2.5-Math-1.5B 可能由于容量有限，未能通過 TTRL 在 AIME 2024 上取得有意義的進展。相比之下，Qwen2.5-Math-7B 的模型容量更大，知識更充分，因此可以從自我改進中獲益，從而取得明顯的性能提升（第 4.3 節(jié)會詳細討論這一點）。

TTRL 在目標任務之外也有很好的通用性。研究者以 Qwen2.5-Math-7B 為骨干，在每個基準上執(zhí)行了 TTRL，并在其他基準上進行了進一步評估。圖 3 展示了結(jié)果。盡管這種設(shè)置具有分布外的性質(zhì)，但 TTRL 在所有基準上都取得了實質(zhì)性的改進。這表明 TTRL 并沒有依賴過擬合（過擬合會導致在其他任務上的取舍），而是在自我改進過程中獲得了可推廣的收益。

截屏2025-04-24 09.17.07.png

TTRL 與不同的 RL 算法兼容。圖 4 展示了結(jié)果。研究者在 MATH-500 上使用 PPO 應用 TTRL，以評估其與不同強化學習算法的兼容性。PPO 和 GRPO 的性能軌跡非常接近。與 GRPO 相比，PPO 能產(chǎn)生更穩(wěn)定的結(jié)果，同時實現(xiàn)相似的整體性能。

討論

Q1：TTRL 的性能能有多好？

研究者使用了兩個上限來分析 TTRL 的潛在性能。第一個上限是 Maj@N，用于計算 TTRL 訓練過程中的獎勵。第二個上限是在基準數(shù)據(jù)集上的直接訓練，它假定可以訪問 ground-truth 標簽，因此會向策略模型泄露標簽信息。

關(guān)鍵發(fā)現(xiàn)如下：

1. TTRL 不僅超越了其訓練信號和初始模型的直觀上界 Maj@N，還接近了用標注測試數(shù)據(jù)訓練的直接 RL 的性能。這一進步可能要歸功于 TTRL 使用 RL 進行測試時間訓練：通過將基于投票的偽標簽轉(zhuǎn)換為獎勵，它提高了有效監(jiān)督的質(zhì)量，同時使學習擺脫了 Maj@N 的限制。

2. TTRL 的經(jīng)驗上限是在測試數(shù)據(jù)上進行訓練（即在測試數(shù)據(jù)上進行訓練），這凸顯了它與標準訓練評估協(xié)議相比在功效上的潛在優(yōu)勢。

3. 對于具有挑戰(zhàn)性的任務，TTRL 只需使用 1.5B 模型即可達到經(jīng)驗上限。這表明，現(xiàn)在 LLM 可以通過 TTRL 有效地自我進化，從而在大規(guī)模數(shù)據(jù)集上實現(xiàn)無限制的終身學習。

TTRL 受 Maj@N 監(jiān)督，卻超越了 Maj@N。圖 6 展示了 TTRL 在 Qwen2.5-Math-7B 上的測試結(jié)果?？梢钥闯?，在所有基準測試中，TTRL Avg@64 均優(yōu)于 Qwen2.5-Math-7B Maj@64，大大超出預期。此外，在應用多數(shù)表決時，TTRL 的性能也有大幅提升。

截屏2025-04-24 10.08.25.png

TTRL 的「性能增益法」基準訓練，圖 7 展示了結(jié)果。令人驚訝的是，TTRL 的性能曲線非常接近 RL（泄漏）的性能曲線。

截屏2025-04-24 10.05.10.png

Q2：TTRL 為何有效？

這一節(jié)主要分析了 TTRL 在無監(jiān)督條件下實現(xiàn)穩(wěn)定有效的 RL 的因素，包括兩個關(guān)鍵方面：標簽估計和獎勵計算。

標簽估計。TTRL 與標準 RL 算法的一個直接區(qū)別是，TTRL 涉及標簽估計，而標簽估計會帶來獎勵誤差。研究者認為，盡管存在這些誤差，TTRL 仍能正常工作，原因有以下兩點：

(i) 現(xiàn)有研究表明，RL 可以容忍一定程度的獎勵不準確性。此外，與通常依賴于記憶訓練數(shù)據(jù)的監(jiān)督微調(diào)（SFT）相比，RL 的泛化效果往往更好。在 RL 中，獎勵通常是模糊的，主要是作為探索的方向信號，這導致了 RL 對獎勵噪聲的魯棒性。

(ii) 之前的研究還從優(yōu)化的角度研究了什么是好的獎勵模型，發(fā)現(xiàn)更準確的獎勵模型不一定是更好的教師。因此，由政策模型本身估計的獎勵信號可能會為學習提供更合適的指導。

獎勵計算。當模型能夠通過多數(shù)投票估算出準確的標簽時，隨后估算出的獎勵一般都是可靠的。然而，一個自然而然的問題出現(xiàn)了：為什么在 AIME 2024 等具有挑戰(zhàn)性的基準上，即使模型無法估算出準確的標簽，TTRL 仍然有效？

研究者表示，最根本的原因在于 RL 中獎勵的定義?；谝?guī)則的獎勵是根據(jù)預測答案是否與「標簽」匹配來分配的。因此，即使估計的標簽不是 ground-truth，只要它與錯誤預測的答案不同，系統(tǒng)仍可分配正確的「負」獎勵。

為了提供更詳細的案例研究，研究者在 Qwen2.5-Math-7B 上檢驗了 TTRL 在 AIME 2024 上的性能。圖 8 顯示了三個指標的變化曲線。

截屏2025-04-24 10.18.20.png

研究者發(fā)現(xiàn)了 TTRL 在 AIME 2024 上依然有效的兩個主要原因：

首先，獎勵比標簽更密集，即使估計的標簽不準確，也有更多機會恢復有用的學習信號。
其次，當模型能力較弱時，TTRL 給出的獎勵可能更準確。

Q3：TTRL 何時失效？

在算法層面，TTRL 與現(xiàn)有的 RL 算法并無本質(zhì)區(qū)別，因此繼承了它們的一些特點，如對數(shù)據(jù)難度的敏感性、對先驗的強烈依賴性以及在某些條件下崩潰的風險。

在實現(xiàn)層面上，這些問題因 TTRL 的限制而進一步擴大，TTRL 通過多數(shù)投票來估計標簽，并且只在稀疏和以前未見過的測試數(shù)據(jù)上運行，在某些情況下可能會導致失敗。

在初步實驗中，研究者發(fā)現(xiàn)了兩個潛在問題：

缺乏對目標任務的先驗知識。如表 2 所示，研究者發(fā)現(xiàn)，隨著問題難度的增加，性能提高率和長度縮減率都呈下降趨勢。這表明主干系統(tǒng)的可用先驗知識不足以支持對更具挑戰(zhàn)性問題的學習。

截屏2025-04-24 11.00.39.png

不恰當?shù)?RL 超參數(shù)。圖 10 比較了在 AIME 2024 上的幾次失敗嘗試。

截屏2025-04-24 11.03.29.png

更多研究細節(jié)，可參考原論文。

責任編輯：張燕妮來源：機器之心

強化學習模型訓練

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="psqio"></sub>

<ruby id="psqio"></ruby><nobr id="psqio"><rp id="psqio"></rp></nobr>

<ruby id="psqio"><tbody id="psqio"></tbody></ruby>

<u id="psqio"><var id="psqio"></var></u>