無需數(shù)據(jù)標(biāo)注！測試時(shí)強(qiáng)化學(xué)習(xí)，模型數(shù)學(xué)能力暴增 | 清華&上海AI Lab

2025-04-25 09:20:00

人工智能新聞

清華和上海AI Lab周伯文團(tuán)隊(duì)用這樣的方法，對(duì)模型進(jìn)行了強(qiáng)化。

無需數(shù)據(jù)標(biāo)注，在測試時(shí)做強(qiáng)化學(xué)習(xí)，模型數(shù)學(xué)能力暴增159%！

清華和上海AI Lab周伯文團(tuán)隊(duì)用這樣的方法，對(duì)模型進(jìn)行了強(qiáng)化——

結(jié)果模型在多個(gè)數(shù)據(jù)集上的成績均大幅提升，尤其是Qwen-2.5-Math-7B，它做AIME 2024競賽題的成績直接提高了159%。

實(shí)驗(yàn)過程中，強(qiáng)化學(xué)習(xí)的數(shù)據(jù)均由被訓(xùn)練的模型自身生成。

作者還發(fā)現(xiàn)，訓(xùn)練后的模型性能，準(zhǔn)確性已經(jīng)超過了用于訓(xùn)練它的偽標(biāo)簽（測試時(shí)強(qiáng)化學(xué)習(xí)過程中產(chǎn)生）。

DeepMind工程師評(píng)價(jià)，這種測試時(shí)強(qiáng)化學(xué)習(xí)的方式將改變LLM的格局：

它利用預(yù)訓(xùn)練模型和特定任務(wù)的提示進(jìn)行實(shí)時(shí)自適應(yīng)，而無需大量帶標(biāo)簽的數(shù)據(jù)集，這是向前邁出的重要一步。

模型自己生成強(qiáng)化學(xué)習(xí)數(shù)據(jù)

作者提出的測試時(shí)強(qiáng)化學(xué)習(xí)（TTRL）過程是測試時(shí)擴(kuò)展和測試時(shí)訓(xùn)練的結(jié)合，具體可以分為“生成、投票、強(qiáng)化”三個(gè)大步驟。

第一步生成的目的，是讓模型針對(duì)每個(gè)輸入的prompt，生成盡可能多樣化的候選答案，該過程通過測試時(shí)推理來實(shí)現(xiàn)。

其思路是在推理階段增加計(jì)算資源以獲得更好的性能，具體到TTRL采用的是增加采樣數(shù)量的方式，即對(duì)每個(gè)prompt，讓模型采樣生成N個(gè)不同的答案，而不是只生成一個(gè)確定性最高的輸出。

作者的實(shí)驗(yàn)中，當(dāng)在AIME 2024數(shù)據(jù)集上應(yīng)用TTRL訓(xùn)練Qwen2.5-Math-7B模型時(shí)，每個(gè)prompt采樣64次(N=64)，溫度系數(shù)設(shè)為1.0，以鼓勵(lì)模型生成多樣化的答案。

投票過程從上一步生成的N個(gè)候選答案出發(fā)，通過多數(shù)投票的方式來估計(jì)正確答案，并將其作為偽標(biāo)簽。

TTRL在實(shí)際應(yīng)用投票機(jī)制時(shí)還引入了一個(gè)參數(shù) Maj@N，表示多數(shù)投票的估計(jì)準(zhǔn)確率。

它衡量的是偽標(biāo)簽與真實(shí)標(biāo)簽的一致性。通過控制Maj@N，可以權(quán)衡偽標(biāo)簽的質(zhì)量和數(shù)量。

最后一步利用強(qiáng)化學(xué)習(xí)，基于上一步估計(jì)出的偽標(biāo)簽，來優(yōu)化語言模型的策略，使其傾向于給出正確答案。

TTRL采用GRPO算法，還加入了重要性采樣和蒙特卡洛估計(jì)等技術(shù)，以提高訓(xùn)練效率和穩(wěn)定性。

模型數(shù)學(xué)能力大幅提升

為了評(píng)估TTRL的效果，作者在AIME 2024、AMC和MATH-500三個(gè)數(shù)據(jù)集上對(duì)調(diào)整前后的三款模型進(jìn)行了測試。

在AIME 2024數(shù)據(jù)集上，對(duì)于Qwen2.5-Math-7B基礎(chǔ)模型，TTRL將其準(zhǔn)確率從16.7%提高到43.3%，提升幅度高達(dá)159.3%，超越了所有在大規(guī)模標(biāo)注數(shù)據(jù)上訓(xùn)練的模型。
在AMC數(shù)據(jù)集上，Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的準(zhǔn)確率分別獲得了74.9%、63.1%和68.4%的大幅提高。
MATH-500數(shù)據(jù)集上的表現(xiàn)更為突出，Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分別實(shí)現(xiàn)了66.4%和142.4%的驚人提升，LLaMA模型的準(zhǔn)確率也提高了29.3%。

平均而言，TTRL使Qwen2.5-Math-7B模型在三個(gè)數(shù)據(jù)集上的性能提高了84.1%。

進(jìn)一步的泛化性實(shí)驗(yàn)表明，在一個(gè)數(shù)據(jù)集上應(yīng)用TTRL后，性能的提高可以自然遷移到其他數(shù)據(jù)集，甚至是從未參與訓(xùn)練的任務(wù)。

為了分析TTRL方法有效的原因，作者比較了TTRL訓(xùn)練前后模型的多數(shù)投票性能。

結(jié)果，應(yīng)用TTRL后，模型的多數(shù)投票準(zhǔn)確率（Maj@64）顯著高于原始的Qwen模型，說明通過多數(shù)投票得到的偽標(biāo)簽質(zhì)量優(yōu)于單個(gè)模型輸出。

并且強(qiáng)化學(xué)習(xí)具備糾錯(cuò)能力。即使偽標(biāo)簽并非完全準(zhǔn)確，強(qiáng)化學(xué)習(xí)也可以通過獎(jiǎng)懲機(jī)制引導(dǎo)模型朝著正確方向優(yōu)化。

從AIME 2024上標(biāo)簽準(zhǔn)確率和獎(jiǎng)勵(lì)準(zhǔn)確率的變化曲線中可以看到，即使在標(biāo)簽準(zhǔn)確率較低的階段，獎(jiǎng)勵(lì)準(zhǔn)確率也能維持在90%以上。

作者簡介

這項(xiàng)研究的領(lǐng)導(dǎo)者是清華大學(xué)C3I課題組博士生張開顏和上海AI實(shí)驗(yàn)室青年研究員崔淦渠。

張開顏的導(dǎo)師是上海人工智能實(shí)驗(yàn)室主任、首席科學(xué)家周伯文教授；崔淦渠則畢業(yè)于清華NLP實(shí)驗(yàn)室，讀博期間導(dǎo)師是劉知遠(yuǎn)副教授。

本文共同一作是張開顏和同樣來自清華的Yuxin Zuo，周伯文和C3I課題組博士后丁寧是本文的通訊作者。

論文地址：
https://arxiv.org/abs/2504.16084

責(zé)任編輯：張燕妮來源：量子位

數(shù)據(jù)模型 AI

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無需數(shù)據(jù)標(biāo)注！測試時(shí)強(qiáng)化學(xué)習(xí)，模型數(shù)學(xué)能力暴增 | 清華&上海AI Lab

模型自己生成強(qiáng)化學(xué)習(xí)數(shù)據(jù)

模型數(shù)學(xué)能力大幅提升

作者簡介

無需數(shù)據(jù)標(biāo)注！測試時(shí)強(qiáng)化學(xué)習(xí)，模型數(shù)學(xué)能力暴增 | 清華&上海AI Lab