偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團(tuán)隊(duì)破解黑盒

人工智能 新聞
來自清華、CMU和IN.AI的研究團(tuán)隊(duì),近期專門探究了長CoT在大模型中的工作機(jī)制和優(yōu)化策略。

DeepSeek-R1慢思考、長推理的表現(xiàn),展現(xiàn)了訓(xùn)練步驟增加,會導(dǎo)致長CoT的涌現(xiàn)。

它通過模擬人類思維逐步推導(dǎo)答案,提升了AI大模型的推理能力和可解釋性。

但長CoT的觸發(fā)條件是什么?怎么做能優(yōu)化它?像個(gè)黑盒,還沒研究明白。

來自清華、CMU和IN.AI的研究團(tuán)隊(duì),近期專門探究了長CoT在大模型中的工作機(jī)制和優(yōu)化策略。

先把該研究得出的4點(diǎn)發(fā)現(xiàn)給大家呈上來:

  • SFT并非必需,但能簡化訓(xùn)練并提高效率;
  • 推理能力隨著訓(xùn)練計(jì)算的增加而出現(xiàn),但并非總是如此;
  • 可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)對增長CoT至關(guān)重要;
  • 糾錯(cuò)等核心能力基礎(chǔ)模型天生自帶,但通過RL有效地激勵(lì)這些技能需要大量的計(jì)算。

這篇論文開始被網(wǎng)友瘋轉(zhuǎn),并被感慨道:這可太酷啦!

還有網(wǎng)友表示,不出所料,獎(jiǎng)勵(lì)函數(shù)果然很重要

從SFT和RL兩方面研究長CoT

研究團(tuán)隊(duì)明確表示:

我們的目標(biāo)是揭開大模型中長CoT推理的神秘面紗。
通過系統(tǒng)分析和消融,提取關(guān)鍵見解,并提供實(shí)用策略來增強(qiáng)和穩(wěn)定其性能。

團(tuán)隊(duì)采用了2款基礎(chǔ)模型:

  • Llama-3.1-8B:來自Meta,是具有代表性的通用模型。
  • Qwen2.5-7B-Math:來自阿里通義,是具有代表性的數(shù)學(xué)專業(yè)模型。

同時(shí)采用了4個(gè)代表性推理基準(zhǔn):

MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k。

默認(rèn)情況下,溫度t=0.7、頂部?p值=0.95,最大輸出長度=16384 tokens。

而具體過程,從SFT(監(jiān)督微調(diào))和RL(強(qiáng)化學(xué)習(xí))兩方面下手。

研究人員默認(rèn)使用MATH的7500個(gè)訓(xùn)練樣本提示集來提供可驗(yàn)證的真值答案。

SFT對長CoT的影響

團(tuán)隊(duì)首先探究了SFT對長CoT的影響。

通過在長CoT數(shù)據(jù)上進(jìn)行SFT,模型能夠?qū)W習(xí)到更復(fù)雜的推理模式。

但目前而言,短CoT更為常見,這就意味著針對其收集SFT數(shù)據(jù)相對簡單。

鑒于此,團(tuán)隊(duì)選擇用阿里通義的QwQ-32B-Preview來提煉長CoT,用阿里通義的Qwen2.5-Math-72B-Struct來提煉短CoT。

具體來說,研究人員先對每個(gè)prompt的N個(gè)候選響應(yīng)進(jìn)行采樣,然后篩選出具有正確答案的響應(yīng)。

對于長CoT,使用N∈{32, 64, 128, 192, 256};對于短CoT,使用N∈{32, 64, 128, 256},(此處為了提高效率跳過了一個(gè)N)。

在每種情況下, SFT標(biāo)記的數(shù)量都與N成正比。

如下圖虛線所示,隨著擴(kuò)大SFT的token,對長CoT進(jìn)行SFT,會繼續(xù)提高模型準(zhǔn)確性;而對短CoT來說,SFT帶來的效益在很早就達(dá)到飽和。

譬如在MATH-500上,長CoT SFT的準(zhǔn)確率超過70%,tokens達(dá)到3.5B時(shí)仍然沒有進(jìn)入瓶頸期。

相比之下,短CoT SFT的tokens從約0.25B增加到1.5B,準(zhǔn)確率僅產(chǎn)生了3%的增長。

實(shí)驗(yàn)結(jié)果顯示,長CoT SFT能夠顯著提高模型的性能上限。

而且,在達(dá)到更高性能的同時(shí),還有比短CoT更高的性能拓展空間。

RL對長CoT的影響

由于業(yè)內(nèi)普遍認(rèn)為RL的上限高于SFT,團(tuán)隊(duì)將長CoT和短CoT視為針對RL的不同SFT初始化方法進(jìn)行比較。

研究人員使用SFT檢查點(diǎn)來初始化RL,并訓(xùn)練了四個(gè)epoch,每個(gè)prompt生成四個(gè)響應(yīng)。

此外,團(tuán)隊(duì)把PPO和來自MATH數(shù)據(jù)集的基于規(guī)則的驗(yàn)證器訓(xùn)練拆分,作為RL的提示集。

具體結(jié)果同樣在下圖中顯示出來:

圖中實(shí)線和虛線之間的間隙表明,使用長CoT SFT初始化的模型通??梢酝ㄟ^RL進(jìn)一步顯著改進(jìn),而使用短CoT SFT初始化的模型從RL中獲得的收益很小。

例如,在MATH-500上,RL可以將長CoT SFT模型絕對改進(jìn)3%以上,而短CoT SFT模型在RL前后的精度幾乎相同。

需要注意的是,RL并不總是能夠穩(wěn)定地?cái)U(kuò)展思維鏈的長度和復(fù)雜性。

為此,研究團(tuán)隊(duì)引入了一種帶有重復(fù)懲罰的余弦長度縮放獎(jiǎng)勵(lì)機(jī)制,有效穩(wěn)定了思維鏈的增長,并鼓勵(lì)模型在推理過程中進(jìn)行分支和回溯。

整理長CoT數(shù)據(jù)

除上述研究外,為了整理長CoT數(shù)據(jù),研究團(tuán)隊(duì)比較了兩種方法。

一種是通過提示短CoT模型,生成原始動(dòng)作,并按順序組合它們,以此構(gòu)建長CoT軌跡。

另一種是從現(xiàn)有的長CoT模型中提煉出長CoT軌跡——這些模型表現(xiàn)出涌現(xiàn)長CoT(emergent long CoT)

結(jié)果表明,從涌現(xiàn)長CoT模式中提煉出來的模型,比構(gòu)建的模式泛化得更好,并且可以用RL進(jìn)一步顯著改進(jìn)。

在構(gòu)建模式上訓(xùn)練的模型則不能做到這一點(diǎn)。

此外,由于DeepSeek-R1已經(jīng)證明,在基礎(chǔ)模型上擴(kuò)展RL計(jì)算可以出現(xiàn)長CoT,自我驗(yàn)證行為有時(shí)會被模型的探索標(biāo)記為緊急行為或 “頓悟時(shí)刻”。

這種模式在短CoT數(shù)據(jù)中很少見,但研究人員注意到,有時(shí)基座模型已經(jīng)存在自我驗(yàn)證行為,而用RL強(qiáng)化這些行為需要嚴(yán)苛的條件。

如下圖所示,Qwen2.5Math-7B的RL有效地提高了準(zhǔn)確性,但沒有增加基礎(chǔ)模型輸出中存在的 “recheck” 模式的頻率,也沒有有效地激勵(lì)其他反射模式,如 “retry” 和 “alternatively”。

這表明盡管提高性能效果顯著,但來自基座模型的RL不一定會激勵(lì)反射模式。

四個(gè)關(guān)鍵發(fā)現(xiàn)

在系統(tǒng)性研究了長CoT推理的機(jī)制后,團(tuán)隊(duì)提出了4個(gè)關(guān)鍵發(fā)現(xiàn)。

第一,SFT并非必需,但能簡化訓(xùn)練并提高效率。

雖然SFT并非訓(xùn)練長CoT的必要條件,但它能夠有效地初始化模型,并為后續(xù)的RL訓(xùn)練提供堅(jiān)實(shí)的基礎(chǔ)。

第二,推理能力隨著訓(xùn)練計(jì)算的增加而出現(xiàn),但并非總是如此。

長CoT的出現(xiàn)并非必然,且樸素的RL方法并不總是能有效地延長CoT長度。

需要通過獎(jiǎng)勵(lì)塑造等技巧來穩(wěn)定CoT長度的增長,團(tuán)隊(duì)的做法是引入了一種余弦長度縮放獎(jiǎng)勵(lì),并加入了重復(fù)懲罰,這既平衡了推理深度,又防止了無意義的長度增加。

第三,可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)對CoT擴(kuò)展至關(guān)重要。

由于高質(zhì)量、可驗(yàn)證數(shù)據(jù)稀缺,擴(kuò)展可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)對RL至關(guān)重要。

論文探索了利用網(wǎng)絡(luò)提取的包含噪聲解決方案的數(shù)據(jù),并發(fā)現(xiàn)這種“銀色”監(jiān)督信號在RL中展現(xiàn)出巨大的潛力,尤其是在處理OOO任務(wù)(如STEM推理)時(shí)。

第四,基模型中天生存在錯(cuò)誤修正和回溯等技能,但通過RL有效地激勵(lì)這些技能需要大量的計(jì)算。

而測量這些能力的出現(xiàn)需要更精細(xì)的方法,需要謹(jǐn)慎設(shè)計(jì)RL激勵(lì)。

最后,研究團(tuán)隊(duì)提出了幾個(gè)未來的研究方向,包括:

擴(kuò)大模型規(guī)模、改進(jìn)RL基礎(chǔ)設(shè)施、探索更有效的驗(yàn)證信號以及深入分析基礎(chǔ)模型中的潛在能力。

這些方向有望進(jìn)一步推動(dòng)長CoT在大模型中的應(yīng)用。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-08-04 08:49:00

2023-06-05 10:01:18

模型測評

2025-09-15 08:53:00

AI模型推理

2025-02-17 14:43:51

2025-03-17 08:15:00

AI技術(shù)模型

2025-05-08 09:10:30

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-07-28 09:12:00

2025-04-02 09:00:00

模型開源AI

2025-04-08 09:16:00

推理模型AI

2025-03-11 08:50:00

2025-04-25 09:22:44

2025-10-13 09:08:00

2025-03-05 00:22:00

2025-04-23 12:09:25

RL大模型進(jìn)化

2025-09-16 10:09:00

2023-05-30 14:17:00

模型推理

2025-02-12 09:00:00

AI模型DeepSeek

2025-03-13 12:44:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號