偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

性能提升11.74%！騰訊優(yōu)圖提出激勵(lì)推理，專攻復(fù)雜指令

2025-06-24 09:06:00

人工智能新聞

騰訊優(yōu)圖（UTU）研究團(tuán)隊(duì)提出一種系統(tǒng)性方法——激勵(lì)推理（Incentivizing Reasoning )，來(lái)提升LLM處理復(fù)雜指令的能力。

現(xiàn)有的語(yǔ)言大模型（LLMs）在復(fù)雜指令下的理解和執(zhí)行能力仍需提升。

騰訊優(yōu)圖（UTU）研究團(tuán)隊(duì)提出一種系統(tǒng)性方法——激勵(lì)推理（Incentivizing Reasoning )，來(lái)提升LLM處理復(fù)雜指令的能力。

結(jié)果顯示，該方法能夠有效提升大多數(shù)LLM進(jìn)行復(fù)雜指令深度處理時(shí)的表現(xiàn)，并在1.5B參數(shù)的LLM上實(shí)現(xiàn)了11.74%的性能提升，表現(xiàn)可媲美8B參數(shù)的LLM。

背景：難處理復(fù)雜指令與約束條件

現(xiàn)有的大語(yǔ)言模型（LLMs）在遵循復(fù)雜指令時(shí)面臨挑戰(zhàn)，尤其當(dāng)多重約束以并行、鏈?zhǔn)胶头种ЫY(jié)構(gòu)組織時(shí)，LLMs難以厘清真正的指令與約束條件。

一個(gè)直觀的解決方案是通過“思維鏈”（CoT）來(lái)普遍提升LLMs的指令跟隨能力。

然而研究團(tuán)隊(duì)發(fā)現(xiàn)，原始的CoT由于其表層的推理模式，即僅僅是對(duì)指令的簡(jiǎn)單釋義與重復(fù)，卻對(duì)性能產(chǎn)生了負(fù)面影響。樸素的CoT未能剖析約束的組成部分，也無(wú)法識(shí)別不同層級(jí)類型和維度關(guān)系。

為此，研究團(tuán)隊(duì)提出了一種系統(tǒng)性方法，通過激勵(lì)推理能力來(lái)提升LLM處理復(fù)雜指令的能力：首先，基于現(xiàn)有分類法對(duì)復(fù)雜指令進(jìn)行分解，提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法。其次，利用帶有可驗(yàn)證、以規(guī)則為中心的獎(jiǎng)勵(lì)建模，通過強(qiáng)化學(xué)習(xí)（RL）培養(yǎng)模型在遵循指令時(shí)的推理能力。

方法：從數(shù)據(jù)生產(chǎn)方法到推理能力

復(fù)雜規(guī)則與約束的復(fù)雜指令數(shù)據(jù)生產(chǎn)

針對(duì)復(fù)雜指令集的數(shù)量問題，研究團(tuán)隊(duì)基于現(xiàn)有分類法對(duì)復(fù)雜指令進(jìn)行分解，提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法以及校驗(yàn)準(zhǔn)則的方法。

種子指令挑選：團(tuán)隊(duì)從WildChat和Alpaca等數(shù)據(jù)集中多樣化地篩選種子指令，并通過主題和任務(wù)標(biāo)簽進(jìn)行細(xì)致挑選。

帶規(guī)則約束的指令發(fā)散：團(tuán)隊(duì)在細(xì)粒度規(guī)則和約束下自演化指令，結(jié)合代碼執(zhí)行和LLM判別兩種驗(yàn)證方式，確保生成指令的多樣性和有效性。

回復(fù)生產(chǎn)與質(zhì)量校驗(yàn)：團(tuán)隊(duì)利用LLM生成回復(fù)并通過多重驗(yàn)證篩除低質(zhì)量樣本，同時(shí)用LLM判別典型問題以保證指令和回復(fù)的合理性。

面向復(fù)雜指令任務(wù)下推理的強(qiáng)化學(xué)習(xí)

團(tuán)隊(duì)提出利用強(qiáng)化學(xué)習(xí)（RL）方法（采用GRPO算法），通過規(guī)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)機(jī)制，優(yōu)化大語(yǔ)言模型在復(fù)雜指令下的結(jié)構(gòu)化推理能力，提升最終答案的準(zhǔn)確性。

基于規(guī)則的獎(jiǎng)勵(lì)建模：團(tuán)隊(duì)設(shè)計(jì)了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)，分別對(duì)推理格式和多約束滿足度進(jìn)行評(píng)價(jià)，結(jié)合啟發(fā)式與獎(jiǎng)勵(lì)模型，實(shí)現(xiàn)對(duì)復(fù)雜指令響應(yīng)的精細(xì)化引導(dǎo)。

經(jīng)驗(yàn)回放緩沖區(qū)篩選：團(tuán)隊(duì)引入自適應(yīng)經(jīng)驗(yàn)回放機(jī)制，通過對(duì)比有無(wú)推理過程的樣本表現(xiàn)，篩選并強(qiáng)化能帶來(lái)更優(yōu)結(jié)果的推理鏈，提升模型在復(fù)雜任務(wù)下的推理有效性。

策略模型分布偏移控制：采用行為克隆約束策略分布，防止模型在片面追求約束滿足時(shí)犧牲語(yǔ)義或遺忘原有知識(shí)，確保推理內(nèi)容與答案的語(yǔ)義一致性和流暢性。

結(jié)果與討論

與基線方法的比較

此方法能有效提升大多數(shù)現(xiàn)有LLM在處理復(fù)雜指令時(shí)的表現(xiàn)，體現(xiàn)了深度推理的泛化能力。

相比之下，CoT提示會(huì)導(dǎo)致所有模型性能大幅下降，進(jìn)一步證實(shí)了淺層思考的負(fù)面影響。SDC方法將推理與回答分為兩步，但由于其本質(zhì)上的表面性，仍未能提升推理質(zhì)量。

SFT技術(shù)通過知識(shí)蒸餾讓小模型模仿強(qiáng)模型的推理模式，保證了思考的深度和廣度。但SFT的缺點(diǎn)是對(duì)訓(xùn)練外樣本的泛化能力較差?；赗L的訓(xùn)練方式則教會(huì)LLM如何思考，推動(dòng)多樣化推理的自我發(fā)展，而非簡(jiǎn)單記憶。

不同模型大小與基座的比較

小模型（1.5B）在訓(xùn)練中獲得的提升遠(yuǎn)大于大模型，顯示了小模型通過測(cè)試時(shí)擴(kuò)展的潛力。

DeepSeek蒸餾的LLM因廣泛模仿任務(wù)而在推理的結(jié)構(gòu)學(xué)習(xí)上有更好的起點(diǎn)。Ministral和LLaMA的能力不如Qwen，且LLaMA3.1-8B在訓(xùn)練中出現(xiàn)模型崩潰。

LLaMA模型在訓(xùn)練中出現(xiàn)響應(yīng)急劇縮短和KL懲罰激增，表明其偏離初始狀態(tài)。這可能與底座模型的預(yù)訓(xùn)練知識(shí)有關(guān)，LLaMA傾向于無(wú)休止地生成思考，難以輸出一致的語(yǔ)義響應(yīng)，最終導(dǎo)致崩潰。

與SOTA方法的比較

團(tuán)隊(duì)在ComplexBench上實(shí)現(xiàn)了多種SOTA方法，并在最復(fù)雜的Chain和Selection類別上表現(xiàn)出色。這表明深度推理確實(shí)有助于LLM分析并完成真正相關(guān)且有約束的請(qǐng)求。

推理模式的變化

關(guān)鍵詞如“first”“second”等的變化顯示，所有LLM在CFBench和ComplexBench等高難度基準(zhǔn)上推理詞頻增加，證實(shí)了深度推理的重要性。對(duì)于沒有復(fù)雜結(jié)構(gòu)的指令，慢思考LLM的關(guān)鍵詞頻率隨著響應(yīng)長(zhǎng)度變短而略有下降。

數(shù)學(xué)數(shù)據(jù)的重要性

DeepScaleR在推理能力培養(yǎng)上起到了積極作用，數(shù)學(xué)題數(shù)量的增加與CoT token增長(zhǎng)和性能提升正相關(guān)。

篩選機(jī)制的作用

優(yōu)秀CoT樣本比例先降后升，說(shuō)明訓(xùn)練中淺層到深層推理的轉(zhuǎn)變被促進(jìn)，最終帶來(lái)更高獎(jiǎng)勵(lì)的響應(yīng)。經(jīng)驗(yàn)回放中篩選優(yōu)秀CoT樣本有助于滿足輸出格式約束，防止劣質(zhì)推理獲得獎(jiǎng)勵(lì)，并為模仿專家思維留出時(shí)間。

團(tuán)隊(duì)發(fā)現(xiàn)，直接模仿專家推理不僅鼓勵(lì)模型獲得格式獎(jiǎng)勵(lì)，還能穩(wěn)定訓(xùn)練并彌補(bǔ)規(guī)則獎(jiǎng)勵(lì)的不足。

論文地址：https://arxiv.org/pdf/2506.01413
項(xiàng)目地址：https://github.com/yuleiqin/RAIF
數(shù)據(jù)：https://huggingface.co/collections/yolay/raif-arxivorg-pdf-250601413-682b16e5c0c2fa9b73811369

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 推理模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)