偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

同時監(jiān)督和強(qiáng)化的單階段大模型微調(diào),告別“先背書再刷題”,推理泛化雙提升|中科院&美團(tuán)等

人工智能 新聞
中國科學(xué)院自動化研究所深度強(qiáng)化學(xué)習(xí)團(tuán)隊聯(lián)合美團(tuán),提出一種單階段監(jiān)督-強(qiáng)化微調(diào)方法——SRFT (Supervised Reinforcement Fine-Tuning)。該方法通過基于熵的動態(tài)加權(quán)機(jī)制,將兩種訓(xùn)練范式結(jié)合。

通過單階段監(jiān)督微調(diào)與強(qiáng)化微調(diào)結(jié)合,讓大模型在訓(xùn)練時能同時利用專家演示和自我探索試錯,有效提升大模型推理性能。

中國科學(xué)院自動化研究所深度強(qiáng)化學(xué)習(xí)團(tuán)隊聯(lián)合美團(tuán),提出一種單階段監(jiān)督-強(qiáng)化微調(diào)方法——SRFT (Supervised Reinforcement Fine-Tuning)。該方法通過基于熵的動態(tài)加權(quán)機(jī)制,將兩種訓(xùn)練范式結(jié)合。

圖片

圖片

圖注:SRFT方法示意圖,展示了對探索試錯(rollout)數(shù)據(jù)和演示(demonstration)數(shù)據(jù)的協(xié)同學(xué)習(xí),以及平衡監(jiān)督和強(qiáng)化信號的熵感知策略更新。

在大語言模型(LLM)的推理能力提升上,監(jiān)督微調(diào)(SFT) 和強(qiáng)化學(xué)習(xí)(RL,有時也稱作強(qiáng)化微調(diào),RFT)是兩條核心技術(shù)路線。但它們各自都存在瓶頸:

SFT擅長模仿專家解題思路,類似“背書”,能快速為模型打下基礎(chǔ),但缺點是容易陷入死記硬背,缺乏在新問題上靈活應(yīng)用和尋找最優(yōu)解的能力;

RFT/RL通過不斷試錯來探索解題方法,類似“刷題”,能夠發(fā)現(xiàn)更優(yōu)解法,但其探索過程效率低下,容易面臨模式崩潰風(fēng)險。

因此,目前研究者通常采用兩階段順序方法SFT→RFT/RL:先用SFT學(xué)習(xí)高質(zhì)量數(shù)據(jù)集,再用RFT/RL進(jìn)一步優(yōu)化對齊LLM策略(即先“背完書”再“去刷題”)。

然而,這種串行方式不僅影響學(xué)習(xí)效率,還常常導(dǎo)致模型在“刷題”時忘了“書本”上的知識,引發(fā)知識遺忘等問題,如何讓兩者在同一階段協(xié)同作用,做到“邊背邊練”,成為提升 LLM 推理能力的關(guān)鍵之一。

結(jié)果顯示,SRFT方法能夠同時從高質(zhì)量演示數(shù)據(jù)(demonstrations)與LLM自身的探索試錯(rollouts)中學(xué)習(xí),在5項數(shù)學(xué)推理任務(wù)中實現(xiàn)59.1%的平均準(zhǔn)確率,較zero-RL基線提升9.0% ;在三項分布外任務(wù)上取得62.5%的平均準(zhǔn)確率,較zero-RL基線提升10.9% ,展現(xiàn)了卓越的泛化能力。

圖片

△SRFT與其它算法的性能對比

分析:面向 LLM 推理的 SFT 和 RL

研究團(tuán)隊首先對SFT與RL在LLM微調(diào)中的作用進(jìn)行了分析,并深入探究了二者結(jié)合的有效路徑。

SFT和RL對LLM的作用:大錘vs.手術(shù)刀

圖片

圖注:LLM 微調(diào)前后分布可視化, (a) SFT 與 RL 前后分布改變示例 (b) 在5個數(shù)據(jù)集上統(tǒng)計了分布變化的頻率。

通過對微調(diào)前后模型對token概率的改變進(jìn)行可視化,仔細(xì)分析實驗結(jié)果,可以得到以下發(fā)現(xiàn):

  • SFT導(dǎo)致大部分 token (50%以上)的概率分布改變(粗粒度)
  • RL/RFT只對特定 token (少于2%)進(jìn)行有針對性的調(diào)整,同時保留了大部分內(nèi)容(細(xì)粒度)

從理論上看,SFT的目標(biāo)是最大化專家數(shù)據(jù)的似然,將專家演示的條件概率分布 “注入” 模型,類似人們通過“背書”學(xué)習(xí),其梯度公式揭示了其內(nèi)在機(jī)制:

該公式表明,對單個樣本訓(xùn)練,SFT主要通過提高目標(biāo)標(biāo)記的概率,同時降低詞匯表中所有其他標(biāo)記的概率,這會銳化模型的分布,從而產(chǎn)生更具確定性的輸出。 通過這種“一刀切”的方式,SFT強(qiáng)制模型去擬合專家數(shù)據(jù),但也可能因此抑制模型的探索性和多樣性。

訓(xùn)練動態(tài)可視化如下圖所示,數(shù)字表示訓(xùn)練后的準(zhǔn)確率。SRFT 通過在結(jié)合兩種方法實現(xiàn)直接優(yōu)化,到達(dá)與SFT→RL接近的區(qū)域,且無需兩階段轉(zhuǎn)換。

圖片

為了進(jìn)一步探究訓(xùn)練動態(tài),研究人員還從模型訓(xùn)練軌跡的角度對幾種微調(diào)方法進(jìn)行了可視化。論文提出了一種新穎的可視化方法。其核心思想是:

將不同模型看作高維空間中的點,通過計算它們在生成相同回復(fù)(response)時輸出token概率分布的“距離”,來描繪其在訓(xùn)練過程中的“移動軌跡”。

具體而言,論文引入了三個參考模型——基礎(chǔ)模型(Qwen-2.5-Math-7B)、DeepSeek-R1和QwQ-32B作為坐標(biāo)系,通過模型與參考模型回復(fù)的 teacher forcing 距離來間接測量模型在不同微調(diào)步驟中的訓(xùn)練動態(tài)(如果兩個模型對所有提示(prompt)中的所有回復(fù)token分配相似的概率,則認(rèn)為它們是接近的)。

結(jié)果表明,所有微調(diào)范式在提升性能的同時,均會偏離基礎(chǔ)模型空間,此外:

  • SFT使模型在概率空間中移動的距離最遠(yuǎn),印證了其“大錘”般的全局性影響。
  • SFT→RL的兩階段路徑揭示了一個問題:SFT可能將模型推得“過遠(yuǎn)”,后續(xù)的RL反而需要將其“拉回”到離基礎(chǔ)模型更近的區(qū)域才能達(dá)到最優(yōu),這暗示了串行方法的低效性。
  • SRFT的單階段路徑則顯得更為直接和高效,它在學(xué)習(xí)專家知識的同時,沒有過度偏離初始模型,從而實現(xiàn)了更精準(zhǔn)的優(yōu)化。

結(jié)合兩種范式:從兩階段到單階段

熵是信息論中的一個重要概念,它衡量的是隨機(jī)變量的不確定性。在 LLM 的推理過程中,熵可以反映模型輸出分布的不確定性,近期的諸多工作也展示了熵在 LLM 訓(xùn)練中的重要性。

高熵表示模型的輸出分布較為均勻,不確定性較大;低熵則表示模型的輸出分布較為集中,不確定性較小。

圖片

圖注:兩種結(jié)合方式的性能、熵變化曲線

在該論文中,研究人員主要從SFT和RL結(jié)合的角度對熵展開了分析,如上圖所示。 在RL后進(jìn)行SFT,會使模型的熵短暫增加,這表明模型在學(xué)習(xí)新的知識和模式時,其輸出分布變得更加不確定

隨著訓(xùn)練的進(jìn)行,熵逐漸降低,模型逐漸收斂,輸出分布變得更加確定,最終提升模型性能。

相比之下,RL在訓(xùn)練過程中則會使熵顯著降低,模型的輸出分布變得更加集中。這是因為RL通過獎勵函數(shù)引導(dǎo)模型學(xué)習(xí)特定的策略,使模型更傾向于生成能夠獲得高獎勵的輸出。然而,這種低熵的狀態(tài)也可能導(dǎo)致模型的可塑性降低,限制了后續(xù)訓(xùn)練的效果。

圖片

圖注:不同結(jié)合方式的訓(xùn)練效率

論文接著比較了純RL、不同SFT步數(shù)的順序SFT→RL方法,以及單階段SFT+RL方法。結(jié)果表明,與順序SFT→RL方法相比,單階段SFT+RL方法實現(xiàn)了更優(yōu)的訓(xùn)練效率。單階段SFT+RL方法通過統(tǒng)一優(yōu)化有效利用演示數(shù)據(jù),提速2.28倍。這種方法能夠直接針對目標(biāo)進(jìn)行策略優(yōu)化,同時保留從數(shù)據(jù)集中通過監(jiān)督學(xué)習(xí)進(jìn)行知識蒸餾的優(yōu)勢。

方法:監(jiān)督強(qiáng)化微調(diào)(SRFT)

本論文提出SRFT (Supervised Reinforcement Fine-Tuning),將監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)微調(diào)(RFT/RL)單階段結(jié)合。以下是對方法的描述:

核心思想

SRFT的核心在于其單階段學(xué)習(xí)機(jī)制:通過SFT實現(xiàn)粗粒度行為策略逼近,通過RL實現(xiàn)細(xì)粒度策略精化,借助于單階段訓(xùn)練,將微調(diào)同時應(yīng)用于演示數(shù)據(jù)和自生成的試錯數(shù)據(jù)。

從演示數(shù)據(jù)(demonstration)中學(xué)習(xí)

分布不匹配緩解策略

其中:

  • 樣本目標(biāo):類似于監(jiān)督微調(diào),最大化正確響應(yīng)的似然
  • 負(fù)樣本目標(biāo):實施似然最小化,減少分配給錯誤響應(yīng)的概率

單階段集成方法

統(tǒng)一損失函數(shù)

通過同時利用演示數(shù)據(jù)和自探索試錯數(shù)據(jù),SRFT有效平衡了SFT的粗粒度調(diào)整與RL的細(xì)粒度優(yōu)化??倱p失函數(shù)結(jié)合了所有四個組件:

關(guān)鍵機(jī)制總結(jié)

1. 熵感知權(quán)重:兩種熵感知權(quán)重機(jī)制確保訓(xùn)練穩(wěn)定性

  • :當(dāng)策略展現(xiàn)高熵(不確定性)時,權(quán)值降低,減少SFT對訓(xùn)練的影響
  • :當(dāng)熵較高時,使RL訓(xùn)練中正樣本訓(xùn)練的權(quán)值上升,使熵下降,從而促進(jìn)熵的穩(wěn)定

2. 單階段優(yōu)化:直接朝著目標(biāo)函數(shù)優(yōu)化,同時保持來自數(shù)據(jù)集的監(jiān)督學(xué)習(xí)的知識蒸餾優(yōu)勢

這種方法使SRFT能夠同時從演示數(shù)據(jù)和自探索試錯數(shù)據(jù)中受益,同時通過兩種熵感知權(quán)重機(jī)制保持穩(wěn)定的訓(xùn)練動態(tài)。

結(jié)果:性能顯著優(yōu)于zero-RL方法,與其它結(jié)合方法相比提升明顯

關(guān)鍵發(fā)現(xiàn)

主要實驗結(jié)果(包含5個數(shù)學(xué)推理基準(zhǔn)和3個非數(shù)學(xué)基準(zhǔn)):

圖片

仔細(xì)分析SRFT與SFT、RL以及SFT與RL結(jié)合相關(guān)方法的性能比較,可以得到以下發(fā)現(xiàn):

  1. 顯著性能提升:
  • SRFT在五個挑戰(zhàn)性競賽級推理基準(zhǔn)上取得了59.1%的平均準(zhǔn)確率
  • 比最佳zero-RL基線方法提升了+9.0個百分點
  • 比SFT方法提升了+4.8個百分點
  • 比SFT+RL組合方法提升了+3.4個百分點
  1. 泛化能力優(yōu)秀:
  • 平均分?jǐn)?shù): SRFT取得62.5分,比最佳基線提升+4.7個百分點
  • 跨域表現(xiàn): 在所有三個分布外基準(zhǔn)上都表現(xiàn)出色

訓(xùn)練動態(tài)分析:更穩(wěn)、更長、更高效

圖片

△訓(xùn)練動態(tài)曲線(獎勵、回復(fù)長度、熵)
  1. 訓(xùn)練獎勵動態(tài)
  • SRFT相比純RL實現(xiàn)了更快的性能改進(jìn),提速2.33倍
  • 兩種方法都顯示出訓(xùn)練獎勵的上升趨勢
  • SRFT的收斂更加穩(wěn)定
  1. 響應(yīng)長度變化
  • RL:傾向于生成更簡潔的響應(yīng)
  • SRFT:顯示出響應(yīng)的逐步延長,表明發(fā)展出更全面詳細(xì)的推理過程
  • 推理質(zhì)量:響應(yīng)長度的增加表明模型發(fā)展出更深入的推理過程
  1. 訓(xùn)練熵動態(tài)
  • RL: 表現(xiàn)出快速的熵下降
  • SRFT: 維持更穩(wěn)定的熵,表明策略能夠在訓(xùn)練期間繼續(xù)探索
  • 訓(xùn)練穩(wěn)定性: 熵感知權(quán)重機(jī)制的有效性得到驗證

總結(jié)

該工作分析探究了SFT與RL在LLM推理任務(wù)中各自的特點與結(jié)合方式,提出的SRFT方法通過基于熵的權(quán)重機(jī)制實現(xiàn)了SFT與RL的單階段結(jié)合。SRFT成功地在單階段訓(xùn)練流程中實現(xiàn)了知識學(xué)習(xí)(SFT)與自主探索(RFT/RL)的動態(tài)平衡 ,在多項任務(wù)上取得了推理性能和泛化性能雙提升。

更多研究細(xì)節(jié),可參考原論文。

項目網(wǎng)頁: https://anonymous.4open.science/w/SRFT2025
論文鏈接: https://arxiv.org/abs/2506.19767
模型鏈接: https://huggingface.co/Yuqian-Fu/SRFT

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-26 09:06:59

2025-03-11 13:49:20

2025-06-17 08:47:00

2024-09-03 10:20:00

框架模型

2024-03-07 12:31:29

AI技術(shù)

2025-05-09 08:40:00

2024-09-09 10:00:00

模型訓(xùn)練

2025-07-21 08:51:00

2025-08-01 14:32:35

AI模型訓(xùn)練

2025-09-22 09:25:08

2025-02-08 13:30:00

2025-05-29 09:08:00

模型推理AI

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-02-26 13:00:00

2025-07-02 08:43:00

數(shù)據(jù)訓(xùn)練模型

2024-12-31 09:10:00

2025-01-22 09:32:30

2017-05-15 15:07:36

納米材料農(nóng)藥

2025-06-09 09:32:35

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫
點贊
收藏

51CTO技術(shù)棧公眾號