偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

SFT在幫倒忙?新研究:直接進(jìn)行強(qiáng)化學(xué)習(xí),模型多模態(tài)推理上限更高

人工智能 新聞
「盡管經(jīng)過(guò) SFT 的模型可能看起來(lái)在進(jìn)行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式?!?/div>

隨著 OpenAI 的 o1/o3 和 Deepseek-R1 等具備強(qiáng)大推理能力的大語(yǔ)言模型相繼問(wèn)世,學(xué)界普遍采用「監(jiān)督微調(diào) + 強(qiáng)化學(xué)習(xí)」的兩階段訓(xùn)練范式:先通過(guò)推理數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT),再通過(guò)強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步提升性能。這種成功模式啟發(fā)了研究人員將其優(yōu)勢(shì)從純文本領(lǐng)域拓展到視覺(jué) - 語(yǔ)言大模型(LVLM)領(lǐng)域。

但近日的一項(xiàng)研究成果卻給出了一個(gè)驚人的發(fā)現(xiàn):「SFT 可能會(huì)阻礙學(xué)習(xí) —— 經(jīng)常導(dǎo)致出現(xiàn)偽推理路徑,而 RL 則是在促進(jìn)真正的多模態(tài)推理!」

圖片

這個(gè)發(fā)現(xiàn)來(lái)自加州大學(xué)圣克魯茲分校和德克薩斯大學(xué)達(dá)拉斯分校等機(jī)構(gòu)的一個(gè)研究團(tuán)隊(duì),他們深入探討了「SFT+RL」這一經(jīng)典范式在視覺(jué)語(yǔ)言模型開(kāi)發(fā)中的適用性,其中重點(diǎn)關(guān)注了兩個(gè)核心問(wèn)題:1)SFT 與 RL 在多模態(tài)推理中分別產(chǎn)生何種獨(dú)特作用?2)這種兩階段訓(xùn)練對(duì) LVLM 的推理能力是否確有必要?

圖片

  • 論文標(biāo)題: SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models 
  • 論文地址:https://arxiv.org/pdf/2504.11468
  • 項(xiàng)目頁(yè)面:https://ucsc-vlaa.github.io/VLAA-Thinking/

為系統(tǒng)性地研究這些問(wèn)題,研究者構(gòu)建了首個(gè)支持 SFT 與 RL 的全方位高質(zhì)量圖文推理數(shù)據(jù)集 VLAA-Thinking。下表給出了該數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。

圖片

與現(xiàn)有數(shù)據(jù)集不同,該數(shù)據(jù)集包含基于 R1 模型「先思考后回答」范式生成的完整推理鏈條,其中 SFT 分支包含適合視覺(jué)指令調(diào)優(yōu)的多模態(tài)思維鏈(CoT)樣本,強(qiáng)化學(xué)習(xí)分支則從同源數(shù)據(jù)中篩選更具挑戰(zhàn)性的樣本以激發(fā)深度推理行為。

為有效遷移純文本模型的推理能力,研究者設(shè)計(jì)了六階段數(shù)據(jù)處理流程:元數(shù)據(jù)收集→圖像描述生成→基于 R1 的知識(shí)蒸餾→答案重寫(xiě)→人工驗(yàn)證→數(shù)據(jù)劃分。

具體而言,他們將圖像描述和視覺(jué)問(wèn)題輸入 DeepSeek-R1 生成初始推理軌跡,經(jīng)改寫(xiě)優(yōu)化流暢度后,再由 GPT 驗(yàn)證器進(jìn)行質(zhì)量把關(guān),最終形成高質(zhì)量的 SFT 與 RL 訓(xùn)練數(shù)據(jù)。

意料之外的發(fā)現(xiàn)

基于 VLAA-Thinking 數(shù)據(jù)集,研究者系統(tǒng)分析了 SFT 與 RL 在多模態(tài)推理中的作用機(jī)制。為探究 SFT 的影響,他們?cè)敿?xì)考察了數(shù)據(jù)類型(如是否包含反思性頓悟時(shí)刻,即 aha moment)、數(shù)據(jù)規(guī)模和模型能力等因素。

針對(duì)視覺(jué)語(yǔ)境下的 RL 優(yōu)化,他們?cè)?GRPO 框架中創(chuàng)新性地設(shè)計(jì)了融合感知與認(rèn)知獎(jiǎng)勵(lì)的混合獎(jiǎng)勵(lì)函數(shù),包含 2 大類 5 種子函數(shù):規(guī)則類問(wèn)題采用數(shù)字識(shí)別、多項(xiàng)選擇題、數(shù)學(xué)運(yùn)算和邊界框檢測(cè)函數(shù),開(kāi)放類問(wèn)題則采用稱職的獎(jiǎng)勵(lì)模型 XComposer-2.5-RM,以及基于參考的獎(jiǎng)勵(lì)方法來(lái)對(duì)答案進(jìn)行評(píng)分。

研究者對(duì) SFT 和 RL 進(jìn)行了廣泛的實(shí)驗(yàn)比較,發(fā)現(xiàn)了幾個(gè)值得注意的問(wèn)題:

首先,他們探究了 SFT 和 RL 在多模態(tài)推理中的貢獻(xiàn):與基礎(chǔ)模型相比,SFT 提高了模型在標(biāo)準(zhǔn)任務(wù)中的性能,但在增強(qiáng)復(fù)雜推理方面能力卻有所欠缺。如圖 1 所示,僅僅通過(guò) SFT 來(lái)模仿專家的思維往往會(huì)誘發(fā)「?jìng)瓮评砺窂健?,這是一種膚淺的推理模式,其中可能包含「?jìng)?aha moment」(膚淺的自我反思線索)。

圖片

這項(xiàng)研究表明,這些模仿的推理模式會(huì)阻礙真正的推理進(jìn)步,即在 7B 模型上相對(duì)性能下降 47%。這一觀察結(jié)果也與最近的研究結(jié)果一致,即需要反饋和探索信號(hào)來(lái)驅(qū)動(dòng)高級(jí)推理行為。此外,消融分析表明,對(duì)于基于規(guī)則的獎(jiǎng)勵(lì),數(shù)學(xué)和多選題比其他獎(jiǎng)勵(lì)更有益,而基于規(guī)則和開(kāi)放式獎(jiǎng)勵(lì)的結(jié)合則能得到最佳性能。

圖片

現(xiàn)有研究認(rèn)為 LVLM 應(yīng)先通過(guò) SFT 學(xué)習(xí)推理格式,再通過(guò) RL 反饋進(jìn)行優(yōu)化,但研究者發(fā)現(xiàn):如果對(duì)已對(duì)齊的模型使用 SFT+GRPO,會(huì)導(dǎo)致平均 12.7% 的性能下降,且模型規(guī)模差異影響甚微 ——7B 模型與更小模型呈現(xiàn)相似的性能衰減。

圖片

訓(xùn)練過(guò)程分析表明,響應(yīng)長(zhǎng)度、獎(jiǎng)勵(lì)分?jǐn)?shù)與性能表現(xiàn)無(wú)顯著相關(guān)性:經(jīng) SFT 的模型雖能獲得更高初始獎(jiǎng)勵(lì)和更長(zhǎng)響應(yīng),但實(shí)際表現(xiàn)遜于純 RL 訓(xùn)練模型,這與「更優(yōu)模型通常產(chǎn)生更長(zhǎng)響應(yīng)」的既有結(jié)論相悖。

研究表明:SFT 雖可幫助未對(duì)齊模型遵循指令,但其倡導(dǎo)的模仿式推理會(huì)限制 RL 階段的探索空間;相比之下,直接從獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)能產(chǎn)生更有效的適應(yīng)性思維。實(shí)證研究表明純 RL 方案更具優(yōu)勢(shì) —— 該團(tuán)隊(duì)訓(xùn)練得到的 VLAA-Thinker-Qwen2.5VL-3B 模型在 Open LMM 推理榜單 4B 量級(jí)模型中位列第一,以 1.8% 優(yōu)勢(shì)刷新紀(jì)錄。案例分析表明,該模型生成的推理軌跡更簡(jiǎn)潔有效。

使用混合獎(jiǎng)勵(lì)提升多模態(tài)推理

上面的結(jié)果表明 SFT 不足以將 R1 的能力遷移到 LVLM。于是,研究者提出了自己的方案。

由于強(qiáng)化學(xué)習(xí)在增強(qiáng)推理能力方面表現(xiàn)出色,且 GRPO 在文本數(shù)學(xué)推理任務(wù)中被證明比其他方法(如 PPO)更有效、更高效,這促使他們將 GRPO 訓(xùn)練應(yīng)用于視覺(jué)語(yǔ)言推理任務(wù)。

數(shù)學(xué)上,設(shè) q 為一個(gè)查詢,圖片為從舊策略模型 π_old 中采樣的 G 個(gè)輸出,GRPO 最大化以下目標(biāo):


圖片

其中,圖片是估計(jì)的優(yōu)勢(shì),β 是 KL 懲罰系數(shù),π_θ、π_θ_old、π_ref 分別是當(dāng)前、舊的和參考的策略。

帶有混合獎(jiǎng)勵(lì)的 GRPO

為了更好地將 GRPO 應(yīng)用于多模態(tài)推理,除了采用類似文本 GRPO 訓(xùn)練中的基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制外,還需要考慮視覺(jué)模態(tài)引入的額外特征。受多模態(tài)大型語(yǔ)言模型綜合評(píng)價(jià)基準(zhǔn) MME 的啟發(fā)(MME 通過(guò)感知和認(rèn)知(推理)來(lái)對(duì)視覺(jué)語(yǔ)言模型進(jìn)行基準(zhǔn)測(cè)試),研究者提出了一個(gè)用于 GRPO 訓(xùn)練的混合獎(jiǎng)勵(lì)框架,如圖 4 所示。該獎(jiǎng)勵(lì)系統(tǒng)包含五種可驗(yàn)證的獎(jiǎng)勵(lì)類型,采用兩種格式,涵蓋了視覺(jué)感知和視覺(jué)推理任務(wù)。

圖片

SFT 對(duì) GRPO 訓(xùn)練的影響

SFT 與多模態(tài)推理中的 GRPO 不兼容。 盡管論文中揭示了單獨(dú)使用 SFT 會(huì)導(dǎo)致多模態(tài)推理性能下降,但目前仍不清楚 SFT 是否像 DeepSeekR1 中的「金鑰匙」一樣對(duì) GRPO 訓(xùn)練起到關(guān)鍵作用。研究者使用不同的模型架構(gòu)進(jìn)行 GRPO 訓(xùn)練實(shí)驗(yàn)。具體來(lái)說(shuō),他們采用了 Qwen2VL-7B-Base 和 Qwen2VL-7B-Inst,并在它們上使用 25K 樣本進(jìn)行 SFT,隨后進(jìn)行 GRPO 訓(xùn)練。

從表 3 中可以觀察到,在 GRPO 訓(xùn)練之前進(jìn)行 SFT 的模型,其性能比僅使用 GRPO 訓(xùn)練的模型更差,平均而言,Qwen2VL-Base 和 Qwen2VL-Inst 在經(jīng)過(guò) SFT 后比未經(jīng)過(guò) SFT 的模型性能下降了 8.9%。研究者還發(fā)現(xiàn),SFT 對(duì)指令模型的性能損害比對(duì)沒(méi)有指令跟隨能力的基礎(chǔ)模型更大。例如,經(jīng)過(guò) SFT 后,Qwen2VL-Inst 的性能比 Qwen2VL-Base 下降了 7.7%,這表明 SFT 可能會(huì)削弱對(duì)有效 GRPO 訓(xùn)練至關(guān)重要的指令跟隨能力。

綜合這些結(jié)果,可以得出結(jié)論:在多模態(tài)推理的背景下,SFT 目前與 GRPO 不兼容,會(huì)損害基礎(chǔ)模型和經(jīng)過(guò)指令調(diào)優(yōu)的 LVLM 的性能。

圖片

此外,研究者還發(fā)現(xiàn),較小的 SFT 數(shù)據(jù)集仍然會(huì)影響 GRPO 的性能,如圖 5 所示。

圖片

回應(yīng)長(zhǎng)度、獎(jiǎng)勵(lì)與模型性能并非必然相關(guān)。先前的強(qiáng)化學(xué)習(xí)研究通常認(rèn)為,更長(zhǎng)的回應(yīng)往往與更好的推理能力以及更高的 RL 獎(jiǎng)勵(lì)相關(guān)。然而,圖 6 中的發(fā)現(xiàn)表明,在 GRPO 中,回應(yīng)長(zhǎng)度和獎(jiǎng)勵(lì)并不是推理能力的可靠指標(biāo)。

圖片

有趣的是,經(jīng)過(guò) SFT 的模型在訓(xùn)練初期的獎(jiǎng)勵(lì)更高。這可能是由于它們?cè)谠缙谕ㄟ^(guò)監(jiān)督學(xué)習(xí)獲得了經(jīng)驗(yàn),因?yàn)?SFT 和 GRPO 數(shù)據(jù)共享相同的分布。然而,這些經(jīng)過(guò) SFT 的模型在訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)提升有限,而僅使用 GRPO 的模型則迅速超過(guò)了它們。

這些趨勢(shì)進(jìn)一步揭示,SFT 僅提供了 RL 訓(xùn)練的一個(gè)更高的「下限」,但它可能會(huì)降低「上限」,因?yàn)橥评硐嚓P(guān)的 SFT 數(shù)據(jù)限制了模型的探索路徑。因此,推理是一種內(nèi)生的、更可能通過(guò)強(qiáng)化學(xué)習(xí)而非 SFT 發(fā)展起來(lái)的能力。盡管經(jīng)過(guò) SFT 的模型可能看起來(lái)在進(jìn)行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式。

無(wú) SFT 的 GRPO 訓(xùn)練

根據(jù)前一節(jié)的發(fā)現(xiàn),研究者直接進(jìn)行了 GRPO 訓(xùn)練,生成了四個(gè)模型:VLAA-Thinker-Qwen2-VL-2B、VLAA-Thinker-Qwen2-VL-7B、VLAA-Thinker-Qwen2.5-VL-3B 和 VLAA-Thinker-Qwen2.5-VL-7B。他們還在 Qwen2-VL-7B 的基礎(chǔ)模型上進(jìn)行了訓(xùn)練,得到的模型命名為 VLAA-Thinker-Qwen2-7B-Zero。

表 4 中展示了評(píng)估結(jié)果:

圖片

主要發(fā)現(xiàn)如下:

  • 直接使用 GRPO 訓(xùn)練的模型在視覺(jué)語(yǔ)言推理任務(wù)中顯著優(yōu)于其基礎(chǔ)模型。
  • 經(jīng)過(guò)更好指令調(diào)優(yōu)的模型在 GRPO 訓(xùn)練后表現(xiàn)更佳,說(shuō)明高質(zhì)量的指令調(diào)優(yōu)能夠增強(qiáng)模型在強(qiáng)化學(xué)習(xí)后的推理能力。
  • GRPO 訓(xùn)練能夠誘導(dǎo)模型產(chǎn)生真實(shí)的自我反思行為,但「aha」時(shí)刻的數(shù)量與整體推理性能并不直接相關(guān)。(見(jiàn)圖 7)

圖片

更多細(xì)節(jié)請(qǐng)參見(jiàn)原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-12-01 08:00:00

2020-10-14 07:46:46

Linux大小寫(xiě)轉(zhuǎn)換

2024-08-28 13:53:42

多代理強(qiáng)化學(xué)習(xí)機(jī)器人

2025-05-30 04:00:00

IBMRLVRGRPO

2023-08-28 06:52:29

2025-04-21 09:10:00

2025-05-06 08:40:00

2025-06-26 09:13:22

2025-06-27 10:10:43

AI模型技術(shù)

2025-02-18 15:02:13

2025-04-14 09:45:00

2025-05-09 08:40:00

2025-03-21 13:00:54

2021-10-11 09:51:38

谷歌人工智能強(qiáng)化學(xué)習(xí)

2025-05-26 09:16:00

2025-01-21 09:36:51

2025-03-31 09:22:00

強(qiáng)化學(xué)習(xí)模型AI

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2025-03-06 01:00:00

2025-06-10 03:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)