只用圖像也能思考,強(qiáng)化學(xué)習(xí)造就推理模型新范式!復(fù)雜場景規(guī)劃能力Max
近年來,LLM 及其多模態(tài)擴(kuò)展(MLLM)在多種任務(wù)上的推理能力不斷提升。然而, 現(xiàn)有 MLLM 主要依賴文本作為表達(dá)和構(gòu)建推理過程的媒介,即便是在處理視覺信息時(shí)也是如此 。
常見的 MLLM 結(jié)構(gòu)。
這種模式要求模型首先將視覺信息「翻譯」或「映射」為文本描述或內(nèi)部的文本化 token,然后再利用大型語言模型的文本推理能力進(jìn)行處理。
這個(gè)轉(zhuǎn)換過程不可避免地可能導(dǎo)致視覺信息中固有的豐富細(xì)節(jié)、空間關(guān)系和動態(tài)特征的丟失或削弱,形成了所謂的「模態(tài)鴻溝 (modality gap) 」。這種鴻溝不僅限制了模型對視覺世界的精細(xì)感知,也影響了其在復(fù)雜視覺場景中進(jìn)行有效規(guī)劃的能力。
例如,模型雖然能夠識別圖像中的物體并描述它們之間一些相對簡單的空間關(guān)系,但在追求極致的定位精度,或需要深入理解和預(yù)測物體間高度復(fù)雜、動態(tài)或隱含的交互邏輯(而非僅僅識別表面現(xiàn)象)時(shí),其表現(xiàn)仍可能因視覺信息在文本化過程中的細(xì)節(jié)損失而受到限制。
來自劍橋、倫敦大學(xué)學(xué)院、谷歌的研究團(tuán)隊(duì)認(rèn)為:語言不一定始終是進(jìn)行推理最自然或最有效的模態(tài),尤其是在涉及空間與幾何信息的任務(wù)場景中。
基于此動因,研究團(tuán)隊(duì)提出了一種全新的推理與規(guī)劃范式 —— 視覺規(guī)劃(Visual Planning)。該范式完全基于視覺表示進(jìn)行規(guī)劃,完全獨(dú)立于文本模態(tài)。
- 論文標(biāo)題:Visual Planning: Let’s Think Only with Images
- 論文地址:https://arxiv.org/pdf/2505.11409
- 代碼倉庫:https://github.com/yix8/VisualPlanning
在這一框架下,規(guī)劃通過一系列圖像按步編碼視覺域內(nèi)的推理過程,類似于人類通過草圖或想象視覺圖景來計(jì)劃未來行為的方式。
推理范式的對比。傳統(tǒng)方法(上方與中間兩行)傾向于生成冗長且不準(zhǔn)確的文本規(guī)劃,而視覺規(guī)劃范式(下方一行)則直接預(yù)測下一步的視覺狀態(tài),形成完全基于圖像的狀態(tài)軌跡,過程無需語言中介。
為支持該方法,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新性的強(qiáng)化學(xué)習(xí)框架 —— 基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃(Visual Planning via Reinforcement Learning, VPRL)。該框架以 GRPO(群體相對策略優(yōu)化)為核心優(yōu)化方法,用于在訓(xùn)練后提升大規(guī)模視覺模型的規(guī)劃能力。
在多個(gè)典型的視覺導(dǎo)航任務(wù)中,包括 FROZENLAKE、MAZE 和 MINIBEHAVIOR,該方法實(shí)現(xiàn)了顯著的性能提升。實(shí)驗(yàn)結(jié)果表明,相較于在純文本空間內(nèi)進(jìn)行推理的其他所有規(guī)劃變體,研究團(tuán)隊(duì)提出的純視覺規(guī)劃范式在效果上具備更強(qiáng)優(yōu)勢。
以下是動態(tài)示例:
冰湖(FrozenLake): 這是一個(gè)具有隨機(jī)性的網(wǎng)格世界(gridworld)環(huán)境,智能體需從指定起點(diǎn)出發(fā),安全到達(dá)目標(biāo)位置,期間必須避免掉入「冰洞」。
迷宮 Maze: 智能體獲得一個(gè)初始圖像,該圖展示了迷宮的布局。其任務(wù)是在迷宮中從起點(diǎn)(綠色標(biāo)記)出發(fā),最終到達(dá)終點(diǎn)(紅色旗幟所在位置)。
微行為(MiniBehaviour): 智能體首先需要從起點(diǎn)移動至打印機(jī)所在的位置并「拾取」它,之后應(yīng)將打印機(jī)運(yùn)送至桌子處并「放下」。
這項(xiàng)研究不僅證明視覺規(guī)劃是一種可行的替代方案,更揭示了它在需要直覺式圖像推理任務(wù)中的巨大潛力,為圖像感知與推理領(lǐng)域開辟了嶄新方向。
強(qiáng)化學(xué)習(xí)驅(qū)動的視覺規(guī)劃
視覺規(guī)劃范式
以往的大多數(shù)視覺推理基準(zhǔn)任務(wù),通常通過將視覺信息映射到文本領(lǐng)域來求解,例如轉(zhuǎn)換為物體名稱、屬性或關(guān)系等標(biāo)注標(biāo)簽,在此基礎(chǔ)上進(jìn)行幾步語言推理。
然而,一旦視覺內(nèi)容被轉(zhuǎn)換為文本表示,該任務(wù)便退化為純語言推理問題,此時(shí)語言模型即可完成推理,而無需在過程中再引入視覺模態(tài)的信息。
研究團(tuán)隊(duì)提出的視覺規(guī)劃范式本質(zhì)上與上述方法不同。它在純視覺模態(tài)下進(jìn)行規(guī)劃。研究團(tuán)隊(duì)形式化地定義視覺規(guī)劃為:在給定初始圖像 v? 的前提下,生成中間圖像序列 T = (?v?, ..., ?v?),其中每個(gè) ?v? 表示一個(gè)視覺狀態(tài),共同構(gòu)成一個(gè)視覺規(guī)劃軌跡。具體而言,記 π_θ 為一個(gè)參數(shù)化的生成視覺模型。該視覺規(guī)劃軌跡以自回歸方式生成,每一個(gè)中間視覺狀態(tài) ?v? 都在給定初始狀態(tài)和此前生成狀態(tài)的條件下進(jìn)行采樣:
大規(guī)模視覺模型中的強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)在優(yōu)化自回歸模型方面表現(xiàn)出顯著優(yōu)勢,其通過序列級獎(jiǎng)勵(lì)信號進(jìn)行訓(xùn)練,突破了傳統(tǒng) token 級監(jiān)督信號的限制。在自回歸圖像生成任務(wù)中,圖像被表示為視覺 token 的序列。
受 RL 在語言推理任務(wù)中成功應(yīng)用的啟發(fā),研究團(tuán)隊(duì)引入了一個(gè)基于 RL 的訓(xùn)練框架,用于支持大模型下的視覺規(guī)劃,并采用了 GRPO 方法。該方法利用視覺狀態(tài)之間的轉(zhuǎn)換信息來計(jì)算獎(jiǎng)勵(lì),同時(shí)驗(yàn)證生成策略是否滿足環(huán)境約束條件。
為訓(xùn)練一種能生成有效動作、并在 RL 階段保持探索多樣性的策略模型,研究團(tuán)隊(duì)提出了一種創(chuàng)新性的兩階段強(qiáng)化學(xué)習(xí)框架:
Stage 1:策略初始化。在該階段,研究團(tuán)隊(duì)采用監(jiān)督學(xué)習(xí),通過在環(huán)境中的隨機(jī)游走(random walk)生成的軌跡來初始化視覺生成模型 π_θ。目標(biāo)是生成有效的視覺狀態(tài)序列,并在「模擬」環(huán)境中保持充足的探索性。在訓(xùn)練過程中,每條軌跡由一個(gè)視覺狀態(tài)序列 (v?, ..., v?) 構(gòu)成。對每條軌跡而言,研究團(tuán)隊(duì)提取 n?1 對圖像樣本 (v≤?, v???),其中 v≤? 表示前綴序列 (v?, ..., v?)。隨后,在給定輸入前綴的情況下,模型會接觸到來自 K 條有效軌跡的下一狀態(tài)候選集 {v???^(j)}_{j=1}^K。這些候選狀態(tài)共享相同的前綴,為防止模型過擬合某一特定轉(zhuǎn)換,同時(shí)鼓勵(lì)生成過程的隨機(jī)性,研究團(tuán)隊(duì)在每個(gè)訓(xùn)練步驟中隨機(jī)采樣一個(gè)候選狀態(tài) v???^(?) 作為監(jiān)督目標(biāo),通過最小化視覺微調(diào)損失函數(shù)(VPFT)來優(yōu)化模型:
所提 VPRL 框架概覽。圖中展示了該框架在視覺導(dǎo)航任務(wù)中的應(yīng)用,利用自回歸式大規(guī)模視覺模型進(jìn)行圖像生成。其中使用了 GRPO 對視覺策略模型進(jìn)行訓(xùn)練,并引入進(jìn)度獎(jiǎng)勵(lì)函數(shù)以鼓勵(lì)推進(jìn)性的動作并懲罰非法行為,從而實(shí)現(xiàn)與目標(biāo)一致的視覺規(guī)劃。
總體而言,該階段主要作為接下來的強(qiáng)化學(xué)習(xí)階段的熱啟動過程,旨在提升生成圖像的連貫性和整體規(guī)劃質(zhì)量。
Stage 2:面向視覺規(guī)劃的強(qiáng)化學(xué)習(xí)。在第一階段初始化后,模型擁有較強(qiáng)的探索能力,這對強(qiáng)化學(xué)習(xí)至關(guān)重要,可確保模型覆蓋多種狀態(tài)轉(zhuǎn)移路徑,避免陷入次優(yōu)策略。在第二階段中,模型通過模擬未來狀態(tài)(即潛在動作的后果),依據(jù)生成結(jié)果獲得獎(jiǎng)勵(lì)反饋,從而逐步引導(dǎo)學(xué)習(xí)出有效的視覺規(guī)劃策略。
具體而言,給定當(dāng)前輸入前綴 v≤?,舊版本模型 π_θ^old 會采樣出 G 個(gè)候選中間狀態(tài) {?v???^(1), ..., ?v???^(G)}。每個(gè)候選狀態(tài)代表了時(shí)間步 i 上智能體采取某一行動 a^(k) 后,模擬產(chǎn)生的下一視覺狀態(tài)。研究團(tuán)隊(duì)使用基于規(guī)則的解析函數(shù)將狀態(tài)對 (v?, ?v???^(k)) 映射為離散動作,以便進(jìn)行結(jié)構(gòu)化解釋。
隨后,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)復(fù)合獎(jiǎng)勵(lì)函數(shù) r (v?, ?v???^(k)) 來對每個(gè)候選狀態(tài)進(jìn)行打分,該獎(jiǎng)勵(lì)衡量候選狀態(tài)是否代表了對目標(biāo)狀態(tài)的有效推進(jìn)(即是否有用)。
不同于傳統(tǒng)強(qiáng)化學(xué)習(xí)中依賴學(xué)習(xí)一個(gè)價(jià)值函數(shù)評估器(critic),GRPO 通過候選組內(nèi)的相對比較來計(jì)算優(yōu)勢值,從而提供易于解釋、計(jì)算更加高效的訓(xùn)練信號。此時(shí)每個(gè)候選的相對優(yōu)勢 A^(k) 的計(jì)算方式為:
為引導(dǎo)模型產(chǎn)生更優(yōu)的候選響應(yīng),并強(qiáng)化高優(yōu)勢行為的傾向,研究團(tuán)隊(duì)根據(jù)以下目標(biāo)函數(shù)更新策略:
其中,D 指代前綴分布,ρ^(k) = π_θ(?v???^(k) | v≤?) / π_θ^old (?v???^(k) | v≤?) 表示重要性采樣比值。
獎(jiǎng)勵(lì)設(shè)計(jì)。與離散操作或文本 token 不同,視覺輸出往往是高維稀疏信息,難以被直接分解為可解釋的單元。在研究團(tuán)隊(duì)的視覺規(guī)劃框架下,核心挑戰(zhàn)在于如何判斷一個(gè)生成的視覺狀態(tài)能否準(zhǔn)確表達(dá)對應(yīng)的規(guī)劃動作。因此,獎(jiǎng)勵(lì)設(shè)計(jì)聚焦于在考慮環(huán)境約束下,對朝向目標(biāo)狀態(tài)的推進(jìn)進(jìn)行評估。
為解釋由狀態(tài) v? 到候選狀態(tài) ?v???^(k) 所隱含的動作計(jì)劃,研究團(tuán)隊(duì)定義一個(gè)狀態(tài) - 動作解析函數(shù) P: V × V → A ∪ E,其中 A 表示有效動作集合,E 表示非法狀態(tài)轉(zhuǎn)移集合(例如違反物理約束的動作)。
該過程可借助獨(dú)立的圖像分割組件或基于規(guī)則的腳本完成,從像素層級數(shù)據(jù)中解析出可解釋的動作單元。
一旦動作被識別,研究團(tuán)隊(duì)引入「進(jìn)度圖」(progress map)D (v) ∈ ?,表示從某一可視狀態(tài) v 到達(dá)目標(biāo)狀態(tài)所需的剩余步驟數(shù)或努力度。通過比較當(dāng)前狀態(tài)與生成狀態(tài)在進(jìn)度圖上的相對變化,研究團(tuán)隊(duì)將動作集合 A ∪ E 劃分為三類:
據(jù)此,研究團(tuán)隊(duì)提出進(jìn)度獎(jiǎng)勵(lì)函數(shù) r (v?, ?v???^(k)):
r =α???, 若為推進(jìn)有效動作(optimal)r =α????, 若為無推進(jìn)的動作(non-optimal) r =α???, 若為非法動作(invalid)
在實(shí)驗(yàn)中,研究團(tuán)隊(duì)設(shè)置 α??? = 1,α???? = 0,α??? = ?5,從而鼓勵(lì)推進(jìn)行為,懲罰不可行的狀態(tài)轉(zhuǎn)移。
系統(tǒng)變體
除提出的 VPRL 主干框架外,為全面評估監(jiān)督方式(語言 vs. 圖像)與優(yōu)化方法(監(jiān)督微調(diào) vs. 強(qiáng)化學(xué)習(xí))對性能的影響,研究團(tuán)隊(duì)提出了若干系統(tǒng)變體作為對比基線:
視覺微調(diào)規(guī)劃(VPFT)。研究團(tuán)隊(duì)提出「視覺微調(diào)規(guī)劃」(Visual Planning via Fine-Tuning, VPFT)作為本框架的簡化版本,其訓(xùn)練結(jié)構(gòu)與第 2.2 節(jié)中的階段一一致,但使用最優(yōu)規(guī)劃軌跡代替隨機(jī)軌跡。對于每個(gè)環(huán)境,研究團(tuán)隊(duì)采樣一條最小步驟的最優(yōu)軌跡 (v?^opt, v?^opt, ..., v?^opt),該軌跡從初始狀態(tài) v?^opt = v? 通向目標(biāo)狀態(tài)。在每一步,模型根據(jù)當(dāng)前前綴 v≤?^opt 學(xué)習(xí)預(yù)測下一個(gè)狀態(tài) v???^opt。訓(xùn)練目標(biāo)與公式(2)相同,以最優(yōu)軌跡作為監(jiān)督信號。
基于語言的監(jiān)督微調(diào)(SFT)。在該對比方法中,規(guī)劃任務(wù)被構(gòu)建于語言模態(tài)中。與生成圖像形式的中間狀態(tài)不同,模型需生成動作序列的文本描述。形式上,給定輸入視覺狀態(tài) v 及任務(wù)描述文本提示 p,模型被訓(xùn)練以輸出一個(gè)動作序列 t = (t?, ..., t_L),其中每個(gè) token t? ∈ V_text 表示一個(gè)動作。模型輸入為提示詞 token 與視覺 token 的拼接,目標(biāo)為對應(yīng)的文字動作序列。研究團(tuán)隊(duì)采用此前在自回歸模型中常用的監(jiān)督微調(diào)方法,通過最小化交叉熵?fù)p失來學(xué)習(xí)動作預(yù)測:
視覺規(guī)劃的實(shí)驗(yàn)表現(xiàn)如何?
該團(tuán)隊(duì)基于一些代表性任務(wù)檢驗(yàn)了視覺規(guī)劃這一新范式的實(shí)際表現(xiàn)。
具體來說,為了對比視覺規(guī)劃與基于語言的規(guī)劃,該團(tuán)隊(duì)實(shí)驗(yàn)了三種視覺導(dǎo)航環(huán)境:FROZENLAKE、MAZE 和 MINIBEHAVIOR。所有這些環(huán)境都可以在兩種模態(tài)下求解,這樣一來便能更加輕松地對比兩種策略。
模型方面,該團(tuán)隊(duì)選擇的是完全在視覺數(shù)據(jù)上訓(xùn)練的模型 —— 這些模型在預(yù)訓(xùn)練過程中未接觸過任何文本數(shù)據(jù)。
具體來說,他們選擇了大型視覺模型 LVM-3B 作為骨干網(wǎng)絡(luò),并使用了 VPFT 和 VPRL 方法。與此同時(shí),相對比的文本模型包括不同設(shè)置的 Qwen 2.5-VL-Instruct 以及 Gemini 2.0 Flash (gemini-2.0-flash-002) 和先進(jìn)思維模型 Gemini 2.5 Pro (gemini-2.5-pro-preview-03-25)。
評估指標(biāo)則采用了精確匹配 (EM) 和進(jìn)度率 (PR) 兩種。
那么,視覺規(guī)劃的表現(xiàn)如何呢?
視覺規(guī)劃勝過文本規(guī)劃
如下表 1 所示,視覺規(guī)劃器(VPFT 和 VPRL)在所有任務(wù)上均取得了最高分,優(yōu)于所有使用語言推理的基線模型。
在相同的通過微調(diào)的監(jiān)督訓(xùn)練方法下,VPFT 在精確匹配 (EM) 指標(biāo)上平均比基于語言的 SFT 高出 22% 以上,而 VPRL 的優(yōu)勢還更大。在進(jìn)度率 (PR) 方面也觀察到了類似的趨勢。
這些結(jié)果表明,視覺規(guī)劃范式在以視覺為中心的任務(wù)中優(yōu)勢明顯,因?yàn)檎Z言驅(qū)動的方法可能與任務(wù)結(jié)構(gòu)不太契合。純推理模型(無論是大型閉源系統(tǒng)還是小型開源 MLLM)。如果不針對特定任務(wù)進(jìn)行調(diào)優(yōu),在完成這些規(guī)劃任務(wù)時(shí)都會遇到困難。即使是先進(jìn)的思維模型 Gemini 2.5 Pro,在更復(fù)雜的 MAZE 和 MINIBEHAVIOR 任務(wù)中,EM 和 PR 也幾乎低于 50%,這表明當(dāng)前前沿的語言模型還難以應(yīng)對這些挑戰(zhàn),盡管這些任務(wù)對人類來說是直觀的。
強(qiáng)化學(xué)習(xí)能帶來增益
兩階段強(qiáng)化學(xué)習(xí)方法 VPRL 帶來了最高的整體性能,超越了其它變體。在第二階段之后,該模型在更簡單的 FROZENLAKE 任務(wù)上實(shí)現(xiàn)了近乎完美的規(guī)劃(91.6% EM,93.2% PR),并在 MAZE 和 MINIBEHAVIOR 任務(wù)上保持了強(qiáng)勁的性能。在所有任務(wù)上的性能都比 VPFT 高 20% 以上。
正如預(yù)期,該團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)訓(xùn)練的第一階段(強(qiáng)制輸出格式,但不教授規(guī)劃行為)獲得了近乎隨機(jī)的性能(例如,在 FROZENLAKE 數(shù)據(jù)集上實(shí)現(xiàn)了 11% 的 EM)。在使用新提出的獎(jiǎng)勵(lì)方案進(jìn)行第二階段的全面優(yōu)化后,規(guī)劃器達(dá)到了最佳性能。這一提升凸顯了強(qiáng)化學(xué)習(xí)相對于 SFT 的一個(gè)關(guān)鍵優(yōu)勢:VPRL 允許模型自由探索各種動作并從其結(jié)果中學(xué)習(xí),而 VPFT 則依賴于模仿,并且傾向于擬合訓(xùn)練分布。通過獎(jiǎng)勵(lì)驅(qū)動式更新來鼓勵(lì)利用(exploitation),VPRL 學(xué)會了捕捉潛在的規(guī)則和模式,從而實(shí)現(xiàn)了更強(qiáng)大的規(guī)劃性能。
下圖展示了一個(gè)可視化的對比示例。
隨著復(fù)雜度提升能保持穩(wěn)健性
該團(tuán)隊(duì)發(fā)現(xiàn),在研究不同方法在不同任務(wù)難度(更大的網(wǎng)格通常更難)下的表現(xiàn)時(shí),強(qiáng)化學(xué)習(xí)依然能保持優(yōu)勢。
如圖 5 所示,當(dāng)在 FROZENLAKE 環(huán)境中,隨著網(wǎng)格尺寸從 3×3 增加到 6×6,Gemini 2.5 Pro 的 EM 分?jǐn)?shù)從 98.0% 驟降至了 38.8%。相比之下,新提出的視覺規(guī)劃器不僅在所有網(wǎng)格尺寸下都保持了更高的準(zhǔn)確度,而且性能曲線也更加平坦。同樣,VPRL 也表現(xiàn)得比 VPFT 更穩(wěn)定,在 3×3 網(wǎng)格上 EM 分?jǐn)?shù)保持在 97.6%,在 6×6 網(wǎng)格上也仍能達(dá)到 82.4%,這表明 VPRL 的穩(wěn)健性相當(dāng)好。