讓VLM學(xué)會(huì)「心中有世界」:VAGEN用多輪RL把視覺智能變成「世界模型」推理機(jī)器
當(dāng)今的 AI 智能體(Agent)越來(lái)越強(qiáng)大,尤其是像 VLM(視覺-語(yǔ)言模型)這樣能「看懂」世界的智能體。但研究者發(fā)現(xiàn)一個(gè)大問(wèn)題:相比于只處理文本的 LLM 智能體,VLM 智能體在面對(duì)復(fù)雜的視覺任務(wù)時(shí),常常表現(xiàn)得像一個(gè)「莽撞的執(zhí)行者」,而不是一個(gè)「深思熟慮的思考者」。
它們?yōu)槭裁磿?huì)這樣?因?yàn)樗鼈兏兄澜绲姆绞綇暮?jiǎn)單的文本變成了復(fù)雜的視覺觀察。它們拿到的信息往往是片面和嘈雜的(比如只能看到房間的一個(gè)角落)。這在學(xué)術(shù)上被稱為「部分可觀測(cè)馬爾可夫決策過(guò)程」(POMDP)。
簡(jiǎn)單來(lái)說(shuō),智能體就像通過(guò)一個(gè)鑰匙孔觀察世界,它必須根據(jù)看到的有限信息,去猜測(cè)(構(gòu)建)整個(gè)房間的全貌。這個(gè)「猜測(cè)」的能力,就是「世界模型」(World Model)。
我們不禁要問(wèn):我們能否通過(guò)強(qiáng)化學(xué)習(xí)(RL),教會(huì) VLM 智能體在行動(dòng)前,先在「腦中」顯式地構(gòu)建一個(gè)內(nèi)部世界模型呢?
這就是美國(guó)西北大學(xué)(Manling Li 團(tuán)隊(duì))、華盛頓大學(xué)(Ranjay Krishna)和斯坦福大學(xué)(李飛飛、吳佳俊、Yejin Choi 團(tuán)隊(duì))等機(jī)構(gòu)的聯(lián)合研究成果 VAGEN 的核心。

論文共一作者王子涵的推文
具體而言,他們提出了一個(gè)創(chuàng)新的強(qiáng)化學(xué)習(xí)(RL)框架,不再僅僅獎(jiǎng)勵(lì)「正確的最終行動(dòng)」,而是轉(zhuǎn)而獎(jiǎng)勵(lì)「正確的思考過(guò)程」。

- 論文標(biāo)題:VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents
- 論文地址:https://arxiv.org/abs/2510.16907
- 項(xiàng)目頁(yè)面:https://vagen-ai.github.io
核心思想:獎(jiǎng)勵(lì)「三思而后行」的思考過(guò)程

VAGEN 不再讓 VLM 憑感覺直接輸出動(dòng)作(如「向左轉(zhuǎn)」),而是強(qiáng)制它遵循一個(gè)結(jié)構(gòu)化的「思考模板」,這個(gè)模板包含了構(gòu)建世界模型的兩個(gè)核心步驟:
- StateEstimation (觀現(xiàn)狀): 「我看到了什么?當(dāng)前的狀態(tài)是什么?」
- TransitionModeling (預(yù)后路): 「如果我這么做了,接下來(lái)會(huì)發(fā)生什么?」
如下圖所示,智能體的「內(nèi)心戲」(Agent Internal Belief)被分成了三部分:
- <observation> (觀測(cè)): 描述它所看到的當(dāng)前狀態(tài)事實(shí) 。
- <reasoning> (推理): 基于觀測(cè),它計(jì)劃要采取的行動(dòng) 。
- <prediction> (預(yù)測(cè)): 預(yù)測(cè)它執(zhí)行動(dòng)作后,世界將變成什么樣子 。

圖 1:VAGEN 框架的核心循環(huán) 。智能體在行動(dòng)前,必須先在內(nèi)部信念 (Agent Internal Belief) 中明確地進(jìn)行狀態(tài)估計(jì) (observation) 和狀態(tài)預(yù)測(cè) (prediction) 。
VAGEN 通過(guò)強(qiáng)化學(xué)習(xí)(RL)來(lái)獎(jiǎng)勵(lì)這種結(jié)構(gòu)化的思考過(guò)程 。實(shí)驗(yàn)證明,這種 「WorldModeling」(即「現(xiàn)狀+預(yù)后路」)的思考策略,遠(yuǎn)勝于「不思考」(NoThink)或 「自由思考」(FreeThink)的智能體 。
發(fā)現(xiàn) 1:「內(nèi)心獨(dú)白」用什么語(yǔ)言最好?
既然要智能體「思考」,那么它的「內(nèi)心獨(dú)白」(internal monologue)應(yīng)該用什么格式來(lái)表達(dá)呢?研究者測(cè)試了三種不同的表示方法 :
- 自然語(yǔ)言 (Natural Language): 例如,「紅方塊在綠方塊的上面?!?/span>
- 結(jié)構(gòu)化 (Structured): 例如:{red_cube: [10, 20, 50], green_cube: [10, 20, 20]} 這樣的坐標(biāo)。
- 符號(hào) (Symbolic): 例如:用特殊字符表示的地圖網(wǎng)格。
該團(tuán)隊(duì)的發(fā)現(xiàn)是:最佳表示方法取決于任務(wù)的性質(zhì) 。
- 對(duì)于通用任務(wù)(如 Sokoban 推箱子),自然語(yǔ)言表現(xiàn)最好 。
- 對(duì)于高精度操控任務(wù)(如 PrimitiveSkill 機(jī)械臂抓?。?,結(jié)構(gòu)化格式(提供精確坐標(biāo))是必不可少的 。

圖 2:VAGEN 的實(shí)驗(yàn)環(huán)境涵蓋了從 2D 網(wǎng)格(a, b)到 3D 導(dǎo)航(c)、機(jī)械臂操控(d)和 SVG 重建(e)等多種任務(wù)。
發(fā)現(xiàn) 2:如何高效獎(jiǎng)勵(lì)「好思考」?VAGEN-Full 方案
傳統(tǒng)的 RL 獎(jiǎng)勵(lì)太稀疏了 —— 智能體可能要在一個(gè)任務(wù)(比如推箱子)中摸索幾十步,最后才知道自己是成功還是失敗 。這對(duì)訓(xùn)練「思考過(guò)程」是極其低效的 。
為了解決這個(gè)問(wèn)題,VAGEN 引入了兩個(gè)關(guān)鍵組件,構(gòu)成了 VAGEN-Full 框架 :
1. 世界模型獎(jiǎng)勵(lì) (WorldModeling Reward)
不再等到任務(wù)結(jié)束才給獎(jiǎng)勵(lì),而是在智能體的每一步思考后都進(jìn)行即時(shí)評(píng)估 。
研究者引入了一個(gè)「LLM-as-a-Judge」。在每一輪,這個(gè)「法官」會(huì)讀取智能體的 <observation>(現(xiàn)狀)和 <prediction>(預(yù)測(cè)),并將它們與環(huán)境的「真實(shí)狀態(tài)」(Ground Truth)進(jìn)行比較 。
- 如果智能體對(duì)當(dāng)前狀態(tài)的描述是準(zhǔn)確的(例如,「紅方塊在 (10, 20)」),給個(gè)獎(jiǎng)!
- 如果智能體對(duì)下一步的預(yù)測(cè)是準(zhǔn)確的(例如,「紅方塊將移動(dòng)到 (15, 20)」),再給個(gè)獎(jiǎng)!
這樣一來(lái),智能體就能在「思考」的當(dāng)下立刻獲得反饋,極大地提高了學(xué)習(xí)效率 。
2. 雙層優(yōu)勢(shì)估計(jì) (Bi-Level GAE)
有了「思考獎(jiǎng)勵(lì)」還不夠,還需要解決「獎(jiǎng)勵(lì)分配」問(wèn)題 。
傳統(tǒng)的 RL 方法(Token-Level GAE)試圖估計(jì)智能體生成的每一個(gè)詞的好壞,這非?;靵y且不穩(wěn)定 。
研究者提出的 Bi-Level GAE(雙層 GAE) 更加高效 。它將信用分配分為兩步:
- 回合層 (Turn-level): 首先,評(píng)估這一整個(gè)回合(包含觀測(cè)、推理、預(yù)測(cè)和行動(dòng))的總體價(jià)值。這個(gè)「思考-行動(dòng)」組合是好是壞?
- 詞元層 (Token-level): 然后,再將這個(gè)總體的「好/壞」評(píng)價(jià),分配回產(chǎn)生這個(gè)思考的每一個(gè)詞元(token)上 。

圖 3:(上) 標(biāo)準(zhǔn) Token-Level GAE 試圖將稀疏的最終獎(jiǎng)勵(lì)(ΣR)分配給每一個(gè) token,導(dǎo)致信號(hào)混亂 。(下) Bi-Level GAE 首先在回合層面(紫色箭頭)分配獎(jiǎng)勵(lì) (r0, r1...),然后再精細(xì)地分配到回合內(nèi)的 token 上(橙色箭頭),實(shí)現(xiàn)分層信用分配 。
結(jié)果:3B 模型領(lǐng)先 GPT-5!
VAGEN 框架的效果非常驚人。研究者使用一個(gè)開源的 3B VLM(Qwen2.5-VL-3B) 作為基礎(chǔ)模型進(jìn)行訓(xùn)練。
結(jié)果顯示, VAGEN-Full(3B) 模型在 5 個(gè)多樣化智能體任務(wù)上的綜合得分達(dá)到了 0.82 。
這是什么概念?
- 它遠(yuǎn)超未經(jīng)訓(xùn)練的同一模型(0.21 )。
- 它超過(guò)了多款閉源大型模型,包括 GPT-5 (0.75)、Gemini 2.5 Pro (0.67) 和 Claude 4.5 (0.62) 。

表 1:VAGEN 和其他模型與架構(gòu)的性能對(duì)比。

圖 4:訓(xùn)練成功率曲線 。VAGEN-Full(橙色線)在 Sokoban、PrimitiveSkill 和 Navigation 等任務(wù)中,展現(xiàn)了比 VAGEN-Base(藍(lán)線)更快、更穩(wěn)定、更強(qiáng)的學(xué)習(xí)能力。
總結(jié)
VLM 智能體不應(yīng)該只是被動(dòng)響應(yīng)的「執(zhí)行器」。VAGEN 框架證明了,通過(guò)顯式地強(qiáng)化智能體的內(nèi)部世界模型推理(包括狀態(tài)估計(jì)和轉(zhuǎn)移建模),我們可以構(gòu)建出更強(qiáng)大、更魯棒、更具泛化能力的智能體 。
通過(guò) WorldModeling Reward(LLM Judge)和 Bi-Level GAE(雙層獎(jiǎng)勵(lì)分配),研究者為 VLM 智能體裝上了一個(gè)「會(huì)思考的大腦」,讓它們?cè)诳词澜绲囊曈X任務(wù)中,真正做到了「三思而后行」。



































