僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!
語言并不總是推理的最自然或最有效的模態(tài),特別是在涉及空間和幾何信息的任務(wù)中?;诖?,劍橋&Google等提出并開源了一種新的范式——視覺規(guī)劃(Visual Planning),它通過純視覺表示進行規(guī)劃,獨立于文本。
在這個范式中,規(guī)劃是通過圖像序列來執(zhí)行的,這些圖像序列在視覺領(lǐng)域編碼了逐步推理的過程,類似于人類如何繪制草圖或可視化未來的行動。
推理范式的比較。 傳統(tǒng)方法(上兩行)會生成冗長且不準確的文字計劃,而視覺規(guī)劃范式(最下行)則直接預(yù)測下一個視覺狀態(tài),形成了一個純粹的圖像軌跡,無需語言中介。
引入了一個新穎的強化學(xué)習(xí)框架——通過強化學(xué)習(xí)進行視覺規(guī)劃(VPRL),該框架通過GRPO對大型視覺模型進行后訓(xùn)練。
提出的VPRL框架概覽,通過自回歸大型視覺模型在視覺導(dǎo)航任務(wù)的背景下展示圖像生成,使用GRPO訓(xùn)練視覺策略模型,利用促進進展行為并懲罰無效行為的進展獎勵,實現(xiàn)與目標(biāo)對齊的視覺規(guī)劃。
- 第一階段:策略初始化(Policy Initialization):
使用隨機游走(random walks)生成的軌跡來初始化模型,目的是讓模型在模擬環(huán)境中生成有效的視覺狀態(tài)序列,并保留探索能力。
通過監(jiān)督學(xué)習(xí)(supervised learning)對模型進行訓(xùn)練,使其能夠生成與隨機游走相似的視覺軌跡。
訓(xùn)練過程中,模型從每個軌跡中提取圖像對,并從多個有效軌跡中隨機選擇一個作為監(jiān)督目標(biāo),以防止過擬合并鼓勵隨機性。
- 第二階段:強化學(xué)習(xí)優(yōu)化(Reinforcement Learning Optimization):
在第一階段的基礎(chǔ)上,利用強化學(xué)習(xí)(RL)進一步優(yōu)化模型,使其能夠生成更有效的視覺規(guī)劃。
引入了GRPO(Group Relative Policy Optimization)算法,通過比較候選響應(yīng)的相對優(yōu)勢來提供訓(xùn)練信號,從而避免了學(xué)習(xí)評估函數(shù)(critic)的復(fù)雜性。
設(shè)計了一個基于進度的獎勵函數(shù)(progress reward function),該函數(shù)通過比較當(dāng)前狀態(tài)和生成的候選狀態(tài)之間的進度差異來評估動作的有效性。獎勵函數(shù)分為三類:最優(yōu)動作(optimal actions)、非最優(yōu)動作(non-optimal actions)和無效動作(invalid actions),分別給予不同的獎勵值。
FROZENLAKE: 這是一個隨機的網(wǎng)格世界,代理需要從指定的起始位置出發(fā),找到一條安全的路徑到達目的地,同時避免掉入“冰洞”。
MAZE: 給定一個描述迷宮布局的初始圖像,模型需要從起點(綠色點)出發(fā),穿過迷宮到達終點(紅色旗幟)。
實驗選擇了三個視覺導(dǎo)航任務(wù):FROZENLAKE、MAZE和MINIBEHAVIOR,這些任務(wù)都可以通過視覺表示進行規(guī)劃。
比較了視覺規(guī)劃方法(VPFT和VPRL)與語言推理方法(如Gemini 2.5 Pro和Qwen 2.5-VL-Instruct-3B)。VPRL在所有任務(wù)中表現(xiàn)最佳,顯著優(yōu)于其他方法。
https://arxiv.org/pdf/2505.11409
https://github.com/yix8/VisualPlanning
Visual Planning: Let’s Think Only with Images
本文轉(zhuǎn)載自???PaperAgent??
