偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!

發(fā)布于 2025-5-30 05:41
瀏覽
0收藏

語言并不總是推理的最自然或最有效的模態(tài),特別是在涉及空間和幾何信息的任務(wù)中?;诖耍瑒?amp;Google等提出并開源了一種新的范式——視覺規(guī)劃(Visual Planning),它通過純視覺表示進(jìn)行規(guī)劃,獨(dú)立于文本。

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

在這個(gè)范式中,規(guī)劃是通過圖像序列來執(zhí)行的,這些圖像序列在視覺領(lǐng)域編碼了逐步推理的過程,類似于人類如何繪制草圖或可視化未來的行動(dòng)。

推理范式的比較。 傳統(tǒng)方法(上兩行)會(huì)生成冗長且不準(zhǔn)確的文字計(jì)劃,而視覺規(guī)劃范式(最下行)則直接預(yù)測(cè)下一個(gè)視覺狀態(tài),形成了一個(gè)純粹的圖像軌跡,無需語言中介。

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

引入了一個(gè)新穎的強(qiáng)化學(xué)習(xí)框架——通過強(qiáng)化學(xué)習(xí)進(jìn)行視覺規(guī)劃(VPRL),該框架通過GRPO對(duì)大型視覺模型進(jìn)行后訓(xùn)練。

提出的VPRL框架概覽,通過自回歸大型視覺模型在視覺導(dǎo)航任務(wù)的背景下展示圖像生成,使用GRPO訓(xùn)練視覺策略模型,利用促進(jìn)進(jìn)展行為并懲罰無效行為的進(jìn)展獎(jiǎng)勵(lì),實(shí)現(xiàn)與目標(biāo)對(duì)齊的視覺規(guī)劃。

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

  • 第一階段:策略初始化(Policy Initialization)

使用隨機(jī)游走(random walks)生成的軌跡來初始化模型,目的是讓模型在模擬環(huán)境中生成有效的視覺狀態(tài)序列,并保留探索能力。

通過監(jiān)督學(xué)習(xí)(supervised learning)對(duì)模型進(jìn)行訓(xùn)練,使其能夠生成與隨機(jī)游走相似的視覺軌跡。

訓(xùn)練過程中,模型從每個(gè)軌跡中提取圖像對(duì),并從多個(gè)有效軌跡中隨機(jī)選擇一個(gè)作為監(jiān)督目標(biāo),以防止過擬合并鼓勵(lì)隨機(jī)性。

  • 第二階段:強(qiáng)化學(xué)習(xí)優(yōu)化(Reinforcement Learning Optimization)

在第一階段的基礎(chǔ)上,利用強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步優(yōu)化模型,使其能夠生成更有效的視覺規(guī)劃。

引入了GRPO(Group Relative Policy Optimization)算法,通過比較候選響應(yīng)的相對(duì)優(yōu)勢(shì)來提供訓(xùn)練信號(hào),從而避免了學(xué)習(xí)評(píng)估函數(shù)(critic)的復(fù)雜性。

設(shè)計(jì)了一個(gè)基于進(jìn)度的獎(jiǎng)勵(lì)函數(shù)(progress reward function),該函數(shù)通過比較當(dāng)前狀態(tài)和生成的候選狀態(tài)之間的進(jìn)度差異來評(píng)估動(dòng)作的有效性。獎(jiǎng)勵(lì)函數(shù)分為三類:最優(yōu)動(dòng)作(optimal actions)、非最優(yōu)動(dòng)作(non-optimal actions)和無效動(dòng)作(invalid actions),分別給予不同的獎(jiǎng)勵(lì)值。

FROZENLAKE: 這是一個(gè)隨機(jī)的網(wǎng)格世界,代理需要從指定的起始位置出發(fā),找到一條安全的路徑到達(dá)目的地,同時(shí)避免掉入“冰洞”。

MAZE: 給定一個(gè)描述迷宮布局的初始圖像,模型需要從起點(diǎn)(綠色點(diǎn))出發(fā),穿過迷宮到達(dá)終點(diǎn)(紅色旗幟)。

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

實(shí)驗(yàn)選擇了三個(gè)視覺導(dǎo)航任務(wù):FROZENLAKE、MAZE和MINIBEHAVIOR,這些任務(wù)都可以通過視覺表示進(jìn)行規(guī)劃。

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

比較了視覺規(guī)劃方法(VPFT和VPRL)與語言推理方法(如Gemini 2.5 Pro和Qwen 2.5-VL-Instruct-3B)。VPRL在所有任務(wù)中表現(xiàn)最佳,顯著優(yōu)于其他方法。

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

僅用圖像也能Think:Google等提出一種視覺規(guī)劃的全新推理范式!-AI.x社區(qū)

https://arxiv.org/pdf/2505.11409
https://github.com/yix8/VisualPlanning
Visual Planning: Let’s Think Only with Images

本文轉(zhuǎn)載自???PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦