偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="j5u7d"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！

發(fā)布于 2025-5-30 05:41

瀏覽

0收藏

語言并不總是推理的最自然或最有效的模態(tài)，特別是在涉及空間和幾何信息的任務(wù)中?；诖?，劍橋&Google等提出并開源了一種新的范式——視覺規(guī)劃（Visual Planning），它通過純視覺表示進行規(guī)劃，獨立于文本。

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

在這個范式中，規(guī)劃是通過圖像序列來執(zhí)行的，這些圖像序列在視覺領(lǐng)域編碼了逐步推理的過程，類似于人類如何繪制草圖或可視化未來的行動。

推理范式的比較。傳統(tǒng)方法（上兩行）會生成冗長且不準確的文字計劃，而視覺規(guī)劃范式（最下行）則直接預(yù)測下一個視覺狀態(tài)，形成了一個純粹的圖像軌跡，無需語言中介。

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

引入了一個新穎的強化學(xué)習(xí)框架——通過強化學(xué)習(xí)進行視覺規(guī)劃（VPRL），該框架通過GRPO對大型視覺模型進行后訓(xùn)練。

提出的VPRL框架概覽，通過自回歸大型視覺模型在視覺導(dǎo)航任務(wù)的背景下展示圖像生成，使用GRPO訓(xùn)練視覺策略模型，利用促進進展行為并懲罰無效行為的進展獎勵，實現(xiàn)與目標(biāo)對齊的視覺規(guī)劃。

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

第一階段：策略初始化（Policy Initialization）：

使用隨機游走（random walks）生成的軌跡來初始化模型，目的是讓模型在模擬環(huán)境中生成有效的視覺狀態(tài)序列，并保留探索能力。

通過監(jiān)督學(xué)習(xí)（supervised learning）對模型進行訓(xùn)練，使其能夠生成與隨機游走相似的視覺軌跡。

訓(xùn)練過程中，模型從每個軌跡中提取圖像對，并從多個有效軌跡中隨機選擇一個作為監(jiān)督目標(biāo)，以防止過擬合并鼓勵隨機性。

第二階段：強化學(xué)習(xí)優(yōu)化（Reinforcement Learning Optimization）：

在第一階段的基礎(chǔ)上，利用強化學(xué)習(xí)（RL）進一步優(yōu)化模型，使其能夠生成更有效的視覺規(guī)劃。

引入了GRPO（Group Relative Policy Optimization）算法，通過比較候選響應(yīng)的相對優(yōu)勢來提供訓(xùn)練信號，從而避免了學(xué)習(xí)評估函數(shù)（critic）的復(fù)雜性。

設(shè)計了一個基于進度的獎勵函數(shù)（progress reward function），該函數(shù)通過比較當(dāng)前狀態(tài)和生成的候選狀態(tài)之間的進度差異來評估動作的有效性。獎勵函數(shù)分為三類：最優(yōu)動作（optimal actions）、非最優(yōu)動作（non-optimal actions）和無效動作（invalid actions），分別給予不同的獎勵值。

FROZENLAKE：這是一個隨機的網(wǎng)格世界，代理需要從指定的起始位置出發(fā)，找到一條安全的路徑到達目的地，同時避免掉入“冰洞”。

MAZE：給定一個描述迷宮布局的初始圖像，模型需要從起點（綠色點）出發(fā)，穿過迷宮到達終點（紅色旗幟）。

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

實驗選擇了三個視覺導(dǎo)航任務(wù)：FROZENLAKE、MAZE和MINIBEHAVIOR，這些任務(wù)都可以通過視覺表示進行規(guī)劃。

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

比較了視覺規(guī)劃方法（VPFT和VPRL）與語言推理方法（如Gemini 2.5 Pro和Qwen 2.5-VL-Instruct-3B）。VPRL在所有任務(wù)中表現(xiàn)最佳，顯著優(yōu)于其他方法。

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

僅用圖像也能Think：Google等提出一種視覺規(guī)劃的全新推理范式！-AI.x社區(qū)

https://arxiv.org/pdf/2505.11409
https://github.com/yix8/VisualPlanning
Visual Planning: Let’s Think Only with Images

本文轉(zhuǎn)載自???PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺問題！

Crystalcxt ? 2496瀏覽 ? 0回復(fù)
GPT超越擴散、視覺生成Scaling Law時刻！北大&字節(jié)提出VAR范式

輕薄滴假象 ? 2820瀏覽 ? 0回復(fù)
跳舞時飛揚的裙擺，AI也能高度還原了，南洋理工提出動態(tài)人體渲染新范式

輕薄滴假象 ? 3082瀏覽 ? 0回復(fù)
標(biāo)注受限也能識別多標(biāo)簽圖像！中山大學(xué)等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024

duhorse ? 2661瀏覽 ? 0回復(fù)
蘋果開源視覺模型界的“瑞士軍刀”，能執(zhí)行數(shù)十種任務(wù)

Aceryt ? 3394瀏覽 ? 0回復(fù)
自回歸扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到圖像生成框架

angel ? 3456瀏覽 ? 0回復(fù)
介紹一種實用的RAG技術(shù)：父文檔檢索（PDR）

51CTO內(nèi)容精選 ? 2893瀏覽 ? 0回復(fù)
一種支持4種多模態(tài)RAG技術(shù)的引擎：VARAG

PaperAgent ? 3691瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 4488瀏覽 ? 0回復(fù)
COLM 2024：一種新的深度學(xué)習(xí)架構(gòu)——Monotone Deep Boltzmann Machines

AIGC最前線 ? 3074瀏覽 ? 0回復(fù)
VisRAG：清華大學(xué)&面壁智能提出了一種新的RAG思路，效果提升明顯

大語言模型論文跟蹤 ? 2954瀏覽 ? 0回復(fù)
HiQA：一種用于多文檔問答的層次化上下文增強RAG

大模型自然語言處理 ? 2467瀏覽 ? 0回復(fù)
微軟發(fā)布LLM2CLIP：一種新型AI技術(shù)，LLM成為CLIP視覺編碼器的“老師”

Halo咯咯 ? 4160瀏覽 ? 0回復(fù)
一種基于學(xué)習(xí)的電池壽命預(yù)測（Python）

步驚云_32 ? 2818瀏覽 ? 0回復(fù)
圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit：BrushNet進階版來了

angel ? 3319瀏覽 ? 0回復(fù)
釋放你的想象！支持25種復(fù)雜編輯類型！浙大等提出AnyEdit：統(tǒng)一高質(zhì)量圖像編輯框架

angel ? 3622瀏覽 ? 0回復(fù)
微軟人工智能研究院推出 OLA-VLM：一種以視覺為中心的優(yōu)化多模態(tài)大型語言模型的方法

Halo咯咯 ? 2932瀏覽 ? 0回復(fù)
FlexTok-一種圖像編碼新方式

shizhi02 ? 1914瀏覽 ? 0回復(fù)
Google介紹了Agent2Agent（A2A）：一種新的開放協(xié)議，允許AI代理在生態(tài)系統(tǒng)中安全地合作

Halo咯咯 ? 2782瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Doc2X：為知識庫RAG接上高精度文檔解析的“智能引擎” 8天前發(fā)布
RAG-Anything：全面的一體化多模態(tài)文檔處理 RAG 系統(tǒng) 8天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：阿里開源QwenLong-L1：首個以強化學(xué)習(xí)訓(xùn)練的長上下文推理大模型

下一篇： ACL'25 | 多智能體叛變進行中？首個多智能體安全守衛(wèi)G-Safeguard亮相！

社區(qū)精華內(nèi)容

目錄