偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!

發(fā)布于 2025-9-11 09:14
瀏覽
0收藏

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

文章地址:https://arxiv.org/pdf/2509.02722 

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出學(xué)習(xí)一種以自然語(yǔ)言作為抽象世界狀態(tài)表示的世界模型。引入了視覺語(yǔ)言世界模型(Vision Language World Model, VLWM),該模型通過(guò)視覺觀察感知環(huán)境,并利用基于語(yǔ)言的抽象來(lái)預(yù)測(cè)世界的演化過(guò)程。
  • 提出將直接世界建模作為目標(biāo),并以大規(guī)模、未經(jīng)過(guò)濾的視頻數(shù)據(jù)為基礎(chǔ)進(jìn)行訓(xùn)練。
  • 采用了一條高效的抽象處理流程,并引入了一種反思式的 System-2 模式,即“帶推理的規(guī)劃(planning with reasoning)”。
  • VLWM 在多個(gè)評(píng)估指標(biāo)上都有較大提升,在 WorldPrediction 程序化規(guī)劃任務(wù)中也達(dá)到了 45% 的準(zhǔn)確率,更是創(chuàng)下了SOTA。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

當(dāng)前的高級(jí)世界模型在理解和推理動(dòng)作的語(yǔ)義和時(shí)間抽象方面發(fā)展不足,無(wú)法有效支持復(fù)雜的規(guī)劃任務(wù)。

提出的方案

引入視覺語(yǔ)言世界模型(VLWM),利用自然語(yǔ)言作為抽象的世界狀態(tài)表示,通過(guò)視覺觀察來(lái)感知環(huán)境,并預(yù)測(cè)世界的演化過(guò)程。

應(yīng)用的技術(shù)

  1. 將原始視頻壓縮為分層的字幕樹(Tree of Captions),并通過(guò)基于大語(yǔ)言模型的自我優(yōu)化(Self-Refine)方法精煉為結(jié)構(gòu)化的目標(biāo)-計(jì)劃描述。
  2. 學(xué)習(xí)動(dòng)作策略和動(dòng)態(tài)模型,支持反應(yīng)性系統(tǒng)1計(jì)劃解碼和反思性系統(tǒng)2規(guī)劃。
  3. 使用自監(jiān)督訓(xùn)練的評(píng)論模型來(lái)評(píng)估假設(shè)未來(lái)狀態(tài)與預(yù)期目標(biāo)狀態(tài)之間的語(yǔ)義距離。

達(dá)到的效果

VLWM 在輔助視覺規(guī)劃(VPA)的基準(zhǔn)評(píng)估和 PlannerArena 人類評(píng)估中實(shí)現(xiàn)了最先進(jìn)的性能,系統(tǒng)2將 Elo 分?jǐn)?shù)提高了27%。在 RoboVQA 和 WorldPrediction 基準(zhǔn)測(cè)試中,VLWM 也超越了強(qiáng)大的視覺語(yǔ)言模型基線,達(dá)到了SOTA。

方法論

本文旨在訓(xùn)練一個(gè)能夠理解并預(yù)測(cè)動(dòng)作如何影響物理世界狀態(tài)的世界模型,并開發(fā)一個(gè)以該世界模型為核心組件的推理與規(guī)劃框架。本文方法建立在 LeCun提出的智能體架構(gòu)之上,其中一個(gè)與獎(jiǎng)勵(lì)無(wú)關(guān)的世界模型在給定候選動(dòng)作計(jì)劃的情況下進(jìn)行推演,智能體評(píng)估每個(gè)推演結(jié)果與當(dāng)前狀態(tài)向期望目標(biāo)推進(jìn)的程度,并選擇最小化該距離(即成本)的計(jì)劃。


下面首先詳細(xì)介紹了本文如何提取結(jié)構(gòu)化的基于語(yǔ)言的表示作為未來(lái)世界狀態(tài)的抽象,包括出于效率考慮的語(yǔ)義壓縮技術(shù)和質(zhì)量?jī)?yōu)化策略。接著,介紹了如何以自監(jiān)督方式訓(xùn)練 critic 來(lái)評(píng)估成本,并基于成本最小化原理解釋 system-2 的計(jì)劃搜索過(guò)程。

視覺語(yǔ)言世界建模

給定一個(gè)視頻,目標(biāo)是提取如下圖2(b) 所示的結(jié)構(gòu)化語(yǔ)言表示,該表示由一個(gè)目標(biāo)(描述與解釋)和一個(gè)過(guò)程性計(jì)劃(動(dòng)作-狀態(tài)序列)組成。對(duì)于這種視頻到文本的提取任務(wù),一個(gè)直接的方法是將完整視頻輸入到一個(gè)視覺語(yǔ)言模型(VLM)中,并提示其提取語(yǔ)言表示。然而,這里存在一個(gè)不可能三角:在可行的計(jì)算與內(nèi)存預(yù)算下,同時(shí)實(shí)現(xiàn)以下三點(diǎn)幾乎不可能:1)用于細(xì)粒度感知的高空間分辨率,2)覆蓋多個(gè)過(guò)程步驟的長(zhǎng)時(shí)間跨度,3)能夠理解復(fù)雜指令的大型智能 VLM。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

為了解決這一挑戰(zhàn),提出了一個(gè)兩階段策略。首先,將輸入視頻壓縮為一個(gè)密集的 字幕樹(Tree of Captions),該過(guò)程顯著減少了數(shù)據(jù)體積,同時(shí)保留了關(guān)鍵語(yǔ)義信息。隨后,使用大型語(yǔ)言模型(LLM)從這些字幕中提取結(jié)構(gòu)化的目標(biāo)-計(jì)劃表示。

由于第二階段完全在文本上進(jìn)行,因此可以高效地利用大型語(yǔ)言模型處理,并通過(guò) Self-Refine 實(shí)現(xiàn)迭代式的質(zhì)量?jī)?yōu)化。

將視頻壓縮為字幕樹

每個(gè)字幕樹由一組從視頻的不同局部窗口獨(dú)立生成的視頻字幕組成,共同形成一個(gè)層次化的樹結(jié)構(gòu)。該結(jié)構(gòu)旨在全面捕捉細(xì)粒度的局部細(xì)節(jié)與長(zhǎng)時(shí)程的全局信息。一個(gè)關(guān)鍵挑戰(zhàn)在于如何自適應(yīng)地確定樹的結(jié)構(gòu),即為字幕生成安排不同層級(jí)的窗口。


理想情況下,每個(gè)節(jié)點(diǎn)或葉子應(yīng)對(duì)應(yīng)一個(gè)語(yǔ)義單一、連貫的單元,避免跨越語(yǔ)義邊界。現(xiàn)有的時(shí)間動(dòng)作定位與分割模型在開放性方面存在局限,因?yàn)樗鼈円蕾囉趲в蟹忾]詞匯表的人工注釋動(dòng)作分類體系,且通常僅在狹窄的視頻領(lǐng)域中訓(xùn)練。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

最終得到的字幕樹實(shí)現(xiàn)了顯著的壓縮效果:例如,Ego4D 數(shù)據(jù)集中原始大小為 1.1 TB 的視頻文件可以壓縮為小于 900 MB 的字幕文件。

使用 LLM 自我優(yōu)化提取計(jì)劃

給定從視頻中提取的壓縮字幕樹,本文的下一個(gè)目標(biāo)是導(dǎo)出一個(gè)結(jié)構(gòu)化的文本表示,作為視覺語(yǔ)言世界模型(VLWM)的預(yù)測(cè)目標(biāo)。該表示包含以下四個(gè)組成部分:

該表示包含以下四個(gè)組成部分:

  1. 目標(biāo)描述(Goal description)是對(duì)整體成就的高層次總結(jié)(例如:“炒西紅柿雞蛋”)。在下游應(yīng)用中,用戶給出的目標(biāo)描述通常較為簡(jiǎn)潔(例如一句話),省略了全面定義最終狀態(tài)的細(xì)粒度細(xì)節(jié)。因此,需要明確的目標(biāo)解釋。
  2. 目標(biāo)解釋(Goal interpretation)包含情境性的解釋,概述初始世界狀態(tài)和預(yù)期的最終世界狀態(tài)。初始狀態(tài)描述工具、材料及其依賴關(guān)系等當(dāng)前狀態(tài),為計(jì)劃生成提供必要的基礎(chǔ)。最終狀態(tài)則對(duì)目標(biāo)描述進(jìn)行具體化解釋,以便在 System-2 規(guī)劃中進(jìn)行代價(jià)評(píng)估。例如:“為了達(dá)成目標(biāo),需要將雞蛋煮熟并與西紅柿混合,同時(shí)對(duì)混合物進(jìn)行適當(dāng)調(diào)味。雞蛋應(yīng)充分?jǐn)嚢?,以獲得均勻的質(zhì)地……”
  3. 動(dòng)作描述(Action description)是系統(tǒng)的最終輸出,將被傳遞給下游執(zhí)行體或呈現(xiàn)給用戶(例如:“在爐灶上預(yù)熱煎鍋”)。它們必須清晰、簡(jiǎn)潔且信息充分,以使接收方能夠理解并實(shí)現(xiàn)預(yù)期的世界狀態(tài)轉(zhuǎn)變。
  4. 世界狀態(tài)(World states)是系統(tǒng)內(nèi)部的中間表示,用于推理和計(jì)劃搜索。它們應(yīng)作為信息瓶頸:既要充分捕捉所有與任務(wù)相關(guān)的動(dòng)作后果,又要盡量減少冗余。例如:“該動(dòng)作通過(guò)提升溫度為煎鍋?zhàn)雠腼冸u蛋的準(zhǔn)備。煎鍋的狀態(tài)從冷變?yōu)闊?,?zhǔn)備好進(jìn)行烹飪。用于預(yù)熱的油防止雞蛋粘鍋,確保其均勻熟透……”


為了確保生成的各組成部分滿足上述要求,本文采用一種迭代的 Self-Refine 過(guò)程,利用大語(yǔ)言模型(LLMs)作為優(yōu)化器。本文首先向 LLM 提供輸出要求的詳細(xì)描述、預(yù)期格式的示例以及格式化后的字幕樹(Tree of Captions)作為輸入,以生成初始草稿。在每一次優(yōu)化迭代中,LLM 首先對(duì)當(dāng)前草稿提供反饋,并據(jù)此生成修訂版本。該自我優(yōu)化過(guò)程會(huì)重復(fù)進(jìn)行預(yù)設(shè)次數(shù),逐步提升輸出質(zhì)量。


為了將字幕樹輸入到 LLM 中,本文使用深度優(yōu)先遍歷(DFS)的順序?qū)ζ溥M(jìn)行格式化。這種線性化方式與 LLM 通常訓(xùn)練和熟悉的文本文檔層級(jí)結(jié)構(gòu)相一致(例如:Section 1 → 1.1 → 1.1.1 → 1.1.2 → ...)。本文中本文使用 Llama-4 Maverick,因?yàn)槠渫评硇矢咔抑С州^長(zhǎng)的上下文輸入。需要指出的是,Self-Refine 方法并不依賴于特定的 LLM 架構(gòu)。

以下是 Llama-4 Maverick 在 Self-Refine 過(guò)程中生成的一些反饋示例:

  • 草稿中的 “Prepare the ingredients for Zucchini Curry.” 可以拆分為更具體的動(dòng)作,例如 “Wash, peel, and chop the zucchini” 和 “Chop the onions and tomatoes.”
  • 在炒洋蔥、生姜、大蒜和青辣椒之后的狀態(tài)變化,可以包含更多細(xì)節(jié),說(shuō)明這一步如何影響咖喱的整體風(fēng)味和質(zhì)地。
  • “Display the Zucchini Curry in a bowl” 這個(gè)動(dòng)作更像是展示步驟,而不是一個(gè)能推進(jìn)任務(wù)進(jìn)展的有意義動(dòng)作,因此應(yīng)從步驟中移除。

視覺語(yǔ)言世界模型的訓(xùn)練

VLWM 的訓(xùn)練任務(wù)定義如下公式1所示。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

VLWM 通過(guò)最小化上述公式右側(cè)的交叉熵?fù)p失,進(jìn)行下一個(gè) token 的預(yù)測(cè):

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

該輸入輸出形式體現(xiàn)了世界建模的三個(gè)層次:

  • 上下文目標(biāo)推理,即對(duì)可能的未來(lái)成就進(jìn)行預(yù)測(cè);
  • 動(dòng)作預(yù)判,即提出可能的下一步動(dòng)作;
  • 基于動(dòng)作的世界狀態(tài)動(dòng)態(tài)預(yù)測(cè)。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

帶推理的規(guī)劃

雖然 System-1 模式支持快速生成計(jì)劃,但它缺乏前瞻性、備選方案評(píng)估以及修正次優(yōu)決策的能力。一旦動(dòng)作被生成,即被固定,模型無(wú)法重新考慮或糾正錯(cuò)誤。這種反應(yīng)式行為可能導(dǎo)致錯(cuò)誤積累,尤其是在長(zhǎng)期或復(fù)雜任務(wù)中。


為了解決這些局限性,本文引入 System-2 反思式規(guī)劃,其中世界模型與一個(gè)評(píng)估模塊(critic module)結(jié)合,在給定目標(biāo)的情況下對(duì)多個(gè)預(yù)測(cè)的未來(lái)進(jìn)行可取性評(píng)估。這使得模型能夠通過(guò)代價(jià)最小化過(guò)程進(jìn)行推理,從而搜索最優(yōu)的計(jì)劃。

通過(guò)自監(jiān)督學(xué)習(xí)訓(xùn)練評(píng)估器(Critic)

在基于世界模型的規(guī)劃中,代價(jià)函數(shù)通常用于量化候選計(jì)劃所導(dǎo)致的世界狀態(tài)與目標(biāo)狀態(tài)之間的距離。它評(píng)估當(dāng)前任務(wù)進(jìn)展與預(yù)期目標(biāo)及最終狀態(tài)之間的一致性程度。


在 JEPA 世界模型中,該距離可以通過(guò)世界狀態(tài)的固定維度嵌入表示之間的 L1 或 L2 距離直接測(cè)量。然而,在 VLWM 中,本文必須測(cè)量基于語(yǔ)言的世界狀態(tài)表示之間的語(yǔ)義距離,而不是計(jì)算 token 空間中的距離。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

理想情況下,當(dāng)預(yù)測(cè)軌跡反映出朝向目標(biāo)的有意義進(jìn)展時(shí),代價(jià)應(yīng)較低;當(dāng)軌跡因無(wú)關(guān)或錯(cuò)誤的動(dòng)作而偏離目標(biāo)時(shí),代價(jià)應(yīng)較高。

為了建模這種行為,本文以自監(jiān)督方式訓(xùn)練一個(gè)語(yǔ)言模型,使其能夠在無(wú)需顯式標(biāo)注的情況下評(píng)估預(yù)測(cè)計(jì)劃的語(yǔ)義質(zhì)量。如下圖 3(a) 所示,本文探索了兩種類型的自監(jiān)督訓(xùn)練信號(hào)用于訓(xùn)練評(píng)估器:

本文從一個(gè)基本的部分軌跡出發(fā),構(gòu)造訓(xùn)練樣本,并追加以下兩類之一的步驟:

  • (i) 來(lái)自任務(wù)連貫延續(xù)的有效下一步;
  • (ii) 從無(wú)關(guān)任務(wù)中采樣的干擾步驟。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

以確保其對(duì)過(guò)程順序和時(shí)間連貫性的敏感性。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

除了 VLWM 的進(jìn)展數(shù)據(jù)之外,評(píng)估器的構(gòu)建也支持來(lái)自外部來(lái)源的監(jiān)督,以增強(qiáng)泛化能力。例如,偏好微調(diào)數(shù)據(jù)集(由查詢、首選(被選中)響應(yīng)和被拒絕響應(yīng)三元組組成)可以直接利用。同樣,由于評(píng)估器旨在建模語(yǔ)義距離,它也可以從為學(xué)習(xí)句子嵌入而設(shè)計(jì)的基于三元組的數(shù)據(jù)集中受益。這些來(lái)源提供了額外的正/負(fù)樣本對(duì),可用于進(jìn)一步增強(qiáng)評(píng)估器的訓(xùn)練數(shù)據(jù)。

通過(guò)代價(jià)最小化實(shí)現(xiàn) System-2 規(guī)劃

System-2 規(guī)劃涉及三個(gè)組件的協(xié)同工作:VLWM、評(píng)估器(critic)和執(zhí)行器(actor)。如上圖 3(b) 所示,執(zhí)行器提出候選動(dòng)作序列,VLWM 模擬其效果,評(píng)估器評(píng)估其代價(jià)。最終計(jì)劃通過(guò)選擇預(yù)測(cè)代價(jià)最低的候選序列確定。


執(zhí)行器可以由 VLWM 本身實(shí)現(xiàn),也可以是一個(gè)外部模塊(例如 LLMs),特別是在需要遵循動(dòng)作空間或輸出格式的額外約束時(shí)。執(zhí)行器可以通過(guò)調(diào)整候選方案數(shù)量來(lái)控制搜索寬度,或生成部分計(jì)劃以實(shí)現(xiàn)更高效的樹搜索。除了評(píng)估器計(jì)算的代價(jià)之外,還可以將任務(wù)特定的懲罰項(xiàng)或保護(hù)機(jī)制整合進(jìn)代價(jià)函數(shù),從而使規(guī)劃器能夠遵循外部約束、安全規(guī)則或領(lǐng)域特定的偏好。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

VLWM-8B

視頻來(lái)源:如下表 1 所總結(jié),用于視覺-語(yǔ)言世界建模訓(xùn)練的視頻主要來(lái)自兩個(gè)領(lǐng)域:

  1. 網(wǎng)頁(yè)教學(xué)視頻:包括 COIN、CrossTask、YouCook2 和 HowTo100M 的子集。這些視頻涵蓋多種任務(wù),并提供清晰的專家演示。
  2. 第一人稱視角錄制:包括 EPIC-KITCHENS-100 和 EgoExo4D。這些視頻展示了真實(shí)可穿戴代理場(chǎng)景中的連續(xù)、未剪輯錄制內(nèi)容。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

對(duì)于所有數(shù)據(jù)集,本文從其訓(xùn)練集劃分中收集視頻。盡管 Ego4D 是一個(gè)大規(guī)模第一人稱視角錄制數(shù)據(jù)集,但本文將其排除在訓(xùn)練數(shù)據(jù)之外,以避免由于訓(xùn)練/驗(yàn)證劃分不一致而與基準(zhǔn)測(cè)試產(chǎn)生潛在重疊。


視覺-語(yǔ)言世界建模數(shù)據(jù)的生成。 本文使用感知編碼器 PE-G14 和 PerceptionLM-3B(空間分辨率為 320×320,每個(gè)輸入包含 32 幀,可在 32GB V100 上運(yùn)行)生成標(biāo)題樹(Tree of captions)。本文根據(jù)樹結(jié)構(gòu)(BFS 遍歷順序的前 5 個(gè)節(jié)點(diǎn))從每個(gè)視頻中最多采樣 5 個(gè)目標(biāo)窗口,并使用 Llama-4 Maverick(128 路專家混合,激活參數(shù)為 17B,總參數(shù)為 400B,F(xiàn)P8 精度)從包含標(biāo)題子樹的窗口中提取計(jì)劃,過(guò)程包括兩輪 Self-Refine。為了提升 LLM 在計(jì)劃提取過(guò)程中的視頻理解能力,本文為網(wǎng)頁(yè)視頻提供了額外的語(yǔ)音轉(zhuǎn)錄文本,并為 EgoExo4D 提供了專家解說(shuō)內(nèi)容,作為視頻標(biāo)題的補(bǔ)充。

除了基于視頻的提取外,本文還將 NaturalReasoning 數(shù)據(jù)集重新用于世界建模,將標(biāo)題樹替換為思維鏈(chain-of-thoughts)。動(dòng)作-狀態(tài)軌跡通過(guò) LLM 的 Self-Refine 和相似的提示詞進(jìn)行提取。

VLWM-critic-1B

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

最后,加入用于學(xué)習(xí)語(yǔ)義相似性的訓(xùn)練數(shù)據(jù),將 ??<query, positive sentence, negative sentence>?? 三元組轉(zhuǎn)換為:query 作為目標(biāo),positive sentence 作為正向動(dòng)作,negative sentence 作為負(fù)向動(dòng)作。該類數(shù)據(jù)包括 MS-MARCO、SQUAD、HotPotQA、NaturalQuestions 和 FEVER。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

輔助視覺規(guī)劃(VPA)

VPA 基準(zhǔn)測(cè)試

為了驗(yàn)證 VLWM 的大規(guī)模預(yù)訓(xùn)練是否在流程規(guī)劃中帶來(lái)實(shí)際收益,本文采用了輔助視覺規(guī)劃(Visual Planning for Assistance, VPA)基準(zhǔn)測(cè)試。VPA 衡量模型在給定視頻歷史和明確文本目標(biāo)的情況下,預(yù)測(cè)當(dāng)前活動(dòng)的未來(lái)T 個(gè)高層步驟的能力。本文遵循標(biāo)準(zhǔn)評(píng)估范圍T=3 和T=4 。


實(shí)驗(yàn)在兩個(gè)廣泛使用的流程規(guī)劃教學(xué)視頻語(yǔ)料庫(kù)上進(jìn)行:COIN 包含 11,827 個(gè)視頻,覆蓋 180 個(gè)任務(wù);CrossTask 包含 2,750 個(gè)視頻,涵蓋 18 個(gè)任務(wù)。本文遵循官方的訓(xùn)練/驗(yàn)證/測(cè)試劃分,以保證結(jié)果可與現(xiàn)有工作直接比較。


本文將 VLWM 與四個(gè)最新的規(guī)劃器進(jìn)行對(duì)比:DDN、LTA、VLaMP 和 VidAssist,以及兩個(gè)基于頻率的啟發(fā)式方法:Most-Probable(全局動(dòng)作頻率)和 Most-Probable w/ Goal(基于任務(wù)條件的頻率)。


VLWM 在 COIN 和 CrossTask 的 VPA 訓(xùn)練集上進(jìn)行微調(diào),使用與預(yù)訓(xùn)練相同的超參數(shù)。按照現(xiàn)有工作,本文分別報(bào)告以下指標(biāo):成功率(Success Rate, SR)、平均準(zhǔn)確率(Mean Accuracy, mAcc)和平均交并比(Mean IoU, mIoU),分別衡量計(jì)劃級(jí)準(zhǔn)確率、步驟級(jí)準(zhǔn)確率和動(dòng)作提議準(zhǔn)確率。


下表 2 證實(shí)了 VLWM 在 VPA 基準(zhǔn)測(cè)試中設(shè)立了新的技術(shù)標(biāo)準(zhǔn)。在 COIN 和 CrossTask 的兩個(gè)范圍T=3  和 T=4 上,本文的模型始終優(yōu)于現(xiàn)有的基線。與采用 700 億參數(shù)的大型語(yǔ)言模型 VidAssist 相比,本文的 VLWM 僅有 80 億參數(shù),卻在 12 個(gè)指標(biāo)中的 8 個(gè)上取得了更好的結(jié)果。在四種設(shè)置中平均,VLWM 在成功率(SR)上提升了 3.2%、在平均準(zhǔn)確率(mAcc)上提升了 3.9%,在平均交并比(mIoU)上提升了 2.9 個(gè)點(diǎn)。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

使用 PlannerArena 進(jìn)行人工評(píng)估

傳統(tǒng)的嵌入式 AI 助手生成面向人類的計(jì)劃的基準(zhǔn)測(cè)試是不足的,因?yàn)樗鼈円蕾囉谟衅娀虻唾|(zhì)量的真實(shí)數(shù)據(jù),無(wú)法捕捉真實(shí)世界的性能和人類輔助效果。為了解決這個(gè)問(wèn)題,本文創(chuàng)建了 PlannerArena,一個(gè)受 ChatbotArena 啟發(fā)的人類評(píng)估框架。這個(gè)基于 Arena/Elo 的系統(tǒng)讓人類評(píng)估者從不同匿名模型生成的計(jì)劃中選擇更好的,成對(duì)的結(jié)果被轉(zhuǎn)換為 Elo 分?jǐn)?shù)和模型勝率。這個(gè)方法與 AI 助手的實(shí)際使用案例緊密結(jié)合,確保本文開發(fā)的模型不僅在理論上可靠,而且在現(xiàn)實(shí)世界中具有實(shí)際價(jià)值。


本文實(shí)驗(yàn)設(shè)置包括三個(gè)數(shù)據(jù)集(COIN、CrossTask 和 EgoExo4D),將 VLWM 與通過(guò) 20 個(gè)計(jì)劃搜索的 VLWM System-2 進(jìn)行比較,該搜索由一個(gè) 80 億參數(shù)的評(píng)論者引導(dǎo),最小化生成計(jì)劃的成本,以及一個(gè)最大化成本的 80 億參數(shù)評(píng)論者,與領(lǐng)先的多模態(tài)大型語(yǔ)言模型和真實(shí)計(jì)劃進(jìn)行對(duì)比。成對(duì)樣本在每種可能的對(duì)戰(zhàn)配置中均勻采樣,以在模型之間保持平衡的對(duì)戰(zhàn)數(shù)量。模型從初始評(píng)分 1000 開始,使用 Elo K 因子 32 在每場(chǎng)對(duì)戰(zhàn)后更新分?jǐn)?shù)。五位不同的注釋者參與了 PlannerArena 評(píng)估,總共評(píng)估了 550 對(duì)對(duì)戰(zhàn),其中三位注釋者進(jìn)行了 90 個(gè)樣本的固定試點(diǎn)運(yùn)行以計(jì)算注釋者間一致性分?jǐn)?shù)。

評(píng)論模型評(píng)估

在本節(jié)中,本文獨(dú)立于 VLWM-8B 的推演對(duì)評(píng)論模型進(jìn)行內(nèi)在評(píng)估,以評(píng)估它是否表現(xiàn)出預(yù)期行為。

目標(biāo)達(dá)成檢測(cè)

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

結(jié)果如下表 5 所示。VLWM-critic-1B 在大多數(shù)子集上大幅超越基準(zhǔn)。VLWM-critic-1B 在 VLWM-Instruct 上達(dá)到 98.4%,而在 VLWM-Ego 上較低,為 92.7%。這可能是由于領(lǐng)域差異造成的:本文的評(píng)論模型僅在 HowTo100M 指令視頻上訓(xùn)練,未見過(guò)任何自我中心錄制的數(shù)據(jù)。在 OGP 上,本文評(píng)論模型明顯優(yōu)于表現(xiàn)最好的基準(zhǔn) Qwen3-Reranker-8B(72.9% 對(duì) 65.6%),但在 OGP-WikiHow 上表現(xiàn)相當(dāng)(盡管參數(shù)數(shù)量少了 8 倍)。這一較小差距的可能原因包括數(shù)據(jù)噪聲或 Qwen3-Reranker 的訓(xùn)練數(shù)據(jù)中可能存在的重疊。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

在下圖 5 中,可視化了不同評(píng)論模型預(yù)測(cè)的歸一化成本曲線??梢暬梢砸暈椤澳芰烤坝^”,理想的形狀是在 100% 目標(biāo)達(dá)成點(diǎn)處具有最低成本。在 VLWM 數(shù)據(jù)上,VLWM-critic-1B 給出了比基準(zhǔn)更清晰的景觀。然而,當(dāng)涉及到 OGP 數(shù)據(jù)集時(shí),分布變得更加嘈雜。盡管存在上述領(lǐng)域差異和數(shù)據(jù)集噪聲問(wèn)題,性能下降的一個(gè)潛在原因是 OGP 僅提供動(dòng)作軌跡,沒有任何明確的世界狀態(tài)描述,這使得成本評(píng)估更加困難。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

消融研究。 下表 6 提供了使用 VLWM-critic-1B 和 VLWM 數(shù)據(jù)的評(píng)論輸入表示的消融研究。本文嘗試去除包含當(dāng)前和預(yù)期最終目標(biāo)狀態(tài)描述的目標(biāo)解釋,以及從軌跡表示中去除狀態(tài)描述,僅保留動(dòng)作。本文發(fā)現(xiàn)這兩種消融都導(dǎo)致目標(biāo)達(dá)成檢測(cè)性能下降,尤其是在未見的 OOD 數(shù)據(jù)(Ego 子集)上的下降更為嚴(yán)重,這顯示了解釋和世界狀態(tài)描述對(duì)于有效泛化的重要性。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

在 WorldPrediction-PP 上的程序規(guī)劃

WorldPrediction 基準(zhǔn)旨在評(píng)估高級(jí)世界建模和程序規(guī)劃能力。其程序規(guī)劃子集,WorldPrediction-PP,包含 570 個(gè)經(jīng)過(guò)人類驗(yàn)證的樣本。每個(gè)測(cè)試案例提供初始和最終視覺狀態(tài)以及四個(gè)候選行動(dòng)計(jì)劃,這些計(jì)劃由視頻序列表示。任務(wù)是從打亂的反事實(shí)干擾項(xiàng)中識(shí)別出正確排序的序列,強(qiáng)調(diào)目標(biāo)條件規(guī)劃的能力以及模型對(duì)語(yǔ)義和時(shí)間動(dòng)作順序的理解。


為了在 WorldPrediction-PP 上評(píng)估本文的評(píng)論模塊,本文遵循了(Chen 等人,2025)中關(guān)于蘇格拉底 LLM 的評(píng)估協(xié)議。視覺輸入首先通過(guò) Qwen2.5-VL 生成的字幕轉(zhuǎn)換為文本描述。具體來(lái)說(shuō),描述初始和最終狀態(tài)的兩幅圖像生成了一個(gè)目標(biāo)描述,概述了世界狀態(tài)的變化,候選行動(dòng)的視頻片段也以類似方式生成字幕。這些文本輸入直接提供給本文的 VLWM-critic 模型,以計(jì)算每個(gè)候選計(jì)劃的成本,選擇預(yù)測(cè)成本最低的選項(xiàng)。


在下圖 6 (b) 中,本文將 VLWM-critic 模型與基準(zhǔn)蘇格拉底 LLM 進(jìn)行比較。本文的模型在模型大小和準(zhǔn)確性之間實(shí)現(xiàn)了帕累托最優(yōu)平衡。重要的是,這一評(píng)估對(duì) VLWM-critic 模型構(gòu)成了零樣本場(chǎng)景,因?yàn)榛谧兓帜坏哪繕?biāo)描述和作為行動(dòng)步驟的詳細(xì)視頻字幕都不是訓(xùn)練語(yǔ)料庫(kù)的一部分。

視覺語(yǔ)言世界模型來(lái)了!AI不僅能看懂視頻,還能自我反思制定計(jì)劃,離人類思維更近一步!-AI.x社區(qū)

結(jié)論

本工作介紹了視覺語(yǔ)言世界模型(VLWM),這是一種基礎(chǔ)模型,能夠直接在語(yǔ)言空間中學(xué)習(xí)表示和預(yù)測(cè)世界動(dòng)態(tài),從而實(shí)現(xiàn)可解釋且高效的高級(jí)規(guī)劃。通過(guò)將原始視頻壓縮為分層的字幕樹,并將其優(yōu)化為結(jié)構(gòu)化的目標(biāo)、動(dòng)作和世界狀態(tài)變化軌跡,VLWM 架起了感知驅(qū)動(dòng)的視覺語(yǔ)言模型(VLMs)與推理導(dǎo)向的大語(yǔ)言模型(LLMs)之間的橋梁。其雙模式設(shè)計(jì)支持通過(guò)直接策略解碼進(jìn)行快速反應(yīng)的系統(tǒng)1規(guī)劃,以及通過(guò)自監(jiān)督評(píng)論指導(dǎo)的成本最小化進(jìn)行反思的系統(tǒng)2規(guī)劃,這使模型能夠在內(nèi)部執(zhí)行試錯(cuò)推理并選擇最佳計(jì)劃。


VLWM 在大量多樣的教學(xué)和自我中心視頻語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,在輔助視覺規(guī)劃基準(zhǔn)上建立了新的最先進(jìn)成果,在 PlannerArena 的人類偏好評(píng)估中展示了卓越的計(jì)劃質(zhì)量,并在 RoboVQA 上取得了頂級(jí)表現(xiàn),同時(shí)生成可解釋的動(dòng)作-狀態(tài)展開。此外,評(píng)論模型在目標(biāo)達(dá)成檢測(cè)和程序規(guī)劃基準(zhǔn)上獨(dú)立表現(xiàn)出色,突顯了顯式語(yǔ)義成本建模對(duì)于基于世界模型推理的價(jià)值。綜上所述,這些貢獻(xiàn)表明,通過(guò)直接從大規(guī)模自然視頻中學(xué)習(xí),并在抽象的、非生成的表示空間中進(jìn)行預(yù)測(cè),而非依賴原始像素,視覺語(yǔ)言世界模型(VLWM)可以為感知、推理和規(guī)劃之間架起強(qiáng)大的接口,推動(dòng) AI 助手超越模仿,朝著能夠進(jìn)行穩(wěn)健、長(zhǎng)遠(yuǎn)決策的反思性代理邁進(jìn)。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/jwmog-cIrJ1dYYrIAplKPA??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄