偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大

發(fā)布于 2025-5-23 10:17
瀏覽
1收藏

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2505.14357 
項目鏈接:https://knightnemo.github.io/vid2world/ 

生成效果速覽

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

亮點直擊

  • 首個系統(tǒng)性探索如何將全序列、非因果、被動的視頻擴散模型遷移為自回歸、交互式、動作條件的世界模型的問題。
  • 提出Vid2World,一個通用且高效的解決方案,包含了將視頻擴散模型因果化和動作條件化的多項新穎技術(shù)。
  • Vid2World在多個領(lǐng)域中都達到了SOTA,為這一關(guān)鍵問題建立了新的基準(zhǔn),并為未來研究提供了有力支持。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

將視頻傳播模型轉(zhuǎn)換為交互式世界模型涉及兩個關(guān)鍵挑戰(zhàn)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 現(xiàn)有世界模型的局限性:傳統(tǒng)世界模型在順序決策中雖然具有效率優(yōu)勢,但通常依賴大量特定領(lǐng)域的數(shù)據(jù)訓(xùn)練,且生成結(jié)果粗糙、保真度低,難以適應(yīng)復(fù)雜環(huán)境。
  • 視頻擴散模型的潛力未被充分利用:盡管大規(guī)模預(yù)訓(xùn)練的視頻擴散模型具備生成高質(zhì)量、真實世界動態(tài)視頻的能力,但尚未被有效遷移用于交互式世界模型中。

提出的方案

  • 提出Vid2World,一種通用方法,用于將預(yù)訓(xùn)練的視頻擴散模型轉(zhuǎn)化為自回歸、交互式、動作條件的世界模型
  • 該方法通過結(jié)構(gòu)調(diào)整和訓(xùn)練目標(biāo)變換,實現(xiàn)對原始被動模型的因果化處理,使其支持順序生成與交互。

應(yīng)用的技術(shù)

  • 模型因果化(Causalization):重構(gòu)視頻擴散模型的架構(gòu)與訓(xùn)練目標(biāo),使其支持基于歷史信息的自回歸預(yù)測。
  • 因果動作引導(dǎo)機制(Causal Action Guidance):引入動作條件控制模塊,增強生成過程對動作的響應(yīng)能力,實現(xiàn)更強的交互性。
  • 遷移學(xué)習(xí):將大規(guī)模預(yù)訓(xùn)練的視頻生成模型遷移至世界建模任務(wù),提升泛化能力與表現(xiàn)力。

達到的效果

  • Vid2World 在機器人操作游戲模擬等多個任務(wù)中取得了當(dāng)前最先進的性能
  • 建立了該方向上的新基準(zhǔn),驗證了將視頻擴散模型用于世界建模的可行性與優(yōu)勢。
  • 為未來多模態(tài)世界模型的研究提供了可擴展、高效的解決方案和技術(shù)路徑。

該研究開辟了將強大的視頻生成模型用于交互式世界建模的新方向,為多模態(tài)智能體的構(gòu)建提供了重要基礎(chǔ)。

方法

盡管視頻擴散模型在生成高保真、物理上合理的序列方面表現(xiàn)出色,但其默認形式在本質(zhì)上與交互式世界建模不兼容。具體而言,有兩個關(guān)鍵的轉(zhuǎn)換障礙尤為突出:

  1. 缺乏因果生成能力:典型的視頻擴散模型使用雙向時間上下文生成幀,允許未來幀影響過去幀;
  2. 缺乏動作條件建模:這些模型通?;诖至6鹊囊曨l級輸入(例如文本提示)進行條件建模,缺乏對細粒度、幀級動作的條件建模機制。


雖然這些設(shè)計在開放式視頻合成中非常有效,但與交互式世界建模的需求并不一致。交互式世界建模要求預(yù)測必須僅依賴于過去的觀測和動作,并且模型必須對幀級動作做出靈敏響應(yīng),準(zhǔn)確捕捉其對未來預(yù)測的影響。


本文提出了 Vid2World,這是一種將預(yù)訓(xùn)練視頻擴散模型遷移為交互式世界模型的通用方法。Vid2World 引入了兩個關(guān)鍵修改,分別用于實現(xiàn)自回歸生成和動作條件生成。首先,本文提出了視頻擴散因果化策略,該策略將非因果架構(gòu)轉(zhuǎn)換為時間因果變體,與后訓(xùn)練目標(biāo)兼容,同時最大限度地保留預(yù)訓(xùn)練權(quán)重。然后,引入了因果動作引導(dǎo)機制,以在推理過程中以無分類器方式實現(xiàn)逐步的交互式回滾。該方法通過輕量級嵌入層注入動作信號,并通過獨立的動作 dropout 擴展后訓(xùn)練目標(biāo)。本文的訓(xùn)練與推理方法概覽如下圖 3 所示。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

視頻擴散因果化

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

因果動作引導(dǎo)

雖然實現(xiàn)因果生成對于向交互式世界模型的轉(zhuǎn)變至關(guān)重要,但這些經(jīng)過改造的因果擴散模型仍然無法提供基于動作的生成結(jié)果。已有大量工作 [1, 3, 63] 通過視頻級條件來引入動作條件,即將整個動作序列編碼為一個單一的嵌入,類似于文本到視頻生成模型中的文本嵌入。除了缺乏進行幀級細粒度動作條件預(yù)測的能力之外,這種全局條件本質(zhì)上也與自回歸生成不兼容,因為動作是逐步到達的,必須在推理過程中以在線方式處理。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

這種dropout機制直觀上鼓勵模型學(xué)習(xí)在動作序列所有可能子集條件下的分數(shù)函數(shù)。因此,模型被迫學(xué)習(xí)當(dāng)前動作對預(yù)測轉(zhuǎn)移的影響,從而在測試時實現(xiàn)無分類器引導(dǎo)。在推理時,可以通過以下方式引導(dǎo)模型的生成結(jié)果:

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

本文提出了Vid2World,這是一種將全序列、非因果、被動視頻擴散模型轉(zhuǎn)化為自回歸、交互式、動作條件世界模型的通用方法。通過視頻擴散因果化,開啟了模型進行因果生成的能力;通過因果動作引導(dǎo),我們將動作引導(dǎo)引入到交互式設(shè)置中。在算法 1 和算法 2 中提供了本文方法的偽代碼。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

實驗

作為 Vid2World 的概念驗證,本文采用 DynamiCrafter作為基礎(chǔ)模型,它是一個基于 U-Net 的最先進潛在視頻擴散模型,預(yù)訓(xùn)練于大規(guī)模網(wǎng)絡(luò)級視頻數(shù)據(jù)集,擁有 11 億個可訓(xùn)練參數(shù)。我們在多個領(lǐng)域中展示了本文方法的有效性,涵蓋現(xiàn)實世界的機器人操作和游戲仿真中的高動態(tài) 3D 場景。通過視頻預(yù)測結(jié)果以及離線策略評估等下游任務(wù),我們展示了 Vid2World 不僅獲得了與真實數(shù)據(jù)高度相似和真實感強的模型,還獲得了能夠在序列決策中輔助下游任務(wù)的模型。

Vid2World 在機器人操作中的應(yīng)用

機器人操作是世界模型的理想測試平臺,要求在現(xiàn)實世界物理約束下進行時間一致、動作條件的預(yù)測,這些預(yù)測既要在視覺上真實,又要在因果上可信。這些嚴格的要求使其成為評估模型可控性和保真度的嚴苛且實際相關(guān)的基準(zhǔn)。


設(shè)置。 本文使用 RT-1 數(shù)據(jù)集,這是一個涵蓋多種操作任務(wù)(包括抓取、放置、操作抽屜等)的現(xiàn)實世界機器人經(jīng)驗集合。對于我們提出的方法,我們考慮兩種推理設(shè)置:

  • Vid2World-NAR:類似于傳統(tǒng)視頻擴散模型和基線方法,我們在所有幀上使用相同的噪聲水平進行去噪,同時生成整個序列,即非自回歸方式;
  • Vid2World:我們以自回歸方式對每一幀進行去噪,并結(jié)合動作引導(dǎo)。

參考 Diffusion Forcing,在自回歸展開過程中,在生成過程中向歷史幀添加統(tǒng)一的小噪聲。

基線。 為驗證本文方法作為遷移方法的有效性,采用多種基線,這些基線基于相同的基礎(chǔ)模型但使用不同的轉(zhuǎn)換方法,包括動作條件微調(diào)、語言條件微調(diào)、ControlNet和分類器引導(dǎo)。按照基線實現(xiàn)中的訓(xùn)練和驗證集劃分進行模型訓(xùn)練。


評估指標(biāo)。 對于評估指標(biāo),本文采用常用的視頻生成指標(biāo),用于衡量模型生成結(jié)果與真實幀序列在像素級或語義上的相似性。這些指標(biāo)包括 Fréchet Video Distance (FVD) 、Fréchet Image Distance (FID)、結(jié)構(gòu)相似度指數(shù) (SSIM)、學(xué)習(xí)感知圖像塊相似度 (LPIPS) 和峰值信噪比 (PSNR)。

結(jié)果。 如下表 1 所示,Vid2World 在非自回歸和自回歸設(shè)置下均展現(xiàn)出強大的量化性能,表現(xiàn)優(yōu)于或可與其他遷移方法相媲美。在非自回歸采樣設(shè)置下,Vid2World 以顯著優(yōu)勢超越所有已有方法。即使在其他基線方法無法適用的自回歸設(shè)置下,Vid2World 仍保持了與這些方法相當(dāng)甚至更優(yōu)的性能,展示了其在視頻預(yù)測方面的強大能力。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

Vid2World 在游戲仿真中的應(yīng)用

游戲仿真是世界建模的關(guān)鍵應(yīng)用領(lǐng)域,近年來在文獻中受到越來越多的關(guān)注。在該設(shè)置中,世界模型的交互性尤為關(guān)鍵,因為它為構(gòu)建神經(jīng)游戲引擎——即通過學(xué)習(xí)的動態(tài)支持實時用戶交互的模型——打開了大門。這是一個特別具有挑戰(zhàn)性的領(lǐng)域,因為其本質(zhì)上具有復(fù)雜的時間動態(tài),并且動作對視覺轉(zhuǎn)換有強烈影響,包括快速且不連續(xù)的視角變化、豐富接觸的物體交互以及細粒度的運動模式,要求模型能夠?qū)?fù)雜、因果交織的視覺-時序線索進行推理。


設(shè)置。 為了探索本文方法在高度動態(tài)且視覺復(fù)雜的 3D 環(huán)境中的能力,將 Vid2World 應(yīng)用于著名視頻游戲《反恐精英:全球攻勢(CS:GO)》。使用 Pearce 等人提出的在線數(shù)據(jù)集,該數(shù)據(jù)集包含來自 Dust II 地圖的 550 萬幀(95 小時)真人在線游戲畫面。為了與基線方法進行可比性評估,遵循 DIAMOND的設(shè)置,使用完全相同的 50 萬幀保留集(對應(yīng) 500 個片段,約 8 小時)進行測試。DIAMOND 是一種最先進的自回歸世界模型,它基于固定數(shù)量的歷史觀測和動作生成下一幀。采用前文中的評估指標(biāo),衡量生成視頻與真實視頻在視覺和語義上的相似性。由于 DIAMOND需要 4 幀作為條件輸入,使用四幀歷史幀初始化,并自回歸地生成幀,直到達到 16 幀的序列長度。評估指標(biāo)僅在預(yù)測幀上計算,不包括用于條件輸入的幀。


結(jié)果。 如下表 2 所示,Vid2World 在所有評估指標(biāo)上均顯著優(yōu)于 DIAMOND 的兩種配置,包括在 FVD 上相對提高 81.8%,在 FID 上提升 77.2%,相較于最優(yōu)基線配置。這些結(jié)果展示了本文方法在視覺保真度和語義一致性方面的卓越性能,顯示了將視頻擴散模型用于交互式神經(jīng)游戲引擎的潛力。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

消融研究

為了驗證本文提出方法的有效性,我們在自回歸設(shè)置下進行了消融實驗。關(guān)注兩個問題:(1)模型在交互式視頻預(yù)測設(shè)置中執(zhí)行動作引導(dǎo)的能力有多重要?(2)所提出的混合權(quán)重遷移是否能在視頻預(yù)測任務(wù)中帶來更好的遷移效果?本文在 RT-1數(shù)據(jù)集上進行消融實驗,所有模型均訓(xùn)練 30k 次梯度步,以控制計算預(yù)算??紤]兩種模型變體:

  • Vid2World w/o Action Guidance:該變體在訓(xùn)練時未使用動作 dropout,導(dǎo)致模型只能在提供完整動作序列作為確定性條件時進行生成;
  • **Vid2World w/o Mixed weight transfer (MWT)**:該變體使用 shift 權(quán)重遷移初始化時間卷積權(quán)重進行訓(xùn)練。


如下表 3 所示,這兩種技術(shù)在 Vid2World 的卓越性能中都起到了關(guān)鍵作用。

多領(lǐng)域SOTA誕生!Vid2World:打通視頻擴散到世界模型的“任督二脈”|清華、重大           -AI.x社區(qū)

結(jié)論

本研究將被動視頻擴散模型轉(zhuǎn)化為交互式世界模型。提出了Vid2World,引入了兩個關(guān)鍵機制——視頻擴散因果化和因果動作引導(dǎo)——以支持自回歸、動作條件的生成。大量實驗表明,Vid2World 在視頻預(yù)測任務(wù)中達到了最先進的性能,同時也有效支持了下游決策任務(wù)。盡管本研究標(biāo)志著一次成功的初步嘗試,但仍有大量空間可供進一步探索。首先,由于計算資源限制,僅采用了相對輕量的視頻擴散模型作為基礎(chǔ)模型,我們預(yù)期探索更大規(guī)模的模型有望帶來更優(yōu)性能。其次,訓(xùn)練過程仍然相對耗時。期待未來的方法能夠在更少的訓(xùn)練步數(shù)下實現(xiàn)相當(dāng)或更優(yōu)的性能。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/e1WHdDVP1ePPmUnD-FXebQ??

標(biāo)簽
1
收藏 1
回復(fù)
舉報
回復(fù)
相關(guān)推薦