偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從20億數(shù)據(jù)中學(xué)習(xí)物理世界,基于Transformer的通用世界模型成功挑戰(zhàn)視頻生成

人工智能 新聞
它把視頻生成轉(zhuǎn)換為一個序列預(yù)測任務(wù),可以對物理世界的變化和運動規(guī)律進行充分地學(xué)習(xí)。

建立會做視頻的世界模型,也能通過Transformer來實現(xiàn)了!

來自清華和極佳科技的研究人員聯(lián)手,推出了全新的視頻生成通用世界模型——WorldDreamer。

它可以完成自然場景和自動駕駛場景多種視頻生成任務(wù),例如文生視頻、圖生視頻、視頻編輯、動作序列生視頻等。

圖片

據(jù)團隊介紹,通過預(yù)測Token的方式來建立通用場景世界模型,WorldDreamer是業(yè)界首個。

它把視頻生成轉(zhuǎn)換為一個序列預(yù)測任務(wù),可以對物理世界的變化和運動規(guī)律進行充分地學(xué)習(xí)。

可視化實驗已經(jīng)證明,WorldDreamer已經(jīng)深刻理解了通用世界的動態(tài)變化規(guī)律。

那么,它都能完成哪些視頻任務(wù),效果如何呢?

支持多種視頻任務(wù)

圖像生成視頻(Image to Video)

WorldDreamer可以基于單一圖像預(yù)測未來的幀。

只需首張圖像輸入,WorldDreamer將剩余的視頻幀視為被掩碼的視覺Token,并對這部分Token進行預(yù)測。

如下圖所示,WorldDreamer具有生成高質(zhì)量電影級別視頻的能力。

其生成的視頻呈現(xiàn)出無縫的逐幀運動,類似于真實電影中流暢的攝像機運動。

而且,這些視頻嚴(yán)格遵循原始圖像的約束,確保幀構(gòu)圖的顯著一致性。

圖片

文本生成視頻(Text to Video)

WorldDreamer還可以基于文本進行視頻生成。

僅僅給定語言文本輸入,此時WorldDreamer認(rèn)為所有的視頻幀都是被掩碼的視覺Token,并對這部分Token進行預(yù)測。

下圖展示了WorldDreamer在各種風(fēng)格范式下從文本生成視頻的能力。

生成的視頻與輸入語言無縫契合,其中用戶輸入的語言可以塑造視頻內(nèi)容、風(fēng)格和相機運動。

圖片

視頻修改(Video Inpainting)

WorldDreamer進一步可以實現(xiàn)視頻的inpainting任務(wù)。

具體來說,給定一段視頻,用戶可以指定mask區(qū)域,然后根據(jù)語言的輸入可以更改被mask區(qū)域的視頻內(nèi)容。

如下圖所示,WorldDreamer可以將水母更換為熊,也可以將蜥蜴更換為猴子,且更換后的視頻高度符合用戶的語言描述。

圖片

視頻風(fēng)格化(Video Stylization)

除此以外,WorldDreamer可以實現(xiàn)視頻的風(fēng)格化。

如下圖所示,輸入一個視頻段,其中某些像素被隨機掩碼,WorldDreamer可以改變視頻的風(fēng)格,例如根據(jù)輸入語言創(chuàng)建秋季主題效果。

圖片

基于動作合成視頻(Action to Video)

WorldDreamer也可以實現(xiàn)在自動駕駛場景下的駕駛動作到視頻的生成。

如下圖所示,給定相同的初始幀以及不同的駕駛策略(如左轉(zhuǎn)、右轉(zhuǎn)),WorldDreamer可以生成高度符合首幀約束以及駕駛策略的視頻。

圖片

那么,WorldDreamer又是怎樣實現(xiàn)這些功能的呢?

用Transformer構(gòu)建世界模型

研究人員認(rèn)為,目前最先進的視頻生成方法主要分為兩類——基于Transformer的方法和基于擴散模型的方法。

利用Transformer進行Token預(yù)測可以高效學(xué)習(xí)到視頻信號的動態(tài)信息,并可以復(fù)用大語言模型社區(qū)的經(jīng)驗,因此,基于Transformer的方案是學(xué)習(xí)通用世界模型的一種有效途徑。

而基于擴散模型的方法難以在單一模型內(nèi)整合多種模態(tài),且難以拓展到更大參數(shù),因此很難學(xué)習(xí)到通用世界的變化和運動規(guī)律。

而當(dāng)前的世界模型研究主要集中在游戲、機器人和自動駕駛領(lǐng)域,缺乏全面捕捉通用世界變化和運動規(guī)律的能力。

所以,研究團隊提出了WorldDreamer來加強對通用世界的變化和運動規(guī)律的學(xué)習(xí)理解,從而顯著增強視頻生成的能力。

借鑒大型語言模型的成功經(jīng)驗,WorldDreamer采用Transformer架構(gòu),將世界模型建模框架轉(zhuǎn)換為一個無監(jiān)督的視覺Token預(yù)測問題。

具體的模型結(jié)構(gòu)如下圖所示:

圖片

WorldDreamer首先使用視覺Tokenizer將視覺信號(圖像和視頻)編碼為離散的Token。

這些Token在經(jīng)過掩蔽處理后,輸入給研究團隊提出的Sptial Temporal Patchwuse Transformer(STPT)模塊。

同時,文本和動作信號被分別編碼為對應(yīng)的特征向量,以作為多模態(tài)特征一并輸入給STPT。

STPT在內(nèi)部對視覺、語言、動作等特征進行充分的交互學(xué)習(xí),并可以預(yù)測被掩碼部分的視覺Token。

最終,這些預(yù)測出的視覺Token可以用來完成各種各樣的視頻生成和視頻編輯任務(wù)。

圖片

值得注意的是,在訓(xùn)練WorldDreamer時,研究團隊還構(gòu)建了Visual-Text-Action(視覺-文本-動作)數(shù)據(jù)的三元組,訓(xùn)練時的損失函數(shù)僅涉及預(yù)測被掩蔽的視覺Token,沒有額外的監(jiān)督信號。

而在團隊提出的這個數(shù)據(jù)三元組中,只有視覺信息是必須的,也就是說,即使在沒有文本或動作數(shù)據(jù)的情況下,依然可以進行WorldDreamer的訓(xùn)練。

這種模式不僅降低了數(shù)據(jù)收集的難度,還使得WorldDreamer可以支持在沒有已知或只有單一條件的情況下完成視頻生成任務(wù)。

研究團隊使用大量數(shù)據(jù)對WorldDreamer進行訓(xùn)練,其中包括20億經(jīng)過清洗的圖像數(shù)據(jù)、1000萬段通用場景的視頻、50萬段高質(zhì)量語言標(biāo)注的視頻、以及近千段自動駕駛場景視頻。

團隊對10億級別的可學(xué)習(xí)參數(shù)進行了百萬次迭代訓(xùn)練,收斂后的WorldDreamer逐漸理解了物理世界的變化和運動規(guī)律,并擁有了各種的視頻生成和視頻編輯能力。

論文地址:https://arxiv.org/abs/2401.09985
項目主頁:https://world-dreamer.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-05-24 12:53:06

AI訓(xùn)練

2023-12-12 13:52:00

數(shù)據(jù)訓(xùn)練

2025-04-08 09:30:00

模型AI機器人

2024-05-13 12:53:06

AI模型

2025-07-21 09:03:00

模型AI訓(xùn)練

2025-09-28 04:00:00

CWM世界模型語言模型

2024-10-22 09:40:00

模型生成

2024-04-18 12:16:37

MetaAIOpenEQA

2025-02-14 09:30:00

視頻生成模型開源機器人

2025-07-30 09:05:00

2024-02-19 08:58:00

模型AI

2023-11-03 13:07:00

AI模型

2025-10-28 08:46:00

2024-03-05 11:18:14

模型訓(xùn)練

2023-10-23 10:11:36

自動駕駛技術(shù)

2022-06-10 12:38:07

物聯(lián)網(wǎng)IOT

2023-12-20 14:54:29

谷歌Gen-2視頻

2023-12-13 13:49:00

模型訓(xùn)練

2024-11-08 09:11:24

點贊
收藏

51CTO技術(shù)棧公眾號