Seed Research | 視頻生成模型最新成果,可僅靠視覺認(rèn)知世界!現(xiàn)已開源

視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”由豆包大模型團(tuán)隊(duì)與北京交通大學(xué)、中國科學(xué)技術(shù)大學(xué)聯(lián)合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型,VideoWorld 在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型,即可認(rèn)知世界。
正如李飛飛教授 9 年前 TED 演講中提到 “幼兒可以不依靠語言理解真實(shí)世界”,VideoWorld 僅通過 “視覺信息”,即瀏覽視頻數(shù)據(jù),就能讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn),僅 300M 參數(shù)量下,VideoWorld 已取得可觀的模型表現(xiàn)。
現(xiàn)有模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識(shí),很少涉及純視覺信號(hào)的學(xué)習(xí)。然而,語言并不能捕捉真實(shí)世界中的所有知識(shí)。例如,折紙、打領(lǐng)結(jié)等復(fù)雜任務(wù),難以通過語言清晰表達(dá)。
作為一種通用視頻生成實(shí)驗(yàn)?zāi)P?,VideoWorld 去掉語言模型,實(shí)現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。同時(shí),它基于一種潛在動(dòng)態(tài)模型,可高效壓縮視頻幀間的變化信息,顯著提升知識(shí)學(xué)習(xí)效率和效果。
在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制前提下,VideoWorld 達(dá)到了專業(yè) 5 段 9x9 圍棋水平,并能夠在多種環(huán)境中,執(zhí)行機(jī)器人任務(wù)。
團(tuán)隊(duì)認(rèn)為,盡管面向真實(shí)世界的視頻生成和泛化仍存在很大挑戰(zhàn),視頻生成依然可以成為一種通用的知識(shí)學(xué)習(xí)方法,并在現(xiàn)實(shí)世界充當(dāng)思考和行動(dòng)的“人工大腦”。
目前,該項(xiàng)目代碼與模型已開源,歡迎體驗(yàn)交流。
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
論文鏈接:https://arxiv.org/abs/2501.09781
代碼鏈接:https://github.com/bytedance/VideoWorld
項(xiàng)目主頁:https://maverickren.github.io/VideoWorld.github.io
1. 模型僅靠“視覺”即可學(xué)習(xí)知識(shí)
面向本次研究,研究團(tuán)隊(duì)構(gòu)建了兩個(gè)實(shí)驗(yàn)環(huán)境:視頻圍棋對(duì)戰(zhàn)和視頻機(jī)器人模擬操控。
其中,圍棋可以很好地評(píng)估模型的規(guī)則學(xué)習(xí)、推理和規(guī)劃能力,且圍棋關(guān)鍵信息僅有黑白兩色及棋盤,可將外觀、紋理等復(fù)雜細(xì)節(jié)與高級(jí)知識(shí)的評(píng)估分離,非常適合對(duì)上述問題的探索。同時(shí),團(tuán)隊(duì)還選取了機(jī)器人任務(wù),以考察模型在理解控制規(guī)則和規(guī)劃任務(wù)方面的能力。
在模型訓(xùn)練環(huán)節(jié),團(tuán)隊(duì)構(gòu)建了一個(gè)包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集,讓模型“觀看”學(xué)習(xí),以此得到一個(gè)可以根據(jù)過往觀測(cè),預(yù)測(cè)未來畫面的視頻生成器。
模型架構(gòu)上,團(tuán)隊(duì)使用樸素的自回歸模型實(shí)例化視頻生成器,它包含一個(gè) VQ-VAE 編碼器 - 解碼器和一個(gè)自回歸 Transformer 。編碼器負(fù)責(zé)將視頻幀(畫面)轉(zhuǎn)換為離散標(biāo)記,Transformer 在訓(xùn)練期間使用這些標(biāo)記預(yù)測(cè)下一標(biāo)記。
在推理過程中,Transformer 生成下一幀(畫面)的離散標(biāo)記,這些標(biāo)記隨后由解碼器轉(zhuǎn)換回像素空間。通過任務(wù)相關(guān)的映射函數(shù),模型可將生成畫面轉(zhuǎn)換為任務(wù)執(zhí)行動(dòng)作。這讓視頻生成實(shí)驗(yàn)?zāi)P涂稍诓灰蕾嚾魏蝿?dòng)作標(biāo)簽情況下,學(xué)習(xí)和執(zhí)行具體任務(wù)。
基于上述樸素的框架對(duì)圍棋和機(jī)器人視頻數(shù)據(jù)進(jìn)行建模,團(tuán)隊(duì)觀測(cè)到,模型可以掌握基本的圍棋規(guī)則、走棋策略以及機(jī)器人操縱能力。
但團(tuán)隊(duì)同時(shí)也發(fā)現(xiàn),視頻序列的知識(shí)挖掘效率顯著落后于文本形式,具體如下圖所示。

團(tuán)隊(duì)將這歸因于——視頻中存在大量冗余信息,影響了模型的學(xué)習(xí)效率。
例如,學(xué)習(xí)棋子移動(dòng)過程中,模型只需通過狀態(tài)序列中少量位置標(biāo)記編碼,但面向視頻數(shù)據(jù),編碼器則會(huì)產(chǎn)生過多冗余標(biāo)記,不利于模型對(duì)復(fù)雜知識(shí)的快速學(xué)習(xí)。
2. 壓縮視覺變化,讓視頻學(xué)習(xí)更加高效
根據(jù)上述觀測(cè)結(jié)果,團(tuán)隊(duì)提出 VideoWorld 。它在保留豐富視覺信息的同時(shí),壓縮了關(guān)鍵決策和動(dòng)作相關(guān)的視覺變化,實(shí)現(xiàn)了更有效的視頻學(xué)習(xí)。
通常,視頻編碼需要數(shù)百或數(shù)千個(gè)離散標(biāo)記來捕捉每幀內(nèi)的視覺信息,這導(dǎo)致知識(shí)被稀疏地嵌入標(biāo)記中。為此,VideoWorld 引入了一個(gè)潛在動(dòng)態(tài)模型(Latent Dynamics Model, LDM),可將幀間視覺變化壓縮為緊湊的潛在編碼,提高模型的知識(shí)挖掘效率。
舉例而言,圍棋中的多步棋盤變化或機(jī)器人連續(xù)動(dòng)作均表現(xiàn)出強(qiáng)時(shí)間相關(guān)性,通過將這些多步變化壓縮成緊湊嵌入,不僅讓策略信息更緊湊,還將前向規(guī)劃指導(dǎo)信息進(jìn)行編碼。
LDM 采用了 MAGVITv2 風(fēng)格的編碼器 - 解碼器結(jié)構(gòu),同時(shí)取消時(shí)間維度下采樣,以保留每幀細(xì)節(jié)。
對(duì)于一個(gè)視頻片段,LDM 采樣每一幀及其后續(xù)固定數(shù)量幀,編碼器先以因果方式提取每幀特征圖,且進(jìn)行量化,以保留詳細(xì)視覺信息。
接下來,LDM 定義了一組注意力模塊和對(duì)應(yīng)可學(xué)習(xí)向量。每個(gè)向量通過注意力機(jī)制捕捉第一幀至后續(xù)固定幀的動(dòng)態(tài)變化信息,然后通過 FSQ 量化。其中,量化器作為信息篩選器,防止 LDM 簡(jiǎn)單記憶后續(xù)幀原始內(nèi)容,而非壓縮關(guān)鍵動(dòng)態(tài)信息。
最后,解碼器使用第一幀的特征圖和幀之間的視覺變化編碼重建后續(xù)幀,最終實(shí)現(xiàn)對(duì)未來動(dòng)作的預(yù)測(cè)和規(guī)劃,實(shí)現(xiàn)對(duì)知識(shí)的認(rèn)知學(xué)習(xí)。
下圖為模型架構(gòu)概覽,左側(cè)為整體架構(gòu),右側(cè)為潛在動(dòng)態(tài)模型。

通過使用多個(gè)向量順序編碼第一幀到后續(xù)多幀的動(dòng)態(tài)變化,VideoWorld 實(shí)現(xiàn)了緊湊且信息豐富的視覺表示,可以捕捉視覺序列中的短期和長(zhǎng)期依賴關(guān)系。這對(duì)于長(zhǎng)期推理和規(guī)劃任務(wù)至關(guān)重要。
通過引入 LDM ,VideoWorld 在僅有 300M 參數(shù)量下,達(dá)到專業(yè) 5 段的 9x9 圍棋水平,且不依賴任何強(qiáng)化學(xué)習(xí)中的搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制。在機(jī)器人任務(wù)上,VideoWorld 也展現(xiàn)出了對(duì)多任務(wù)、多環(huán)境的泛化能力。 3. 純視覺模型可“預(yù)測(cè)”未來,并能“理解”因果關(guān)系覺模型可“預(yù)測(cè)”未來,并能“理解”因果關(guān)系
3.純視覺模型可“預(yù)測(cè)”未來,并能“理解”因果關(guān)系
針對(duì) LDM 提高視頻學(xué)習(xí)效率的原因,團(tuán)隊(duì)進(jìn)行了更為細(xì)致地分析,得出如下 3 點(diǎn)結(jié)論:
- LDM 建模了訓(xùn)練集的數(shù)據(jù)模式。
下圖為 LDM 潛在編碼 UMAP 可視化呈現(xiàn),面向圍棋和機(jī)器人訓(xùn)練集,每個(gè)點(diǎn)代表一個(gè)潛在編碼。
其中,UMAP 是一種流行的降維算法,用于將高維數(shù)據(jù)映射到低維空間,展現(xiàn)模型特征提取情況。
在下圖左側(cè)中,奇數(shù)步表示白方走棋,偶數(shù)步表示黑方,圖例展示了新增黑棋的一些常見模式。UMAP 可視化表明:LDM 建模了訓(xùn)練集中常見的走棋模式,并能將短期和長(zhǎng)期數(shù)據(jù)模式壓縮至潛在空間中,提取并總結(jié)走棋規(guī)律。
同理,下圖右側(cè)為機(jī)械臂沿 X/Y/Z 軸運(yùn)動(dòng)方向可視化潛在編碼,隨著步數(shù)(Step)增多,也能看到 LDM 可以建模多步動(dòng)態(tài)依賴關(guān)系。

- LDM 幫助模型在測(cè)試時(shí)進(jìn)行前向規(guī)劃。
團(tuán)隊(duì)還研究了 LDM 在模型推理中的價(jià)值。
如下圖 UMAP 可視化所示,在測(cè)試階段,模型生成的潛在編碼按照時(shí)間步(Time-step)進(jìn)行分組,使得模型能夠從更長(zhǎng)遠(yuǎn)視角進(jìn)行圍棋決策。

在機(jī)器人場(chǎng)景實(shí)驗(yàn)中,團(tuán)隊(duì)也觀察到了類似現(xiàn)象。
下圖展示了 VideoWorld 在不同機(jī)器人操控任務(wù)中預(yù)測(cè)的潛在編碼。不同時(shí)間步的潛在編碼根據(jù)任務(wù)類型進(jìn)行分組,突顯了模型逐步捕捉特定任務(wù)長(zhǎng)程變化的能力。

- LDM 可以生成因果相關(guān)的編碼。
為進(jìn)一步研究潛在編碼的影響,團(tuán)隊(duì)進(jìn)行了一項(xiàng)干預(yù)實(shí)驗(yàn):用隨機(jī)標(biāo)記替換不同時(shí)間步的潛在編碼,并觀察其對(duì)模型性能的影響。
實(shí)驗(yàn)結(jié)果顯示,干預(yù)第一個(gè)編碼的影響最大,這可能由于編碼之間存在因果依賴,團(tuán)隊(duì)認(rèn)為:改變第一個(gè)編碼,即下一時(shí)間步的最佳決策,會(huì)影響所有未來的決策,側(cè)面說明模型可生成因果相關(guān)編碼,理解因果關(guān)系。
4. 寫在最后
盡管 VideoWorld 在圍棋和模擬機(jī)器人操控環(huán)境中展現(xiàn)了卓越性能,團(tuán)隊(duì)同時(shí)也意識(shí)到,其在真實(shí)世界環(huán)境中的應(yīng)用,仍面臨著高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。
在未來,團(tuán)隊(duì)將著力解決這些難題,推動(dòng)視頻生成模型成為真實(shí)世界中的通用知識(shí)學(xué)習(xí)器。



































