偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

千幀長視頻時(shí)代到來!MIT全新擴(kuò)散算法讓任意模型突破時(shí)長極限

人工智能 新聞
近期,MIT 團(tuán)隊(duì)火遍外網(wǎng)的新論文《History-guided Video Diffusion》提出了一種全新算法 Diffusion Forcing Transformer(DFoT)。

進(jìn)入到 2025 年,視頻生成(尤其是基于擴(kuò)散模型)領(lǐng)域還在不斷地「推陳出新」,各種文生視頻、圖生視頻模型展現(xiàn)出了酷炫的效果。其中,長視頻生成一直是現(xiàn)有視頻擴(kuò)散的痛點(diǎn)。

近期,MIT 團(tuán)隊(duì)火遍外網(wǎng)的新論文《History-guided Video Diffusion》提出了一種全新算法 Diffusion Forcing Transformer(DFoT),在不改動原有架構(gòu)的情況下就能讓模型穩(wěn)定輸出比之前近 50 倍、近千幀長的視頻。

圖片

  • 論文地址:https://arxiv.org/abs/2502.06764
  • 項(xiàng)目主頁:https://boyuan.space/history-guidance/

該算法生成的視頻如此之長,以至于只能截短并降低幀率才能放下。我們先來一睹生成視頻的效果。

在現(xiàn)有的視頻擴(kuò)散模型中,無分類器引導(dǎo)(Classifier-free Guidance, CFG) 已被廣泛應(yīng)用于提升采樣質(zhì)量。然而,目前的視頻模型通常只使用第一幀進(jìn)行引導(dǎo),而忽略了其他歷史幀的重要性。作者的研究發(fā)現(xiàn):歷史信息才是提升視頻生成質(zhì)量的關(guān)鍵因素

因此,通過在去噪過程中混合長歷史模型和短歷史模型的不同預(yù)測,論文提出了一系列「歷史引導(dǎo)」算法 (History Guidance),顯著提升了視頻擴(kuò)散模型的質(zhì)量、生成長度、魯棒性與可組合性。

圖片

在 X 上,論文共同一作 Boyuan Chen 的論文推介收獲了十幾萬的閱讀量、近千的點(diǎn)贊量。

圖片

該工作剛一推出便受到了大量網(wǎng)友的贊譽(yù),尤其看到了 DFoT 算法對視頻擴(kuò)散模型的影響。

圖片

谷歌研究科學(xué)家、3d gaussian splating 一作 George Kopanas 轉(zhuǎn)達(dá)并評論道,「一年前,連續(xù)的長期視頻看起來是不可能的。而現(xiàn)在可以做到了!這項(xiàng)工作令人印象深刻,也提供了一個(gè)非常有趣的潛在想法。」

圖片

方法概覽

論文提出首先要訓(xùn)練一個(gè)能根據(jù)不同部分的歷史進(jìn)行去噪預(yù)測的視頻模型。作者把不同歷史定義如下:

  1. 不同長度的歷史
  2. 歷史的不同子集
  3. 特定頻率域的歷史。

這樣的模型能夠靈活地應(yīng)對不同場景,例如圖生視頻或是延長已有的視頻。遺憾的是,目前的視頻擴(kuò)散模型架構(gòu)并不具備這種靈活性。如果簡單地把歷史幀編碼后喂給 AdaLN 層并使用無分類器引導(dǎo)常見的隨機(jī)丟棄法進(jìn)行訓(xùn)練,實(shí)際效果會非常差。

相反,作者提出了一個(gè)極其簡潔的算法 Diffusion Forcing Transformer (DFoT),在不改變架構(gòu)的情況下就可以實(shí)現(xiàn)以上目標(biāo)。

具體來說,作者提出把熱門前作 Diffusion Forcing 中提出的噪聲掩碼 (noise as masking) 概念帶入到視頻生成架構(gòu)中 —— 訓(xùn)練擴(kuò)散模型時(shí)可以對每一幀使用不同的噪聲強(qiáng)度。某一幀無噪聲時(shí)相當(dāng)于直接把該幀作為條件信息,而最強(qiáng)的噪聲相當(dāng)于完全移除這一幀的信息。給定一個(gè)既有的傳統(tǒng) DiT 架構(gòu),DFoT 只需要控制噪聲掩碼就可以訓(xùn)練任意子序列的預(yù)測任務(wù)。

作者提到,這樣做保留了把現(xiàn)有模型直接微調(diào)成 DFoT 的可行性,并且 Adobe 公司已經(jīng)在他們的視頻大模型 CausVid 上驗(yàn)證過了 Diffusion Forcing 微調(diào)。

圖片

圖(左):傳統(tǒng)的視頻模型要需要把歷史信息編碼進(jìn) AdaLN 層來兼容多歷史幀。圖(右):DFoT 架構(gòu)僅用噪聲掩碼來區(qū)分歷史幀和預(yù)測幀。

DFoT 一旦訓(xùn)練好就可以進(jìn)行極其靈活的采樣。如下圖所示,如果要把前四幀作為條件,可以控制噪聲掩碼給前四幀 0 噪聲(第一行);如果要進(jìn)行無條件生成,可以把所有歷史幀設(shè)為白噪聲(第二行);如果要把短歷史作為條件,可以掩碼較早的歷史幀。

圖片

DFoT 的采樣和歷史引導(dǎo)。

基于這種能力,作者引出了一系列「歷史引導(dǎo)」算法。歷史引導(dǎo)擴(kuò)展了無分類起引導(dǎo)的概念,不僅在采樣過程中組合有條件模型和無條件模型,還能通過加權(quán)去噪組合多重不同的歷史條件。其中最簡單的版本 (HG-v) 已經(jīng)能大幅提高視頻的質(zhì)量,較為先進(jìn)一點(diǎn)的跨時(shí)間歷史采樣 (Temporal History Guidance) 和跨頻率域歷史采樣 (Fractional History Guidance) 更是分別增強(qiáng)了魯棒性和動作幅度。

實(shí)驗(yàn)結(jié)果

作者進(jìn)行了一系列實(shí)驗(yàn)來分別驗(yàn)證 DFoT 架構(gòu)和歷史引導(dǎo)。

首先,在經(jīng)典的 Kinetics 600 數(shù)據(jù)集上,DFoT 超過了所有同架構(gòu)下的視頻擴(kuò)散算法,并僅使用學(xué)術(shù)屆的計(jì)算就和谷歌閉源大模型的結(jié)果打成平手。

不光如此,DFoT 是可以用任意長度的歷史生成視頻的,并不像其他算法一樣在訓(xùn)練時(shí)就要指定特定歷史長度。作者還特意驗(yàn)證了從經(jīng)典擴(kuò)散算法微調(diào)而來的 DFoT 模型,發(fā)現(xiàn)一樣能獲得出色的效果。

圖片

無歷史引導(dǎo)下 DFoT 的效果。

接下來,作者開始驗(yàn)證結(jié)合了歷史引導(dǎo)的 DfoT。

在 kinetics600 上,原有的任務(wù)是給定前 6 幀預(yù)測下面 11 幀。由于 DFoT 極其穩(wěn)定,作者直接把 11 幀拓展到了 64 幀,并在 FVD 和 vBench 上大幅超過了之前的模型。同時(shí),文中提出的 HG-f 可以在保持穩(wěn)定性的情況下避免模型生成靜止的畫面。

圖片

kinetics 上的對比。

在 RealEstate10K 數(shù)據(jù)集上,論文更是斷崖式領(lǐng)先:在此之前,大部分算法只能在該數(shù)據(jù)集上做到給定開頭結(jié)尾去插值中間幀,兩個(gè)最強(qiáng)閉源模型 LVSM 和 4DiM 的在給定第一幀預(yù)測視頻的情況下最多只能生成二三十幀。

而 Diffusion Forcing Transformer 和歷史引導(dǎo)直接做到了單圖生成近一千幀,并且提供了全套開源和 Huggingface 展示。

圖片

DFoT 可以在 RealEstate10K 上單圖生成近千幀。

總結(jié)

論文提出了 Diffusion Forcing Transformer (DFoT),一個(gè)能用任何歷史幀作為條件的視頻擴(kuò)散架構(gòu)。DFoT 讓歷史引導(dǎo) (History Guidance) 成為了可能,使得視頻質(zhì)量和長度都大幅增加。論文還涉及了大量其他內(nèi)容,例如數(shù)學(xué)證明,魯棒性,組合性和機(jī)器人實(shí)驗(yàn)等近四十頁。

作者提供的開源實(shí)現(xiàn)詳細(xì)提供了復(fù)現(xiàn)的所有步驟,并且在 Huggingface 上提供了在線體驗(yàn),感興趣的讀者可以直接根據(jù)論文主頁的鏈接在瀏覽器里直接驗(yàn)證論文效果。

Huggingface 地址:https://huggingface.co/spaces/kiwhansong/diffusion-forcing-transformer

此外,為了方便讀者們進(jìn)一步學(xué)習(xí)了解該論文,我們邀請到了論文共同一作、MIT計(jì)算機(jī)系四年級博士生陳博遠(yuǎn)于北京時(shí)間2月27日20:00直播解讀該研究,歡迎感興趣的讀者預(yù)約觀看。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-07-15 08:58:00

2025-06-03 08:40:00

2024-05-10 07:58:03

2024-03-28 13:14:00

數(shù)據(jù)訓(xùn)練

2011-09-30 15:28:08

無線視頻

2025-04-07 07:55:00

視頻訓(xùn)練生成

2009-04-25 09:05:42

Symbian移動OS

2019-04-19 22:28:59

曙光服務(wù)器英特爾

2023-10-23 12:43:05

模型訓(xùn)練

2022-10-19 14:17:32

圖像模型

2025-05-28 03:30:00

AI人工智能大數(shù)據(jù)

2014-11-04 09:14:39

2025-04-14 09:50:00

模型生成AI

2017-09-22 14:54:00

科技

2013-09-26 13:17:12

BAT百度騰訊

2025-03-27 12:20:25

2025-01-20 09:20:00

模型AI應(yīng)用

2022-04-11 14:21:49

模型視頻AI

2018-02-25 12:14:20

MITAI技術(shù)卡頓

2025-02-24 14:15:00

模型訓(xùn)練AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號