偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="ozfro"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

千幀長視頻時(shí)代到來！MIT全新擴(kuò)散算法讓任意模型突破時(shí)長極限

作者：機(jī)器之心 2025-02-27 09:39:49

人工智能新聞

近期，MIT 團(tuán)隊(duì)火遍外網(wǎng)的新論文《History-guided Video Diffusion》提出了一種全新算法 Diffusion Forcing Transformer（DFoT）。

進(jìn)入到 2025 年，視頻生成（尤其是基于擴(kuò)散模型）領(lǐng)域還在不斷地「推陳出新」，各種文生視頻、圖生視頻模型展現(xiàn)出了酷炫的效果。其中，長視頻生成一直是現(xiàn)有視頻擴(kuò)散的痛點(diǎn)。

近期，MIT 團(tuán)隊(duì)火遍外網(wǎng)的新論文《History-guided Video Diffusion》提出了一種全新算法 Diffusion Forcing Transformer（DFoT），在不改動原有架構(gòu)的情況下就能讓模型穩(wěn)定輸出比之前近 50 倍、近千幀長的視頻。

論文地址：https://arxiv.org/abs/2502.06764
項(xiàng)目主頁：https://boyuan.space/history-guidance/

該算法生成的視頻如此之長，以至于只能截短并降低幀率才能放下。我們先來一睹生成視頻的效果。

在現(xiàn)有的視頻擴(kuò)散模型中，無分類器引導(dǎo)（Classifier-free Guidance, CFG）已被廣泛應(yīng)用于提升采樣質(zhì)量。然而，目前的視頻模型通常只使用第一幀進(jìn)行引導(dǎo)，而忽略了其他歷史幀的重要性。作者的研究發(fā)現(xiàn)：歷史信息才是提升視頻生成質(zhì)量的關(guān)鍵因素！

因此，通過在去噪過程中混合長歷史模型和短歷史模型的不同預(yù)測，論文提出了一系列「歷史引導(dǎo)」算法 (History Guidance)，顯著提升了視頻擴(kuò)散模型的質(zhì)量、生成長度、魯棒性與可組合性。

在 X 上，論文共同一作 Boyuan Chen 的論文推介收獲了十幾萬的閱讀量、近千的點(diǎn)贊量。

該工作剛一推出便受到了大量網(wǎng)友的贊譽(yù)，尤其看到了 DFoT 算法對視頻擴(kuò)散模型的影響。

谷歌研究科學(xué)家、3d gaussian splating 一作 George Kopanas 轉(zhuǎn)達(dá)并評論道，「一年前，連續(xù)的長期視頻看起來是不可能的。而現(xiàn)在可以做到了！這項(xiàng)工作令人印象深刻，也提供了一個(gè)非常有趣的潛在想法。」

方法概覽

論文提出首先要訓(xùn)練一個(gè)能根據(jù)不同部分的歷史進(jìn)行去噪預(yù)測的視頻模型。作者把不同歷史定義如下：

不同長度的歷史
歷史的不同子集
特定頻率域的歷史。

這樣的模型能夠靈活地應(yīng)對不同場景，例如圖生視頻或是延長已有的視頻。遺憾的是，目前的視頻擴(kuò)散模型架構(gòu)并不具備這種靈活性。如果簡單地把歷史幀編碼后喂給 AdaLN 層并使用無分類器引導(dǎo)常見的隨機(jī)丟棄法進(jìn)行訓(xùn)練，實(shí)際效果會非常差。

相反，作者提出了一個(gè)極其簡潔的算法 Diffusion Forcing Transformer (DFoT)，在不改變架構(gòu)的情況下就可以實(shí)現(xiàn)以上目標(biāo)。

具體來說，作者提出把熱門前作 Diffusion Forcing 中提出的噪聲掩碼 (noise as masking) 概念帶入到視頻生成架構(gòu)中 —— 訓(xùn)練擴(kuò)散模型時(shí)可以對每一幀使用不同的噪聲強(qiáng)度。某一幀無噪聲時(shí)相當(dāng)于直接把該幀作為條件信息，而最強(qiáng)的噪聲相當(dāng)于完全移除這一幀的信息。給定一個(gè)既有的傳統(tǒng) DiT 架構(gòu)，DFoT 只需要控制噪聲掩碼就可以訓(xùn)練任意子序列的預(yù)測任務(wù)。

作者提到，這樣做保留了把現(xiàn)有模型直接微調(diào)成 DFoT 的可行性，并且 Adobe 公司已經(jīng)在他們的視頻大模型 CausVid 上驗(yàn)證過了 Diffusion Forcing 微調(diào)。

圖（左）：傳統(tǒng)的視頻模型要需要把歷史信息編碼進(jìn) AdaLN 層來兼容多歷史幀。圖（右）：DFoT 架構(gòu)僅用噪聲掩碼來區(qū)分歷史幀和預(yù)測幀。

DFoT 一旦訓(xùn)練好就可以進(jìn)行極其靈活的采樣。如下圖所示，如果要把前四幀作為條件，可以控制噪聲掩碼給前四幀 0 噪聲（第一行）；如果要進(jìn)行無條件生成，可以把所有歷史幀設(shè)為白噪聲（第二行）；如果要把短歷史作為條件，可以掩碼較早的歷史幀。

DFoT 的采樣和歷史引導(dǎo)。

基于這種能力，作者引出了一系列「歷史引導(dǎo)」算法。歷史引導(dǎo)擴(kuò)展了無分類起引導(dǎo)的概念，不僅在采樣過程中組合有條件模型和無條件模型，還能通過加權(quán)去噪組合多重不同的歷史條件。其中最簡單的版本 (HG-v) 已經(jīng)能大幅提高視頻的質(zhì)量，較為先進(jìn)一點(diǎn)的跨時(shí)間歷史采樣 (Temporal History Guidance) 和跨頻率域歷史采樣 (Fractional History Guidance) 更是分別增強(qiáng)了魯棒性和動作幅度。

實(shí)驗(yàn)結(jié)果

作者進(jìn)行了一系列實(shí)驗(yàn)來分別驗(yàn)證 DFoT 架構(gòu)和歷史引導(dǎo)。

首先，在經(jīng)典的 Kinetics 600 數(shù)據(jù)集上，DFoT 超過了所有同架構(gòu)下的視頻擴(kuò)散算法，并僅使用學(xué)術(shù)屆的計(jì)算就和谷歌閉源大模型的結(jié)果打成平手。

不光如此，DFoT 是可以用任意長度的歷史生成視頻的，并不像其他算法一樣在訓(xùn)練時(shí)就要指定特定歷史長度。作者還特意驗(yàn)證了從經(jīng)典擴(kuò)散算法微調(diào)而來的 DFoT 模型，發(fā)現(xiàn)一樣能獲得出色的效果。

無歷史引導(dǎo)下 DFoT 的效果。

接下來，作者開始驗(yàn)證結(jié)合了歷史引導(dǎo)的 DfoT。

在 kinetics600 上，原有的任務(wù)是給定前 6 幀預(yù)測下面 11 幀。由于 DFoT 極其穩(wěn)定，作者直接把 11 幀拓展到了 64 幀，并在 FVD 和 vBench 上大幅超過了之前的模型。同時(shí)，文中提出的 HG-f 可以在保持穩(wěn)定性的情況下避免模型生成靜止的畫面。

kinetics 上的對比。

在 RealEstate10K 數(shù)據(jù)集上，論文更是斷崖式領(lǐng)先：在此之前，大部分算法只能在該數(shù)據(jù)集上做到給定開頭結(jié)尾去插值中間幀，兩個(gè)最強(qiáng)閉源模型 LVSM 和 4DiM 的在給定第一幀預(yù)測視頻的情況下最多只能生成二三十幀。

而 Diffusion Forcing Transformer 和歷史引導(dǎo)直接做到了單圖生成近一千幀，并且提供了全套開源和 Huggingface 展示。

DFoT 可以在 RealEstate10K 上單圖生成近千幀。

總結(jié)

論文提出了 Diffusion Forcing Transformer (DFoT)，一個(gè)能用任何歷史幀作為條件的視頻擴(kuò)散架構(gòu)。DFoT 讓歷史引導(dǎo) (History Guidance) 成為了可能，使得視頻質(zhì)量和長度都大幅增加。論文還涉及了大量其他內(nèi)容，例如數(shù)學(xué)證明，魯棒性，組合性和機(jī)器人實(shí)驗(yàn)等近四十頁。

作者提供的開源實(shí)現(xiàn)詳細(xì)提供了復(fù)現(xiàn)的所有步驟，并且在 Huggingface 上提供了在線體驗(yàn)，感興趣的讀者可以直接根據(jù)論文主頁的鏈接在瀏覽器里直接驗(yàn)證論文效果。

Huggingface 地址：https://huggingface.co/spaces/kiwhansong/diffusion-forcing-transformer

此外，為了方便讀者們進(jìn)一步學(xué)習(xí)了解該論文，我們邀請到了論文共同一作、MIT計(jì)算機(jī)系四年級博士生陳博遠(yuǎn)于北京時(shí)間2月27日20:00直播解讀該研究，歡迎感興趣的讀者預(yù)約觀看。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型算法視頻生成

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="k6638"></blockquote>

<sub id="k6638"><p id="k6638"></p></sub>

<cite id="k6638"></cite>