偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

每秒生成超30幀視頻,支持實時交互!自回歸視頻生成新框架刷新生成效率

人工智能 新聞
最近,來自微軟研究院的團隊與北大聯(lián)合發(fā)布新框架——Next-Frame Diffusion (NFD)。

在A100上用310M模型,實現(xiàn)每秒超30幀自回歸視頻生成,同時畫面還保持高質(zhì)量!

視頻生成現(xiàn)在都快這個程度了?

圖片

最近,來自微軟研究院的團隊與北大聯(lián)合發(fā)布新框架——Next-Frame Diffusion (NFD)。

通過實現(xiàn)幀內(nèi)并行采樣,幀間自回歸的方式,NFD讓視頻生成在保持較高生成質(zhì)量的同時,生成效率大幅提升。

或許不久之后的游戲,就是玩家直接跟模型交互打游戲了,無需通過傳統(tǒng)的游戲引擎。

比如在《我的世界》中,下面每個視頻在NVIDIA A100 GPU上生成只需約0.48秒。

玩家在黑暗的走廊中不斷前進:

圖片

玩家在攻擊小動物后轉(zhuǎn)動視角:

圖片

玩家跳躍后放置木塊:

圖片

玩家跳上草地:

圖片

玩家不停地放置石塊:

圖片

值得一提的是,前段時間在X上火了的一款基于Minecraft的交互式自回歸世界模型——MineWorld,也是這個微軟研究院的團隊做的。

它能夠以每秒4-7幀的速度和模型進行交互。

圖片

如今,NFD讓生成速度又快了幾倍。

圖片

那么具體是如何做到的?

NFD長啥樣?

當前多數(shù)的自回歸視頻生成模型如VideoPoet采用類似于Language Model的方式,將視頻編碼成離散視頻Token,并逐個生成Token。

然而這種方式在生成的時候既沒法利用GPU并行計算的能力,也破壞了幀內(nèi)的相關性。

因此,研究人員采用了Next-Frame Diffusion (NFD)的方式來建模視頻,其使用幀內(nèi)雙向注意力,幀間因果注意力機制的方式來建模視頻,并采用擴散模型多步迭代生成連續(xù)Token。

這樣做的好處是可以在生成的時候逐幀采樣來流式生成視頻,并在幀內(nèi)并行生成以提高推理效率。

為進一步提高生成效率,研究人員進一步通過以下技術來減少推理時的總采樣次數(shù):

  • 將一致性蒸餾擴展到視頻領域,并專門針對視頻模型優(yōu)化,從而少量采樣步驟,實現(xiàn)高效推理;
  • 提出了投機采樣方法。由于相鄰幀常常動作輸入相同,模型使用當前動作輸入生成多個后續(xù)幀,若輸入動作發(fā)生變化,則丟棄投機生成的幀,以充分利用并行計算能力。

圖片

引入塊狀因果注意力機制的Transformer

具體來說,NFD的架構包含一個將原始視覺信號轉(zhuǎn)換為Token的Tokenizer,以及生成這些Token的基于擴散的Transformer模型。在Transformer內(nèi),研究人員使用了塊狀因果注意力機制,結合幀內(nèi)的雙向注意力和幀間的因果依賴,高效建模時空依賴性。

相比計算密集的3D全注意力,該方法將整體成本減少50%,支持高效地并行預測下一幀所有Token。

基于Flow Matching的訓練和推理過程

研究人員基于Flow Matching構建訓練流程,追求簡單和穩(wěn)定性。對于視頻幀xi,分配一個獨立時間步t,并通過線性插值生成加噪版本:

圖片

訓練通過最小化Flow Matching損失來進行:

圖片

在采樣階段,研究人員采用DPM-Solver++,通過以下公式對同一幀的所有Token去噪:

圖片

一致性蒸餾

雖然NFD在推理階段支持并行Token采樣,受限于擴散模型的多步采樣,實現(xiàn)實時視頻生成仍具挑戰(zhàn)性。

因此,研究人員首先將一致性蒸餾擴展到視頻領域,通過數(shù)學變換將流匹配模型轉(zhuǎn)換TrigFlow模型,從而簡化了連續(xù)時間一致性模型的訓練,并針對視頻數(shù)據(jù)的特性進行調(diào)整。

具體的訓練目標為:

圖片

投機采樣

與此同時,研究人員觀察到,用戶輸入的游戲動作在很多時候是可預測的。

例如,用戶執(zhí)行前進命令的時候往往會持續(xù)多幀。

鑒于這個發(fā)現(xiàn),研究人員進一步提出了一種投機采樣技術,通過并行預測多個未來幀加速推理。

在投機生成后,將預測動作與實際后續(xù)動作輸入進行比較。一旦檢測到預測與真實動作不一致,丟棄之后的所有投機幀,并從最后驗證的幀重新開始生成。

效果如何?

下表從視頻內(nèi)容的生成效率和視覺質(zhì)量兩個角度對比了本工作的方法和當前最先進方法。

其中,NFD指使用Flow Matching目標訓練并通過DPM-Solver++進行18次采樣的模型;NFD+為加速版本,通過一致性蒸餾實現(xiàn)4步采樣,并結合了投機采樣技術。

NFD和NFD+方法與先前模型的生成效率、質(zhì)量的對比:

圖片

結果表明,NFD在多項指標上優(yōu)于先前的自回歸模型。

具體而言,NFD(310M)在FVD上達到212,PSNR為16.46,優(yōu)于MineWorld(1.2B)的FVD 227和PSNR 15.69,同時運行速度達6.15FPS,快超過2倍。

NFD+通過高效采樣策略顯著加速:130M和310M模型分別達到42.46FPS和31.14FPS,遠超所有基線。

即使速度提升,NFD+仍保持競爭力的視覺質(zhì)量,310M模型在PSNR上達到16.83,F(xiàn)VD為227,與更大的MineWorld模型表現(xiàn)相當。

最后總結來說,團隊認為當下視頻生成模型在各個領域百花齊放,有誕生像Sora、可靈、Veo3這樣的產(chǎn)品,也有Genie、MineWorld這樣的游戲世界模擬器,為未來世界模型的實現(xiàn)提供了巨大意義。隨著視頻模型廣泛的應用,更靈活、更高效的生成范式變得越來越重要。

論文地址:https://arxiv.org/pdf/2506.01380

項目主頁:https://nextframed.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-15 09:21:57

2025-10-21 01:00:00

2025-03-27 09:24:16

2024-10-28 07:30:00

2025-07-08 08:50:38

MITAI視頻

2025-01-26 10:50:00

模型視頻生成

2024-10-05 08:10:01

2025-10-20 08:51:00

2025-05-06 09:41:06

2023-04-03 10:04:44

開源模型

2025-04-16 09:20:00

虛擬模型數(shù)字

2024-12-26 00:51:38

2025-04-22 15:34:08

視頻生成AI

2025-06-11 09:12:00

視頻生成AI

2025-07-21 09:03:00

模型AI訓練

2021-08-13 15:07:02

模型人工智能深度學習

2025-08-07 07:56:52

2025-06-18 16:42:15

視頻生成AI模型

2025-09-10 09:38:56

2025-04-18 09:25:00

點贊
收藏

51CTO技術棧公眾號