偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

突破長視頻生成瓶頸:南大、TeleAI推出全新AI生成范式MMPL,讓創(chuàng)意一鏡到底

人工智能 新聞
南京大學(xué)聯(lián)合 TeleAI 推出長視頻自回歸生成新范式——Macro-from-Micro Planning( MMPL),重新定義 AI 視頻創(chuàng)作流程。

向迅之,南京大學(xué) R&L 課題組在讀博士生,導(dǎo)師是范琦副教授。研究聚焦圖像/視頻生成與世界模型等 AIGC 方向。

你是否曾被 AI 生成視頻的驚艷開場所吸引,卻在幾秒后失望于?彩漂移、畫面模糊、節(jié)奏斷裂? 當(dāng)前  AI 長視頻?成普遍?臨 “高開低走 ” 的困境:前幾秒驚艷奪? ,之后卻質(zhì)量驟降、細(xì)節(jié)崩壞;更別提幀間串行生成導(dǎo)致的低效問題 —— 動輒數(shù)小時的等待,實時預(yù)覽幾乎難以企及。

這—行業(yè)難題,如今迎來突破性解法!

南京大學(xué)聯(lián)合 TeleAI 推出長視頻自回歸生成新范式——Macro-from-Micro Planning( MMPL),重新定義 AI 視頻創(chuàng)作流程。

靈感源自電影工業(yè)的 “分鏡腳本 + 多組并行拍攝” 機制,MMPL 首創(chuàng) “宏觀規(guī)劃、微觀執(zhí)行 ” 的雙層?成架構(gòu):

  • 先謀全局:在宏觀層面統(tǒng)—規(guī)劃整段視頻的敘事脈絡(luò)與視覺—致性,確保劇情連貫、風(fēng)格統(tǒng)—;
  • 再精細(xì)節(jié):將長視頻拆解為多個短片段,并通過并行化?成管線?效填充每—幀細(xì)節(jié),大幅提升速度與穩(wěn)定性。

成果令人振奮:

  • 實現(xiàn)分鐘級?質(zhì)量長視頻穩(wěn)定生成,告別 “虎頭蛇尾”;
  • ?成效率顯著提升,結(jié)合蒸餾加速技術(shù),預(yù)覽幀率最高可達約 32 FPS ,接近實時交互體驗;
  • 在色彩—致性、 內(nèi)容連貫性上全?超越傳統(tǒng)串行生成方案。

MMPL 不僅是—項技術(shù)升級,更是向 “AI 導(dǎo)演” 邁進的重要—步 —— 讓機器不僅會 “拍鏡頭” ,更能 “講好—個故事”。

  • 論文標(biāo)題:Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
  • 作者:Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
  • 機構(gòu) :南京大學(xué);中國電信人工智能研究院;上海交通大學(xué);香港中文大學(xué)(深圳);中國科學(xué)院大學(xué)
  • 論?地址:https://arxiv.org/abs/2508.03334
  • 項?主頁:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/

傳統(tǒng)困境:逐幀?成的兩大瓶頸

在長視頻生成領(lǐng)域,隨著時長從幾秒擴展到數(shù)十秒甚至一分鐘以上,主流自回歸模型面臨兩個根本性挑戰(zhàn):

1. 時域漂移(Temporal Drift)

由于每—幀都依賴前—幀生成,微小誤差會隨時間不斷累積,導(dǎo)致畫面逐漸 “跑偏”:人物變形、場景錯亂、色彩失真等問題頻發(fā),嚴(yán)重影響視覺質(zhì)量。

2. 串?瓶頸(Serial Bottleneck)

視頻必須逐幀?成,?法并?處理。?成 60 秒視頻可能需要數(shù)分鐘乃?數(shù)?時,難以?持實時預(yù)覽或交互式創(chuàng)作。

這些問題使得當(dāng)前 AI 視頻仍停留在 “ 片段級表達” ,難以勝任需要長時連貫性的敘事任務(wù)。

創(chuàng)新突破:導(dǎo)演式雙層生成框架 MMPL

為解決上述問題,我們提出 Macro-from-Micro Planning( MMPL) —— — 種 “先規(guī)劃、后填充” 的兩階段生成范式,其核心思想是:

先全局規(guī)劃,再并行執(zhí)行。

這—理念借鑒了電影工業(yè)中 “導(dǎo)演制定分鏡腳本 + 多攝制組并行拍攝” 的協(xié)作模式,將長視頻生成從 “接龍式繪畫” 轉(zhuǎn)變?yōu)?“系統(tǒng)性制片 ”。

MMPL 的核心優(yōu)勢在于實現(xiàn)了三大突破:

  • 長時?致性:通過宏觀規(guī)劃抑制跨片段漂移;
  • 高效并行性:各片段可獨立填充細(xì)節(jié),支持多 GPU 并行;
  • 靈活調(diào)度性:采用流水線機制,進—步提升資源利用率。

最終,系統(tǒng)可在保證高質(zhì)量的前提下,實現(xiàn)分鐘級、節(jié)奏可控的穩(wěn)定?成,結(jié)合蒸餾加速方案,預(yù)覽速度可達 ≥32 FPS ,接近實時交互體驗。

效果呈現(xiàn):更穩(wěn)、更長 、更快

在統(tǒng)—測試集上,MMPL 顯著優(yōu)于現(xiàn)有方法(如 MAGI 、SkyReels 、CausVid 、Self Foricng 等),在視覺質(zhì)量、時間—致性和穩(wěn)定性方面均取得領(lǐng)先。

  • 更穩(wěn):無明顯色彩漂移、 閃爍或結(jié)構(gòu)崩壞,長時間生成仍保持高保真;
  • 更長: 支持 20 秒、30 秒乃至 1 分鐘的連貫敘事,片段銜接自然;
  • 更快:得益于并行填充與自適應(yīng)調(diào)度,長視頻生成整體吞吐量大幅提升。

技術(shù)解析:兩階段協(xié)同工作機制

MMPL 的成功源于其精心設(shè)計的 “規(guī)劃 — 填充” 雙階段架構(gòu)。整個流程分為兩個層次:微觀規(guī)劃( Micro Planning) 和宏觀規(guī)劃( Macro Planning),隨后進行并行內(nèi)容填充(Content Populating)。

第?階段:雙層規(guī)劃,構(gòu)建穩(wěn)定骨架

1. Micro Planning: 片段內(nèi)關(guān)鍵幀聯(lián)合預(yù)測

我們將長視頻劃分為多個固定長度的片段(例如每段 81 幀)。對每個片段,模型不直接生成所有幀,而是基于首幀  ,聯(lián)合預(yù)測?組稀疏的關(guān)鍵未來錨點幀,包括:

  • 早期鄰近幀 
  • 中部關(guān)鍵幀 
  • 末端結(jié)束幀 

記錨點集合為 ,其生成過程建模為:

這些錨點在同—去噪過程中聯(lián)合生成,彼此之間語義協(xié)調(diào)、運動連貫;且均以首幀為條件單步預(yù)測,避免了多步累積誤差。它們共同構(gòu)成了該片段的 “視覺骨架” ,為后續(xù)填充提供強約束。

2. Macro Planning:跨片段敘事?致性建模

為了確保整個視頻的連貫性,我們將各片段的 Micro 計劃串聯(lián)成—個?回歸鏈:第 s 段的末端錨點作為第 s + 1 段的起始條件。設(shè)第 s 段的錨點集合為,首幀為  ,則全局規(guī)劃可表示為:

這種 “分段稀疏連接” 的設(shè)計,將誤差累積從 T 幀級別降低至 S 段級別( S ? T),從根本上緩解了長程漂移問題。

第二階段:并行填充,釋放計算潛能

1. Content Populating:基于錨點的并行細(xì)節(jié)生成

在所有片段的錨點  就緒后,即可并行填充各?段內(nèi)的中間幀。 

以第 i 個片段為例,其內(nèi)容被劃分為兩個子區(qū)間:

條件概率分解如下:

由于每個片段的填充僅依賴本片段的錨點 ,與其他片段無關(guān), 因此所有片段的內(nèi)容填充可完全獨立:

 這意味著: 多個片段可以同時在不同 GPU 上并行?成,極大提升效率。

2. Adaptive Workload Scheduling:動態(tài)調(diào)度,實現(xiàn)流水線加速

為進—步提升資源利用率,我們引入自適應(yīng)工作負(fù)載調(diào)度機制,實現(xiàn) “規(guī)劃” 與 “填充” 的重疊執(zhí)行:

當(dāng)片段 s 的錨點生成后,即可:

  • 立即啟動下—片段 s + 1 的 Micro 計劃;
  • 同時,片段 s 自身可提前開始中間幀填充,無需等待全局規(guī)劃完成。

該機制的形式化表達為:

其中,下—片段的起始幀 可選擇為或  , 由此衍?出兩種運行模式:

最小內(nèi)存峰值模式

 選用   作為 ,跳過當(dāng)前片段末尾部分 的填充。

  • 優(yōu)勢:降低峰值內(nèi)存占用與單段延遲;
  • 缺點:引入幀重用 ,影響吞吐量。

最大吞吐量模式

選用  作為 ,完整生成當(dāng)前片段所有中間幀。

  • 優(yōu)勢:消除冗余,最大化流水線效率;
  • 缺點:每段計算負(fù)載更高。

這兩種策略可在內(nèi)存、延遲與吞吐量之間靈活權(quán)衡,適配不同部署場景。

結(jié)語:從 “會畫” 到 “會拍”,AI 開始有了導(dǎo)演思維

當(dāng) AI 不再局限于逐幀生成,而是具備了從整體出發(fā)的規(guī)劃能力 —— 理解情節(jié)的推進、協(xié)調(diào)畫面的連貫性、控制運動的節(jié)奏,長視頻生成便邁出了從 “ 片段拼接” 走向 “統(tǒng)—表達” 的關(guān)鍵—步。我們希望,MMPL 能為視頻創(chuàng)作提供—種更穩(wěn)定、更高效的技術(shù)路徑。借助其近實時的生成能力,創(chuàng)作者可以在快速反饋中不斷調(diào)整與完善自己的構(gòu)想,讓創(chuàng)意更自由地流動。

也許真正的 “所見即所得” 尚在遠方 ,但至少,我們正朝著那個方向,穩(wěn)步前行。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-11-01 09:00:00

大語言模型人工智能

2025-06-18 16:42:15

視頻生成AI模型

2025-03-27 09:24:16

2024-10-28 07:30:00

2024-02-19 08:31:10

SoraAIOpenAI

2025-10-21 01:00:00

2025-10-20 08:36:21

2025-05-06 09:41:06

2025-01-15 09:21:57

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2025-10-20 08:51:00

2025-07-02 08:30:00

視頻生成AI模型

2023-12-20 15:26:13

AI谷歌

2024-11-08 17:34:38

2023-04-03 10:04:44

開源模型

2024-02-19 07:58:01

OpenAI模型GPT

2024-12-12 08:35:58

2025-03-03 08:32:00

模型AI訓(xùn)練

2025-07-08 08:50:38

MITAI視頻

2025-09-26 10:37:34

點贊
收藏

51CTO技術(shù)棧公眾號