偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時(shí)長(zhǎng)極限

人工智能 新聞
在擴(kuò)散模型驅(qū)動(dòng)的視覺生成領(lǐng)域,從 Sora、Wan、Hunyuan-Video 到 Veo,視頻模型正不斷逼近真實(shí)世界。然而幾乎所有主流模型都有一個(gè)共同限制:只能生成數(shù)秒的短片段。

本工作由加州大學(xué)洛杉磯分校與字節(jié) Seed 等團(tuán)隊(duì)聯(lián)合完成。

在擴(kuò)散模型持續(xù)引領(lǐng)視覺生成浪潮的今天,圖像生成早已臻于極致,但視頻生成仍被一個(gè)關(guān)鍵瓶頸困住——時(shí)長(zhǎng)限制。目前多數(shù)模型還停留在數(shù)秒短視頻的生成,Self-Forcing++ 讓視頻生成首次跨入 4 分鐘高質(zhì)量長(zhǎng)視頻時(shí)代,且無(wú)需任何長(zhǎng)視頻數(shù)據(jù)再訓(xùn)練。先展示一段 100 秒的生成視頻:

  • 論文標(biāo)題:Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
  • 論文地址:https://arxiv.org/abs/2510.02283
  • 項(xiàng)目主頁(yè): https://self-forcing-plus-plus.github.io
  • 代碼:https://github.com/justincui03/Self-Forcing-Plus-Plus

研究背景:為什么長(zhǎng)視頻生成如此困難?

在擴(kuò)散模型驅(qū)動(dòng)的視覺生成領(lǐng)域,從 Sora、Wan、Hunyuan-Video 到 Veo,視頻模型正不斷逼近真實(shí)世界。然而幾乎所有主流模型都有一個(gè)共同限制:只能生成數(shù)秒的短片段。

這背后的原因在于架構(gòu)層面的「先天缺陷」:

  • Transformer 的非因果性 —— 傳統(tǒng)擴(kuò)散 Transformer (DiT) 需要同時(shí)看到所有幀,無(wú)法自然地逐幀擴(kuò)展;
  • 訓(xùn)練-推理不匹配 —— 模型在訓(xùn)練時(shí)只見過(guò) 5 秒短片,卻在推理時(shí)要生成幾十秒甚至幾分鐘;
  • 誤差累積 —— 教師模型在每一幀提供強(qiáng)監(jiān)督,但學(xué)生模型在長(zhǎng)序列中沒有應(yīng)對(duì)逐步誤差的能力;
  • 過(guò)曝與凍結(jié) —— 長(zhǎng)時(shí)間生成后常出現(xiàn)畫面靜止、亮度漂移、運(yùn)動(dòng)中斷等「災(zāi)難性崩塌」。

這些問題共同導(dǎo)致:即使最先進(jìn)的自回歸視頻擴(kuò)散模型,也難以在 10 秒以上保持畫面一致與運(yùn)動(dòng)連貫。

核心思想:教師模型即世界模型

Self-Forcing++ 的關(guān)鍵洞察是:

教師模型雖然只會(huì)生成 5 秒視頻,但它依然掌握糾錯(cuò)長(zhǎng)視頻失真的能力。

研究者利用這一點(diǎn),讓學(xué)生模型先自己生成長(zhǎng)視頻(即使這些視頻已經(jīng)開始「崩壞」),再用教師模型來(lái)糾正它的錯(cuò)誤。

經(jīng)過(guò)這種「生成→失真→再糾錯(cuò)→再學(xué)習(xí)」循環(huán),模型逐步學(xué)會(huì)了在長(zhǎng)時(shí)間尺度下自我修復(fù)和穩(wěn)態(tài)生成。這一機(jī)制讓 Self-Forcing++ 無(wú)需任何長(zhǎng)視頻標(biāo)注,就能把生成時(shí)長(zhǎng)從 5 秒擴(kuò)展到 100 秒,甚至 4 分鐘 15 秒(達(dá)到位置編碼極限的 99.9%)。

技術(shù)解析:關(guān)鍵的三步讓模型穩(wěn)定生成超長(zhǎng)視頻

1?? 反向噪聲初始化(Backward Noise Initialization)

在傳統(tǒng)短視頻蒸餾中,模型每次都從隨機(jī)噪聲生成。

Self-Forcing++ 改為在長(zhǎng)視頻 roll-out 后,把噪聲重新注入到已生成的序列中,使后續(xù)幀與前文保持時(shí)間連續(xù)性。

這一步相當(dāng)于讓模型「重啟但不失憶」,避免時(shí)間割裂。

2?? 擴(kuò)展分布匹配蒸餾(Extended DMD)

作者將原本只在 5 秒窗口內(nèi)進(jìn)行的教師-學(xué)生分布對(duì)齊,擴(kuò)展為滑動(dòng)窗口蒸餾:

學(xué)生先生成 100 秒長(zhǎng)視頻 → 隨機(jī)抽取其中任意 5 秒片段 → 用教師分布校正該片段。

這樣,教師不必生成長(zhǎng)視頻,也能「局部監(jiān)督」學(xué)生的長(zhǎng)序列表現(xiàn),從而實(shí)現(xiàn)長(zhǎng)期一致性學(xué)習(xí)。

3?? 滾動(dòng) KV 緩存(Rolling KV Cache)

以往自回歸模型(如 CausVid)在推理時(shí)使用滾動(dòng)緩存,但訓(xùn)練時(shí)卻仍用固定窗口,造成嚴(yán)重偏差。

Self-Forcing++ 在訓(xùn)練階段也同步采用滾動(dòng)緩存,實(shí)現(xiàn)真正的訓(xùn)練-推理對(duì)齊,徹底消除了「曝光漂移」和「幀重復(fù)」的問題。

進(jìn)一步優(yōu)化:強(qiáng)化學(xué)習(xí)加持的時(shí)間平滑

在部分極長(zhǎng)視頻中,模型仍可能出現(xiàn)突然跳幀或場(chǎng)景突變。

研究者借鑒強(qiáng)化學(xué)習(xí)中的 Group Relative Policy Optimization (GRPO) 框架,引入光流平滑獎(jiǎng)勵(lì)(Optical-Flow Reward),讓模型通過(guò)懲罰光流突變來(lái)學(xué)習(xí)更自然的運(yùn)動(dòng)過(guò)渡。結(jié)果顯示:光流方差顯著下降,視頻流暢度顯著提升。整體的算法可以歸納為下面的流程。

實(shí)驗(yàn)結(jié)果:在 50、75 和 100 秒的視頻生成評(píng)測(cè)上全面超越基線

?? 測(cè)試設(shè)置

  • 模型規(guī)模:1.3B 參數(shù)(與 Wan2.1-T2V 相同)
  • 對(duì)比方法:CausVid、SkyReels-V2、MAGI-1、Self-Forcing 等
  • 評(píng)估指標(biāo):VBench + 新提出的 Visual Stability(視覺穩(wěn)定性)

?? 主要成果

以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的測(cè)試結(jié)果。

如下圖所示,在 0-100 秒的生成結(jié)果上,Self-Forcing++ 都能保持很好的穩(wěn)定性,基線模型大多數(shù)都會(huì)經(jīng)歷嚴(yán)重的質(zhì)量下降,比如過(guò)曝光和錯(cuò)誤累積。

可視化展示:更多的超長(zhǎng)視頻展示

在這些長(zhǎng)視頻中,Self-Forcing++ 始終保持穩(wěn)定亮度與自然運(yùn)動(dòng),視覺效果幾乎無(wú)明顯劣化。

Scaling 現(xiàn)象:訓(xùn)練算力 ×25 → 255 秒視頻

作者進(jìn)一步探究「算力與時(shí)長(zhǎng)」關(guān)系,在可視化生成過(guò)程中有以下發(fā)現(xiàn):

這說(shuō)明可能無(wú)需長(zhǎng)視頻數(shù)據(jù),只要擴(kuò)展訓(xùn)練預(yù)算,即可延展生成時(shí)長(zhǎng)。

局限與展望

雖然自回歸視頻生成已經(jīng)能達(dá)到分鐘級(jí)別,但是目前依舊有以下問題有待提高:

  • 長(zhǎng)時(shí)記憶缺失:極長(zhǎng)場(chǎng)景下,仍可能丟失被遮擋物體的狀態(tài);
  • 訓(xùn)練效率較慢:自回歸訓(xùn)練成本高,比 teacher-forcing 訓(xùn)練速度慢。

更多演示視頻和我們的方法請(qǐng)參考我們的主頁(yè)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-10-20 08:36:21

2025-02-27 09:39:49

2025-04-22 15:34:08

視頻生成AI

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2024-09-24 15:51:02

2025-06-12 11:57:56

視頻生成模型AI

2024-02-19 08:31:10

SoraAIOpenAI

2025-02-24 10:03:21

2025-08-07 07:56:52

2025-07-02 08:30:00

視頻生成AI模型

2025-08-26 09:08:00

AI視頻生成模型

2023-04-03 10:04:44

開源模型

2025-04-22 09:17:00

模型生成開源

2024-10-22 09:40:00

模型生成

2025-04-21 08:20:00

視覺模型訓(xùn)練

2023-11-24 12:10:43

AI模型

2025-03-12 09:05:02

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2025-07-21 08:46:00

AI視頻生成模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)