偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一塊4090搞定實(shí)時視頻生成！Adobe黑科技來了

2025-06-11 09:12:00

人工智能新聞

游戲直播等實(shí)時渲染門檻要被擊穿了？Adobe 的一項(xiàng)新研究帶來新的可能。

近年來，視頻合成技術(shù)已經(jīng)取得了顯著突破。其中，基于雙向注意力機(jī)制的擴(kuò)散 Transformer（DiT）可以生成具有復(fù)雜時序動態(tài)的逼真內(nèi)容，但其非因果性設(shè)計(jì)導(dǎo)致無法滿足實(shí)時流媒體等場景需求。

相比之下，另一類自回歸（AR）模型雖然具有天然時序因果性優(yōu)勢，卻因依賴有損向量量化技術(shù)而難以達(dá)到頂尖畫質(zhì)。

當(dāng)前，融合兩者優(yōu)勢的「教師強(qiáng)制」（Teacher Forcing，TF）和擴(kuò)散強(qiáng)制（ Diffusion Forcing ，DF）方法仍存在誤差累積和曝光偏差等核心問題：前者因訓(xùn)練與推理的條件分布差異導(dǎo)致質(zhì)量衰減，后者雖引入噪聲上下文卻犧牲了時序一致性。

這些局限性深刻制約著視頻生成模型在實(shí)時交互應(yīng)用中的性能邊界。近日，Adobe 聯(lián)合聯(lián)合德克薩斯大學(xué)奧斯汀分校的研究者，在一項(xiàng)新研究中提出了名為 Self Forcing 的新穎算法，旨在解決自回歸視頻生成中的暴露偏差問題。

該方法受到早期 RNN 時代序列建模技術(shù)的啟發(fā)，通過在訓(xùn)練期間顯式地展開自回歸生成過程，來彌合訓(xùn)練與測試分布之間的差距。具體而言，每一幀的生成都以先前自生成的幀為條件，而不是依賴于真實(shí)的幀。

論文標(biāo)題：Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
論文地址：https://self-forcing.github.io/static/self_forcing.pdf
項(xiàng)目主頁：https://self-forcing.github.io/

這種機(jī)制使得模型能夠運(yùn)用整體分布匹配損失函數(shù)（holistic distribution-matching losses）對完整的生成視頻序列進(jìn)行監(jiān)督。通過迫使模型在訓(xùn)練中面對并從其自身的預(yù)測錯誤中學(xué)習(xí)，Self Forcing 算法能有效減輕暴露偏差并減少誤差的累積。

盡管由于 Self Forcing 的序列特性會阻礙并行訓(xùn)練，乍看之下似乎在計(jì)算上代價高昂，但該研究證明，它可以高效地作為訓(xùn)練后階段的一種算法來實(shí)現(xiàn)，此時模型在該階段并不需要大量的梯度更新即可收斂。

通過采用少量步數(shù)的擴(kuò)散主干網(wǎng)絡(luò)以及精心設(shè)計(jì)的梯度截?cái)嗖呗?，Self Forcing 算法的效率出乎意料地優(yōu)于其他并行策略，在相同的實(shí)際訓(xùn)練時間內(nèi)實(shí)現(xiàn)了更優(yōu)的性能。此外，該研究還引入了一種滾動 KV 緩存機(jī)制，進(jìn)一步提升了視頻外推的效率。

該模型能夠在單個 H100 GPU 上以 17 FPS 的幀率實(shí)現(xiàn)實(shí)時視頻生成，延遲低于一秒，同時在生成質(zhì)量上與近期較慢的雙向和自回歸視頻擴(kuò)散模型相比具有競爭力或更優(yōu)。

這些進(jìn)步為真正的交互式視頻生成用例 —— 如直播、游戲和世界模擬 —— 打開了大門，在這些場景中，延遲預(yù)算以毫秒而非分鐘為單位進(jìn)行衡量。

研究者表示，采用 Self Forcing 的模型可以生成 480p 的準(zhǔn)高清視頻，首幀延遲約為 0.8 秒。在持續(xù)生成速率方面，單塊 H100 GPU 約為 17 幀每秒，單塊 RTX 4090 在優(yōu)化后約為 10 幀每秒。目前可以生成基礎(chǔ)的 5 秒視頻以及外推延展后更長的 10 秒視頻。

我們來看一些動態(tài)展示視頻：

Prompt：這是一個奇幻劇風(fēng)格的電影場景，描繪了一個人走過一片寧靜的田野，到處都是漂浮的燈籠。每走一步，燈籠就會亮起來，散發(fā)出溫暖、飄渺的光芒。這個人穿著飄逸的東方傳統(tǒng)服裝，動作優(yōu)雅，表情安詳而又略帶沉思。背景是寧靜的夜空，點(diǎn)綴著幾顆星星和一輪新月，營造出夢幻般的氛圍。相機(jī)的角度從背后，從中鏡頭的角度捕捉人物，突出他們的自然動作和發(fā)光的燈。

Prompt：一個老人穿著飄逸的綠色連衣裙，戴著一頂寬邊太陽帽，在令人驚嘆的日落中悠閑地漫步在南極洲冰冷的地形上。他飽經(jīng)風(fēng)霜的臉和慈祥的眼睛映照出夕陽的暖色調(diào)，夕陽投下長長的影子，使大地沐浴在金色的光芒中。這個男人的姿勢直立，自信，雙手放在背后。背景是崎嶇的冰層和遙遠(yuǎn)的山脈，天空被涂成橙色、粉紅色和紫色。這張照片有一種懷舊和夢幻的感覺，捕捉到了極地的寧靜之美。

Prompt：災(zāi)難電影風(fēng)格的戲劇性和動態(tài)場景，描繪了一場強(qiáng)大的海嘯席卷保加利亞的一條狹窄小巷。河水洶涌而混亂，海浪猛烈地撞擊著兩岸的墻壁和建筑物。這條小巷兩旁是飽經(jīng)風(fēng)吹雨打的老房子，它們的外墻部分被淹沒和破碎。鏡頭角度較低，捕捉到海嘯向前涌動的全部力量，營造出一種緊迫感和危機(jī)感?？梢钥吹饺藗儻偪竦乇寂?，加劇了混亂。背景以遙遠(yuǎn)的地平線為特征，暗示著廣闊的世界。

Self Forcing

利用整體后訓(xùn)練彌合訓(xùn)練 - 測試差距

Self Forcing 的核心思想是：在訓(xùn)練階段就采用與推理時相同的自回歸展開方式生成視頻。具體實(shí)現(xiàn)包含兩個關(guān)鍵技術(shù)突破：

一是，動態(tài)條件生成機(jī)制。

研究者采樣生成視頻批次時，每一幀 x^i 的生成過程都會動態(tài)結(jié)合兩類條件輸入，即過去時間步已生成的清晰幀和當(dāng)前時間步的噪聲幀，并通過迭代去噪完成生成。

二是，訓(xùn)練階段 KV 緩存創(chuàng)新。

如下圖 2 (c) 所示，與傳統(tǒng)自回歸模型僅在推理時使用 KV 緩存不同，本文方法創(chuàng)造性地將 KV 緩存機(jī)制提前到訓(xùn)練階段使用。

不過，若采用標(biāo)準(zhǔn)的多步擴(kuò)散模型來實(shí)現(xiàn) Self Forcing 技術(shù)，其計(jì)算代價將難以承受，因?yàn)樵摲椒ㄐ枰刂唛L的去噪鏈展開計(jì)算圖并執(zhí)行反向傳播。為此，研究者選擇使用少步擴(kuò)散模型 G_θ 來近似自回歸分解中的每個條件分布。

然而，即便采用少步擴(kuò)散模型，若直接對整個自回歸擴(kuò)散過程執(zhí)行反向傳播，仍會導(dǎo)致內(nèi)存消耗過大。為解決這一難題，研究者提出以下創(chuàng)新策略：

首先進(jìn)行梯度截?cái)唷H對每幀的最終去噪步驟進(jìn)行反向傳播，將梯度計(jì)算范圍限制在關(guān)鍵環(huán)節(jié)。

然后是動態(tài)步數(shù)采樣。突破推理階段固定使用 T 步去噪的約束，在訓(xùn)練時對每個樣本序列隨機(jī)采樣 1 至 T 步去噪步驟，并以第 s 步的去噪結(jié)果作為最終輸出。這種隨機(jī)采樣機(jī)制確保所有中間去噪步驟都能獲得監(jiān)督信號。

最后是梯度流隔離。通過限制梯度向 KV 緩存嵌入的傳播，在訓(xùn)練過程中切斷當(dāng)前幀與先前幀的梯度關(guān)聯(lián)。

完整訓(xùn)練流程詳見算法 1。

利用滾動 KV 緩存的長視頻生成

受大語言模型研究的啟發(fā)，研究者為自回歸擴(kuò)散模型提出了一種滾動 KV 緩存機(jī)制，可以實(shí)現(xiàn)無限長視頻生成且無需重新計(jì)算 KV 緩存。

如圖 3 (c) 所示，研究者維護(hù)固定大小的 KV 緩存區(qū)，僅保留最近 L 幀的 token 嵌入。當(dāng)生成新幀時，首先檢測緩存是否已滿，若達(dá)到容量上限則移除最舊的緩存條目后再存入新數(shù)據(jù)。在保持 O (TL) 時間復(fù)雜度的同時，確保生成每一新幀時都能獲得足夠的上下文信息。

這種設(shè)計(jì)既實(shí)現(xiàn)了無限幀生成能力，又維持了穩(wěn)定的計(jì)算效率。

算法 2 詳細(xì)描述了基于滾動 KV 緩存的自回歸長視頻生成算法。

實(shí)驗(yàn)及結(jié)果

研究者采用 Wan2.1-T2V-1.3B 模型實(shí)現(xiàn) Self Forcing，這是一個基于流匹配的模型，可以生成時長 5 秒、16 幀、分辨率為 832×480 的視頻。

配合 VBench 和用戶偏好研究，研究者同步評估了生成視頻的視覺質(zhì)量與語義對齊度。同時，嚴(yán)格測試了 Self Forcing 在實(shí)時應(yīng)用中的效率表現(xiàn)。在單個 NVIDIA H100 GPU 上，研究者綜合評估了吞吐量和首幀延遲兩項(xiàng)指標(biāo)，全面衡量實(shí)時生成能力。

研究者將采用 Self Forcing 算法的模型與規(guī)模相近的開源視頻生成模型進(jìn)行比較，包括兩個擴(kuò)散模型（作為初始化權(quán)重的 Wan2.1-1.3B 和以高效著稱的 LTXVideo）以及多個自回歸模型（Pyramid Flow、NOVA、SkyReels-V2、MAGI-1 和同樣基于 Wan-1.3B 初始化的 CausVid）。

如下表 1 所示，研究者提出的分塊自回歸方案在 VBench 評估中全面超越所有基線模型，同時在人類偏好度測試中取得最優(yōu)成績。該方案還能實(shí)現(xiàn) 17 幀 / 秒的實(shí)時吞吐量，配合亞秒級首幀延遲，足以支持直播等實(shí)時視頻流應(yīng)用場景。

下圖 4 展示了用戶調(diào)研結(jié)果，將分塊 Self Forcing 模型與多個重要基線模型進(jìn)行了比較。

結(jié)果顯示，本文方法在所有對比中持續(xù)獲得最高偏好度，包括作為模型初始化基礎(chǔ)的 Wan2.1 多步擴(kuò)散模型。其中，幀級變體版本在保持強(qiáng)勁生成質(zhì)量的同時，實(shí)現(xiàn)了最低延遲（0.45 秒），特別適合對延遲敏感的實(shí)時應(yīng)用場景。這些實(shí)驗(yàn)結(jié)果均采用 DMD 損失函數(shù)作為優(yōu)化目標(biāo)。

采用 SiD 和 GAN 目標(biāo)函數(shù)訓(xùn)練的模型在消融實(shí)驗(yàn)中表現(xiàn)出了類似的性能。如下圖 5 所示，CausVid 存在誤差累積問題，導(dǎo)致飽和度隨時間推移不斷增加。本文方法在畫質(zhì)上略優(yōu)于 Wan2.1 或 SkyReels-V2，同時延遲時間縮短約 150 倍。

更多實(shí)驗(yàn)細(xì)節(jié)請參閱原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

視頻生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營