AI視頻生成革命!MIT領(lǐng)銜豪華天團(tuán)讓生成效率暴漲370%,成本直降4.4倍
刷到1分鐘的AI生成短視頻時(shí),你可能想象不到背后的算力成本。
傳統(tǒng)的視頻擴(kuò)散模型,處理視頻時(shí)采用密集注意力機(jī)制。
這種方法雖然能保證畫質(zhì),但計(jì)算量大得嚇人,生成10秒視頻就要燒掉數(shù)千元算力費(fèi)用,隨著視頻長(zhǎng)度增加,算力需求呈指數(shù)級(jí)飆升。
最近,MIT英偉達(dá)等研究人員發(fā)明的「徑向注意力」技術(shù),不僅讓長(zhǎng)視頻生成速度提升3.7倍,還能把訓(xùn)練成本砍掉4.4倍。
飛書文檔 - 圖片
論文鏈接:https://www.arxiv.org/abs/2506.19852
代碼鏈接:
https://github.com/mit-han-lab/radial-attention/
徑向注意力
在擴(kuò)散模型的加持下,高質(zhì)量視頻生成逐漸從科幻變成現(xiàn)實(shí)。
但視頻的時(shí)間維度給算力增加了不少負(fù)擔(dān),導(dǎo)致訓(xùn)練和推理長(zhǎng)視頻的成本飆升。
生成10秒視頻就要燒掉數(shù)千元算力費(fèi)用,價(jià)格之高令人望而卻步。
對(duì)此,團(tuán)隊(duì)從熱力學(xué)借了點(diǎn)靈感:「沒有任何傳播是無損的;信號(hào)、影響、注意力都會(huì)隨著距離衰減。」
他們發(fā)現(xiàn)視頻擴(kuò)散模型里的注意力分?jǐn)?shù)同樣遵循這個(gè)規(guī)律——softmax后的權(quán)重隨著token間的空間和時(shí)間距離遞減。
這種「時(shí)空能量衰減」現(xiàn)象與自然界信號(hào)的物理衰減不謀而合。
這會(huì)不會(huì)就是視頻生成降本增效的關(guān)鍵?
為進(jìn)一步證實(shí)這種猜想,團(tuán)隊(duì)提出了「徑向注意力」(Radial Attention):一種計(jì)算復(fù)雜度僅為O(nlog n)的稀疏注意力機(jī)制。
區(qū)別于之前SVG每次推理對(duì)空間/時(shí)間注意力進(jìn)行動(dòng)態(tài)選擇,徑向注意力用的是一種統(tǒng)一且高效的靜態(tài)掩碼。
這種掩碼把空間和時(shí)間注意力合二為一,帶來了更靈活、更快的長(zhǎng)視頻生成體驗(yàn)。
圖片
而且,這種簡(jiǎn)潔的靜態(tài)注意力掩碼讓每個(gè)token只關(guān)注附近空間的鄰居。隨著時(shí)間距離的拉長(zhǎng),注意力窗口逐漸收縮。
相比傳統(tǒng)的O (n2)密集注意力,徑向注意力不僅大幅提升了計(jì)算效率,還比線性注意力擁有更強(qiáng)的表達(dá)能力。
在這項(xiàng)注意力機(jī)制創(chuàng)新的加持下,高質(zhì)量視頻生成變得更快、更長(zhǎng)。
訓(xùn)練和推理的資源消耗極大地降低,為視頻擴(kuò)散模型打開了新的可能。
圖片
效果有多驚艷?實(shí)測(cè)數(shù)據(jù)來說話
研究團(tuán)隊(duì)在三個(gè)主流模型上做了測(cè)試:HunyuanVideo、Wan2.1-14B和Mochi 1,覆蓋了不同參數(shù)規(guī)模的場(chǎng)景。
Mochi 1可以生成長(zhǎng)達(dá)5秒、480p分辨率、162幀的視頻;HunyuanVideo可以生成長(zhǎng)達(dá)5秒、720p分辨率、125幀的視頻;Wan2.1-14B可以生成長(zhǎng)達(dá)5秒、720p分辨率、81幀的視頻。
圖片
速度提升1.9倍到3.7倍
在默認(rèn)視頻長(zhǎng)度下(如HunyuanVideo的117幀),徑向注意力能把推理速度提升1.9倍左右。
當(dāng)視頻長(zhǎng)度擴(kuò)展到4倍時(shí),速度提升更明顯:從2895秒(近50分鐘)降到781秒(約13分鐘),足足快了3.7倍!
以前一小時(shí)才能生成的視頻,現(xiàn)在喝杯咖啡的功夫就搞定了。
表1展示了在HunyuanVideo和Wan2.1-14B的默認(rèn)生成長(zhǎng)度下,徑向注意力與三個(gè)強(qiáng)稀疏注意力基線的比較。
圖片
在相同的計(jì)算預(yù)算(以TFLOPs衡量)下,徑向注意力保留了密集注意力的視頻質(zhì)量,同時(shí)在相似性指標(biāo)(PSNR、SSIM、LPIPS)上始終優(yōu)于STA和PA,并與SVG的質(zhì)量相匹配。
圖片
在單個(gè)H100上,徑向注意力為HunyuanVideo和Wan 2.1分別實(shí)現(xiàn)了1.9倍和1.8倍的端到端加速,與理論計(jì)算預(yù)算節(jié)?。?.8倍和1.7倍TFLOPs)相匹配。
盡管STA通過使用 FlashAttention-3(FA-3)產(chǎn)生了略高的加速,但視覺質(zhì)量明顯下降。
訓(xùn)練費(fèi)用最多節(jié)省4.4倍
長(zhǎng)視頻生成最燒錢的其實(shí)是訓(xùn)練階段。用徑向注意力配合LoRA微調(diào)技術(shù),訓(xùn)練成本直接大幅下降。
對(duì)于企業(yè)來說可是天大的好消息,以前做一個(gè)長(zhǎng)視頻項(xiàng)目可能要投入幾十萬,現(xiàn)在可能只需要幾萬塊。
表2提供了2倍和4倍原始長(zhǎng)度的視頻生成結(jié)果。為了確保公平性,所有稀疏注意力基線使用相似的稀疏率。
圖片
當(dāng)生成長(zhǎng)視頻時(shí),未經(jīng)進(jìn)一步調(diào)優(yōu)的原始模型表現(xiàn)出顯著的質(zhì)量退化,尤其是在4倍視頻長(zhǎng)度擴(kuò)展時(shí)。
雖然RIFLEx在2倍長(zhǎng)度外推時(shí)提高了性能,但其質(zhì)量在此之后惡化,表明擴(kuò)展能力有限。
空間和時(shí)間稀疏注意力受到有限感受野的影響;另一方面,LongLoRA和PA雖然具有全局感受野,但未能捕捉時(shí)空相關(guān)性,導(dǎo)致質(zhì)量下降。
有趣的是,PA在微調(diào)后視覺獎(jiǎng)勵(lì)有很大提高,表明其原始稀疏模式與預(yù)訓(xùn)練的注意力分布不一致。
微調(diào)允許模型適應(yīng)施加的注意力稀疏性,改善對(duì)齊和質(zhì)量。
SANA將softmax注意力替換為線性注意力,需要大規(guī)模重新訓(xùn)練,并且在基于微調(diào)的視頻長(zhǎng)度擴(kuò)展下失敗。
相比之下,徑向注意力實(shí)現(xiàn)了與LoRA微調(diào)密集注意力模型相當(dāng)?shù)馁|(zhì)量。甚至在默認(rèn)視頻長(zhǎng)度下,比預(yù)訓(xùn)練模型略微提高了視覺獎(jiǎng)勵(lì)。
圖片
由于O(nlog n)復(fù)雜度,徑向注意力比原始密集注意力提供了顯著的推理和訓(xùn)練加速,如表2和圖2所示。
生成4倍長(zhǎng)的視頻時(shí),可以節(jié)省高達(dá)4.4倍的訓(xùn)練成本,并實(shí)現(xiàn)高達(dá)3.7倍的推理加速。
最關(guān)鍵的是,速度和成本降下來了,畫質(zhì)還沒縮水。
在HunyuanVideo上,徑向注意力的PSNR值達(dá)到27.3,和原始模型基本持平;視覺獎(jiǎng)勵(lì)分?jǐn)?shù)0.134,甚至比密集注意力的0.133還高一點(diǎn)點(diǎn)。
不只是快:徑向注意力的「隱藏技能」
很多技術(shù)升級(jí)都需要重新訓(xùn)練模型,但徑向注意力不需要。
它可以直接應(yīng)用在預(yù)訓(xùn)練好的模型上,通過簡(jiǎn)單的 LoRA 微調(diào)就能實(shí)現(xiàn)加速。
徑向注意力的一個(gè)關(guān)鍵優(yōu)勢(shì)是與預(yù)訓(xùn)練的特定任務(wù)LoRA(如藝術(shù)風(fēng)格遷移)的無縫兼容性,這對(duì)創(chuàng)作者太友好了。
如圖8所示,將擴(kuò)展長(zhǎng)度LoRA與現(xiàn)有風(fēng)格LoRA結(jié)合使用,在實(shí)現(xiàn)長(zhǎng)視頻生成的同時(shí)保留了視覺質(zhì)量。
研究團(tuán)隊(duì)還觀察到,合并LoRA生成的內(nèi)容風(fēng)格與原始LoRA略有不同。
這種差異主要?dú)w因于用于訓(xùn)練擴(kuò)展長(zhǎng)度LoRA的相對(duì)較小的數(shù)據(jù)集,這可能引入輕微的風(fēng)格偏差,與風(fēng)格LoRA相互作用。
在更全面的數(shù)據(jù)集上訓(xùn)練長(zhǎng)度擴(kuò)展LoRA,預(yù)計(jì)將有助于緩解這個(gè)問題。
以前生成1分鐘的AI視頻是很多中小團(tuán)隊(duì)不敢想的,現(xiàn)在徑向注意力讓這事變得可行了。
以后,我們可能會(huì)看到更多AI生成的長(zhǎng)視頻內(nèi)容,像短視頻平臺(tái)的劇情號(hào)。
參考資料:





































