偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI視頻生成革命!MIT領(lǐng)銜豪華天團(tuán)讓生成效率暴漲370%,成本直降4.4倍

人工智能
刷到1分鐘AI短視頻別只顧著點(diǎn)贊,背后的算力成本讓人驚嘆。MIT和英偉達(dá)等提出的徑向注意力技術(shù)讓長(zhǎng)視頻生成成本暴降4.4倍,速度飆升3.7倍,AI視頻的未來已來!

刷到1分鐘的AI生成短視頻時(shí),你可能想象不到背后的算力成本。

傳統(tǒng)的視頻擴(kuò)散模型,處理視頻時(shí)采用密集注意力機(jī)制。

這種方法雖然能保證畫質(zhì),但計(jì)算量大得嚇人,生成10秒視頻就要燒掉數(shù)千元算力費(fèi)用,隨著視頻長(zhǎng)度增加,算力需求呈指數(shù)級(jí)飆升。

最近,MIT英偉達(dá)等研究人員發(fā)明的「徑向注意力」技術(shù),不僅讓長(zhǎng)視頻生成速度提升3.7倍,還能把訓(xùn)練成本砍掉4.4倍。

飛書文檔 - 圖片飛書文檔 - 圖片

論文鏈接:https://www.arxiv.org/abs/2506.19852

代碼鏈接:

https://github.com/mit-han-lab/radial-attention/

徑向注意力

在擴(kuò)散模型的加持下,高質(zhì)量視頻生成逐漸從科幻變成現(xiàn)實(shí)。

但視頻的時(shí)間維度給算力增加了不少負(fù)擔(dān),導(dǎo)致訓(xùn)練和推理長(zhǎng)視頻的成本飆升。

生成10秒視頻就要燒掉數(shù)千元算力費(fèi)用,價(jià)格之高令人望而卻步。

對(duì)此,團(tuán)隊(duì)從熱力學(xué)借了點(diǎn)靈感:「沒有任何傳播是無損的;信號(hào)、影響、注意力都會(huì)隨著距離衰減。」

他們發(fā)現(xiàn)視頻擴(kuò)散模型里的注意力分?jǐn)?shù)同樣遵循這個(gè)規(guī)律——softmax后的權(quán)重隨著token間的空間和時(shí)間距離遞減。

這種「時(shí)空能量衰減」現(xiàn)象與自然界信號(hào)的物理衰減不謀而合。

這會(huì)不會(huì)就是視頻生成降本增效的關(guān)鍵?

為進(jìn)一步證實(shí)這種猜想,團(tuán)隊(duì)提出了「徑向注意力」(Radial Attention):一種計(jì)算復(fù)雜度僅為O(nlog n)的稀疏注意力機(jī)制。

區(qū)別于之前SVG每次推理對(duì)空間/時(shí)間注意力進(jìn)行動(dòng)態(tài)選擇,徑向注意力用的是一種統(tǒng)一且高效的靜態(tài)掩碼。

這種掩碼把空間和時(shí)間注意力合二為一,帶來了更靈活、更快的長(zhǎng)視頻生成體驗(yàn)。

圖片圖片

而且,這種簡(jiǎn)潔的靜態(tài)注意力掩碼讓每個(gè)token只關(guān)注附近空間的鄰居。隨著時(shí)間距離的拉長(zhǎng),注意力窗口逐漸收縮。

相比傳統(tǒng)的O (n2)密集注意力,徑向注意力不僅大幅提升了計(jì)算效率,還比線性注意力擁有更強(qiáng)的表達(dá)能力。

在這項(xiàng)注意力機(jī)制創(chuàng)新的加持下,高質(zhì)量視頻生成變得更快、更長(zhǎng)。

訓(xùn)練和推理的資源消耗極大地降低,為視頻擴(kuò)散模型打開了新的可能。

圖片圖片

效果有多驚艷?實(shí)測(cè)數(shù)據(jù)來說話

研究團(tuán)隊(duì)在三個(gè)主流模型上做了測(cè)試:HunyuanVideo、Wan2.1-14B和Mochi 1,覆蓋了不同參數(shù)規(guī)模的場(chǎng)景。

Mochi 1可以生成長(zhǎng)達(dá)5秒、480p分辨率、162幀的視頻;HunyuanVideo可以生成長(zhǎng)達(dá)5秒、720p分辨率、125幀的視頻;Wan2.1-14B可以生成長(zhǎng)達(dá)5秒、720p分辨率、81幀的視頻。

圖片圖片

速度提升1.9倍到3.7倍

在默認(rèn)視頻長(zhǎng)度下(如HunyuanVideo的117幀),徑向注意力能把推理速度提升1.9倍左右。

當(dāng)視頻長(zhǎng)度擴(kuò)展到4倍時(shí),速度提升更明顯:從2895秒(近50分鐘)降到781秒(約13分鐘),足足快了3.7倍!

以前一小時(shí)才能生成的視頻,現(xiàn)在喝杯咖啡的功夫就搞定了。

表1展示了在HunyuanVideo和Wan2.1-14B的默認(rèn)生成長(zhǎng)度下,徑向注意力與三個(gè)強(qiáng)稀疏注意力基線的比較。

圖片圖片

在相同的計(jì)算預(yù)算(以TFLOPs衡量)下,徑向注意力保留了密集注意力的視頻質(zhì)量,同時(shí)在相似性指標(biāo)(PSNR、SSIM、LPIPS)上始終優(yōu)于STA和PA,并與SVG的質(zhì)量相匹配。

圖片圖片

在單個(gè)H100上,徑向注意力為HunyuanVideo和Wan 2.1分別實(shí)現(xiàn)了1.9倍和1.8倍的端到端加速,與理論計(jì)算預(yù)算節(jié)?。?.8倍和1.7倍TFLOPs)相匹配。

盡管STA通過使用 FlashAttention-3(FA-3)產(chǎn)生了略高的加速,但視覺質(zhì)量明顯下降。

訓(xùn)練費(fèi)用最多節(jié)省4.4倍

長(zhǎng)視頻生成最燒錢的其實(shí)是訓(xùn)練階段。用徑向注意力配合LoRA微調(diào)技術(shù),訓(xùn)練成本直接大幅下降。

對(duì)于企業(yè)來說可是天大的好消息,以前做一個(gè)長(zhǎng)視頻項(xiàng)目可能要投入幾十萬,現(xiàn)在可能只需要幾萬塊。

表2提供了2倍和4倍原始長(zhǎng)度的視頻生成結(jié)果。為了確保公平性,所有稀疏注意力基線使用相似的稀疏率。

圖片圖片

當(dāng)生成長(zhǎng)視頻時(shí),未經(jīng)進(jìn)一步調(diào)優(yōu)的原始模型表現(xiàn)出顯著的質(zhì)量退化,尤其是在4倍視頻長(zhǎng)度擴(kuò)展時(shí)。

雖然RIFLEx在2倍長(zhǎng)度外推時(shí)提高了性能,但其質(zhì)量在此之后惡化,表明擴(kuò)展能力有限。

空間和時(shí)間稀疏注意力受到有限感受野的影響;另一方面,LongLoRA和PA雖然具有全局感受野,但未能捕捉時(shí)空相關(guān)性,導(dǎo)致質(zhì)量下降。

有趣的是,PA在微調(diào)后視覺獎(jiǎng)勵(lì)有很大提高,表明其原始稀疏模式與預(yù)訓(xùn)練的注意力分布不一致。

微調(diào)允許模型適應(yīng)施加的注意力稀疏性,改善對(duì)齊和質(zhì)量。

SANA將softmax注意力替換為線性注意力,需要大規(guī)模重新訓(xùn)練,并且在基于微調(diào)的視頻長(zhǎng)度擴(kuò)展下失敗。

相比之下,徑向注意力實(shí)現(xiàn)了與LoRA微調(diào)密集注意力模型相當(dāng)?shù)馁|(zhì)量。甚至在默認(rèn)視頻長(zhǎng)度下,比預(yù)訓(xùn)練模型略微提高了視覺獎(jiǎng)勵(lì)。

圖片圖片

由于O(nlog n)復(fù)雜度,徑向注意力比原始密集注意力提供了顯著的推理和訓(xùn)練加速,如表2和圖2所示。

生成4倍長(zhǎng)的視頻時(shí),可以節(jié)省高達(dá)4.4倍的訓(xùn)練成本,并實(shí)現(xiàn)高達(dá)3.7倍的推理加速。

最關(guān)鍵的是,速度和成本降下來了,畫質(zhì)還沒縮水。

在HunyuanVideo上,徑向注意力的PSNR值達(dá)到27.3,和原始模型基本持平;視覺獎(jiǎng)勵(lì)分?jǐn)?shù)0.134,甚至比密集注意力的0.133還高一點(diǎn)點(diǎn)。

不只是快:徑向注意力的「隱藏技能」

很多技術(shù)升級(jí)都需要重新訓(xùn)練模型,但徑向注意力不需要。

它可以直接應(yīng)用在預(yù)訓(xùn)練好的模型上,通過簡(jiǎn)單的 LoRA 微調(diào)就能實(shí)現(xiàn)加速。

徑向注意力的一個(gè)關(guān)鍵優(yōu)勢(shì)是與預(yù)訓(xùn)練的特定任務(wù)LoRA(如藝術(shù)風(fēng)格遷移)的無縫兼容性,這對(duì)創(chuàng)作者太友好了。

如圖8所示,將擴(kuò)展長(zhǎng)度LoRA與現(xiàn)有風(fēng)格LoRA結(jié)合使用,在實(shí)現(xiàn)長(zhǎng)視頻生成的同時(shí)保留了視覺質(zhì)量。

研究團(tuán)隊(duì)還觀察到,合并LoRA生成的內(nèi)容風(fēng)格與原始LoRA略有不同。

這種差異主要?dú)w因于用于訓(xùn)練擴(kuò)展長(zhǎng)度LoRA的相對(duì)較小的數(shù)據(jù)集,這可能引入輕微的風(fēng)格偏差,與風(fēng)格LoRA相互作用。

在更全面的數(shù)據(jù)集上訓(xùn)練長(zhǎng)度擴(kuò)展LoRA,預(yù)計(jì)將有助于緩解這個(gè)問題。

以前生成1分鐘的AI視頻是很多中小團(tuán)隊(duì)不敢想的,現(xiàn)在徑向注意力讓這事變得可行了。

以后,我們可能會(huì)看到更多AI生成的長(zhǎng)視頻內(nèi)容,像短視頻平臺(tái)的劇情號(hào)。

參考資料:

https://www.arxiv.org/abs/2506.19852

https://github.com/mit-han-lab/radial-attention/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-06-12 11:57:56

視頻生成模型AI

2025-02-26 00:15:30

2025-01-15 09:21:57

2025-10-29 16:10:41

AI視頻生成模型

2024-12-24 13:50:00

視頻生成AI

2025-10-21 01:00:00

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2024-10-28 07:30:00

2025-10-20 08:58:00

2024-11-08 17:34:38

2025-08-26 09:08:00

AI視頻生成模型

2023-12-20 14:54:29

谷歌Gen-2視頻

2025-03-27 09:24:16

2025-01-17 09:00:00

2024-11-26 17:56:38

2025-10-28 08:40:00

2023-04-03 10:04:44

開源模型

2023-01-16 13:47:59

谷歌模型

2025-03-03 10:04:49

2023-12-20 15:26:13

AI谷歌
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)