偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AI視頻生成革命！MIT領(lǐng)銜豪華天團(tuán)讓生成效率暴漲370%，成本直降4.4倍

作者：新智元 2025-07-08 08:50:38

刷到1分鐘AI短視頻別只顧著點(diǎn)贊，背后的算力成本讓人驚嘆。MIT和英偉達(dá)等提出的徑向注意力技術(shù)讓長(zhǎng)視頻生成成本暴降4.4倍，速度飆升3.7倍，AI視頻的未來已來！

刷到1分鐘的AI生成短視頻時(shí)，你可能想象不到背后的算力成本。

傳統(tǒng)的視頻擴(kuò)散模型，處理視頻時(shí)采用密集注意力機(jī)制。

這種方法雖然能保證畫質(zhì)，但計(jì)算量大得嚇人，生成10秒視頻就要燒掉數(shù)千元算力費(fèi)用，隨著視頻長(zhǎng)度增加，算力需求呈指數(shù)級(jí)飆升。

最近，MIT英偉達(dá)等研究人員發(fā)明的「徑向注意力」技術(shù)，不僅讓長(zhǎng)視頻生成速度提升3.7倍，還能把訓(xùn)練成本砍掉4.4倍。

飛書文檔 - 圖片

論文鏈接：https://www.arxiv.org/abs/2506.19852

代碼鏈接：

https://github.com/mit-han-lab/radial-attention/

徑向注意力

在擴(kuò)散模型的加持下，高質(zhì)量視頻生成逐漸從科幻變成現(xiàn)實(shí)。

但視頻的時(shí)間維度給算力增加了不少負(fù)擔(dān)，導(dǎo)致訓(xùn)練和推理長(zhǎng)視頻的成本飆升。

生成10秒視頻就要燒掉數(shù)千元算力費(fèi)用，價(jià)格之高令人望而卻步。

對(duì)此，團(tuán)隊(duì)從熱力學(xué)借了點(diǎn)靈感：「沒有任何傳播是無損的；信號(hào)、影響、注意力都會(huì)隨著距離衰減。」

他們發(fā)現(xiàn)視頻擴(kuò)散模型里的注意力分?jǐn)?shù)同樣遵循這個(gè)規(guī)律——softmax后的權(quán)重隨著token間的空間和時(shí)間距離遞減。

這種「時(shí)空能量衰減」現(xiàn)象與自然界信號(hào)的物理衰減不謀而合。

這會(huì)不會(huì)就是視頻生成降本增效的關(guān)鍵？

為進(jìn)一步證實(shí)這種猜想，團(tuán)隊(duì)提出了「徑向注意力」（Radial Attention）：一種計(jì)算復(fù)雜度僅為O(nlog n)的稀疏注意力機(jī)制。

區(qū)別于之前SVG每次推理對(duì)空間/時(shí)間注意力進(jìn)行動(dòng)態(tài)選擇，徑向注意力用的是一種統(tǒng)一且高效的靜態(tài)掩碼。

這種掩碼把空間和時(shí)間注意力合二為一，帶來了更靈活、更快的長(zhǎng)視頻生成體驗(yàn)。

圖片

而且，這種簡(jiǎn)潔的靜態(tài)注意力掩碼讓每個(gè)token只關(guān)注附近空間的鄰居。隨著時(shí)間距離的拉長(zhǎng)，注意力窗口逐漸收縮。

相比傳統(tǒng)的O (n2)密集注意力，徑向注意力不僅大幅提升了計(jì)算效率，還比線性注意力擁有更強(qiáng)的表達(dá)能力。

在這項(xiàng)注意力機(jī)制創(chuàng)新的加持下，高質(zhì)量視頻生成變得更快、更長(zhǎng)。

訓(xùn)練和推理的資源消耗極大地降低，為視頻擴(kuò)散模型打開了新的可能。

圖片

效果有多驚艷？實(shí)測(cè)數(shù)據(jù)來說話

研究團(tuán)隊(duì)在三個(gè)主流模型上做了測(cè)試：HunyuanVideo、Wan2.1-14B和Mochi 1，覆蓋了不同參數(shù)規(guī)模的場(chǎng)景。

Mochi 1可以生成長(zhǎng)達(dá)5秒、480p分辨率、162幀的視頻；HunyuanVideo可以生成長(zhǎng)達(dá)5秒、720p分辨率、125幀的視頻；Wan2.1-14B可以生成長(zhǎng)達(dá)5秒、720p分辨率、81幀的視頻。

圖片

速度提升1.9倍到3.7倍

在默認(rèn)視頻長(zhǎng)度下（如HunyuanVideo的117幀），徑向注意力能把推理速度提升1.9倍左右。

當(dāng)視頻長(zhǎng)度擴(kuò)展到4倍時(shí)，速度提升更明顯：從2895秒（近50分鐘）降到781秒（約13分鐘），足足快了3.7倍！

以前一小時(shí)才能生成的視頻，現(xiàn)在喝杯咖啡的功夫就搞定了。

表1展示了在HunyuanVideo和Wan2.1-14B的默認(rèn)生成長(zhǎng)度下，徑向注意力與三個(gè)強(qiáng)稀疏注意力基線的比較。

圖片

在相同的計(jì)算預(yù)算（以TFLOPs衡量）下，徑向注意力保留了密集注意力的視頻質(zhì)量，同時(shí)在相似性指標(biāo)（PSNR、SSIM、LPIPS）上始終優(yōu)于STA和PA，并與SVG的質(zhì)量相匹配。

圖片

在單個(gè)H100上，徑向注意力為HunyuanVideo和Wan 2.1分別實(shí)現(xiàn)了1.9倍和1.8倍的端到端加速，與理論計(jì)算預(yù)算節(jié)?。?.8倍和1.7倍TFLOPs）相匹配。

盡管STA通過使用 FlashAttention-3（FA-3）產(chǎn)生了略高的加速，但視覺質(zhì)量明顯下降。

訓(xùn)練費(fèi)用最多節(jié)省4.4倍

長(zhǎng)視頻生成最燒錢的其實(shí)是訓(xùn)練階段。用徑向注意力配合LoRA微調(diào)技術(shù)，訓(xùn)練成本直接大幅下降。

對(duì)于企業(yè)來說可是天大的好消息，以前做一個(gè)長(zhǎng)視頻項(xiàng)目可能要投入幾十萬，現(xiàn)在可能只需要幾萬塊。

表2提供了2倍和4倍原始長(zhǎng)度的視頻生成結(jié)果。為了確保公平性，所有稀疏注意力基線使用相似的稀疏率。

圖片

當(dāng)生成長(zhǎng)視頻時(shí)，未經(jīng)進(jìn)一步調(diào)優(yōu)的原始模型表現(xiàn)出顯著的質(zhì)量退化，尤其是在4倍視頻長(zhǎng)度擴(kuò)展時(shí)。

雖然RIFLEx在2倍長(zhǎng)度外推時(shí)提高了性能，但其質(zhì)量在此之后惡化，表明擴(kuò)展能力有限。

空間和時(shí)間稀疏注意力受到有限感受野的影響；另一方面，LongLoRA和PA雖然具有全局感受野，但未能捕捉時(shí)空相關(guān)性，導(dǎo)致質(zhì)量下降。

有趣的是，PA在微調(diào)后視覺獎(jiǎng)勵(lì)有很大提高，表明其原始稀疏模式與預(yù)訓(xùn)練的注意力分布不一致。

微調(diào)允許模型適應(yīng)施加的注意力稀疏性，改善對(duì)齊和質(zhì)量。

SANA將softmax注意力替換為線性注意力，需要大規(guī)模重新訓(xùn)練，并且在基于微調(diào)的視頻長(zhǎng)度擴(kuò)展下失敗。

相比之下，徑向注意力實(shí)現(xiàn)了與LoRA微調(diào)密集注意力模型相當(dāng)?shù)馁|(zhì)量。甚至在默認(rèn)視頻長(zhǎng)度下，比預(yù)訓(xùn)練模型略微提高了視覺獎(jiǎng)勵(lì)。

圖片

由于O(nlog n)復(fù)雜度，徑向注意力比原始密集注意力提供了顯著的推理和訓(xùn)練加速，如表2和圖2所示。

生成4倍長(zhǎng)的視頻時(shí)，可以節(jié)省高達(dá)4.4倍的訓(xùn)練成本，并實(shí)現(xiàn)高達(dá)3.7倍的推理加速。

最關(guān)鍵的是，速度和成本降下來了，畫質(zhì)還沒縮水。

在HunyuanVideo上，徑向注意力的PSNR值達(dá)到27.3，和原始模型基本持平；視覺獎(jiǎng)勵(lì)分?jǐn)?shù)0.134，甚至比密集注意力的0.133還高一點(diǎn)點(diǎn)。

不只是快：徑向注意力的「隱藏技能」

很多技術(shù)升級(jí)都需要重新訓(xùn)練模型，但徑向注意力不需要。

它可以直接應(yīng)用在預(yù)訓(xùn)練好的模型上，通過簡(jiǎn)單的 LoRA 微調(diào)就能實(shí)現(xiàn)加速。

徑向注意力的一個(gè)關(guān)鍵優(yōu)勢(shì)是與預(yù)訓(xùn)練的特定任務(wù)LoRA（如藝術(shù)風(fēng)格遷移）的無縫兼容性，這對(duì)創(chuàng)作者太友好了。

如圖8所示，將擴(kuò)展長(zhǎng)度LoRA與現(xiàn)有風(fēng)格LoRA結(jié)合使用，在實(shí)現(xiàn)長(zhǎng)視頻生成的同時(shí)保留了視覺質(zhì)量。

研究團(tuán)隊(duì)還觀察到，合并LoRA生成的內(nèi)容風(fēng)格與原始LoRA略有不同。

這種差異主要?dú)w因于用于訓(xùn)練擴(kuò)展長(zhǎng)度LoRA的相對(duì)較小的數(shù)據(jù)集，這可能引入輕微的風(fēng)格偏差，與風(fēng)格LoRA相互作用。

在更全面的數(shù)據(jù)集上訓(xùn)練長(zhǎng)度擴(kuò)展LoRA，預(yù)計(jì)將有助于緩解這個(gè)問題。

以前生成1分鐘的AI視頻是很多中小團(tuán)隊(duì)不敢想的，現(xiàn)在徑向注意力讓這事變得可行了。

以后，我們可能會(huì)看到更多AI生成的長(zhǎng)視頻內(nèi)容，像短視頻平臺(tái)的劇情號(hào)。

參考資料：

https://www.arxiv.org/abs/2506.19852

https://github.com/mit-han-lab/radial-attention/

責(zé)任編輯：武曉燕來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)