偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無需訓(xùn)練,即插即用,2倍GPU端到端推理加速——視頻擴(kuò)散模型加速方法DraftAttention

人工智能 新聞
近期,來自美國東北大學(xué)、香港中文大學(xué)、Adobe Research 等機(jī)構(gòu)的研究團(tuán)隊提出了一種無需訓(xùn)練、即插即用的,基于動態(tài)稀疏注意力的視頻擴(kuò)散模型加速方法 ——DraftAttention,顯著降低了注意力機(jī)制的計算開銷,并且在幾乎不損失生成質(zhì)量的前提下,實(shí)現(xiàn)高達(dá) 2 倍的 GPU 端到端推理加速。

本文第一作者為美國東北大學(xué)博士生沈軒,研究方向為高效人工智能,致力于在 GPU、移動端、FPGA 和 ASIC 等多種硬件平臺上實(shí)現(xiàn)大模型的高效部署與加速。第二作者為香港中文大學(xué)的韓晨夏,研究方向聚焦于計算機(jī)體系結(jié)構(gòu)與 AI 系統(tǒng)的高效化設(shè)計。

在高質(zhì)量視頻生成任務(wù)中,擴(kuò)散模型(Diffusion Models)已經(jīng)成為主流。然而,隨著視頻長度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力機(jī)制計算量急劇增加,成為推理效率的最大瓶頸。這是因為在視頻生成中,DiT 通常使用 3D 全局注意力來建模時空一致性,雖然效果出色,但計算量會隨著 token 數(shù)量呈平方增長,帶來了巨大的計算負(fù)擔(dān)。在 HunyuanVideo 等視頻生成模型中,注意力模塊計算時間占比超過 80%,生成僅 8 秒的 720p 視頻甚至需要接近一小時的時間。因此,提升視頻生成模型的生成速度成為了迫切的需求。

現(xiàn)有視頻生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/2502.21079),多采用稀疏注意力機(jī)制,在 GPU 上實(shí)現(xiàn)了一定程度的端到端加速。然而,受限于稀疏度不足和稀疏模式設(shè)計的剛性,這些方法的加速效果仍不理想。此外,它們普遍依賴固定的稀疏算子,缺乏對輸入內(nèi)容的動態(tài)適應(yīng)能力,難以實(shí)現(xiàn)細(xì)粒度、內(nèi)容感知的稀疏模式調(diào)控。因此,設(shè)計一種具備動態(tài)可調(diào)性、硬件友好且無需訓(xùn)練的稀疏注意力機(jī)制,對提升視頻擴(kuò)散模型的效率與實(shí)用性具有重要意義。

近期,來自美國東北大學(xué)、香港中文大學(xué)、Adobe Research 等機(jī)構(gòu)的研究團(tuán)隊提出了一種無需訓(xùn)練、即插即用的,基于動態(tài)稀疏注意力的視頻擴(kuò)散模型加速方法 ——DraftAttention,顯著降低了注意力機(jī)制的計算開銷,并且在幾乎不損失生成質(zhì)量的前提下,實(shí)現(xiàn)高達(dá) 2 倍的 GPU 端到端推理加速。

圖片


  • 論文標(biāo)題:DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
  • arXiv 地址:https://arxiv.org/abs/2505.14708
  • GitHub 主頁:https://github.com/shawnricecake/draft-attention

背景挑戰(zhàn)

在視頻生成任務(wù)中,注意力機(jī)制的計算開銷是當(dāng)前模型推理效率的主要瓶頸。如圖所示(Figure 1),在 HunyuanVideo 模型中,隨著生成視頻時長從 8 秒擴(kuò)展至 32 秒,注意力的計算量(FLOPs)占比迅速上升,最高超過 90%,遠(yuǎn)超其他模塊。這種趨勢在高分辨率視頻(如 720p 或更高)中尤為顯著。造成這一問題的根本原因在于:視頻生成模型通常采用時空全局注意力機(jī)制,其計算復(fù)雜度隨 token 數(shù)量呈平方增長。而 token 數(shù)量本身又與視頻的幀數(shù)和空間分辨率成正比,因此一旦提升時長或清晰度,計算量將呈幾何級數(shù)上升,導(dǎo)致推理速度顯著下降,難以滿足實(shí)際部署需求。

圖片

因此,引入稀疏注意力機(jī)制以降低計算開銷,是視頻生成加速的有效路徑。然而,現(xiàn)有稀疏注意力方法普遍依賴固定的稀疏模式或算子,缺乏對輸入內(nèi)容或擴(kuò)散過程動態(tài)變化的適應(yīng)能力。這種 “靜態(tài)稀疏” 策略無法根據(jù)不同的文本提示、多樣化的視頻語義,或擴(kuò)散過程中的中間狀態(tài)靈活調(diào)整注意力分布,最終往往在高稀疏率下造成視頻生成質(zhì)量的顯著下降。因此,設(shè)計一種具備 “動態(tài)可調(diào)性” 的稀疏注意力機(jī)制,能夠根據(jù)輸入語義和擴(kuò)散步長自適應(yīng)調(diào)整注意力結(jié)構(gòu),是維持視頻生成質(zhì)量的關(guān)鍵。

問題建模

對于視頻生成模型,往往會使用 3D VAE(Variational Autoencoder)來壓縮視頻到隱藏空間(latent space),以顯著減少擴(kuò)散過程中處理的 token 數(shù)量。該隱藏空間保留了視頻的核心結(jié)構(gòu),具有的三維形態(tài),其中代表被壓縮后的視頻幀數(shù)(時間維度),和分別對應(yīng)視頻的分辨率(空間維度)。在此基礎(chǔ)上,我們進(jìn)一步關(guān)注隱藏空間內(nèi)的時空冗余性。由于生成任務(wù)中存在大量冗余特征,并非所有 latent token 對注意力機(jī)制都同等重要,因此我們提出對 token 重要性進(jìn)行分析:跳過低重要性的 token 注意力計算,在減少計算量的同時,依然保留關(guān)鍵的視頻特征,從而實(shí)現(xiàn)有效加速且維持生成質(zhì)量。

方法概覽

為此,本文提出了一種無需訓(xùn)練、動態(tài)可調(diào)、硬件友好的稀疏注意力機(jī)制 ——DraftAttention。其核心思想是:

通過低分辨率 “草圖注意力圖”(Draft Attention Map)高效估計 token 重要性,并據(jù)此指導(dǎo)高分辨率注意力計算中的稀疏模式選擇。

具體流程如下:

1. 草圖構(gòu)建:首先,對隱藏空間的特征圖進(jìn)行空間下采樣(如 816 平均池化),生成低分辨率版本的 Query 和 Key;

2. 草圖注意力計算:基于下采樣后的 Query 和 Key 計算草圖注意力圖(Draft Attention Map),以識別注意力圖中最具信息量的區(qū)域;

3. 稀疏模式引導(dǎo):從 Draft Attention Map 中選出得分最高的區(qū)域,生成結(jié)構(gòu)化稀疏 Mask,用于指導(dǎo)高分辨率下的注意力計算;

圖片

4.Token 重排以適配硬件:為了使稀疏區(qū)域連續(xù)分布、滿足 GPU 對 memory layout 的需求,作者提出了一種 token 重排策略,顯著提升了稀疏計算的執(zhí)行效率;

圖片

5. 無需訓(xùn)練、即插即用:該機(jī)制可直接插入現(xiàn)有視頻擴(kuò)散模型(如 HunyuanVideo 和 Wan2.1)中,無需任何額外訓(xùn)練或微調(diào)。

這一設(shè)計既從計算圖層面降低了注意力的冗余,也從系統(tǒng)執(zhí)行層面提升了稀疏算子的硬件效率,實(shí)現(xiàn)了視頻生成速度與質(zhì)量的雙贏。

值得一提的是,DraftAttention 并非經(jīng)驗驅(qū)動的啟發(fā)式方法,而是具備堅實(shí)的理論基礎(chǔ)。我們從兩個角度對其有效性進(jìn)行了理論分析與證明:

1. 近似誤差可控:我們證明了,使用平均池化構(gòu)建的 Draft Attention Map 與原始高分辨率 Attention Map 之間的差異在 Frobenius 范數(shù)意義下是有界的,且該誤差隨 token 的空間連續(xù)性降低;

2. 稀疏掩碼引入的誤差有界:進(jìn)一步地,從 Draft Attention Map 中提取的稀疏注意力模式在用于稀疏注意力加速計算后,其影響同樣可以被嚴(yán)格界定在一個可控范圍內(nèi)。

這兩項理論結(jié)果共同說明,草圖注意力在提供高質(zhì)量稀疏引導(dǎo)的同時,并不會顯著破壞注意力機(jī)制原有的結(jié)構(gòu)表達(dá)能力,從而為 DraftAttention 的實(shí)際加速效果與生成質(zhì)量提供了有力的理論保障。

實(shí)驗結(jié)果

我們在多個主流視頻生成模型上評估了 DraftAttention 的性能,包括 HunyuanVideo 和 Wan2.1。實(shí)驗主要從兩個維度進(jìn)行評估:生成質(zhì)量和推理加速。

在相同計算量下,我們與代表性稀疏注意力方法 Sparse VideoGen (SVG) 進(jìn)行了對比。在多個評價指標(biāo)上,DraftAttention 表現(xiàn)更優(yōu):

  • PSNR(越高越好):在高分辨率下可提升約 +2~+3 分;
  • SSIM(越高越好):一致性更強(qiáng),生成視頻結(jié)構(gòu)更穩(wěn)定;
  • LPIPS(越低越好):感知相似度提升,視覺效果更貼近 Ground Truth;
  • VBench 多項指標(biāo)(圖像質(zhì)量、主體一致性、背景連續(xù)性等)均優(yōu)于 SVG。

圖片

特別是在高稀疏率(如 75%~90%)設(shè)置下,DraftAttention 能更好保留視頻的時空一致性和關(guān)鍵結(jié)構(gòu),而 SVG 等靜態(tài)方法則常出現(xiàn)模糊、斷幀等質(zhì)量劣化現(xiàn)象。

同時,我們測試了在 H100 和 A100 GPU 上的加速效果:

  • 在 NVIDIA H100 和 A100 GPU 上,DraftAttention 實(shí)現(xiàn)了最高 1.75 的端到端推理加速;
  • 加速效果隨視頻長度、分辨率、稀疏率同步提升,展現(xiàn)出優(yōu)越的擴(kuò)展性;
  • 得益于 token 重排策略,生成過程中稀疏注意力更具硬件親和性,執(zhí)行效率顯著提升。

圖片

圖片

另外,我們也提供以下視頻生成結(jié)果的直接對比:

Prompt: "The banks of the Thames, as the camera moves vertically from low to high."

Dense 

Sparse VideoGen 

DraftAttention 

Prompt: "On the green grass, the white-walled Leaning Tower of Pisa stands tall. The camera moves vertically from top to bottom during filming."

Dense 

Sparse VideoGen

DraftAttention

Prompt: "A blue long dress fell from the balcony clothes rack and dropped into the water on the ground."

Dense

Sparse VideoGen

DraftAttention

Prompt: "Realistic, High-quality. A woman is drinking coffee at a café."

圖片

input image

Dense

DraftAttention

總結(jié)與展望

DraftAttention 提供了一種簡潔而高效的解決方案:通過低分辨率草圖引導(dǎo)、結(jié)構(gòu)化稀疏掩碼生成與硬件友好的 token 重排,不僅顯著提升了視頻擴(kuò)散模型的推理效率,還在高稀疏率下保持了出色的生成質(zhì)量。其「無需訓(xùn)練、即插即用、動態(tài)可調(diào)、適配主流模型與硬件」的特性,使其具備良好的工程可落地性和研究拓展性。

未來,作者計劃進(jìn)一步結(jié)合量化與蒸餾等技術(shù),繼續(xù)優(yōu)化長視頻生成過程中的效率瓶頸,推動高質(zhì)量視頻生成模型走向移動端、邊緣端等資源受限場景。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-27 09:30:00

AI數(shù)據(jù)訓(xùn)練

2023-01-05 09:33:37

視覺模型訓(xùn)練

2024-12-26 00:51:38

2025-04-28 09:00:00

2024-11-08 09:30:00

2025-05-30 15:52:05

訓(xùn)練代碼推理

2024-09-19 18:49:54

完全同態(tài)加密FHE機(jī)器學(xué)習(xí)

2025-03-27 09:47:23

訓(xùn)練模型AI

2024-10-21 12:10:00

模型訓(xùn)練

2025-05-27 15:28:11

模型訓(xùn)練AI

2023-11-23 13:23:41

AI訓(xùn)練

2023-11-19 23:36:50

2025-01-08 13:15:02

2024-03-15 10:20:14

自動駕駛模型

2022-04-26 15:09:14

優(yōu)化模型訓(xùn)練

2025-04-07 03:00:00

自動駕駛

2024-07-19 09:59:31

2017-06-23 14:11:56

2025-06-18 16:39:02

視頻生成AI模型

2023-04-27 13:06:46

AI手機(jī)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號