偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

EasyCache:無需訓(xùn)練的視頻擴散模型推理加速——極簡高效的視頻生成提速方案

人工智能 新聞
本論文提出的 EasyCache,是一種無需訓(xùn)練、無需模型結(jié)構(gòu)改動、無需離線統(tǒng)計的推理加速新框架。它的核心思想非常直接:在推理過程中,動態(tài)檢測模型輸出的 「穩(wěn)定期」,復(fù)用歷史計算結(jié)果以減少冗余推理步驟。

論文作者團隊簡介:本文第一作者周鑫,共同第一作者梁定康,均為華中科技大學(xué)博士生,導(dǎo)師為白翔教授。合作者包括華中科技大學(xué)陳楷錦、馮天瑞、林鴻凱,曠視科技陳習(xí)武、丁宜康、譚飛楊和香港大學(xué)趙恒爽助理教授。

在HunyuanVideo上,EasyCache在復(fù)雜場景下保持與原視頻的一致外觀,同時顯著加速

1. 研究背景與動機

近年來,隨著擴散模型(Diffusion Models)和擴散 Transformer(DiT)在視頻生成領(lǐng)域的廣泛應(yīng)用,AI 合成視頻的質(zhì)量和連貫性有了飛躍式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型,已經(jīng)能夠生成結(jié)構(gòu)清晰、細節(jié)豐富且高度連貫的長視頻內(nèi)容,為數(shù)字內(nèi)容創(chuàng)作、虛擬世界和多媒體娛樂帶來了巨大變革。

但與此同時,推理慢、算力消耗高的問題也日益突出。以 HunyuanVideo 為例,生成一個 5 秒、720P 分辨率的視頻,單次推理在單張 H20 上需要 2 小時。這種高昂的資源代價,極大限制了擴散視頻生成技術(shù)在實時互動、移動端和大規(guī)模生產(chǎn)場景的應(yīng)用落地。

造成這一瓶頸的核心原因,是擴散模型在生成過程中需要多次迭代去噪,每一步都要進行完整的神經(jīng)網(wǎng)絡(luò)前向推理,導(dǎo)致大量冗余計算。如何在不影響視頻質(zhì)量的前提下,大幅提升推理效率,成為亟需突破的難點。

圖片

  • 論文標(biāo)題:Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching
  • 論文地址:https://arxiv.org/abs/2507.02860
  • 代碼地址(已開源): https://github.com/H-EmbodVis/EasyCache
  • 項目主頁:https://h-embodvis.github.io/EasyCache/

圖片

2. 方法創(chuàng)新:EasyCache 的設(shè)計與原理

本論文提出的 EasyCache,是一種無需訓(xùn)練、無需模型結(jié)構(gòu)改動、無需離線統(tǒng)計的推理加速新框架。它的核心思想非常直接:在推理過程中,動態(tài)檢測模型輸出的 「穩(wěn)定期」,復(fù)用歷史計算結(jié)果以減少冗余推理步驟。

2.1 擴散過程的 「變換速率」 規(guī)律

擴散模型的生成過程可以理解為 「逐步去噪」:每一步都從當(dāng)前潛變量出發(fā),預(yù)測噪聲并更新狀態(tài),逐漸還原出清晰的視頻內(nèi)容。將一個 step 內(nèi)的全部 DiT blocks 看做一個函數(shù),可以考慮某個 step 的 「方向?qū)?shù)」 的一階近似:

圖片

為了便于分析,將其求均值和范數(shù)以簡化為數(shù)值(變換速率,Transformation rate):

圖片

通過對擴散 Transformer 的內(nèi)部特征分析,發(fā)現(xiàn):

  • 在去噪初期,模型輸出變化劇烈,可能需要完整推理以捕捉全局結(jié)構(gòu);
  • 但在中后期,模型的 「變換速率」 趨于穩(wěn)定,行為近似線性,細節(jié)微調(diào)為主。

圖片

這種 「穩(wěn)定性」 意味著,許多步驟的輸出可以用之前某一步的結(jié)果做近似,大量冗余計算可以被跳過。

2.2 EasyCache 的自適應(yīng)緩存機制

EasyCache 的具體實現(xiàn)流程如下:

(1)變換速率度量

定義每一步的 「變換速率」

圖片

,用于衡量當(dāng)前輸出對輸入的敏感度。我們驚訝地發(fā)現(xiàn),盡管整個模型的輸入輸出在時間步層面變化劇烈且呈現(xiàn)不同的變化模式,Kt在去噪后期卻能保持相對穩(wěn)定。

(2)自適應(yīng)判據(jù)與緩存復(fù)用

  • 設(shè)定累計誤差閾值,動態(tài)累計每步的輸出變化率(誤差指標(biāo)Et)。具體而言,假定Kt在局部為常數(shù),可以通過下一個 step 的輸入變化與Kt一起協(xié)同判斷輸出的變化率(局部穩(wěn)定性判斷),將預(yù)估的輸出變化率累加可以作為累計誤差估計。
  • 只要Et低于τ,就直接復(fù)用上一次完整推理的變換向量,否則重新計算并刷新緩存。
  • 前 R 步為 warm-up,全部完整推理,確保初期結(jié)構(gòu)信息不丟失。

    圖片

(3)無需訓(xùn)練與模型改動

EasyCache 完全在推理階段生效,不需要模型重訓(xùn)練,也不需修改原有網(wǎng)絡(luò)結(jié)構(gòu),可以做到 「即插即用」。

3. 實驗結(jié)果與可視化分析

論文在 OpenSora、Wan2.1、HunyuanVideo 等多個主流視頻生成模型上進行了系統(tǒng)實驗,考察了推理速度與生成質(zhì)量的平衡。

3.1 定量實驗結(jié)果

圖片

  • EasyCache 在 HunyuanVideo 上實現(xiàn) 2.2 倍加速,PSNR 提升 36%,SSIM 提升 14%,LPIPS 大幅下降,視頻質(zhì)量幾乎無損。在 Wan2.1 上也取得了超過 2 倍的加速比。

    圖片

  • 在圖像生成任務(wù)(如 FLUX.1-dev)同樣可帶來 4.6 倍加速,并提升 FID 等指標(biāo)。

圖片

  • EasyCache 與 SVG 等稀疏注意力技術(shù)可疊加,平均可達 3.3 倍加速,總體推理時長從 2 小時縮短到 33 分鐘。

3.2 可視化對比

論文展示了不同方法生成的視頻幀對比:

  • 靜態(tài)緩存和 TeaCache 等方法在細節(jié)、結(jié)構(gòu)和清晰度上均有不同程度損失;
  • EasyCache 生成的視頻在視覺效果上與原始模型幾乎一致,細節(jié)保留優(yōu)秀,且無明顯模糊或結(jié)構(gòu)錯亂。更多可視化請見:https://h-embodvis.github.io/EasyCache/

 在Wan2.1-14B上,EasyCache成功地保留了文字

EasyCache能夠在SVG的基礎(chǔ)上進一步將加速倍數(shù)提高到三倍以上

4. 總結(jié)與未來展望

EasyCache 為視頻擴散模型的推理加速提供了一種極簡、高效、訓(xùn)練無關(guān)的新范式。它通過深入挖掘擴散過程的內(nèi)在規(guī)律,實現(xiàn)了大幅提速且?guī)缀鯚o損的高質(zhì)量視頻生成,為擴散模型在實際應(yīng)用中的落地提供了堅實基礎(chǔ)。未來,隨著模型和有關(guān)加速技術(shù)的持續(xù)提升,我們期望能進一步逼近 「實時視頻生成」 的目標(biāo)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-06-30 08:42:00

模型訓(xùn)練AI

2025-05-16 13:18:37

2024-10-28 07:30:00

2024-12-26 00:51:38

2024-10-15 14:08:06

2025-07-21 09:03:00

模型AI訓(xùn)練

2023-10-11 12:32:26

模型訓(xùn)練

2024-09-10 11:21:30

2025-08-07 07:56:52

2024-05-10 07:58:03

2025-03-12 09:05:02

2023-04-03 10:04:44

開源模型

2025-04-28 09:00:00

2025-10-23 09:02:12

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-03-27 10:04:27

2024-02-19 07:58:01

OpenAI模型GPT

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2025-10-20 08:36:21

2025-05-12 09:31:44

點贊
收藏

51CTO技術(shù)棧公眾號