ICCV 2025|降低擴散模型中的時空冗余,上交大EEdit實現(xiàn)免訓(xùn)練圖像編輯加速
本論文共同第一作者閆澤軒和馬躍分別是上海交通大學(xué)人工智能學(xué)院2025級研究生,以及香港科技大學(xué)2024級博士生。目前在上海交通大學(xué)EPIC Lab進行科研實習(xí),接受張林峰助理教授指導(dǎo),研究方向是高效模型和AIGC。
本文主要介紹張林峰教授的團隊的最新論文:EEdit?: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
這是首個用于加速匹配流模型上兼容多種引導(dǎo)方案的圖像編輯框架。該框架速度提升顯著,較原始工作流可加速2.4倍;并且輸入引導(dǎo)條件靈活,支持包括參考圖像引導(dǎo),拖拽區(qū)域引導(dǎo),提示詞引導(dǎo)的多種編輯任務(wù);該框架采用免訓(xùn)練的加速算法,無需微調(diào)和蒸餾。
該論文已經(jīng)入選ICCV 2025。

- 論文鏈接:https://arxiv.org/pdf/2503.10270
 - 論文已開源:https://github.com/yuriYanZeXuan/EEdit
 
最近,基于流匹配(Flow Matching)的擴散模型訓(xùn)練方式逐漸成為擴散模型的熱點,以其優(yōu)雅簡潔的數(shù)學(xué)形式和較短時間步的生成能力吸引了許多研究者的關(guān)注。其中以Black Forest Lab開發(fā)的FLUX系列模型為主要代表,它在性能和生成質(zhì)量上超過了以往的SD系列模型水平,從而達到了擴散模型領(lǐng)域的SOTA水平。
然而,擴散模型在圖像編輯上的表現(xiàn)還存在諸多痛點,包括所需時間步數(shù)量較多,反演過程開銷大但是對最終編輯結(jié)果質(zhì)量影響有限,更重要的是,非編輯區(qū)域的計算帶來的不必要的開銷,造成了計算資源的巨大浪費。此外,在各種類型的編輯引導(dǎo)方法上,流匹配模型當前還沒有一個統(tǒng)一的方案進行應(yīng)用和加速。對于圖像編輯任務(wù)中由于時空冗余性所帶來的計算開銷問題,當前學(xué)界的研究還處于初級階段,相關(guān)研究內(nèi)容還是一片藍海。
面對當前研究現(xiàn)狀,上海交通大學(xué)EPIC Lab團隊提出了一種無需訓(xùn)練的高效緩存加速編輯框架EEdit。
其核心思想在于,在一個基于擴散模型的反演-去噪的圖像編輯過程中,使用輸出特征復(fù)用的方式在時間冗余性上壓縮反演過程時間步;使用區(qū)域分數(shù)獎勵對區(qū)域標記更新進行頻率控制,非編輯區(qū)域復(fù)用緩存特征,同時又盡量多地更新編輯區(qū)域?qū)?yīng)的標記從而達到高效計算的目標。
EEdit具有幾個重要的亮點:
1. 無需訓(xùn)練,高效加速。EEdit基于開源的FLUX-dev模型進行推理,無需任何訓(xùn)練或蒸餾,相較于未加速版本達超2.4X推理速度,而相比于其他類型的圖像編輯方法最快可達超10X加速。
2. 在圖像編輯領(lǐng)域中,首次發(fā)掘并嘗試解決了由于時空冗余性帶來的計算開銷浪費的問題。通過反演過程特征復(fù)用和區(qū)域分數(shù)獎勵控制區(qū)域標記計算頻率從而降低編輯任務(wù)中模型計算額時空冗余性。
3. 適配多種輸入類型引導(dǎo)。該編輯框架適配多種引導(dǎo)類型的編輯任務(wù),包括參考圖像引導(dǎo)的圖像合成,提示詞引導(dǎo)的圖像編輯,拖拽區(qū)域引導(dǎo)的圖像編輯任務(wù)。
接下來,我們一起來看看該研究的細節(jié)。
研究動機

圖表1在將貓->虎的編輯案例中發(fā)現(xiàn)的模型計算開銷的空間和時間冗余
本文作者在一個圖像編輯的實際案例中發(fā)現(xiàn)了存在于基于擴散模型的圖像編輯任務(wù)中的時空冗余性。
非編輯區(qū)域相對于編輯區(qū)域存在更高的空間冗余 ,在像素級別的差分可視化圖像中,編輯區(qū)域(動物臉部,毛發(fā)紋理部分)存在高亮區(qū)域表明這里存在較大的變化幅度,其余黑色區(qū)域代表了非編輯區(qū)域基本無變化幅度。本文作者將隱藏層按照空間上的對應(yīng)關(guān)系進行重排并使用熱力圖進行可視化。在隱藏層狀態(tài)的差分余弦相似度熱力圖中,也可以發(fā)現(xiàn)一致的空間冗余性:編輯區(qū)域在反演-去噪過程的前后階段有較低的相似度,而非編輯區(qū)域有更高的相似度。
反演過程相對于去噪過程存在更高的時間冗余,本文作者在一個完整時間步中的反演-擴散過程中分別通過復(fù)用來控制跳過一定比例的時間步帶來的模型計算。完整反演過程下,縮減去噪時間步編輯結(jié)果呈現(xiàn)迅速崩壞的現(xiàn)象;相反,完整去噪過程下,縮減反演時間步編輯結(jié)果仍然與完整計算基本保持一致。鑒于擴散模型在每一個時間步的完整計算都需要數(shù)據(jù)通過整個模型,減少冗余的時間步對于加速編輯延遲有著立竿見影的效果。
方法簡介

圖表2基于擴散模型反演-去噪范式編輯框架的緩存加速方案
基于MM-DIT擴散模型的圖像編輯的框架采用了一種有效免訓(xùn)練方法。編輯框架采用原始圖像和編輯提示為輸入。具體而言,在反演和去噪的兩個過程中,固定的時間步周期進行刷新,而對于周期內(nèi)時間步,則采用用于更新緩存的部分計算。反演過程中本文作者還額外采用了直接復(fù)用模型輸出特征來跳過計算的反演過程跳步(Inversion Step Skipping, ISS)技巧。
而對于緩存更新的部分,作者精心設(shè)計了空間局域緩存算法,具體設(shè)計如下:

圖表3用于縮減空間冗余性的空間緩存算法設(shè)計
對于圖像編輯過程中存在的空間冗余,本文作者巧妙地設(shè)計了一種利用圖像輸入的編輯區(qū)域掩碼作為空間知識先驗來針對性地更新feature tokens的緩存算法。空間局域緩存算法(Spatial Locality Caching, SLoC)是一種即插即用的針對MM-DiT的緩存算法。該算法針對MLP,Cross-Attention, Self-Attention的不同組件都可以進行緩存加速。SLoC會在初始化階段和固定周期時間步上進行完全計算以減少漂移誤差,在周期內(nèi)會部分計算自注意力和多層前饋神經(jīng)網(wǎng)絡(luò)部分的feature tokens并及時更新到緩存中。
SLoC的核心在于對于分數(shù)圖(Score Map)的細粒度控制來改變不同空間區(qū)域所對應(yīng)的feature tokens經(jīng)過計算的頻率,具體而言:
1. 初始化時會使用隨機種子將整個分數(shù)圖隨機初始化,此時所有feature tokens的評分都是服從于高斯分布的隨機均勻分布。
2. 對于被編輯區(qū)域的feature tokens乘以一個系數(shù)作為區(qū)域分數(shù)獎勵,對于相鄰區(qū)域則乘以一個隨L1距離衰減的系數(shù),從而按照編輯區(qū)域分布來改變分數(shù)圖的數(shù)值分布。
3. 按照分數(shù)圖數(shù)值排序后的前R%數(shù)值對應(yīng)的索引下標來選取feature tokens,送入模型層進行計算并更新緩存。
4. 對于未被選中的feature tokens,會給予分數(shù)圖的遞增補償,從而平衡不同區(qū)域間的計算頻次。對于被選中的feature tokens,該遞增補償會重新累計。
作者還采用了緩存索引預(yù)處理(Token Index Preprocessing, TIP)的技巧,具體來說,作者還利用了緩存更新算法中下標索引與具體向量內(nèi)容的無關(guān)性,將緩存更新索引的更新邏輯可以從在線計算方式等價地轉(zhuǎn)變成離線的預(yù)處理算法,從而使用集中計算來加速這一緩存的更新過程。
總而言之,通過空間可感的緩存更新和重用算法,SLoC作為EEdit的核心組件發(fā)揮了在保證圖像編輯質(zhì)量無損的前提下,加以TIP的技巧使得EEdit達到了相對于未加速的原始方案超過2.4X的加速比。
實驗結(jié)果
本文在FLUX-dev的開源權(quán)重上進行實驗,在包括PIE-bench,Drag-DR,Drag-SR,以及TF-ICON benchmark四個數(shù)據(jù)集上進行了詳細的定性和定量實驗,對EEdit的性能和生成質(zhì)量進行檢驗。

圖表4 SLoC在各種指標上與已有的SD系列模型,F(xiàn)LUX系列工作的對比
定量評估維度包括生成領(lǐng)域常用的PSNR,LPIPS,SSIM,CLIP,也包括定量衡量模型效率的FLOPs和推理時間指標。如下圖所示,相比于其它類型的編輯方法,EEdit采用的SLoC+ISS的方案,在相同擴散模型權(quán)重(FLUX 12B)下的指標的普遍最優(yōu),且計算開銷和推理時間也有顯著提高。有趣的是,相比于權(quán)重小一個數(shù)量級的的SD系列,本文的方法也具有推理效率上的競爭力。

圖表5 EEdit在各種類型的引導(dǎo)條件中的編輯能力與其它方法的對比
不僅如此,定性實驗也表明,在多種引導(dǎo)模式下,本文方法具有更強編輯區(qū)域精確度,和更強的背景區(qū)域一致性。在提示詞引導(dǎo)的幾個案例中,別的方法存在大幅修改整體布局,或者背景不一致,畫風(fēng)不一致的問題存在;在拖拽引導(dǎo)的案例中,對于用戶輸入的拖拽意圖,本文的方法體現(xiàn)了更好的遵循程度;在參考圖像引導(dǎo)的圖像合成任務(wù)中,本文的方法在畫風(fēng)一致,以及與原物品身份一致性的保持程度上都呈現(xiàn)了顯著的優(yōu)越性。

圖表6 空間局域緩存相比于其它加速方法的性能對比
空間局域緩存是否是應(yīng)用于編輯任務(wù)的優(yōu)越緩存算法?本文作者通過與其它的緩存加速算法的比較,得出的結(jié)論是肯定的。與同樣可應(yīng)用于MM-DiT的緩存算法,F(xiàn)ORA,ToCa和DuCa相比,本文提出的SLoC算法不僅在加速比和推理延遲上取得優(yōu)勢,而且在前景保持度(FG preservation)中取得了最優(yōu)的結(jié)果。甚至在某些指標上相比于其它緩存加速算法,效果提高50%以上。
如需引用本文,歡迎按照以下格式:
@misc{yan2025eeditrethinkingspatial,
title={EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing},
author={Zexuan Yan and Yue Ma and Chang Zou and Wenteng Chen and Qifeng Chen and Linfeng Zhang},
year={2025},
eprint={2503.10270},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.10270},
}















 
 
 
















 
 
 
 