偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV 2025|降低擴(kuò)散模型中的時空冗余,上交大EEdit實(shí)現(xiàn)免訓(xùn)練圖像編輯加速

人工智能 新聞
上海交通大學(xué)EPIC Lab團(tuán)隊(duì)提出了一種無需訓(xùn)練的高效緩存加速編輯框架EEdit。

本論文共同第一作者閆澤軒和馬躍分別是上海交通大學(xué)人工智能學(xué)院2025級研究生,以及香港科技大學(xué)2024級博士生。目前在上海交通大學(xué)EPIC Lab進(jìn)行科研實(shí)習(xí),接受張林峰助理教授指導(dǎo),研究方向是高效模型和AIGC。

本文主要介紹張林峰教授的團(tuán)隊(duì)的最新論文:EEdit?: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。

這是首個用于加速匹配流模型上兼容多種引導(dǎo)方案的圖像編輯框架。該框架速度提升顯著,較原始工作流可加速2.4倍;并且輸入引導(dǎo)條件靈活,支持包括參考圖像引導(dǎo),拖拽區(qū)域引導(dǎo),提示詞引導(dǎo)的多種編輯任務(wù);該框架采用免訓(xùn)練的加速算法,無需微調(diào)和蒸餾。

該論文已經(jīng)入選ICCV 2025。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2503.10270
  • 論文已開源:https://github.com/yuriYanZeXuan/EEdit 

最近,基于流匹配(Flow Matching)的擴(kuò)散模型訓(xùn)練方式逐漸成為擴(kuò)散模型的熱點(diǎn),以其優(yōu)雅簡潔的數(shù)學(xué)形式和較短時間步的生成能力吸引了許多研究者的關(guān)注。其中以Black Forest Lab開發(fā)的FLUX系列模型為主要代表,它在性能和生成質(zhì)量上超過了以往的SD系列模型水平,從而達(dá)到了擴(kuò)散模型領(lǐng)域的SOTA水平。

然而,擴(kuò)散模型在圖像編輯上的表現(xiàn)還存在諸多痛點(diǎn),包括所需時間步數(shù)量較多,反演過程開銷大但是對最終編輯結(jié)果質(zhì)量影響有限,更重要的是,非編輯區(qū)域的計(jì)算帶來的不必要的開銷,造成了計(jì)算資源的巨大浪費(fèi)。此外,在各種類型的編輯引導(dǎo)方法上,流匹配模型當(dāng)前還沒有一個統(tǒng)一的方案進(jìn)行應(yīng)用和加速。對于圖像編輯任務(wù)中由于時空冗余性所帶來的計(jì)算開銷問題,當(dāng)前學(xué)界的研究還處于初級階段,相關(guān)研究內(nèi)容還是一片藍(lán)海。

面對當(dāng)前研究現(xiàn)狀,上海交通大學(xué)EPIC Lab團(tuán)隊(duì)提出了一種無需訓(xùn)練高效緩存加速編輯框架EEdit。

其核心思想在于,在一個基于擴(kuò)散模型的反演-去噪的圖像編輯過程中,使用輸出特征復(fù)用的方式在時間冗余性上壓縮反演過程時間步;使用區(qū)域分?jǐn)?shù)獎勵對區(qū)域標(biāo)記更新進(jìn)行頻率控制,非編輯區(qū)域復(fù)用緩存特征,同時又盡量多地更新編輯區(qū)域?qū)?yīng)的標(biāo)記從而達(dá)到高效計(jì)算的目標(biāo)。

EEdit具有幾個重要的亮點(diǎn):

1. 無需訓(xùn)練,高效加速。EEdit基于開源的FLUX-dev模型進(jìn)行推理,無需任何訓(xùn)練或蒸餾,相較于未加速版本達(dá)超2.4X推理速度,而相比于其他類型的圖像編輯方法最快可達(dá)超10X加速。

2. 在圖像編輯領(lǐng)域中,首次發(fā)掘并嘗試解決了由于時空冗余性帶來的計(jì)算開銷浪費(fèi)的問題。通過反演過程特征復(fù)用和區(qū)域分?jǐn)?shù)獎勵控制區(qū)域標(biāo)記計(jì)算頻率從而降低編輯任務(wù)中模型計(jì)算額時空冗余性。

3. 適配多種輸入類型引導(dǎo)。該編輯框架適配多種引導(dǎo)類型的編輯任務(wù),包括參考圖像引導(dǎo)的圖像合成,提示詞引導(dǎo)的圖像編輯,拖拽區(qū)域引導(dǎo)的圖像編輯任務(wù)。

接下來,我們一起來看看該研究的細(xì)節(jié)。

研究動機(jī)

圖片

圖表1在將貓->虎的編輯案例中發(fā)現(xiàn)的模型計(jì)算開銷的空間和時間冗余

本文作者在一個圖像編輯的實(shí)際案例中發(fā)現(xiàn)了存在于基于擴(kuò)散模型的圖像編輯任務(wù)中的時空冗余性。

非編輯區(qū)域相對于編輯區(qū)域存在更高的空間冗余 ,在像素級別的差分可視化圖像中,編輯區(qū)域(動物臉部,毛發(fā)紋理部分)存在高亮區(qū)域表明這里存在較大的變化幅度,其余黑色區(qū)域代表了非編輯區(qū)域基本無變化幅度。本文作者將隱藏層按照空間上的對應(yīng)關(guān)系進(jìn)行重排并使用熱力圖進(jìn)行可視化。在隱藏層狀態(tài)的差分余弦相似度熱力圖中,也可以發(fā)現(xiàn)一致的空間冗余性:編輯區(qū)域在反演-去噪過程的前后階段有較低的相似度,而非編輯區(qū)域有更高的相似度。

反演過程相對于去噪過程存在更高的時間冗余,本文作者在一個完整時間步中的反演-擴(kuò)散過程中分別通過復(fù)用來控制跳過一定比例的時間步帶來的模型計(jì)算。完整反演過程下,縮減去噪時間步編輯結(jié)果呈現(xiàn)迅速崩壞的現(xiàn)象;相反,完整去噪過程下,縮減反演時間步編輯結(jié)果仍然與完整計(jì)算基本保持一致。鑒于擴(kuò)散模型在每一個時間步的完整計(jì)算都需要數(shù)據(jù)通過整個模型,減少冗余的時間步對于加速編輯延遲有著立竿見影的效果。

方法簡介

圖片

圖表2基于擴(kuò)散模型反演-去噪范式編輯框架的緩存加速方案

基于MM-DIT擴(kuò)散模型的圖像編輯的框架采用了一種有效免訓(xùn)練方法。編輯框架采用原始圖像和編輯提示為輸入。具體而言,在反演和去噪的兩個過程中,固定的時間步周期進(jìn)行刷新,而對于周期內(nèi)時間步,則采用用于更新緩存的部分計(jì)算。反演過程中本文作者還額外采用了直接復(fù)用模型輸出特征來跳過計(jì)算的反演過程跳步(Inversion Step Skipping, ISS)技巧。

而對于緩存更新的部分,作者精心設(shè)計(jì)了空間局域緩存算法,具體設(shè)計(jì)如下:

圖片

圖表3用于縮減空間冗余性的空間緩存算法設(shè)計(jì)

對于圖像編輯過程中存在的空間冗余,本文作者巧妙地設(shè)計(jì)了一種利用圖像輸入的編輯區(qū)域掩碼作為空間知識先驗(yàn)來針對性地更新feature tokens的緩存算法。空間局域緩存算法(Spatial Locality Caching, SLoC)是一種即插即用的針對MM-DiT的緩存算法。該算法針對MLP,Cross-Attention, Self-Attention的不同組件都可以進(jìn)行緩存加速。SLoC會在初始化階段和固定周期時間步上進(jìn)行完全計(jì)算以減少漂移誤差,在周期內(nèi)會部分計(jì)算自注意力和多層前饋神經(jīng)網(wǎng)絡(luò)部分的feature tokens并及時更新到緩存中。

SLoC的核心在于對于分?jǐn)?shù)圖(Score Map)的細(xì)粒度控制來改變不同空間區(qū)域所對應(yīng)的feature tokens經(jīng)過計(jì)算的頻率,具體而言:

1. 初始化時會使用隨機(jī)種子將整個分?jǐn)?shù)圖隨機(jī)初始化,此時所有feature tokens的評分都是服從于高斯分布的隨機(jī)均勻分布。

2. 對于被編輯區(qū)域的feature tokens乘以一個系數(shù)作為區(qū)域分?jǐn)?shù)獎勵,對于相鄰區(qū)域則乘以一個隨L1距離衰減的系數(shù),從而按照編輯區(qū)域分布來改變分?jǐn)?shù)圖的數(shù)值分布。

3. 按照分?jǐn)?shù)圖數(shù)值排序后的前R%數(shù)值對應(yīng)的索引下標(biāo)來選取feature tokens,送入模型層進(jìn)行計(jì)算并更新緩存。

4. 對于未被選中的feature tokens,會給予分?jǐn)?shù)圖的遞增補(bǔ)償,從而平衡不同區(qū)域間的計(jì)算頻次。對于被選中的feature tokens,該遞增補(bǔ)償會重新累計(jì)。

作者還采用了緩存索引預(yù)處理(Token Index Preprocessing, TIP)的技巧,具體來說,作者還利用了緩存更新算法中下標(biāo)索引與具體向量內(nèi)容的無關(guān)性,將緩存更新索引的更新邏輯可以從在線計(jì)算方式等價(jià)地轉(zhuǎn)變成離線的預(yù)處理算法,從而使用集中計(jì)算來加速這一緩存的更新過程。

總而言之,通過空間可感的緩存更新和重用算法,SLoC作為EEdit的核心組件發(fā)揮了在保證圖像編輯質(zhì)量無損的前提下,加以TIP的技巧使得EEdit達(dá)到了相對于未加速的原始方案超過2.4X的加速比。

實(shí)驗(yàn)結(jié)果

本文在FLUX-dev的開源權(quán)重上進(jìn)行實(shí)驗(yàn),在包括PIE-bench,Drag-DR,Drag-SR,以及TF-ICON benchmark四個數(shù)據(jù)集上進(jìn)行了詳細(xì)的定性和定量實(shí)驗(yàn),對EEdit的性能和生成質(zhì)量進(jìn)行檢驗(yàn)。

圖片

圖表4 SLoC在各種指標(biāo)上與已有的SD系列模型,F(xiàn)LUX系列工作的對比

定量評估維度包括生成領(lǐng)域常用的PSNR,LPIPS,SSIM,CLIP,也包括定量衡量模型效率的FLOPs和推理時間指標(biāo)。如下圖所示,相比于其它類型的編輯方法,EEdit采用的SLoC+ISS的方案,在相同擴(kuò)散模型權(quán)重(FLUX 12B)下的指標(biāo)的普遍最優(yōu),且計(jì)算開銷和推理時間也有顯著提高。有趣的是,相比于權(quán)重小一個數(shù)量級的的SD系列,本文的方法也具有推理效率上的競爭力。

圖片

圖表5 EEdit在各種類型的引導(dǎo)條件中的編輯能力與其它方法的對比

不僅如此,定性實(shí)驗(yàn)也表明,在多種引導(dǎo)模式下,本文方法具有更強(qiáng)編輯區(qū)域精確度,和更強(qiáng)的背景區(qū)域一致性。在提示詞引導(dǎo)的幾個案例中,別的方法存在大幅修改整體布局,或者背景不一致,畫風(fēng)不一致的問題存在;在拖拽引導(dǎo)的案例中,對于用戶輸入的拖拽意圖,本文的方法體現(xiàn)了更好的遵循程度;在參考圖像引導(dǎo)的圖像合成任務(wù)中,本文的方法在畫風(fēng)一致,以及與原物品身份一致性的保持程度上都呈現(xiàn)了顯著的優(yōu)越性。

圖片

圖表6 空間局域緩存相比于其它加速方法的性能對比

空間局域緩存是否是應(yīng)用于編輯任務(wù)的優(yōu)越緩存算法?本文作者通過與其它的緩存加速算法的比較,得出的結(jié)論是肯定的。與同樣可應(yīng)用于MM-DiT的緩存算法,F(xiàn)ORA,ToCa和DuCa相比,本文提出的SLoC算法不僅在加速比和推理延遲上取得優(yōu)勢,而且在前景保持度(FG preservation)中取得了最優(yōu)的結(jié)果。甚至在某些指標(biāo)上相比于其它緩存加速算法,效果提高50%以上。

如需引用本文,歡迎按照以下格式:

@misc{yan2025eeditrethinkingspatial,

title={EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing}, 

author={Zexuan Yan and Yue Ma and Chang Zou and Wenteng Chen and Qifeng Chen and Linfeng Zhang},

year={2025},

eprint={2503.10270},

archivePrefix={arXiv},

primaryClass={cs.CV},

url={https://arxiv.org/abs/2503.10270}, 

}

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-03-11 09:37:01

模型圖片編輯

2023-01-02 13:12:07

模型圖像

2025-01-17 10:30:00

2025-02-05 09:30:00

圖像模型生成

2019-04-03 15:00:47

Python圖像編輯工具

2025-03-31 08:46:00

圖像AI生成

2023-12-23 23:04:26

AI模型

2025-04-28 09:00:00

2023-11-17 08:46:26

2025-05-27 15:28:11

模型訓(xùn)練AI

2020-08-22 07:46:58

Photoflare開源圖像編輯器

2024-03-07 14:55:18

模型論文

2025-01-06 10:30:00

圖像AI模型

2025-05-07 13:51:49

模型數(shù)據(jù)

2023-04-13 15:55:00

AI開源

2024-07-01 10:19:22

2025-01-07 11:00:00

AI生成

2025-06-30 08:42:00

模型訓(xùn)練AI

2025-04-29 09:13:00

2025-07-02 09:21:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號