偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ICCV 2025｜降低擴散模型中的時空冗余，上交大EEdit實現(xiàn)免訓(xùn)練圖像編輯加速

2025-07-07 08:56:00

人工智能新聞

上海交通大學(xué)EPIC Lab團隊提出了一種無需訓(xùn)練的高效緩存加速編輯框架EEdit。

本論文共同第一作者閆澤軒和馬躍分別是上海交通大學(xué)人工智能學(xué)院2025級研究生，以及香港科技大學(xué)2024級博士生。目前在上海交通大學(xué)EPIC Lab進行科研實習(xí)，接受張林峰助理教授指導(dǎo)，研究方向是高效模型和AIGC。

本文主要介紹張林峰教授的團隊的最新論文：EEdit?: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。

這是首個用于加速匹配流模型上兼容多種引導(dǎo)方案的圖像編輯框架。該框架速度提升顯著，較原始工作流可加速2.4倍；并且輸入引導(dǎo)條件靈活，支持包括參考圖像引導(dǎo)，拖拽區(qū)域引導(dǎo)，提示詞引導(dǎo)的多種編輯任務(wù)；該框架采用免訓(xùn)練的加速算法，無需微調(diào)和蒸餾。

該論文已經(jīng)入選ICCV 2025。

論文鏈接：https://arxiv.org/pdf/2503.10270
論文已開源：https://github.com/yuriYanZeXuan/EEdit

最近，基于流匹配（Flow Matching）的擴散模型訓(xùn)練方式逐漸成為擴散模型的熱點，以其優(yōu)雅簡潔的數(shù)學(xué)形式和較短時間步的生成能力吸引了許多研究者的關(guān)注。其中以Black Forest Lab開發(fā)的FLUX系列模型為主要代表，它在性能和生成質(zhì)量上超過了以往的SD系列模型水平，從而達到了擴散模型領(lǐng)域的SOTA水平。

然而，擴散模型在圖像編輯上的表現(xiàn)還存在諸多痛點，包括所需時間步數(shù)量較多，反演過程開銷大但是對最終編輯結(jié)果質(zhì)量影響有限，更重要的是，非編輯區(qū)域的計算帶來的不必要的開銷，造成了計算資源的巨大浪費。此外，在各種類型的編輯引導(dǎo)方法上，流匹配模型當前還沒有一個統(tǒng)一的方案進行應(yīng)用和加速。對于圖像編輯任務(wù)中由于時空冗余性所帶來的計算開銷問題，當前學(xué)界的研究還處于初級階段，相關(guān)研究內(nèi)容還是一片藍海。

面對當前研究現(xiàn)狀，上海交通大學(xué)EPIC Lab團隊提出了一種無需訓(xùn)練的高效緩存加速編輯框架EEdit。

其核心思想在于，在一個基于擴散模型的反演-去噪的圖像編輯過程中，使用輸出特征復(fù)用的方式在時間冗余性上壓縮反演過程時間步；使用區(qū)域分數(shù)獎勵對區(qū)域標記更新進行頻率控制，非編輯區(qū)域復(fù)用緩存特征，同時又盡量多地更新編輯區(qū)域?qū)?yīng)的標記從而達到高效計算的目標。

EEdit具有幾個重要的亮點：

1. 無需訓(xùn)練，高效加速。EEdit基于開源的FLUX-dev模型進行推理，無需任何訓(xùn)練或蒸餾，相較于未加速版本達超2.4X推理速度，而相比于其他類型的圖像編輯方法最快可達超10X加速。

2. 在圖像編輯領(lǐng)域中，首次發(fā)掘并嘗試解決了由于時空冗余性帶來的計算開銷浪費的問題。通過反演過程特征復(fù)用和區(qū)域分數(shù)獎勵控制區(qū)域標記計算頻率從而降低編輯任務(wù)中模型計算額時空冗余性。

3. 適配多種輸入類型引導(dǎo)。該編輯框架適配多種引導(dǎo)類型的編輯任務(wù)，包括參考圖像引導(dǎo)的圖像合成，提示詞引導(dǎo)的圖像編輯，拖拽區(qū)域引導(dǎo)的圖像編輯任務(wù)。

接下來，我們一起來看看該研究的細節(jié)。

研究動機

圖表1在將貓->虎的編輯案例中發(fā)現(xiàn)的模型計算開銷的空間和時間冗余

本文作者在一個圖像編輯的實際案例中發(fā)現(xiàn)了存在于基于擴散模型的圖像編輯任務(wù)中的時空冗余性。

非編輯區(qū)域相對于編輯區(qū)域存在更高的空間冗余 ，在像素級別的差分可視化圖像中，編輯區(qū)域（動物臉部，毛發(fā)紋理部分）存在高亮區(qū)域表明這里存在較大的變化幅度，其余黑色區(qū)域代表了非編輯區(qū)域基本無變化幅度。本文作者將隱藏層按照空間上的對應(yīng)關(guān)系進行重排并使用熱力圖進行可視化。在隱藏層狀態(tài)的差分余弦相似度熱力圖中，也可以發(fā)現(xiàn)一致的空間冗余性：編輯區(qū)域在反演-去噪過程的前后階段有較低的相似度，而非編輯區(qū)域有更高的相似度。

反演過程相對于去噪過程存在更高的時間冗余，本文作者在一個完整時間步中的反演-擴散過程中分別通過復(fù)用來控制跳過一定比例的時間步帶來的模型計算。完整反演過程下，縮減去噪時間步編輯結(jié)果呈現(xiàn)迅速崩壞的現(xiàn)象；相反，完整去噪過程下，縮減反演時間步編輯結(jié)果仍然與完整計算基本保持一致。鑒于擴散模型在每一個時間步的完整計算都需要數(shù)據(jù)通過整個模型，減少冗余的時間步對于加速編輯延遲有著立竿見影的效果。

方法簡介

圖表2基于擴散模型反演-去噪范式編輯框架的緩存加速方案

基于MM-DIT擴散模型的圖像編輯的框架采用了一種有效免訓(xùn)練方法。編輯框架采用原始圖像和編輯提示為輸入。具體而言，在反演和去噪的兩個過程中，固定的時間步周期進行刷新，而對于周期內(nèi)時間步，則采用用于更新緩存的部分計算。反演過程中本文作者還額外采用了直接復(fù)用模型輸出特征來跳過計算的反演過程跳步（Inversion Step Skipping, ISS）技巧。

而對于緩存更新的部分，作者精心設(shè)計了空間局域緩存算法，具體設(shè)計如下：

圖表3用于縮減空間冗余性的空間緩存算法設(shè)計

對于圖像編輯過程中存在的空間冗余，本文作者巧妙地設(shè)計了一種利用圖像輸入的編輯區(qū)域掩碼作為空間知識先驗來針對性地更新feature tokens的緩存算法。空間局域緩存算法（Spatial Locality Caching, SLoC）是一種即插即用的針對MM-DiT的緩存算法。該算法針對MLP,Cross-Attention, Self-Attention的不同組件都可以進行緩存加速。SLoC會在初始化階段和固定周期時間步上進行完全計算以減少漂移誤差，在周期內(nèi)會部分計算自注意力和多層前饋神經(jīng)網(wǎng)絡(luò)部分的feature tokens并及時更新到緩存中。

SLoC的核心在于對于分數(shù)圖（Score Map）的細粒度控制來改變不同空間區(qū)域所對應(yīng)的feature tokens經(jīng)過計算的頻率，具體而言：

1. 初始化時會使用隨機種子將整個分數(shù)圖隨機初始化，此時所有feature tokens的評分都是服從于高斯分布的隨機均勻分布。

2. 對于被編輯區(qū)域的feature tokens乘以一個系數(shù)作為區(qū)域分數(shù)獎勵，對于相鄰區(qū)域則乘以一個隨L1距離衰減的系數(shù)，從而按照編輯區(qū)域分布來改變分數(shù)圖的數(shù)值分布。

3. 按照分數(shù)圖數(shù)值排序后的前R%數(shù)值對應(yīng)的索引下標來選取feature tokens，送入模型層進行計算并更新緩存。

4. 對于未被選中的feature tokens，會給予分數(shù)圖的遞增補償，從而平衡不同區(qū)域間的計算頻次。對于被選中的feature tokens，該遞增補償會重新累計。

作者還采用了緩存索引預(yù)處理（Token Index Preprocessing, TIP）的技巧，具體來說，作者還利用了緩存更新算法中下標索引與具體向量內(nèi)容的無關(guān)性，將緩存更新索引的更新邏輯可以從在線計算方式等價地轉(zhuǎn)變成離線的預(yù)處理算法，從而使用集中計算來加速這一緩存的更新過程。

總而言之，通過空間可感的緩存更新和重用算法，SLoC作為EEdit的核心組件發(fā)揮了在保證圖像編輯質(zhì)量無損的前提下，加以TIP的技巧使得EEdit達到了相對于未加速的原始方案超過2.4X的加速比。

實驗結(jié)果

本文在FLUX-dev的開源權(quán)重上進行實驗，在包括PIE-bench，Drag-DR，Drag-SR,以及TF-ICON benchmark四個數(shù)據(jù)集上進行了詳細的定性和定量實驗，對EEdit的性能和生成質(zhì)量進行檢驗。

圖表4 SLoC在各種指標上與已有的SD系列模型，F(xiàn)LUX系列工作的對比

定量評估維度包括生成領(lǐng)域常用的PSNR,LPIPS,SSIM,CLIP，也包括定量衡量模型效率的FLOPs和推理時間指標。如下圖所示，相比于其它類型的編輯方法，EEdit采用的SLoC+ISS的方案，在相同擴散模型權(quán)重（FLUX 12B）下的指標的普遍最優(yōu)，且計算開銷和推理時間也有顯著提高。有趣的是，相比于權(quán)重小一個數(shù)量級的的SD系列，本文的方法也具有推理效率上的競爭力。

圖表5 EEdit在各種類型的引導(dǎo)條件中的編輯能力與其它方法的對比

不僅如此，定性實驗也表明，在多種引導(dǎo)模式下，本文方法具有更強編輯區(qū)域精確度，和更強的背景區(qū)域一致性。在提示詞引導(dǎo)的幾個案例中，別的方法存在大幅修改整體布局，或者背景不一致，畫風(fēng)不一致的問題存在；在拖拽引導(dǎo)的案例中，對于用戶輸入的拖拽意圖，本文的方法體現(xiàn)了更好的遵循程度；在參考圖像引導(dǎo)的圖像合成任務(wù)中，本文的方法在畫風(fēng)一致，以及與原物品身份一致性的保持程度上都呈現(xiàn)了顯著的優(yōu)越性。

圖表6 空間局域緩存相比于其它加速方法的性能對比

空間局域緩存是否是應(yīng)用于編輯任務(wù)的優(yōu)越緩存算法？本文作者通過與其它的緩存加速算法的比較，得出的結(jié)論是肯定的。與同樣可應(yīng)用于MM-DiT的緩存算法，F(xiàn)ORA，ToCa和DuCa相比，本文提出的SLoC算法不僅在加速比和推理延遲上取得優(yōu)勢，而且在前景保持度（FG preservation）中取得了最優(yōu)的結(jié)果。甚至在某些指標上相比于其它緩存加速算法，效果提高50%以上。

如需引用本文，歡迎按照以下格式：

@misc{yan2025eeditrethinkingspatial,

title={EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing},

author={Zexuan Yan and Yue Ma and Chang Zou and Wenteng Chen and Qifeng Chen and Linfeng Zhang},

year={2025},

eprint={2503.10270},

archivePrefix={arXiv},

primaryClass={cs.CV},

url={https://arxiv.org/abs/2503.10270},

}

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營