引領(lǐng)圖像編輯領(lǐng)域的新潮流!Edicho:實現(xiàn)跨圖像一致編輯的新方法(港科&螞蟻&斯坦福)
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
在圖像處理領(lǐng)域,如何實現(xiàn)跨圖像的一致編輯一直是技術(shù)挑戰(zhàn)。傳統(tǒng)方法往往局限于單張圖像的編輯,難以保證多張圖像間編輯效果的一致性。香港科技大學(xué)、螞蟻集團(tuán)、斯坦福大學(xué)和香港中文大學(xué)聯(lián)合提出Edicho,這一難題迎來了全新的解決方案。 總結(jié)如下:
- 無訓(xùn)練編輯方法:
- 核心創(chuàng)新:Edicho作為一種無訓(xùn)練的圖像編輯方法,無需復(fù)雜的模型訓(xùn)練過程,即可實現(xiàn)高效、一致的圖像編輯。
- 技術(shù)原理:該方法基于擴散模型,通過顯式對應(yīng)關(guān)系來指導(dǎo)編輯過程,確保編輯效果在不同圖像間的一致性。
- 顯式對應(yīng)關(guān)系:
- 關(guān)鍵組件:Edicho包括一個注意力操縱模塊和一個精細(xì)調(diào)整的分類器無關(guān)指導(dǎo)(CFG)去噪策略,兩者都考慮了預(yù)估對應(yīng)關(guān)系。
- 優(yōu)勢所在:通過顯式對應(yīng)關(guān)系,Edicho能夠更準(zhǔn)確地捕捉和轉(zhuǎn)移圖像間的特征,從而實現(xiàn)更自然、更一致的編輯效果。
- 廣泛適用性:
- 兼容性強:Edicho具有即插即用的特性,兼容大多數(shù)基于擴散的編輯方法,如ControlNet和BrushNet。
- 應(yīng)用場景:該方法可廣泛應(yīng)用于個性化內(nèi)容生成、跨視角紋理應(yīng)用等實用場景,為內(nèi)容創(chuàng)作者提供了更多可能性。
Edicho的提出不僅解決了跨圖像一致編輯的技術(shù)難題,還為圖像處理領(lǐng)域帶來了全新的思路和方法。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.21079v2
- 主頁:https://ezioby.github.io/edicho/
Edicho:實現(xiàn)跨圖像一致編輯的新方法

一、引言
研究背景:在圖像編輯領(lǐng)域,確保編輯內(nèi)容在不同圖像間的一致性是一個重要但具有挑戰(zhàn)性的任務(wù)。內(nèi)容創(chuàng)作者常常希望能夠在多張照片上應(yīng)用相同的編輯效果,如讓多張照片中的人物都擁有相似的妝容或服裝風(fēng)格。
現(xiàn)有問題:以往的編輯方法往往基于單張圖像進(jìn)行處理,這導(dǎo)致了在不同圖像間應(yīng)用相同編輯時可能出現(xiàn)的不一致性和扭曲。
Edicho提出:本文介紹的Edicho方法通過引入顯式的對應(yīng)關(guān)系預(yù)測,實現(xiàn)了跨圖像的一致編輯,大大提高了編輯效率和質(zhì)量。
二、相關(guān)工作
擴散模型的應(yīng)用:近年來,擴散模型在圖像生成和編輯領(lǐng)域取得了顯著成果。通過空間對齊中間特征和融合無條件嵌入,擴散模型能夠增強編輯的一致性。
基于范例的編輯:另一類工作是通過微調(diào)預(yù)訓(xùn)練的擴散模型,使其能夠基于范例圖像和掩碼源圖像進(jìn)行編輯。這類方法雖然有效,但在處理野生圖像時仍面臨挑戰(zhàn)。
三、方法概述

- 核心組件:Edicho方法主要包括兩個核心組件:注意力操控模塊和精心優(yōu)化的無分類器指導(dǎo)(CFG)去噪策略。
- 注意力操控模塊:該模塊利用顯式的對應(yīng)關(guān)系預(yù)測來增強自注意力機制,確保編輯效果在不同圖像間的一致性。
- CFG去噪策略:通過注入預(yù)計算的對應(yīng)關(guān)系,指導(dǎo)兩個級別的去噪過程:注意力特征和噪聲潛變量。
- 顯式對應(yīng)關(guān)系預(yù)測:與隱式對應(yīng)關(guān)系預(yù)測相比,顯式對應(yīng)關(guān)系更加準(zhǔn)確和穩(wěn)定,能夠更好地處理野生圖像間的內(nèi)在變化。
四、實驗驗證
數(shù)據(jù)集與評估指標(biāo):實驗采用了部分來自互聯(lián)網(wǎng)和部分來自DreamBooth及Custom Diffusion數(shù)據(jù)集的樣本,并使用CLIP模型進(jìn)行文本對齊評估。

實驗結(jié)果:Edicho方法在多種修改場景下均保持了輸入圖像的完整性,包括衣物紋理、面具和領(lǐng)口外觀等。與基于隱式注意力的基線方法相比,Edicho在一致性和主題貼合度方面均表現(xiàn)出色。


五、應(yīng)用示例
定制化生成:通過編輯,Edicho能夠生成更加一致的圖像集,這對于學(xué)習(xí)新穎概念的自定義模型和創(chuàng)建個性化內(nèi)容具有重要價值。
新概念生成與編輯:通過引入低秩矩陣作為適應(yīng)參數(shù),微調(diào)后的生成模型能夠根據(jù)編輯生成與期望相符的圖像,從而實現(xiàn)新概念生成和編輯。
六、結(jié)論與展望
研究總結(jié):本文提出的Edicho方法通過引入顯式的對應(yīng)關(guān)系預(yù)測,實現(xiàn)了跨圖像的一致編輯。該方法增強了自注意力機制和無分類器指導(dǎo)計算,確保了編輯效果的一致性和高質(zhì)量。
未來展望:隨著技術(shù)的不斷發(fā)展,Edicho方法有望在更多領(lǐng)域得到應(yīng)用,如虛擬現(xiàn)實、增強現(xiàn)實以及圖像修復(fù)等。同時,我們也期待更多創(chuàng)新方法的出現(xiàn),共同推動圖像編輯領(lǐng)域的發(fā)展。


























