"一鍵消除"與"無縫融入"超絲滑!CycleFlow+擴散先驗讓OmniPaint引領(lǐng)圖像編輯新時代
論文鏈接:https://arxiv.org/pdf/2503.08677
項目鏈接:https://www.yongshengyu.com/OmniPaint-Page/
git鏈接:https://github.com/yeates/OmniPaint
亮點直擊
- 提出了一種基于擴散的解決方案,用于在對象移除和插入時實現(xiàn)物理和幾何一致性,包括陰影和反射等物理效果。
- 引入了一種漸進的訓(xùn)練流程,其中提出的CycleFlow技術(shù)支持無配對的后期訓(xùn)練,減少了對配對數(shù)據(jù)的依賴。
- 進一步開發(fā)了一種新穎的無參考指標(biāo),稱為CFD,用于通過幻覺檢測和上下文一致性評估來衡量對象移除的質(zhì)量。
總結(jié)速覽
解決的問題
基于擴散的生成模型在實現(xiàn)逼真的對象移除和插入時面臨挑戰(zhàn),主要包括物理效果(如陰影和反射)的復(fù)雜相互作用以及配對訓(xùn)練數(shù)據(jù)的不足。
提出的方案
引入 OmniPaint,一個統(tǒng)一的框架,將對象移除和插入重新概念化為相互依賴的過程,而不是孤立的任務(wù)。
應(yīng)用的技術(shù)
- 利用預(yù)訓(xùn)練的擴散先驗。
- 實施漸進的訓(xùn)練流程,包括初始配對樣本優(yōu)化。
- 通過 CycleFlow 技術(shù)進行大規(guī)模無配對細化,支持無配對的后期訓(xùn)練。
- 開發(fā)一種新穎的無參考指標(biāo) CFD,用于評估對象移除質(zhì)量。
達到的效果
- 實現(xiàn)了精確的前景消除和無縫的對象插入。
- 保留了場景的幾何和內(nèi)在屬性。
- 提供了物理和幾何一致性,包括陰影和反射。
- 建立了高保真圖像編輯的新基準(zhǔn)。
方法
OmniPaint 框架
數(shù)據(jù)收集和掩碼增強
為了增強模型對各種掩碼變化的魯棒性,對對象移除和插入應(yīng)用了不同的增強策略。對于移除,通過形態(tài)學(xué)變換引入分割噪聲,隨機應(yīng)用具有可配置參數(shù)的膨脹或腐蝕。通過擾動邊界并添加或刪除幾何形狀(如圓形、矩形)來模擬不精確的掩碼。附錄中提供了增強示例和效果分析。對于對象插入,由于不需要顯式的對象檢測,我通過擴展分割掩碼到其邊界框或凸包來簡化掩碼增強,以確保適應(yīng)各種參考對象格式。參考對象圖像增強遵循先前的工作[34]。
訓(xùn)練流程
本文的實驗中,觀察到當(dāng)前的訓(xùn)練數(shù)據(jù)不足以維持對象插入的參考身份,如下圖 7(b) 和附錄表 A 所示。通過訓(xùn)練模型引導(dǎo)配對數(shù)據(jù),類似于 ObjectDrop,是一個簡單的解決方案,但需要一個可靠的過濾機制,這仍然是一個開放的挑戰(zhàn)。
幸運的是,對象插入和對象移除在數(shù)學(xué)上是互補的逆問題(即,每個問題可以被視為反轉(zhuǎn)另一個問題)。受循環(huán)一致性方法 [45, 57] 的啟發(fā),本文提出利用未配對數(shù)據(jù),而不是依賴配對增強。特別是,我們利用大規(guī)模對象分割數(shù)據(jù)集,這些數(shù)據(jù)集缺乏顯式的移除對,以增強對象插入。本文介紹了我們的三階段訓(xùn)練流程:(1)修復(fù)前置訓(xùn)練,(2)配對預(yù)熱,(3)CycleFlow 未配對后期訓(xùn)練。
修復(fù)前置訓(xùn)練
配對預(yù)熱
CycleFlow 無配對后期訓(xùn)練
為了加強這種循環(huán)一致性,我們定義了一個循環(huán)損失:
上下文感知特征偏差 (CFD) 評分
引入上下文感知特征偏差 (CFD) 評分,以定量評估對象移除性能。如下圖 3 所示,CFD 包含兩個組成部分:一個幻覺懲罰項,用于檢測和懲罰在移除區(qū)域中出現(xiàn)的不需要的類似對象的結(jié)構(gòu),以及一個上下文一致性項,用于評估修復(fù)區(qū)域與周圍背景的融合程度。
最終 CFD 指標(biāo)。最終的 CFD 分?jǐn)?shù)計算為:
較低的 CFD 表示更好的移除質(zhì)量——即幻覺最小化和無縫的上下文融合。
實驗
CFD 分析
通過定性分析,以確定本文的 CFD 得分是否有效捕捉上下文連貫性和幻覺偽影,從而相比現(xiàn)有指標(biāo)(如 ReMOVE),提供更可靠的對象移除質(zhì)量評估。如下圖 2 所示,F(xiàn)LUX-Inpainting] 會生成明顯的幻覺——如船只、人形或漂浮的罐子等虛幻對象——但仍能獲得較高的 ReMOVE 得分。相比之下,CFD 通過使用 SAM 分割修復(fù)區(qū)域,并檢查嵌套和重疊掩碼內(nèi)的特征級差異,有效地懲罰這些幻覺。同樣,雖然 LaMa 在掩碼區(qū)域內(nèi)插值背景紋理,但其有限的生成先驗常常由于對象效果檢測不足而導(dǎo)致幽靈般的偽影。相反,OmniPaint 通過完全消除目標(biāo)對象而不引入不必要的偽影,表現(xiàn)出更高的移除保真度,這在其顯著較低的 CFD 得分中得以體現(xiàn)。
通過同時量化不必要對象的出現(xiàn)和上下文對齊,CFD 與人類視覺感知高度一致。這些發(fā)現(xiàn)證實了 CFD 是一種穩(wěn)健的評估指標(biāo),有助于確保對象移除不僅實現(xiàn)無縫融合,還能最大限度地減少錯誤內(nèi)容幻覺。
實驗設(shè)置
在對象移除方面,與端到端修復(fù)模型 MAT 和 LaMa、基于擴散的 SDInpaint 以及 FLUX-Inpainting 進行對比,以確保公平的骨干對比。此外,我們還包括最近的開源對象移除方法 CLIPAway、PowerPaint 和 FreeCompose。實驗在兩個基準(zhǔn)上進行:我們捕獲的300個真實世界對象移除案例的測試集,調(diào)整為512X512進行測試,以及 RORD數(shù)據(jù)集,包含1000對原始540X960分辨率的樣本,均提供物理移除對象的真實數(shù)據(jù)。我們報告 PSNR、SSIM、感知相似性指標(biāo)(FID、CMMD、LPIPS)以及對象移除特定指標(biāo),包括 ReMOVE 和我們的 CFD 得分。
在對象插入方面,與 Paint-by-Example (PbE)、ObjectStitch、FreeCompose、AnyDoor和 IMPRINT進行對比。由于 ObjectStitch 和 IMPRINT 沒有公開實現(xiàn),我們從作者處獲取官方代碼、檢查點和測試集。我們的插入基準(zhǔn)由565個512X512分辨率的樣本組成,將 IMPRINT 測試集與我們捕獲的真實世界案例結(jié)合。每個樣本包括一張背景圖像、一張參考對象圖像和一個二值掩碼。參考圖像通過 CarveKit進行背景移除預(yù)處理。為了評估身份一致性,使用 CUTE、CLIP-I、DINOv2和 DreamSim 測量插入對象與其參考對象之間的特征相似性,后者更符合人類感知。除了局部身份保留外,還使用無參考指標(biāo) MUSIQ 和 MANIQA 評估整體圖像質(zhì)量。
為確保公平,在所有基線中應(yīng)用相同的圖像-掩碼對,并使用官方實現(xiàn)及其默認(rèn)超參數(shù),如推理步驟數(shù)。對于 OmniPaint,在推理過程中使用 Euler Discrete Scheduler,并將推理步驟數(shù)設(shè)置為28,以進行主要的定量和定性實驗。附加實現(xiàn)細節(jié)在附錄中提供。
對象移除性能評估
對 OmniPaint 在真實對象移除中的表現(xiàn)進行了評估,并與修復(fù)和對象移除方法進行了比較。如下表 1 和表 2 所示,OmniPaint 在所有數(shù)據(jù)集上始終優(yōu)于之前的方法,獲得了最低的 FID、CMMD、LPIPS 和 CFD,同時保持了較高的 PSNR、SSIM 和 ReMOVE 得分。這些結(jié)果突顯了其在移除對象的同時保持結(jié)構(gòu)和感知保真度的能力,有效抑制了對象幻覺。
下圖 6 展示了在具有挑戰(zhàn)性的真實案例中的視覺比較。在第一行中,OmniPaint 成功移除了對象及其玻璃反射,而所有基線方法均未能做到。第二行強調(diào)了 OmniPaint 在自然光照下消除陰影的能力,而其他方法則留下了殘余偽影。第三行展示了在遮擋場景中的強大修復(fù)能力,確保無失真的無縫背景重建。通過有效處理反射、陰影和遮擋,OmniPaint 在生成連貫且真實的對象移除結(jié)果方面超越了之前的方法。
對象插入性能評估
對 OmniPaint 在對象插入方面的表現(xiàn)進行了評估,并與先進方法進行了比較。如表 3 所示,OmniPaint 在所有對象身份保留指標(biāo)上均獲得最高分,包括 CLIP-I、DINOv2、CUTE和 DreamSim,顯示出其與參考對象的優(yōu)越對齊。此外,在整體圖像質(zhì)量上也優(yōu)于所有基線方法,MUSIQ 和 MANIQA的測量結(jié)果表明其具有更好的感知真實感和無縫集成。
下圖 5 展示了視覺比較。給定一個掩碼輸入和一個參考對象,OmniPaint 生成的插入對象在形狀、紋理和光照一致性方面更為準(zhǔn)確。相比之下,其他方法在身份失真、錯誤陰影或明顯的融合偽影方面存在困難。值得注意的是,OmniPaint 在確保插入對象自然地與場景幾何和光照對齊的同時,保留了細節(jié)。通過保持高保真度的身份保留和提升感知質(zhì)量,OmniPaint 為真實對象插入設(shè)立了新的標(biāo)準(zhǔn)。
超參數(shù)分析
神經(jīng)函數(shù)評估。分析了神經(jīng)函數(shù)評估(NFE)對對象移除和插入的影響,如圖 7(a) 所示。較低的 NFE 值,如 1 或 4,會導(dǎo)致明顯的模糊,尤其是在掩碼區(qū)域內(nèi)。有趣的是,對于移除任務(wù),即使 NFE=1 也能有效消除對象及其相關(guān)效果。在 NFE=18 時,對象被干凈地移除,沒有殘留偽影,而插入的對象表現(xiàn)出高保真度和真實的陰影與反射。進一步增加 NFE 到 28 僅帶來微小的收益,表明收益遞減。盡管如此,將 NFE=28 設(shè)為默認(rèn)值,以確保最佳的視覺質(zhì)量。
結(jié)論
本文提出了用于面向?qū)ο髨D像編輯的OmniPaint,將對象移除和插入重新概念化為相互依賴的任務(wù)。通過利用預(yù)訓(xùn)練的擴散先驗和由初始配對樣本優(yōu)化及后續(xù)通過 CycleFlow 進行的大規(guī)模無配對精細化組成的漸進訓(xùn)練流程,OmniPaint 實現(xiàn)了精確的前景消除和無縫的對象集成,同時保留了場景幾何和其他內(nèi)在屬性。大量實驗表明,OmniPaint 有效地抑制了對象幻覺并減輕了偽影,新穎的 CFD 指標(biāo)提供了對上下文一致性的穩(wěn)健、無參考評估。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
