ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA!復(fù)旦&智象開源CAT-Diffusion,語義視覺雙一致
文章鏈接:https://arxiv.org/pdf/2409.08260
Github鏈接:https://github.com/Nnn-s/CATdiffusion
總結(jié)速覽
解決的問題:
- 單一U-Net在所有去噪步驟中對(duì)齊文本提示和視覺對(duì)象不足以生成期望的對(duì)象。
- 擴(kuò)散模型的復(fù)雜采樣空間中無法保證對(duì)對(duì)象生成的可控性。
提出的方案:
- 語義預(yù)修復(fù):在多模態(tài)特征空間中推理目標(biāo)對(duì)象的語義特征。
- 高保真度的對(duì)象生成:在擴(kuò)散的潛在空間中基于已修復(fù)的語義特征生成目標(biāo)對(duì)象。
應(yīng)用的技術(shù):
- 采用級(jí)聯(lián)的Transformer語義修復(fù)器與目標(biāo)修復(fù)擴(kuò)散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。
- 語義修復(fù)器通過上下文和文本提示條件,預(yù)測(cè)目標(biāo)對(duì)象的語義特征。語義修復(fù)器的輸出作為視覺提示,經(jīng)過參考Adapter層來指導(dǎo)高保真對(duì)象生成。
達(dá)到的效果:
- 在OpenImages-V6和MSCOCO數(shù)據(jù)集上的廣泛評(píng)估表明,CAT-Diffusion在文本引導(dǎo)的目標(biāo)修復(fù)任務(wù)中優(yōu)于現(xiàn)有的最新方法。
方法
首先,在文本引導(dǎo)的物體修復(fù)中,需要在由輸入圖像的二值mask指示的指定區(qū)域內(nèi)生成由文本提示(通常是對(duì)象標(biāo)簽)描述的新對(duì)象。這個(gè)任務(wù)要求與圖像和文本提示分別具有視覺一致性和語義相關(guān)性。本節(jié)將深入探討級(jí)聯(lián)Transformer-Diffusion(CAT-Diffusion),在簡(jiǎn)要回顧擴(kuò)散模型后,隨后介紹訓(xùn)練細(xì)節(jié)。
級(jí)聯(lián)Transformer-擴(kuò)散模型
- 依賴單獨(dú)的U-Net在所有去噪時(shí)間步中實(shí)現(xiàn)視覺-語義對(duì)齊是不夠的;
- 在復(fù)雜的采樣空間中穩(wěn)定生成高保真度對(duì)象是具有挑戰(zhàn)性的,而沒有額外的語義信息。
為了解決這些挑戰(zhàn),研究者們提出將傳統(tǒng)的單階段流程分解為兩個(gè)級(jí)聯(lián)階段:首先進(jìn)行語義預(yù)修復(fù),然后進(jìn)行對(duì)象生成,從而形成CAT-Diffusion。技術(shù)上,CAT-Diffusion通過一種新穎的語義修復(fù)器在輔助的多模態(tài)特征空間(例如CLIP)中進(jìn)行對(duì)象預(yù)修復(fù)。語義修復(fù)器通過知識(shí)蒸餾進(jìn)行訓(xùn)練,以預(yù)測(cè)目標(biāo)對(duì)象的語義特征,條件是未遮罩的視覺上下文和文本提示。這樣,得出的輸出自然對(duì)齊文本提示和視覺對(duì)象,除了U-Net之外,無論去噪時(shí)間步如何。語義修復(fù)器的輸出通過參考Adapter層進(jìn)一步集成到目標(biāo)修復(fù)擴(kuò)散模型中,以實(shí)現(xiàn)可控的目標(biāo)修復(fù)。CAT-Diffusion的整體框架如下圖2所示。
語義修復(fù)器
為了緩解在整個(gè)去噪過程中僅依靠單獨(dú)的U-Net對(duì)齊文本提示和視覺對(duì)象的不足,提出通過在U-Net之外,利用經(jīng)過良好預(yù)訓(xùn)練的輔助多模態(tài)特征空間對(duì)目標(biāo)對(duì)象的語義特征進(jìn)行預(yù)修復(fù),以增強(qiáng)視覺-語義對(duì)應(yīng)關(guān)系。其原理在于,預(yù)訓(xùn)練的多模態(tài)特征空間是通過大規(guī)模的跨模態(tài)數(shù)據(jù)進(jìn)行學(xué)習(xí)的,用于實(shí)現(xiàn)視覺-語義對(duì)齊,無論去噪時(shí)間步如何。在本工作中,設(shè)計(jì)了一種有效的知識(shí)蒸餾目標(biāo),將這種多模態(tài)知識(shí)從教師模型(CLIP)轉(zhuǎn)移到CAT-Diffusion中的語義修復(fù)器。
參考Adapter層
因此,升級(jí)版U-Net中的一個(gè)完整塊,包括SelfAttn、RefAdapter和CrossAttn,操作如下:
訓(xùn)練
擴(kuò)散損失
對(duì)于配備參考adapter層的目標(biāo)修復(fù)擴(kuò)散模型的訓(xùn)練,采用 [35] 中的通用實(shí)踐,目標(biāo)函數(shù)為:
知識(shí)蒸餾損失
實(shí)驗(yàn)
驗(yàn)證級(jí)聯(lián)Transformer-擴(kuò)散方法(CAT-Diffusion)在文本指導(dǎo)的目標(biāo)修復(fù)任務(wù)中的優(yōu)點(diǎn),并與最先進(jìn)的基于擴(kuò)散的方法進(jìn)行了比較。大量實(shí)驗(yàn)驗(yàn)證了CAT-Diffusion在修復(fù)高保真度對(duì)象方面的有效性。
實(shí)施細(xì)節(jié)
在OpenImages-V6的訓(xùn)練集中的本地mask與對(duì)應(yīng)對(duì)象標(biāo)簽對(duì)上訓(xùn)練CAT-Diffusion。CAT-Diffusion通過Adam優(yōu)化,學(xué)習(xí)率為0.00001,使用8個(gè)A100 GPU進(jìn)行約40K次迭代。批量大小設(shè)置為128,輸入圖像分辨率設(shè)置為512 × 512。
比較方法和評(píng)估指標(biāo)
比較方法
將CAT-Diffusion與幾種最先進(jìn)的基于擴(kuò)散的方法進(jìn)行了比較,包括Blended Diffusion、Blended Latent Diffusion、GLIDE、SmartBrush、Stable Diffusion 和 Stable Diffusion Inpainting。具體來說,Blended Diffusion、Blended Latent Diffusion 和 Stable Diffusion 僅利用預(yù)訓(xùn)練的基礎(chǔ)文本到圖像模型,通過在每個(gè)去噪步驟中混合生成的對(duì)象和背景進(jìn)行文本指導(dǎo)的目標(biāo)修復(fù)。其他方法則使用文本提示、二值mask和被遮罩圖像作為輸入來訓(xùn)練修復(fù)擴(kuò)散模型。由于相同的評(píng)估設(shè)置,所有方法的結(jié)果均取自 [45],但 [1] 的結(jié)果除外。請(qǐng)注意,已將Blended Latent Diffusion中的文本到圖像Stable Diffusion 2.1替換為1.5,以確保公平比較。
評(píng)估指標(biāo)
所有上述方法都在OpenImages-V6和 MSCOCO的測(cè)試集上進(jìn)行評(píng)估,分別涉及13,400和9,311張測(cè)試圖像。采用三種廣泛使用的指標(biāo):Frechet Inception Distance (FID)、Local FID 和 CLIP score。值得一提的是,F(xiàn)ID 和 Local FID 分別測(cè)量修復(fù)對(duì)象在全局圖像和局部補(bǔ)丁中的真實(shí)性和視覺一致性,而 CLIP score 估計(jì)修復(fù)對(duì)象與文本提示之間的語義相關(guān)性。此外,還涉及用戶研究以評(píng)估視覺一致性和文本-對(duì)象對(duì)齊。由于GLIDE僅支持256 × 256分辨率的圖像,將所有結(jié)果調(diào)整為相似大小以確保公平比較。此外,評(píng)估中考慮了分割mask和邊界框mask。
性能比較
OpenImages-V6上的定量結(jié)果
下表1總結(jié)了所有方法在OpenImages-V6測(cè)試集上的結(jié)果??傮w而言,所有指標(biāo)的結(jié)果一致地展示了CAT-Diffusion在分割mask或邊界框mask下的有效性。具體來說,基于混合的方法(即Blended Latent Diffusion 和 Stable Diffusion)在CLIP分?jǐn)?shù)上表現(xiàn)相當(dāng),但FID 和 Local FID 分?jǐn)?shù)遠(yuǎn)低于CAT-Diffusion。推測(cè)這是因?yàn)檫@些方法僅關(guān)注修復(fù)圖像與對(duì)象標(biāo)簽之間的視覺-語義對(duì)齊,并僅在潛在空間中混合生成的對(duì)象和背景。因此,周圍未遮罩區(qū)域的語義上下文被忽視,導(dǎo)致視覺一致性差。SmartBrush通過將被遮罩圖像納入U(xiǎn)-Net以進(jìn)行上下文學(xué)習(xí),并進(jìn)一步使用形狀mask指導(dǎo)擴(kuò)散模型,展現(xiàn)了更好的性能。然而,SmartBrush的FID和Local FID分?jǐn)?shù)仍低于CAT-Diffusion。結(jié)果驗(yàn)證了通過參考Adapter層用語義修復(fù)器預(yù)修復(fù)的對(duì)象特征來引導(dǎo)擴(kuò)散模型的影響。
MSCOCO上的定量結(jié)果
下表2列出了所有方法在MSCOCO測(cè)試集上的結(jié)果。值得注意的是,SmartBrush 和CAT-Diffusion 都沒有在MSCOCO上進(jìn)行訓(xùn)練。與OpenImages-V6上的趨勢(shì)類似,CAT-Diffusion 在大多數(shù)指標(biāo)上優(yōu)于其他方法。具體來說,CAT-Diffusion 在Local FID(使用邊界框mask)上相對(duì)于強(qiáng)基線 Stable Diffusion Inpainting 和 SmartBrush 分別提高了42.1% 和 20.7%。結(jié)果再次驗(yàn)證了在CAT-Diffusion中將單次修復(fù)流程分解為兩個(gè)級(jí)聯(lián)過程(首先進(jìn)行語義預(yù)修復(fù),然后生成對(duì)象)的優(yōu)點(diǎn)。
定性比較
通過案例研究對(duì)不同方法進(jìn)行定性測(cè)試。下圖3展示了幾個(gè)示例。如前四個(gè)結(jié)果所示,CAT-Diffusion生成的圖像與輸入文本提示的語義對(duì)齊程度優(yōu)于其他方法。此外,在圖像中,生成對(duì)象與周圍環(huán)境的視覺一致性更好,修復(fù)結(jié)果中的對(duì)象形狀也更準(zhǔn)確。結(jié)果證明了通過提出的語義修復(fù)器預(yù)修復(fù)對(duì)象語義特征的優(yōu)越性。例如,與其他方法生成的圖像相比,第一排的CAT-Diffusion生成的男人在結(jié)構(gòu)上更完整。這得益于通過參考Adapter層用預(yù)修復(fù)的目標(biāo)對(duì)象語義特征引導(dǎo)擴(kuò)散模型。盡管沒有提供形狀mask,CAT-Diffusion仍能根據(jù)文本提示和邊界框mask生成高保真度的對(duì)象(中間兩排)。此外,還對(duì)具有更具描述性文本提示的目標(biāo)修復(fù)進(jìn)行了評(píng)估,不同方法生成的結(jié)果顯示在底部?jī)膳?。類似地,CAT-Diffusion生成了視覺上更令人愉悅的圖像。
用戶研究
研究者們進(jìn)行了一項(xiàng)用戶研究,以檢查修復(fù)圖像是否符合人類偏好。在實(shí)驗(yàn)中,從OpenImages-V6測(cè)試集中隨機(jī)抽取了1K張圖像進(jìn)行評(píng)估。SmartBrush 尚未發(fā)布,因此被排除在外。邀請(qǐng)了10名具有不同教育背景的評(píng)估員(5名男性和5名女性):藝術(shù)設(shè)計(jì)(4名)、心理學(xué)(2名)、計(jì)算機(jī)科學(xué)(2名)和商業(yè)(2名)。向所有評(píng)估員展示修復(fù)圖像和相關(guān)提示,并要求他們從兩個(gè)方面給出評(píng)分(0~5):
- 與周圍環(huán)境的視覺一致性;
- 與文本提示的對(duì)齊程度和對(duì)象形狀的準(zhǔn)確性。
下表3總結(jié)了不同方法的平均結(jié)果。結(jié)果表明,在文本-對(duì)象對(duì)齊和視覺一致性方面,CAT-Diffusion在所有基線方法中遙遙領(lǐng)先。
分析與討論
CAT-Diffusion的消融研究
研究了CAT-Diffusion中各個(gè)組件對(duì)整體性能的影響??紤]了每個(gè)階段的一個(gè)或多個(gè)組件,表4總結(jié)了使用分割mask的OpenImages-V6測(cè)試集上的結(jié)果。請(qǐng)注意,第1行的基線是使用[21]中的對(duì)象-文本對(duì)進(jìn)行微調(diào)的Stable Inpainting模型。通過結(jié)合僅使用mask圖像 的CLIP特征訓(xùn)練的參考Adapter層,第2行的變體在FID和Local FID分?jǐn)?shù)上分別相較于第1行的基線模型提高了0.91和1.47。這并不令人意外,因?yàn)槲磎ask區(qū)域的CLIP特征通過參考Adapter層為基礎(chǔ)擴(kuò)散模型提供了更豐富的上下文語義,從而改善了視覺一致性并保留了背景。語義修復(fù)器的輸出進(jìn)一步提升了模型,通過引入所需對(duì)象的語義,獲得了第3行在所有指標(biāo)上的最佳結(jié)果。
語義修復(fù)器預(yù)測(cè)的特征
隨后分析了提出的語義修復(fù)器在提高所需對(duì)象語義特征方面的程度。值得注意的是,由于CLIP中的自注意機(jī)制,mask區(qū)域的CLIP特征本身就包含了來自未mask區(qū)域的上下文語義,從而在通過語義修復(fù)器之前與真實(shí)標(biāo)簽具有非平凡的相似性。特別地,計(jì)算了語義修復(fù)器輸入/輸出與對(duì)應(yīng)真實(shí)標(biāo)簽之間的余弦相似度,在10K張圖像上進(jìn)行分析。下圖4(a)展示了這兩個(gè)分布。平均余弦相似度從0.47提高到0.65,顯示了提出的語義修復(fù)器的有效性。盡管語義修復(fù)器的輸出并不是100%準(zhǔn)確,但這些語義特征為CAT-Diffusion生成高保真度對(duì)象貢獻(xiàn)了更豐富的上下文。
修復(fù)結(jié)果的多樣性
為了測(cè)試CAT-Diffusion在相同語義特征下生成修復(fù)結(jié)果的多樣性,對(duì)不同隨機(jī)種子下的結(jié)果進(jìn)行了研究。上圖4(b)展示了兩個(gè)示例??梢杂^察到,CAT-Diffusion能夠生成具有準(zhǔn)確形狀的多樣化對(duì)象,這由參考Adapter層控制。
推理復(fù)雜度
在推理階段,只需要對(duì)提出的語義修復(fù)器進(jìn)行一次前向傳遞,并且修復(fù)的特征可以在每個(gè)去噪步驟中重復(fù)使用,從而帶來較小的計(jì)算開銷。CAT-Diffusion每張圖像的平均時(shí)間為1.84秒,相較于SD-Inpaint的1.60秒稍長(zhǎng)。
結(jié)論
本文提出了一種新穎的級(jí)聯(lián)Transformer-擴(kuò)散(CAT-Diffusion)模型,以增強(qiáng)擴(kuò)散模型在文本引導(dǎo)目標(biāo)修復(fù)中的視覺-語義對(duì)齊和可控性。具體而言,CAT-Diffusion將傳統(tǒng)的單階段管道分解為兩個(gè)級(jí)聯(lián)過程:首先進(jìn)行語義預(yù)修復(fù),然后進(jìn)行對(duì)象生成。通過在多模態(tài)特征空間中預(yù)修復(fù)所需對(duì)象的語義特征,然后通過這些特征引導(dǎo)擴(kuò)散模型進(jìn)行對(duì)象生成,CAT-Diffusion能夠生成與提示語義一致且與背景視覺一致的高保真度對(duì)象。
從技術(shù)上講,基于Transformer的語義修復(fù)器在給定未mask的上下文和提示的情況下預(yù)測(cè)所需對(duì)象的語義特征。然后,來自語義修復(fù)器的修復(fù)特征通過參考Adapter層進(jìn)一步輸入到目標(biāo)修復(fù)擴(kuò)散模型中,以實(shí)現(xiàn)受控生成。在OpenImages-V6和MSCOCO上的廣泛實(shí)驗(yàn)驗(yàn)證了CAT-Diffusion的有效性。
廣泛影響
最近生成模型(如擴(kuò)散模型)的進(jìn)展開啟了創(chuàng)造性媒體生成的新領(lǐng)域。然而,這些創(chuàng)新也可能被濫用于生成欺騙性內(nèi)容。本文的方法可能被利用來在圖像中修復(fù)有害內(nèi)容,用于傳播虛假信息,對(duì)此類行為堅(jiān)決反對(duì)。
本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來
