偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR2025|MCA-Ctrl:多方協(xié)同注意力控制助力AIGC時代圖像精準定制化

人工智能 新聞
該文章提出了一種無需訓練的圖像定制化生成方法 ——MCA-Ctrl。

本文由中國科學院計算技術(shù)研究所研究團隊完成,第一作者為碩士生楊晗,通訊作者為副研究員安竹林,助理研究員楊傳廣。

圖片

  • 論文標題:Multi-party Collaborative Attention Control for Image Customization
  • 論文地址:https://arxiv.org/abs/2505.01428
  • 論文代碼:https://github.com/yanghan-yh/MCA-Ctrl

背景

近年來,生成式人工智能(Generative AI)技術(shù)的突破性進展,特別是文本到圖像 T2I 生成模型的快速發(fā)展,已經(jīng)使 AI 系統(tǒng)能夠根據(jù)用戶輸入的文本提示(prompt)生成高度逼真的圖像。從早期的 DALL?E 到 Stable Diffusion、Midjourney 等模型,這一領(lǐng)域的技術(shù)迭代呈現(xiàn)出加速發(fā)展的態(tài)勢。

在基礎(chǔ) T2I 模型能力不斷提升的背景下,圖像定制化(Image Customization)需求日益凸顯。所謂圖像定制化,是指在對參考圖像中的主體(subject)保持身份特征和本質(zhì)屬性的前提下,根據(jù)文本或視覺條件生成該主體的新表現(xiàn)形式。這一技術(shù)對于電子商務(wù)(如虛擬試衣)、數(shù)字內(nèi)容創(chuàng)作(如個性化角色設(shè)計)、廣告營銷等應(yīng)用場景具有重要價值。

圖片

當前,主流的圖像定制化方法主要沿著三個技術(shù)路線發(fā)展:基于反演優(yōu)化(inversion-based)的方法、基于多模態(tài)編碼器(multimodal encoder-based)的方法,以及新興的基于注意力控制(attention control-based)的方法。

盡管這些方法在特定場景下都取得了一定成效,但通過系統(tǒng)的實驗評估和實際應(yīng)用驗證,我們發(fā)現(xiàn)現(xiàn)有技術(shù)方案仍然面臨著若干關(guān)鍵性技術(shù)瓶頸。

1. 可控性不足:主流文本驅(qū)動方法難以精確控制背景、布局等元素。雖然 PhotoSwap 等新技術(shù)嘗試引入圖像條件,但仍局限于單一功能(替換或添加),無法實現(xiàn)統(tǒng)一控制。

2. 復雜視覺場景處理困難:面對多物體交互、遮擋等復雜場景時,常出現(xiàn)主體特征擴散問題,這源于模型在高響應(yīng)區(qū)域生成的不準確性。

3. 背景融合不自然:在圖像條件控制下,生成結(jié)果與原始背景的融合往往不自然。

方法

本文提出了一種無需微調(diào)的通用圖像定制方法 — 多主體協(xié)同注意力控制 MCA-Ctrl,該方法利用擴散模型內(nèi)部知識實現(xiàn)圖像定制。其核心創(chuàng)新在于將條件圖像 / 文本提示的語義信息與主體圖像內(nèi)容相結(jié)合,實現(xiàn)對特定主體的新穎呈現(xiàn)。MCA-Ctrl 主要針對三類任務(wù):主題替換、主題生成和主題添加。

本方法分為通過條件圖像和條件文本進行圖像定制化,如下圖(A)和(B)所示。具體而言,本方法首先引入主體定位模塊(Subject Location Module,SLM)對圖像進行精準定位,然后通過三個并行擴散過程中的自注意力注入與查詢機制,在保持條件信息語義空間布局的同時捕獲特定主體的視覺特征表示。

具體來說,MCA-Ctrl 在每個擴散步驟中,系統(tǒng)執(zhí)行以下關(guān)鍵操作:

1)通過自注意力局部查詢(Self-Attention Local Query,SALQ)目標過程從主體和條件信息中檢索外觀與背景內(nèi)容,如圖(C);

2)通過自注意力全局注入(Self-Attention Global Injection,SAGI)將主體和條件信息的注意力圖直接注入目標過程,如圖(D)。

圖片

1. 自注意力局部查詢

從任務(wù)視角看,我們的目標是從主體圖像提取外觀特征,并從條件中查詢背景內(nèi)容與語義布局。受 MasaCtrl 啟發(fā),我們利用自注意力層的鍵值特征表征圖像內(nèi)容。如上圖(C)所示,目標過程通過查詢特征 Q 從主體和條件中檢索前景 / 背景內(nèi)容,并使用主題、背景掩碼約束查詢區(qū)域。這種設(shè)計既能確保布局一致性,又能實現(xiàn)特定對象的外觀替換與背景對齊。

2. 自注意力全局注入

經(jīng)過 SALQ 操作后,生成圖像常存在兩個問題:(1)細節(jié)真實性不足,和(2)特征輕微混淆。我們認為這是由于查詢過程本質(zhì)上是原始特征與查詢特征的局部融合,難免導致特征交叉。為此,我們提出全局注意力混合注入機制來增強細節(jié)真實性與內(nèi)容一致性。如上圖(D)所示,首先計算條件與主體圖像的完整注意力矩陣,再通過掩碼過濾獲得主體特征和背景特征,最后將其注入目標擴散過程。這種重構(gòu)式特征替換直接增強了前景 / 背景細節(jié)表現(xiàn),同時有效降低了特征混淆。

實驗

下圖展示了 MCA-Ctrl 的編輯和生成能力。前三行主要展示了主體編輯性能,包括主體替換、主體添加以及復雜視覺場景中的主體替換,充分證明了 MCA-Ctrl 在主體與背景定制方面的高度一致性和真實感表現(xiàn)。第四行重點呈現(xiàn)了 MCA-Ctrl 的零樣本定制生成能力,在物體、動物和人物等不同類別上均能實現(xiàn)高質(zhì)量、高一致性且富有創(chuàng)意的再現(xiàn)效果。

圖片

表 1 展示了基于 DreamEditBench 的主題替換任務(wù)量化評估結(jié)果。相較于 BLIP-Diffusion、DreamBooth 和 PHOTOSWAP 等方法,MCA-Ctrl 在各項指標上均展現(xiàn)出相當或更優(yōu)的性能表現(xiàn)。表 2 呈現(xiàn)了 DreamBench 上主題生成任務(wù)的評估結(jié)果。統(tǒng)一參數(shù)測試時,MCA-Ctrl 表現(xiàn)優(yōu)于 Text Inversion、Re-Imagen 和 IP-Adapter,但略遜于 DreamBooth 和 BLIP-Diffusion。經(jīng)過參數(shù)優(yōu)化后,MCA-Ctrl 取得了與 BLIP-Diffusion 和 DreamBooth 相當?shù)慕Y(jié)果。此外,表 3 的人工評估結(jié)果表明,MCA-Ctrl 在主體對齊度和文本對齊度方面均表現(xiàn)突出。

圖片

圖片

圖片

我們在下圖中展示了對圖像生成的影響。實驗表明,在復雜場景下,若完全省略 SAGI 操作,會導致目標定位失敗和全局特征混淆等問題。隨著的逐步增加,主體特征會呈現(xiàn)越來越清晰的表現(xiàn)。但值得注意的是,當超過總?cè)ピ氩襟E的 60%(此為大多數(shù)案例的經(jīng)驗閾值)后,繼續(xù)增加 SAGI 執(zhí)行步數(shù)對圖像質(zhì)量的提升效果將趨于飽和。具體而言,這一現(xiàn)象揭示了兩個重要發(fā)現(xiàn):(1)在去噪過程的前期階段,SAGI 能有效建立主體與背景的語義關(guān)聯(lián);(2)在去噪后期,過度的全局特征注入反而可能破壞已形成的細節(jié)特征。這種 “邊際效應(yīng)遞減” 特性為算法參數(shù)優(yōu)化提供了重要指導。

圖片

我們也在代碼倉庫中構(gòu)建了圖像定制化的演示系統(tǒng),如下所示,用戶可以方便地根據(jù)自身的需求使用本文提出的方法完成圖像定制化任務(wù)。

圖片

總結(jié)

綜上所述,該文章提出了一種無需訓練的圖像定制化生成方法 ——MCA-Ctrl。該模型通過三個并行擴散過程間的協(xié)同注意力控制,實現(xiàn)了高質(zhì)量、高保真度的主體驅(qū)動編輯與生成。此外,MCA-Ctrl 通過引入主題定位模塊,有效解決了復雜視覺場景中的特征混淆問題。大量實驗結(jié)果表明,相較于大多數(shù)同期工作,MCA-Ctrl 在編輯和生成任務(wù)上表現(xiàn)更優(yōu)。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2011-06-30 12:37:42

百度廣告管家

2025-06-05 11:52:27

U-Net擴散模型掩碼

2024-09-19 10:07:41

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡(luò)算法

2015-08-19 09:37:17

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2025-05-27 15:44:28

模型數(shù)據(jù)AI

2021-05-06 15:55:01

谷歌Android開發(fā)

2025-03-10 08:47:00

模型AI訓練

2017-06-19 06:38:07

移動互聯(lián)網(wǎng)移動應(yīng)用

2025-02-12 10:17:12

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡(luò)PyTorch

2025-06-09 09:05:00

AI模型數(shù)據(jù)

2025-03-14 10:26:58

2025-05-13 16:57:18

2011-07-07 13:12:58

移動設(shè)備端設(shè)計注意力

2025-02-10 00:00:55

MHAValue向量
點贊
收藏

51CTO技術(shù)棧公眾號