拖動圖像編輯再升級!北大、騰訊提出DragonDiffusion,在擴散模型上啟用拖動式操作
北大、騰訊提出的DragonDiffusion可以對生成或真實的圖像進行多種編輯,包括移動物體、調(diào)整物體大小、替換物體外觀、拖動內(nèi)容等。值得注意的是,所有編輯和內(nèi)容保存信號都來自圖像本身,模型不需要微調(diào)或額外的模塊。
論文介紹
盡管現(xiàn)有的大規(guī)模文本轉(zhuǎn)圖像 (T2I) 模型能夠從詳細的文本描述生成高質(zhì)量的圖像,但它們往往缺乏對生成或真實圖像進行精確編輯的能力。在本文中,我們提出了一種新穎的圖像編輯方法DragonDiffusion,可在擴散模型上實現(xiàn)Drag式的操作。
具體而言,我們根據(jù)擴散模型中中間特征的強對應(yīng)性構(gòu)建分類器指導(dǎo)。它可以通過特征對應(yīng)損失將編輯信號轉(zhuǎn)換為梯度,以修改擴散模型的中間表示。基于這種指導(dǎo)策略,我們還構(gòu)建了一個多尺度指導(dǎo),以考慮語義和幾何對齊。此外,還添加了跨分支自注意力以保持原始圖像和編輯結(jié)果之間的一致性。
我們的方法通過高效的設(shè)計,實現(xiàn)了對生成或真實圖像的各種編輯模式,例如對象移動、對象調(diào)整大小、對象外觀替換和內(nèi)容拖動。值得注意的是,所有編輯和內(nèi)容保存信號都來自圖像本身,模型不需要微調(diào)或額外的模塊。
方法
所提出的DragonDiffusion 的流程。我們提出的方法由指導(dǎo)分支和生成分支組成。指導(dǎo)分支通過中間特征的對應(yīng)關(guān)系為生成分支提供編輯和一致性指導(dǎo)。