偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

單張圖片引導(dǎo),保留主體,風(fēng)格百變,VCT幫你輕松實(shí)現(xiàn)

人工智能 新聞
最近,來自網(wǎng)易互娛 AI Lab 的研究人員提出了一種基于單張圖像引導(dǎo)的圖像到圖像編輯方案,給定單張參考圖像,即可把參考圖中的物體或風(fēng)格遷移到源圖像,同時(shí)不改變源圖像的整體結(jié)構(gòu)。研究論文已被 ICCV 2023 接收,相關(guān)代碼已開源。

近年來,圖像生成技術(shù)取得了很多關(guān)鍵性突破。特別是自從 DALLE2、Stable Diffusion 等大模型發(fā)布以來,文本生成圖像技術(shù)逐漸成熟,高質(zhì)量的圖像生成有了廣闊的實(shí)用場景。然而,對于已有圖片的細(xì)化編輯依舊是一個(gè)難題。

一方面,由于文本描述的局限性,現(xiàn)有的高質(zhì)量文生圖模型,只能利用文本對圖片進(jìn)行描述性的編輯,而對于某些具體效果,文本是難以描述的;另一方面,在實(shí)際應(yīng)用場景中,圖像細(xì)化編輯任務(wù)往往只有少量的參考圖片,這讓很多需要大量數(shù)據(jù)進(jìn)行訓(xùn)練的方案,在少量數(shù)據(jù),特別是只有一張參考圖像的情況下,難以發(fā)揮作用。

最近,來自網(wǎng)易互娛 AI Lab 的研究人員提出了一種基于單張圖像引導(dǎo)的圖像到圖像編輯方案,給定單張參考圖像,即可把參考圖中的物體或風(fēng)格遷移到源圖像,同時(shí)不改變源圖像的整體結(jié)構(gòu)。研究論文已被 ICCV 2023 接收,相關(guān)代碼已開源。

  • 論文地址:https://arxiv.org/abs/2307.14352
  • 代碼地址:https://github.com/CrystalNeuro/visual-concept-translator

讓我們先來看一組圖,感受一下它的效果。

圖片

論文效果圖:每組圖片左上角是源圖,左下角是參考圖,右側(cè)是生成結(jié)果圖

主體框架

論文作者提出了一種基于反演-融合(Inversion-Fusion)的圖像編輯框架 ——VCT(visual concept translator,視覺概念轉(zhuǎn)換器)。如下圖所示,VCT 的整體框架包括兩個(gè)過程:內(nèi)容-概念反演過程(Content-concept Inversion)和內(nèi)容-概念融合過程(Content-concept Fusion)。內(nèi)容 - 概念反演過程通過兩種不同的反演算法,分別學(xué)習(xí)和表示原圖像的結(jié)構(gòu)信息和參考圖像的語義信息的隱向量;內(nèi)容-概念融合過程則將結(jié)構(gòu)信息和語義信息的隱向量進(jìn)行融合,生成最后的結(jié)果。

圖片

論文主體框架

值得一提的是,反演方法是近年來,特別是在生成對抗網(wǎng)絡(luò)(GAN)領(lǐng)域,廣泛應(yīng)用且在眾多圖像生成任務(wù)上取得突出效果的一項(xiàng)技術(shù)【1】。GAN Inversion 技術(shù)將一張圖片映射到與訓(xùn)練的 GAN 生成器的隱空間中,通過對隱空間的控制來實(shí)現(xiàn)編輯的目的。反演方案可以充分利用預(yù)訓(xùn)練生成模型的生成能力。本研究實(shí)際上是將 GAN Inversion 技術(shù)遷移到了以擴(kuò)散模型為先驗(yàn)的,基于圖像引導(dǎo)的圖像編輯任務(wù)上。


圖片

反演技術(shù)

方法介紹

基于反演的思路,VCT 設(shè)計(jì)了一個(gè)雙分支的擴(kuò)散過程,其包含一個(gè)內(nèi)容重建的分支 B* 和一個(gè)用于編輯的主分支 B。它們從同一個(gè)從 DDIM 反演(DDIM Inversion【2】,一種利用擴(kuò)散模型從圖像計(jì)算噪聲的算法)獲得的噪聲 xT 出發(fā),分別用于內(nèi)容重建和內(nèi)容編輯。論文采用的預(yù)訓(xùn)練模型為隱向量擴(kuò)散模型(Latent Diffusion Models,簡稱 LDM),擴(kuò)散過程發(fā)生在隱向量空間 z 空間中,雙分支過程可表示為:

圖片


圖片

雙分支擴(kuò)散過程

內(nèi)容重建分支 B* 學(xué)習(xí) T 個(gè)內(nèi)容特征向量 圖片,用于還原原圖的結(jié)構(gòu)信息,并通過軟注意力控制(soft attention control)的方案,將結(jié)構(gòu)信息傳遞給編輯主分支 B。軟注意力控制方案借鑒了谷歌的 prompt2prompt【3】工作,公式為:

圖片

即當(dāng)擴(kuò)散模型運(yùn)行步數(shù)在一定區(qū)間時(shí),將編輯主分支的注意力特征圖替換內(nèi)容重建分支的特征圖,實(shí)現(xiàn)對生成圖片的結(jié)構(gòu)控制。編輯主分支 B 則融合從原圖像學(xué)習(xí)的內(nèi)容特征向量 圖片 和從參考圖像學(xué)習(xí)的概念特征向量 圖片,生成編輯的圖片。

圖片

噪聲空間 ( 圖片空間) 融合

在擴(kuò)散模型的每一步,特征向量的融合都發(fā)生在噪聲空間空間,是特征向量輸入擴(kuò)散模型之后預(yù)測的噪聲的加權(quán)。內(nèi)容重建分支的特征混合發(fā)生在內(nèi)容特征向量圖片和空文本向量上,與免分類器(Classifier-free)擴(kuò)散引導(dǎo)【4】的形式一致:

圖片

編輯主分支的混合是內(nèi)容特征向量 圖片 和概念特征向量 圖片 的混合,為

圖片

至此,研究的關(guān)鍵在于如何從單張?jiān)磮D片獲取結(jié)構(gòu)信息的特征向量圖片,和從單張參考圖片獲取概念信息的特征向量 圖片。文章分別通過兩個(gè)不同的反演方案實(shí)現(xiàn)這一目的。

為了復(fù)原源圖片,文章參考 NULL-text【5】優(yōu)化的方案,學(xué)習(xí) T 個(gè)階段的特征向量去匹配擬合源圖像。但與 NULL-text 優(yōu)化空文本向量去擬合 DDIM 路徑不同的是,本文通過優(yōu)化源圖片特征向量,去直接擬合估計(jì)的干凈特征向量,擬合公式為:

圖片

圖片

與學(xué)習(xí)結(jié)構(gòu)信息不同的是,參考圖像中的概念信息需要用單一高度概括的特征向量來表示,擴(kuò)散模型的 T 個(gè)階段共用一個(gè)概念特征向量 圖片 。文章優(yōu)化了現(xiàn)有的反演方案 Textual Inversion【6】和 DreamArtist【7】。其采用一個(gè)多概念特征向量來表示參考圖像的內(nèi)容,損失函數(shù)包含一項(xiàng)擴(kuò)散模型的噪聲預(yù)估項(xiàng)和在隱向量空間的預(yù)估重建損失項(xiàng):

圖片


實(shí)驗(yàn)結(jié)果


文章在主體替換和風(fēng)格化任務(wù)上進(jìn)行了實(shí)驗(yàn),可以在較好地保持源圖片的結(jié)構(gòu)信息的情況下,將內(nèi)容變成參考圖片的主體或風(fēng)格。


論文實(shí)驗(yàn)效果

文章提出的 VCT 框架相較于以往的方案有以下優(yōu)勢:

(1)應(yīng)用泛化性:與以往的基于圖像引導(dǎo)的圖像編輯任務(wù)相比,VCT 不需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,且生成質(zhì)量和泛化性更好。其基于反演的思路,以在開放世界數(shù)據(jù)預(yù)訓(xùn)練好的高質(zhì)量文生圖模型為基礎(chǔ),實(shí)際應(yīng)用時(shí),只需要一張輸入圖和一張參考圖就可以完成較好的圖片編輯效果。

(2)視覺準(zhǔn)確性:相較于近期文字編輯圖像的方案,VCT 利用圖片進(jìn)行參考引導(dǎo)。圖片參考相比于文字描述,可以更加準(zhǔn)確地實(shí)現(xiàn)對圖片的編輯。下圖展示了 VCT 與其它方案的對比結(jié)果:

主體替換任務(wù)對比效果

圖片

風(fēng)格遷移任務(wù)對比效果

(3)不需要額外信息:相較于近期的一些需要添加額外控制信息(如:遮罩圖或深度圖)等方案來進(jìn)行引導(dǎo)控制的方案,VCT 直接從源圖像和參考圖像學(xué)習(xí)結(jié)構(gòu)信息和語義信息來進(jìn)行融合生成,下圖是一些對比結(jié)果。其中,Paint-by-example 通過提供一個(gè)源圖像的遮罩圖,來將對應(yīng)的物體換成參考圖的物體;Controlnet 通過線稿圖、深度圖等控制生成的結(jié)果;而 VCT 則直接從源圖像和參考圖像,學(xué)習(xí)結(jié)構(gòu)信息和內(nèi)容信息融合成目標(biāo)圖像,不需要額外的限制。

基于圖像引導(dǎo)的圖像編輯方案的對比效果

網(wǎng)易互娛 AI Lab

網(wǎng)易互娛 AI Lab 成立于 2017 年,隸屬于網(wǎng)易互動娛樂事業(yè)群,是游戲行業(yè)領(lǐng)先的人工智能實(shí)驗(yàn)室。實(shí)驗(yàn)室致力于計(jì)算機(jī)視覺、語音和自然語言處理,以及強(qiáng)化學(xué)習(xí)等技術(shù)在游戲場景下的的研究和應(yīng)用,旨在通過 AI 技術(shù)助力互娛旗下熱門游戲及產(chǎn)品的技術(shù)升級,目前技術(shù)已應(yīng)用于網(wǎng)易互娛旗下多款熱門游戲,如《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西游》等等。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-05-06 19:57:09

代碼開發(fā)編碼

2024-06-03 08:55:27

團(tuán)隊(duì)代碼工具

2024-10-25 11:56:33

OCRVisRAGRAG

2015-06-09 09:25:34

2009-07-07 11:04:12

百變?nèi)湎x病毒卡巴斯基

2009-12-17 14:36:57

Ruby on Rai

2009-10-12 13:03:45

RHEL Squid

2024-07-04 08:26:12

AndroidJPEG圖片

2024-04-19 08:31:40

Android屬性讀取

2011-09-16 17:12:01

iOS應(yīng)用Android應(yīng)用Ribblet

2024-04-03 10:05:02

2009-11-02 11:37:37

2023-07-14 09:41:01

3DAI

2024-03-20 12:27:48

模型訓(xùn)練

2010-05-14 17:29:09

火狐瀏覽器開源

2015-02-12 16:48:35

虛擬主機(jī)選擇

2018-06-11 17:27:56

APP流量華為

2022-09-16 08:04:25

阿里云權(quán)限網(wǎng)絡(luò)

2014-04-02 14:00:41

移動應(yīng)用程序工具

2023-07-12 08:01:28

FOADMROADMOXC
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號