速度提升數(shù)十倍,只需一張圖一句話,谷歌新模型20秒即可實現(xiàn)變臉
此前,谷歌和波士頓大學(xué)的研究者提出了一種「個性化(Personalization)」的文本到圖像擴散模型 DreamBooth,用戶只需提供 3~5 個樣本 + 一句話,AI 就能定制照片級圖像。
對于「個性化」我們可以這樣理解,以輸入圖像為參考,生成的圖像在各種情境和不同風(fēng)格中都能保持對其身份的高度忠實。
舉例來講,輸入左側(cè) 4 張小狗的照片,DreamBooth 就可以生成不同類型的小狗,如小狗在景點里旅游、在海里游泳、趴在窩棚里睡覺、甚至人類給它修剪毛發(fā),而生成的圖片都高度保持了原圖像的特點。
圖片
然而,個性化過程在時間和內(nèi)存需求方面還存在很多挑戰(zhàn)。具體到單個個性化模型,進(jìn)行微調(diào)需要大量的 GPU 時間投入,不僅如此,個性化模型還需要很高的存儲容量。
為了克服這些挑戰(zhàn),時隔 8 個月,谷歌又提出了一種新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和風(fēng)格的人臉,同時還能保留臉部關(guān)鍵知識。
在只使用一張參考圖像的情況下,HyperDreamBooth 在大約 20 秒內(nèi)實現(xiàn)了對人臉的個性化處理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不僅如此,生成的圖像與 DreamBooth 質(zhì)量一樣、風(fēng)格還多樣性。此外,HyperDreamBooth 還比常規(guī)的 DreamBooth 模型小 10000 倍。
圖片
論文地址:https://arxiv.org/pdf/2307.06949.pdf
論文主頁:https://hyperdreambooth.github.io/
在我們深入探討技術(shù)細(xì)節(jié)之前,先看一些效果。
下圖中,左邊一欄是輸入圖像,給定一張圖像就可以;中間一欄是根據(jù)不同的提示生成的人臉,提示語分別是 Instagram 上一張 V 型臉的自拍照;皮克斯卡通人物的 V 型臉;搖滾明星 V 型臉;樹皮一樣的 V 型臉。最右邊生成的是人物專業(yè)照片 V 型臉。結(jié)果顯示,HyperDreamBooth 具有相當(dāng)大的可編輯性,同時還能保持人物關(guān)鍵面部特征的完整性。
圖片
HyperDreamBooth 與 Textual Inversion 、DreamBooth 方法比較有何優(yōu)勢呢?
下圖展示了兩個示例、5 種風(fēng)格,結(jié)果顯示,HyperDreamBooth 可以很好的保持輸入圖像特性,還具有很強的可編輯性。
圖片
接下來我們看看 HyperDreamBooth 具體是如何實現(xiàn)的。
方法介紹
該研究提出的方法由 3 個核心部分組成,分別是輕量級 DreamBooth(Lightweight DreamBooth,LiDB)、預(yù)測 LiDB 權(quán)重的 HyperNetwork 和 rank-relaxed 快速微調(diào)。
LiDB 的核心思想是進(jìn)一步分解 rank-1 LoRa 殘差的權(quán)重空間。具體來說,該研究使用 rank-1 LoRA 權(quán)重空間內(nèi)的隨機正交不完全基(random orthogonal incomplete basis)來實現(xiàn)這一點,如下圖所示:
圖片
HyperDreamBooth 的訓(xùn)練和快速微調(diào)如下圖 2 所示,分為兩個階段。
圖片
第 1 階段:訓(xùn)練 HyperNetwork 以根據(jù)人臉圖像預(yù)測網(wǎng)絡(luò)權(quán)重。該研究使用預(yù)先計算的個性化權(quán)重進(jìn)行監(jiān)督,使用 L2 損失和 vanilla 擴散重建損失函數(shù)。第 2 階段:給定面部圖像,用 HyperNetwork 預(yù)測網(wǎng)絡(luò)權(quán)重的初步猜測(initial guess),然后使用重建損失進(jìn)行微調(diào)以增強保真度。
HyperNetwork 架構(gòu)
該研究使用的 HyperNetwork 架構(gòu)如下圖 4 所示。其中,視覺 Transformer(ViT)編碼器將人臉圖像轉(zhuǎn)換成潛在的人臉特征,然后將其連接到潛在層權(quán)重特征(初始化為 0)。Transformer 解碼器接收連接特征的序列,并通過使用 delta 預(yù)測細(xì)化初始權(quán)重來迭代地預(yù)測權(quán)重特征的值。
圖片
值得一提的是,這是 transformer 解碼器首次被用于 HyperNetwork。
如下圖所示,HyperNetwork + 快速微調(diào)取得了良好的效果:
圖片
實驗
下表為 HyperDreamBooth 與 DreamBooth、 Textual Inversion 比較結(jié)果。表明,在所有指標(biāo)上,HyperDreamBooth 得分最高。
圖片
下表為不同迭代次數(shù)下的比較結(jié)果,比較模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。結(jié)果顯示,HyperDreamBooth 在三項指標(biāo)上都超過其他模型。
下表為消融實驗結(jié)果:主要對比的是 HyperNetwork 對性能的影響。
圖片
用戶研究。該研究還讓用戶以投票的方式參與評估,結(jié)果顯示用戶對 HyperNetwork 生成的結(jié)果偏好強烈。
了解更多內(nèi)容,請參考原論文。