速度提升數(shù)十倍，只需一張圖一句話，谷歌新模型20秒即可實(shí)現(xiàn)變臉

作者：機(jī)器之心 2023-07-18 09:47:11

人工智能新聞

時隔 8 個月，谷歌又提出了一種能在 20 秒內(nèi)實(shí)現(xiàn)人臉個性化處理的新生成模型。

此前，谷歌和波士頓大學(xué)的研究者提出了一種「個性化（Personalization）」的文本到圖像擴(kuò)散模型 DreamBooth，用戶只需提供 3~5 個樣本 + 一句話，AI 就能定制照片級圖像。

對于「個性化」我們可以這樣理解，以輸入圖像為參考，生成的圖像在各種情境和不同風(fēng)格中都能保持對其身份的高度忠實(shí)。

舉例來講，輸入左側(cè) 4 張小狗的照片，DreamBooth 就可以生成不同類型的小狗，如小狗在景點(diǎn)里旅游、在海里游泳、趴在窩棚里睡覺、甚至人類給它修剪毛發(fā)，而生成的圖片都高度保持了原圖像的特點(diǎn)。

圖片

然而，個性化過程在時間和內(nèi)存需求方面還存在很多挑戰(zhàn)。具體到單個個性化模型，進(jìn)行微調(diào)需要大量的 GPU 時間投入，不僅如此，個性化模型還需要很高的存儲容量。

為了克服這些挑戰(zhàn)，時隔 8 個月，谷歌又提出了一種新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和風(fēng)格的人臉，同時還能保留臉部關(guān)鍵知識。

在只使用一張參考圖像的情況下，HyperDreamBooth 在大約 20 秒內(nèi)實(shí)現(xiàn)了對人臉的個性化處理，比 DreamBooth 快 25 倍，比 Textual Inversion 快 125 倍，不僅如此，生成的圖像與 DreamBooth 質(zhì)量一樣、風(fēng)格還多樣性。此外，HyperDreamBooth 還比常規(guī)的 DreamBooth 模型小 10000 倍。

圖片

論文地址：https://arxiv.org/pdf/2307.06949.pdf

論文主頁：https://hyperdreambooth.github.io/

在我們深入探討技術(shù)細(xì)節(jié)之前，先看一些效果。

下圖中，左邊一欄是輸入圖像，給定一張圖像就可以；中間一欄是根據(jù)不同的提示生成的人臉，提示語分別是 Instagram 上一張 V 型臉的自拍照；皮克斯卡通人物的 V 型臉；搖滾明星 V 型臉；樹皮一樣的 V 型臉。最右邊生成的是人物專業(yè)照片 V 型臉。結(jié)果顯示，HyperDreamBooth 具有相當(dāng)大的可編輯性，同時還能保持人物關(guān)鍵面部特征的完整性。

圖片

HyperDreamBooth 與 Textual Inversion 、DreamBooth 方法比較有何優(yōu)勢呢？

下圖展示了兩個示例、5 種風(fēng)格，結(jié)果顯示，HyperDreamBooth 可以很好的保持輸入圖像特性，還具有很強(qiáng)的可編輯性。

圖片

接下來我們看看 HyperDreamBooth 具體是如何實(shí)現(xiàn)的。

方法介紹

該研究提出的方法由 3 個核心部分組成，分別是輕量級 DreamBooth（Lightweight DreamBooth，LiDB）、預(yù)測 LiDB 權(quán)重的 HyperNetwork 和 rank-relaxed 快速微調(diào)。

LiDB 的核心思想是進(jìn)一步分解 rank-1 LoRa 殘差的權(quán)重空間。具體來說，該研究使用 rank-1 LoRA 權(quán)重空間內(nèi)的隨機(jī)正交不完全基（random orthogonal incomplete basis）來實(shí)現(xiàn)這一點(diǎn)，如下圖所示：

圖片

HyperDreamBooth 的訓(xùn)練和快速微調(diào)如下圖 2 所示，分為兩個階段。

圖片

第 1 階段：訓(xùn)練 HyperNetwork 以根據(jù)人臉圖像預(yù)測網(wǎng)絡(luò)權(quán)重。該研究使用預(yù)先計算的個性化權(quán)重進(jìn)行監(jiān)督，使用 L2 損失和 vanilla 擴(kuò)散重建損失函數(shù)。第 2 階段：給定面部圖像，用 HyperNetwork 預(yù)測網(wǎng)絡(luò)權(quán)重的初步猜測（initial guess），然后使用重建損失進(jìn)行微調(diào)以增強(qiáng)保真度。

HyperNetwork 架構(gòu)

該研究使用的 HyperNetwork 架構(gòu)如下圖 4 所示。其中，視覺 Transformer（ViT）編碼器將人臉圖像轉(zhuǎn)換成潛在的人臉特征，然后將其連接到潛在層權(quán)重特征（初始化為 0）。Transformer 解碼器接收連接特征的序列，并通過使用 delta 預(yù)測細(xì)化初始權(quán)重來迭代地預(yù)測權(quán)重特征的值。

圖片

值得一提的是，這是 transformer 解碼器首次被用于 HyperNetwork。

如下圖所示，HyperNetwork + 快速微調(diào)取得了良好的效果：

圖片

實(shí)驗(yàn)

下表為 HyperDreamBooth 與 DreamBooth、 Textual Inversion 比較結(jié)果。表明，在所有指標(biāo)上，HyperDreamBooth 得分最高。

圖片

下表為不同迭代次數(shù)下的比較結(jié)果，比較模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。結(jié)果顯示，HyperDreamBooth 在三項(xiàng)指標(biāo)上都超過其他模型。