偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

速度提升數(shù)十倍,只需一張圖一句話,谷歌新模型20秒即可實現(xiàn)變臉

人工智能 新聞
時隔 8 個月,谷歌又提出了一種能在 20 秒內(nèi)實現(xiàn)人臉個性化處理的新生成模型。

此前,谷歌和波士頓大學(xué)的研究者提出了一種「個性化(Personalization)」的文本到圖像擴散模型 DreamBooth,用戶只需提供 3~5 個樣本 + 一句話,AI 就能定制照片級圖像。

對于「個性化」我們可以這樣理解,以輸入圖像為參考,生成的圖像在各種情境和不同風(fēng)格中都能保持對其身份的高度忠實。

舉例來講,輸入左側(cè) 4 張小狗的照片,DreamBooth 就可以生成不同類型的小狗,如小狗在景點里旅游、在海里游泳、趴在窩棚里睡覺、甚至人類給它修剪毛發(fā),而生成的圖片都高度保持了原圖像的特點。

圖片圖片

然而,個性化過程在時間和內(nèi)存需求方面還存在很多挑戰(zhàn)。具體到單個個性化模型,進(jìn)行微調(diào)需要大量的 GPU 時間投入,不僅如此,個性化模型還需要很高的存儲容量。

為了克服這些挑戰(zhàn),時隔 8 個月,谷歌又提出了一種新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和風(fēng)格的人臉,同時還能保留臉部關(guān)鍵知識。

在只使用一張參考圖像的情況下,HyperDreamBooth 在大約 20 秒內(nèi)實現(xiàn)了對人臉的個性化處理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不僅如此,生成的圖像與 DreamBooth 質(zhì)量一樣、風(fēng)格還多樣性。此外,HyperDreamBooth 還比常規(guī)的 DreamBooth 模型小 10000 倍。

圖片圖片

論文地址:https://arxiv.org/pdf/2307.06949.pdf

論文主頁:https://hyperdreambooth.github.io/

在我們深入探討技術(shù)細(xì)節(jié)之前,先看一些效果。

下圖中,左邊一欄是輸入圖像,給定一張圖像就可以;中間一欄是根據(jù)不同的提示生成的人臉,提示語分別是 Instagram 上一張 V 型臉的自拍照;皮克斯卡通人物的 V 型臉;搖滾明星 V 型臉;樹皮一樣的 V 型臉。最右邊生成的是人物專業(yè)照片 V 型臉。結(jié)果顯示,HyperDreamBooth 具有相當(dāng)大的可編輯性,同時還能保持人物關(guān)鍵面部特征的完整性。

圖片圖片

HyperDreamBooth 與 Textual Inversion 、DreamBooth 方法比較有何優(yōu)勢呢?

下圖展示了兩個示例、5 種風(fēng)格,結(jié)果顯示,HyperDreamBooth 可以很好的保持輸入圖像特性,還具有很強的可編輯性。

圖片圖片

接下來我們看看 HyperDreamBooth 具體是如何實現(xiàn)的。

方法介紹

該研究提出的方法由 3 個核心部分組成,分別是輕量級 DreamBooth(Lightweight DreamBooth,LiDB)、預(yù)測 LiDB 權(quán)重的 HyperNetwork 和 rank-relaxed 快速微調(diào)。

LiDB 的核心思想是進(jìn)一步分解 rank-1 LoRa 殘差的權(quán)重空間。具體來說,該研究使用 rank-1 LoRA 權(quán)重空間內(nèi)的隨機正交不完全基(random orthogonal incomplete basis)來實現(xiàn)這一點,如下圖所示:

圖片圖片

HyperDreamBooth 的訓(xùn)練和快速微調(diào)如下圖 2 所示,分為兩個階段。

圖片圖片

第 1 階段:訓(xùn)練 HyperNetwork 以根據(jù)人臉圖像預(yù)測網(wǎng)絡(luò)權(quán)重。該研究使用預(yù)先計算的個性化權(quán)重進(jìn)行監(jiān)督,使用 L2 損失和 vanilla 擴散重建損失函數(shù)。第 2 階段:給定面部圖像,用 HyperNetwork 預(yù)測網(wǎng)絡(luò)權(quán)重的初步猜測(initial guess),然后使用重建損失進(jìn)行微調(diào)以增強保真度。

HyperNetwork 架構(gòu)

該研究使用的 HyperNetwork 架構(gòu)如下圖 4 所示。其中,視覺 Transformer(ViT)編碼器將人臉圖像轉(zhuǎn)換成潛在的人臉特征,然后將其連接到潛在層權(quán)重特征(初始化為 0)。Transformer 解碼器接收連接特征的序列,并通過使用 delta 預(yù)測細(xì)化初始權(quán)重來迭代地預(yù)測權(quán)重特征的值。

圖片圖片

值得一提的是,這是 transformer 解碼器首次被用于 HyperNetwork。

如下圖所示,HyperNetwork + 快速微調(diào)取得了良好的效果:

圖片圖片

實驗

下表為 HyperDreamBooth 與 DreamBooth、 Textual Inversion 比較結(jié)果。表明,在所有指標(biāo)上,HyperDreamBooth 得分最高。

圖片圖片

下表為不同迭代次數(shù)下的比較結(jié)果,比較模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。結(jié)果顯示,HyperDreamBooth 在三項指標(biāo)上都超過其他模型。

圖片

下表為消融實驗結(jié)果:主要對比的是 HyperNetwork 對性能的影響。

圖片圖片

用戶研究。該研究還讓用戶以投票的方式參與評估,結(jié)果顯示用戶對 HyperNetwork 生成的結(jié)果偏好強烈。

圖片

了解更多內(nèi)容,請參考原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-08-28 00:53:03

AI3D

2023-03-17 16:47:46

圖像特技

2024-02-08 09:33:37

蘋果AI

2020-11-27 09:57:11

Python代碼PyPy

2015-08-03 10:21:04

設(shè)計模式表達(dá)

2023-09-05 23:34:52

Kubernetes云原生

2023-01-07 12:53:44

模型效果Muse

2025-05-07 10:09:08

2023-12-12 13:24:00

項目promptT2V

2010-03-29 11:55:12

無線上網(wǎng)報錯

2023-05-08 15:44:23

3D數(shù)字人

2022-11-11 15:06:17

模型AI

2022-12-12 13:45:46

模型修圖

2023-05-12 14:13:23

3D建模OpenAI

2025-03-19 13:12:14

2019-08-15 11:42:56

程序員電腦軟件

2018-09-21 10:45:54

2020-12-16 10:43:44

PythonPyPy代碼

2014-05-07 10:47:51

移動金融互聯(lián)網(wǎng)金融GMIC

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度
點贊
收藏

51CTO技術(shù)棧公眾號