偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

六大訣竅幫你釋放擴(kuò)散模型的創(chuàng)造力

譯文 精選
人工智能
本文將介紹提升擴(kuò)散模型質(zhì)量的六種方法,從而幫助終端用戶達(dá)到畫(huà)家級(jí)的精準(zhǔn)作圖水平。

譯者 | 朱先忠

審校 | 重樓

簡(jiǎn)介

Stable Diffusion模型1.5/2.0/2.1/XL 1.0版本、DALL-E模型、Imagen模型……在過(guò)去幾年中,擴(kuò)散模型在圖像生成方面展現(xiàn)出了驚人的質(zhì)量。然而,雖然這些模型在通用概念上產(chǎn)生了高質(zhì)量的圖像,但它們卻難以為更專(zhuān)業(yè)的查詢(xún)生成高質(zhì)量的圖像,例如生成訓(xùn)練數(shù)據(jù)集中不常見(jiàn)的特定風(fēng)格的圖像。

我們可以在大量圖像上重新訓(xùn)練整個(gè)模型,從頭開(kāi)始解釋解決問(wèn)題所需的概念。這聽(tīng)起來(lái)并不實(shí)用。首先,我們需要大量的圖像來(lái)實(shí)現(xiàn)這個(gè)想法;其次,這實(shí)在是太昂貴和耗時(shí)了。

然而,有一些解決方案,只要有少量圖像和一個(gè)小時(shí)的微調(diào),擴(kuò)散模型就能在新的概念上產(chǎn)生合理的質(zhì)量。

接下來(lái),我將介紹Dreambooth、Lora、超網(wǎng)絡(luò)、文本反轉(zhuǎn)、IP適配器和ControlNets等廣泛用于定制和條件擴(kuò)散模型的方法。

擴(kuò)散架構(gòu)

在深入研究有助于調(diào)節(jié)擴(kuò)散模型的各種方法之前,讓我們首先回顧一下什么是擴(kuò)散模型。

擴(kuò)散過(guò)程可視化示意圖(圖片由作者本人提供)

擴(kuò)散模型的最初想法是訓(xùn)練一個(gè)模型,以便從噪聲中重建連貫圖像。在訓(xùn)練階段,我們逐漸添加少量高斯噪聲(正向過(guò)程),然后通過(guò)優(yōu)化模型來(lái)預(yù)測(cè)噪聲,從而迭代地重建圖像,減去噪聲,最終達(dá)到更接近目標(biāo)圖像(反向過(guò)程)。

圖像損壞(Image Corruption)的原始想法已經(jīng)演變成一種更實(shí)用、更輕量的架構(gòu),其中首先將圖像壓縮到潛在空間,并在低維空間中執(zhí)行所有添加噪聲的操作。

為了將文本信息添加到擴(kuò)散模型中,我們首先將其通過(guò)文本編碼器(通常是CLIP)以便產(chǎn)生潛在嵌入,然后將其注入具有交叉注意層的模型中。

1.Dreambooth與相關(guān)論文和代碼實(shí)現(xiàn)

Dreambooth可視化(可訓(xùn)練塊用紅色標(biāo)記,圖片由作者本人提供)

這個(gè)想法是取一個(gè)罕見(jiàn)的單詞;通常使用{SKS}單詞,然后教模型將單詞{SKS}映射到我們想要學(xué)習(xí)的特征。例如,這可能是模型從未見(jiàn)過(guò)的風(fēng)格,如梵高。我們會(huì)展示他的十幾幅畫(huà)作,并微調(diào)到短語(yǔ)“一幅{SKS}風(fēng)格的靴子畫(huà)”。我們可以類(lèi)似地個(gè)性化生成,例如,學(xué)習(xí)如何在一組自拍照中生成特定人的圖像,例如“山中的{SKS}”。

為了保持在預(yù)訓(xùn)練階段學(xué)到的信息,Dreambooth通過(guò)將原始模型生成的文本圖像對(duì)添加到微調(diào)集,以便鼓勵(lì)模型不要偏離原始的預(yù)訓(xùn)練版本太多。

何時(shí)使用,何時(shí)不使用

Dreambooth在所有方法中都能產(chǎn)生最佳質(zhì)量;但是,由于整個(gè)模型都已更新,該技術(shù)可能會(huì)影響已學(xué)過(guò)的概念。訓(xùn)練計(jì)劃還限制了模型可以理解的概念數(shù)量。這種訓(xùn)練方法比較耗時(shí),差不多需要1-2小時(shí)。如果我們決定一次引入幾個(gè)新概念,那么我們需要存儲(chǔ)兩個(gè)模型檢查點(diǎn)(【譯者注】模型檢查點(diǎn)是指在模型訓(xùn)練過(guò)程中定期保存的模型狀態(tài)快照,包括模型的權(quán)重、配置和優(yōu)化器的狀態(tài)等信息),這會(huì)浪費(fèi)大量空間。

2.文本反轉(zhuǎn)與相關(guān)論文和代碼實(shí)現(xiàn)

文本反轉(zhuǎn)可視化(可訓(xùn)練塊用紅色標(biāo)記,圖片由作者本人提供)

文本反轉(zhuǎn)方法背后的假設(shè)是,存儲(chǔ)在擴(kuò)散模型的潛在空間中的知識(shí)非常龐大。因此,我們想要用擴(kuò)散模型重現(xiàn)的風(fēng)格或條件已經(jīng)為它所知,但我們沒(méi)有訪問(wèn)它的符號(hào)(token)。因此,我們不是微調(diào)模型以便在輸入“{SKS}風(fēng)格”的稀有詞時(shí)重現(xiàn)所需的輸出,而是優(yōu)化文本嵌入以產(chǎn)生所需的輸出。

何時(shí)使用,何時(shí)不使用

文本反轉(zhuǎn)方法占用的空間非常小,因?yàn)橹粫?huì)存儲(chǔ)符號(hào)。訓(xùn)練速度也相對(duì)較快,平均訓(xùn)練時(shí)間為20-30分鐘。然而,它也有缺點(diǎn)——因?yàn)槲覀冋谖⒄{(diào)一個(gè)引導(dǎo)模型產(chǎn)生特定風(fēng)格的特定向量,所以它不會(huì)超越這種風(fēng)格。

3.LoRA與相關(guān)論文和代碼實(shí)現(xiàn)

LoRA可視化(可訓(xùn)練塊標(biāo)記為紅色,圖片由作者本人提供)

低秩自適應(yīng)(Low-Rank Adaptions:LoRA)方法是為大型語(yǔ)言模型提出的,并首先由SimoRyu改編為擴(kuò)散模型。LoRA的最初想法是,我們可以將一小部分新權(quán)重與原始模型混合,這些權(quán)重將使用類(lèi)似的稀有符號(hào)(token)方法針對(duì)任務(wù)進(jìn)行微調(diào),而不是對(duì)整個(gè)模型進(jìn)行微調(diào),這可能相當(dāng)昂貴。

在擴(kuò)散模型中,秩分解應(yīng)用于交叉注意層,負(fù)責(zé)合并提示和圖像信息。這些層中的權(quán)重矩陣WO、WQ、WK和WV均應(yīng)用了LoRA。

何時(shí)使用,何時(shí)不使用

LoRA方法的訓(xùn)練時(shí)間非常短(5-15分鐘)——與整個(gè)模型相比,我們只更新了少量參數(shù),而且與Dreambooth不同,它們占用的空間要小得多。然而,使用LoRA進(jìn)行微調(diào)的小型模型與DreamBooth相比質(zhì)量較差。

4.超網(wǎng)絡(luò)與相關(guān)論文和代碼實(shí)現(xiàn)

超網(wǎng)絡(luò)可視化(訓(xùn)練塊用紅色標(biāo)記,圖片由作者本人提供)

從某種意義上說(shuō),超網(wǎng)絡(luò)方法是LoRA的擴(kuò)展。我們不是學(xué)習(xí)會(huì)直接改變模型輸出的相對(duì)較小的嵌入,而是訓(xùn)練一個(gè)能夠預(yù)測(cè)這些新注入的嵌入權(quán)重的單獨(dú)網(wǎng)絡(luò)。

讓模型預(yù)測(cè)特定概念的嵌入,我們可以教超網(wǎng)絡(luò)幾個(gè)概念——將同一模型重復(fù)用于多個(gè)任務(wù)。

何時(shí)使用和不使用

超網(wǎng)絡(luò)方法不專(zhuān)注于單一風(fēng)格,而是能夠產(chǎn)生大量?jī)?nèi)容,通常不會(huì)產(chǎn)生像其他方法那樣好的質(zhì)量,并且可能需要大量時(shí)間來(lái)訓(xùn)練。從優(yōu)點(diǎn)方面來(lái)看,它們可以比其他單概念微調(diào)方法存儲(chǔ)更多的概念。

5.IP適配器與相關(guān)論文和代碼實(shí)現(xiàn)

IP適配器可視化(可訓(xùn)練塊標(biāo)記為紅色,圖片由作者本人提供)

IP適配器方法不是用文本提示來(lái)控制圖像生成,而是提出了一種使用圖像來(lái)控制生成的方法,而無(wú)需對(duì)底層模型進(jìn)行任何更改。

IP適配器方法背后的核心思想是,使用一種解耦的交叉注意機(jī)制,允許將源圖像與文本和生成的圖像特征相結(jié)合。這是通過(guò)添加單獨(dú)的交叉注意層來(lái)實(shí)現(xiàn)的,允許模型學(xué)習(xí)特定于圖像的特征。

何時(shí)使用,何時(shí)不使用

IP適配器方法屬于輕量級(jí)的,適應(yīng)性強(qiáng)且速度快。然而,它們的性能在很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。IP適配器通常更適合提供我們希望在生成的圖像中看到的風(fēng)格屬性(例如Mark Chagall的畫(huà)作圖像),但可能無(wú)法控制精確的細(xì)節(jié),例如姿勢(shì)。

6.ControlNets與相關(guān)論文和代碼實(shí)現(xiàn)

ControlNet可視化(可訓(xùn)練塊用紅色標(biāo)記,圖片由作者本人提供)

ControlNet論文提出了一種將文本到圖像模型的輸入擴(kuò)展到任何模態(tài)的方法,從而可以對(duì)生成的圖像進(jìn)行細(xì)粒度控制。

在原始公式中,ControlNet是預(yù)訓(xùn)練擴(kuò)散模型的編碼器,它將提示、噪聲和控制數(shù)據(jù)(例如深度圖、地標(biāo)等)作為輸入。為了指導(dǎo)生成,ControlNet的中間級(jí)別隨后被添加到凍結(jié)擴(kuò)散模型的激活中。

注入是通過(guò)零卷積實(shí)現(xiàn)的,其中1×1卷積的權(quán)重和偏差被初始化為零,并在訓(xùn)練過(guò)程中逐漸學(xué)習(xí)有意義的變換。這類(lèi)似于LoRA的訓(xùn)練方式——以0初始化,從恒等函數(shù)開(kāi)始學(xué)習(xí)。

何時(shí)使用,何時(shí)不使用

當(dāng)我們想要控制輸出結(jié)構(gòu)時(shí),例如通過(guò)地標(biāo)、深度圖或邊緣圖,ControlNets方法是首選方案。由于需要更新整個(gè)模型權(quán)重,訓(xùn)練可能很耗時(shí);但是,這些方法也允許通過(guò)剛性控制信號(hào)進(jìn)行最佳的細(xì)粒度控制。

總結(jié)

  • DreamBooth技術(shù):針對(duì)自定義風(fēng)格的主題對(duì)模型進(jìn)行全面微調(diào),控制水平高;但是,訓(xùn)練需要很長(zhǎng)時(shí)間,并且僅適用于一種目的。
  • 文本反轉(zhuǎn)技術(shù):基于嵌入的新概念學(xué)習(xí),控制水平低,但訓(xùn)練速度快。
  • LoRA技術(shù):針對(duì)新風(fēng)格/角色的輕量級(jí)模型微調(diào),控制水平中等,但訓(xùn)練速度快。
  • 超網(wǎng)絡(luò)技術(shù):單獨(dú)的模型來(lái)預(yù)測(cè)給定控制請(qǐng)求的LoRA權(quán)重。更多風(fēng)格的控制水平較低,需要時(shí)間訓(xùn)練。
  • IP適配器技術(shù):通過(guò)參考圖像進(jìn)行柔和的風(fēng)格/內(nèi)容指導(dǎo),中等水平的風(fēng)格控制,輕量級(jí)且高效。
  • ControlNet技術(shù):通過(guò)姿勢(shì)、深度和邊緣進(jìn)行控制非常精確;但是,需要更長(zhǎng)的訓(xùn)練時(shí)間。
  • 最佳實(shí)踐推薦:為了獲得最佳效果,結(jié)合使用IP適配器及其更柔和的風(fēng)格指導(dǎo)和用于姿勢(shì)和對(duì)象排列的ControlNet方法可產(chǎn)生最佳效果。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專(zhuān)家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:Six Ways to Control Style and Content in Diffusion Models,作者:Aliaksei Mikhailiuk

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2013-11-08 09:33:04

創(chuàng)造力創(chuàng)業(yè)

2023-11-13 14:50:53

CSS開(kāi)發(fā)

2023-10-31 08:01:23

goGPT探索

2013-12-10 13:41:23

創(chuàng)造力設(shè)計(jì)

2019-10-29 14:01:59

CIOIT創(chuàng)造力商業(yè)

2020-12-30 15:11:15

人工智能機(jī)器學(xué)習(xí)技術(shù)

2013-06-24 13:56:37

創(chuàng)造力創(chuàng)意開(kāi)發(fā)

2023-06-25 17:01:10

2021-02-01 11:13:54

人工智能創(chuàng)造力AI

2023-08-10 11:49:24

AI項(xiàng)目模型

2025-01-16 15:00:00

2014-01-02 13:09:41

創(chuàng)造力編程

2020-12-14 09:33:32

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2023-06-25 09:38:04

GPT-4研究

2009-02-02 14:25:45

軟件 芮祥麟 SAP

2019-10-23 19:27:38

數(shù)據(jù)分析模型分析

2023-05-10 15:49:10

NLP語(yǔ)言模型

2014-03-11 15:32:25

2020-07-24 07:00:00

Scrum工具

2014-04-03 19:34:39

Adobe
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)