CVPR'24:文生圖提示詞自動優(yōu)化,還發(fā)現(xiàn)三個小竅門,人大度小滿等機(jī)構(gòu)出品
文生圖也有自己的prompt優(yōu)化工具了。
我們都知道,大模型輸出的質(zhì)量,很大程度上依賴于輸入的prompt。尤其在文生圖領(lǐng)域,對于prompt格外敏感。
來自中國人大、度小滿等團(tuán)隊提出了一種全新的自動文本提示優(yōu)化方法——動態(tài)提示自動編輯(Prompt Auto-Editing,PAE)。
它考慮了文本提示中的每個詞在擴(kuò)散生成過程的權(quán)重和注入時間步。
最終在多個公開數(shù)據(jù)集上進(jìn)行了實驗驗證,包括Lexica.art、DiffusionDB和COCO。PAE方法不僅提高了圖像的美學(xué)質(zhì)量,還確保了圖像與文本描述的語義一致性。
與傳統(tǒng)方法相比,PAE在控制圖像生成過程中的精確性和靈活性方面表現(xiàn)更優(yōu)。
關(guān)鍵在動態(tài)prompt
當(dāng)前,盡管用戶可以通過手動修改提示來嘗試生成更優(yōu)質(zhì)的圖像,但這一過程不僅效率低下,而且難以精確控制。
為了提高效率并優(yōu)化生成結(jié)果,團(tuán)隊研發(fā)了PAE方法,這一方法的關(guān)鍵在于采用了動態(tài)提示(Dynamic Prompts)。
首先是為用戶輸入的簡短提示詞擴(kuò)充出更多修飾詞,其次是通過動態(tài)調(diào)整新添加的修飾詞的權(quán)重和注入時間步,自動細(xì)化優(yōu)化文本提示,從而更精準(zhǔn)地控制圖像生成過程。
1、Dynamic Prompt的定義
具體來說,團(tuán)隊定義了一種新的提示格式,用以豐富初始提示的信息,命名為動態(tài)精細(xì)控制提示(DF-Prompt)
文本prompt中的每個token會被拓展成一個三元組,在原有基礎(chǔ)上新添加了用來添加權(quán)重的浮點數(shù),以及文本生效的時間步范圍。
DF-Prompt是原本的提示詞和修飾詞的結(jié)合。DF-Prompt 的本質(zhì)在于促進(jìn)更精確和控制的生成。為了便于演示和代碼實現(xiàn),我們還定義了一個純文本格式:[token:range:weight]
以portrait of a beautiful forest goddess, beauty, very aesthetic, masterpiece為例,其中beauty拓展成三元組可以表示為[beauty:0.5→0:0.75],其權(quán)重為0.75,生效的時間步范圍為后50%的降噪步驟。
2、訓(xùn)練數(shù)據(jù)收集
DiffusionDB數(shù)據(jù)集收集了用戶生成圖像時使用的prompt,其中包含大量的修飾詞、風(fēng)格描述等,可以幫助我們訓(xùn)練提示詞拓展與精細(xì)優(yōu)化的自動化模型。
在DiffusionDB等數(shù)據(jù)集中,一般逗號之前的文本包含主要信息,描述圖像的主題,而逗號之后的文本被視為次要文本,提供補(bǔ)充后綴作為修飾語。
比如“a red horse on the yellow grass, anime style”,主要信息為“a red horse on the yellow grass”,次要文本為“anime style”。
我們把逗號之前的文本作為短提示,剩余的文本(次要文本)形成了修飾詞集合,以此來構(gòu)建訓(xùn)練數(shù)據(jù)中的輸入提示詞和目標(biāo)提示詞。
最后,我們定義一個置信分?jǐn)?shù),利用美學(xué)指標(biāo)和CLIP分?jǐn)?shù)來篩選訓(xùn)練數(shù)據(jù),確保用于訓(xùn)練的提示詞能夠引導(dǎo)生成高美學(xué)評分、高圖文對齊度的圖像。
3、訓(xùn)練階段
如圖所示,使用收集好的訓(xùn)練數(shù)據(jù)進(jìn)行兩階段訓(xùn)練。
階段一:監(jiān)督式微調(diào)階段。
在收集好的數(shù)據(jù)集上對語言模型進(jìn)行微調(diào),以生成優(yōu)化后的文本提示。每條訓(xùn)練數(shù)據(jù)都包含了短提示詞文本和修飾詞集合,這里的優(yōu)化目標(biāo)就是讓語言模型根據(jù)短提示詞擴(kuò)展出更多修飾詞。在這種方式中,訓(xùn)練好的模型能夠處理簡短的提示,并預(yù)測適當(dāng)?shù)男揎椩~,從而提升生成圖像的美學(xué)質(zhì)量。
階段二:強(qiáng)化學(xué)習(xí)階段。
使用強(qiáng)化學(xué)習(xí)優(yōu)化文本提示,通過多維度獎勵系統(tǒng)來指導(dǎo)這一過程,考慮到美學(xué)評分、語義一致性和用戶偏好。這一階段的主要目的是為每一個修飾詞添加權(quán)重和作用時間步,實現(xiàn)精細(xì)化的控制。我們使用 PPO 算法,在訓(xùn)練集上最大化期望累積獎勵。獎勵函數(shù)是在生成的圖像上計算的,考慮了包括CLIP分?jǐn)?shù)、PickScore、美學(xué)評分等指標(biāo)。
通過觀察自動學(xué)習(xí)到的權(quán)重分布、時間步范圍統(tǒng)計信息,我們還有了一些有趣的發(fā)現(xiàn):
- 使用藝術(shù)家名稱和紋理修飾詞:通過引入藝術(shù)家的名字和紋理修飾詞,可以顯著提高生成圖像的藝術(shù)質(zhì)量,并保持語義的準(zhǔn)確性。
- 在擴(kuò)散過程的后半階段引入風(fēng)格元素:在圖像生成的擴(kuò)散過程后半段引入風(fēng)格化元素,可以更好地融合這些元素,從而提高整體的視覺和藝術(shù)效果。
- 降低復(fù)雜術(shù)語的權(quán)重:對于復(fù)雜的術(shù)語,適當(dāng)降低其權(quán)重可以確保圖像生成既平衡又具吸引力,避免過分強(qiáng)調(diào)某些元素,從而影響圖像的整體美觀。
arxiv鏈接: https://arxiv.org/abs/2404.04095
代碼鏈接: https://github.com/Mowenyii/PAE