偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定

發(fā)布于 2025-1-6 09:34
瀏覽
0收藏

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.20800  
代碼地址:https://github.com/fenfenfenfan/VMix
項(xiàng)目地址:https://vmix-diffusion.github.io/VMix/

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

亮點(diǎn)直擊

  • 分析并探索現(xiàn)有模型在光影、色彩等細(xì)粒度美學(xué)維度上生成圖像的差異,提出在文本提示中解耦這些屬性,并構(gòu)建一個細(xì)粒度的美學(xué)標(biāo)簽體系,提供清晰的模型優(yōu)化方向;
  • 提出VMix條件注入方法,它將輸入文本提示解耦為內(nèi)容描述和美學(xué)描述,通過值混合交叉注意力的條件控制方法,從不同維度提升模型生成的美感;
  • 提出的方法對于現(xiàn)有的擴(kuò)散模型具有普適效果,作者基于此訓(xùn)練了一個即插即用的美學(xué)適配器,與社區(qū)模塊高度兼容。
  • 實(shí)驗(yàn)表明,提出的方法能顯著提升現(xiàn)有模型生成美感,優(yōu)于FreeU、DPO、Textual Inversion等方法。

總結(jié)速覽

解決的問題

  • 擴(kuò)散模型在文本到圖像生成方面表現(xiàn)出色,現(xiàn)有方法在提升圖像質(zhì)量以滿足人類偏好方面做出了努力,但未能充分滿足人類對視覺生成內(nèi)容的細(xì)粒度審美偏好,如自然光線、豐富色彩和合理構(gòu)圖等;
  • 現(xiàn)有方法在提升圖像質(zhì)量以滿足人類偏好方面做出了努力,如FreeU、DPO等,盡管整體生成結(jié)果可能在文本對齊方面表現(xiàn)更好,但可能在視覺構(gòu)圖等方面表現(xiàn)較差,現(xiàn)有方法未能準(zhǔn)確對齊生成圖像與人類偏好。

提出的方案

  • 通過對齊人類設(shè)計(jì)師偏好,構(gòu)建包括光影、色彩、構(gòu)圖等不同美學(xué)標(biāo)簽,將文本條件解耦成內(nèi)容描述和美學(xué)描述;
  • 提出新的條件注入方法VMix,通過審美嵌入初始化模塊和跨注意力混合控制模塊,在保持原有模型圖文匹配能力同時,提升美學(xué)表現(xiàn);
  • VMix設(shè)計(jì)靈活,能夠與社區(qū)模塊(如LoRA、ControlNet和IPAdapter)兼容,為圖像生成提供更大的創(chuàng)造能力。

應(yīng)用的技術(shù)

  • 擴(kuò)散模型架構(gòu):Stable Diffusion、SDXL被作為基礎(chǔ)圖像生成模型進(jìn)行實(shí)驗(yàn),通過凍結(jié)基模僅訓(xùn)練額外小參數(shù)網(wǎng)絡(luò)提升模型美感;
  • 美學(xué)向量初始化:通過初始化美學(xué)向量,將輸入文本提示分離為內(nèi)容描述和多維度美學(xué)描述,并通過映射網(wǎng)絡(luò)將審美標(biāo)簽作為額外條件整合到去噪模型中;
  • 值混合交叉注意力:引入交叉注意力混合控制網(wǎng)絡(luò),在不直接改變注意力圖的同時,最小化對圖像-文本對齊的不利影響,從而更好的注入美學(xué)條件。

達(dá)到的效果

  • VMix能夠在不損害模型原有圖文匹配能力的同時,提升模型在光影、色彩、構(gòu)圖等不同美學(xué)維度的表現(xiàn);在與其他方法,如FreeU、DPO、Textual Inversion的比較中表現(xiàn)更出色,證明了其在提升圖像美感方面的有效性。
  • 在MJHQ-30K和LAION-HQ10K基準(zhǔn)測試中,VMix在Aes分?jǐn)?shù)上取得了最高分,表明其在提升美感的重要性。用戶研究也表明,應(yīng)用VMix后,預(yù)訓(xùn)練和開源模型更受用戶青睞。

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

方法

VMix框架的pipeline和實(shí)現(xiàn)細(xì)節(jié),如下圖所示,分為三個階段:
(1)美學(xué)向量初始化階段;(2)訓(xùn)練階段;(3)推理階段

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

美學(xué)向量初始化

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

其中d是維度,N表示美學(xué)標(biāo)簽對的數(shù)量。

交叉注意力混合控制

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

fa是從美學(xué)向量映射網(wǎng)絡(luò)出的最終文本特征。在訓(xùn)練開始時,作為連接層的零初始化線性層的權(quán)重和偏置被設(shè)置為零。這種初始化確保了微調(diào)模型不會引入有害噪聲,從而保留了原始預(yù)訓(xùn)練模型的能力。

值混合交叉注意力:交叉注意力層中的注意力圖決定了文本標(biāo)記在每個圖像塊的概率分布,為了盡可能保留預(yù)訓(xùn)練模型中固有的圖文匹配能力,通過內(nèi)容分支和美學(xué)分支雙分支的方式在擴(kuò)散模型中引入值混合交叉注意力網(wǎng)絡(luò),這兩個分支共享注意力圖,對于美學(xué)分支,僅讓網(wǎng)絡(luò)學(xué)習(xí)一個新的value,從而減少注入過程中對原始注意力圖的影響,這個過程可以表示為:

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

訓(xùn)練及推理細(xì)節(jié)

模型全參數(shù)訓(xùn)練雖然會有更高的上限,但會產(chǎn)生高昂的成本,并且高度定制化;訓(xùn)練過程中,基模參數(shù)被凍結(jié),只訓(xùn)練新增的映射網(wǎng)絡(luò)和值混合交叉注意力網(wǎng)絡(luò),基模通過掛載一個小參數(shù)的LoRA,從而使模型訓(xùn)練過程更加穩(wěn)定,并增強(qiáng)了其適用性。訓(xùn)練完成后,形成一個即插即用的模塊。在推理階段,默認(rèn)使用所有正面的審美標(biāo)簽,如上圖(c)所示,從而提升模型在所有審美維度上的生成質(zhì)量。盡管在訓(xùn)練階段使用了LoRA,在推理階段這不是必需的,后面有相關(guān)的消融實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

訓(xùn)練數(shù)據(jù):從LAION等大型公開英文數(shù)據(jù)集中提取了20萬張圖片,采用自動和人工過濾組合方式進(jìn)行清洗。這批圖除了內(nèi)容描述文本外,還會標(biāo)注不同美學(xué)維度(如色彩、光影、構(gòu)圖、重心等)的分類標(biāo)簽,用來作為訓(xùn)練過程中的額外條件。

訓(xùn)練設(shè)置:SD1.5和SDXL的學(xué)習(xí)率分別設(shè)置為1e?4和1e?5。Batch size設(shè)置為256,實(shí)驗(yàn)中的總訓(xùn)練步數(shù)為50,000。在推理階段,使用DDIM采樣器進(jìn)行采樣25步,CFG為7.5,不使用反向提示詞。

評估細(xì)節(jié):除了使用MJHQ-30K數(shù)據(jù)集進(jìn)行評估外,額外構(gòu)建一個只包含高美學(xué)和高分辨率圖片的LAION-HQ10K數(shù)據(jù)集,使用FID、CLIP Score和Aes Score衡量生成圖像的整體質(zhì)量。

結(jié)果

定性比較:在視覺效果上,VMix顯著優(yōu)于其它方法,并且與使用同樣訓(xùn)練集的SFT方法比,VMix的效果更好,從而驗(yàn)證了條件注入的有效性,同時對高質(zhì)量數(shù)據(jù)進(jìn)行消融。此外,VMix作為插件可以直接應(yīng)用于開源模型,提升它們的美學(xué)表現(xiàn)。

SD1.5上不同方法的比較

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

SDXL上不同方法的比較

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

應(yīng)用于開源模型的效果

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

定量指標(biāo):VMix模型有著最高的Aes Score,并且可以看到基模的圖文匹配能力并沒有受到影響,甚至條件解耦后模型相較普通SFT方式更容易在高質(zhì)量數(shù)據(jù)集上收斂。推理階段隨著增大,圖片美感也會隨之提升。

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

消融實(shí)驗(yàn):文中進(jìn)一步分析了AesEmb不同維度對生成結(jié)果的影響,可以看到不同美學(xué)維度都能明顯改善圖片質(zhì)量,當(dāng)一起使用時效果最好;文中還對對LoRA的使用進(jìn)行了消融,從而驗(yàn)證模型性能的提升主要來自VMix本身。

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無痛增強(qiáng)模型生成美感!字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

結(jié)論

這項(xiàng)研究提出了VMix,它通過引入美學(xué)標(biāo)簽(光影、色彩、構(gòu)圖等)作為額外的條件,并采用交叉注意力混合控制方法來增強(qiáng)模型在各種美學(xué)維度上的表現(xiàn)。論文發(fā)現(xiàn),讓模型對齊人類期望的最關(guān)鍵因素之一是使用適當(dāng)?shù)臈l件控制方法,在解耦的細(xì)粒度美學(xué)標(biāo)簽下進(jìn)行訓(xùn)練。受此啟發(fā),論文提出了一種有效的條件控制方法,顯著提高了模型的生成質(zhì)量。廣泛的實(shí)驗(yàn)驗(yàn)證了VMix在文本忠實(shí)度和視覺美學(xué)方面超越了其他最先進(jìn)的方法。作為一個即插即用的插件,VMix可以與開源模型無縫集成,提升審美表現(xiàn),從而進(jìn)一步推動社區(qū)的發(fā)展。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/nbAcxAyMlMHQWyWhIxAsHA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦