偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="i7fgl"><source id="i7fgl"><dl id="i7fgl"></dl></source></tfoot>

<big id="i7fgl"><tbody id="i7fgl"><form id="i7fgl"></form></tbody></big>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定

發(fā)布于 2025-1-6 09:34

瀏覽

0收藏

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2412.20800
代碼地址：https://github.com/fenfenfenfan/VMix
項(xiàng)目地址：https://vmix-diffusion.github.io/VMix/

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

亮點(diǎn)直擊

分析并探索現(xiàn)有模型在光影、色彩等細(xì)粒度美學(xué)維度上生成圖像的差異，提出在文本提示中解耦這些屬性，并構(gòu)建一個細(xì)粒度的美學(xué)標(biāo)簽體系，提供清晰的模型優(yōu)化方向；
提出VMix條件注入方法，它將輸入文本提示解耦為內(nèi)容描述和美學(xué)描述，通過值混合交叉注意力的條件控制方法，從不同維度提升模型生成的美感；
提出的方法對于現(xiàn)有的擴(kuò)散模型具有普適效果，作者基于此訓(xùn)練了一個即插即用的美學(xué)適配器，與社區(qū)模塊高度兼容。
實(shí)驗(yàn)表明，提出的方法能顯著提升現(xiàn)有模型生成美感，優(yōu)于FreeU、DPO、Textual Inversion等方法。

總結(jié)速覽

解決的問題：

擴(kuò)散模型在文本到圖像生成方面表現(xiàn)出色，現(xiàn)有方法在提升圖像質(zhì)量以滿足人類偏好方面做出了努力，但未能充分滿足人類對視覺生成內(nèi)容的細(xì)粒度審美偏好，如自然光線、豐富色彩和合理構(gòu)圖等；
現(xiàn)有方法在提升圖像質(zhì)量以滿足人類偏好方面做出了努力，如FreeU、DPO等，盡管整體生成結(jié)果可能在文本對齊方面表現(xiàn)更好，但可能在視覺構(gòu)圖等方面表現(xiàn)較差，現(xiàn)有方法未能準(zhǔn)確對齊生成圖像與人類偏好。

提出的方案：

通過對齊人類設(shè)計(jì)師偏好，構(gòu)建包括光影、色彩、構(gòu)圖等不同美學(xué)標(biāo)簽，將文本條件解耦成內(nèi)容描述和美學(xué)描述；
提出新的條件注入方法VMix，通過審美嵌入初始化模塊和跨注意力混合控制模塊，在保持原有模型圖文匹配能力同時，提升美學(xué)表現(xiàn)；
VMix設(shè)計(jì)靈活，能夠與社區(qū)模塊（如LoRA、ControlNet和IPAdapter）兼容，為圖像生成提供更大的創(chuàng)造能力。

應(yīng)用的技術(shù)：

擴(kuò)散模型架構(gòu)：Stable Diffusion、SDXL被作為基礎(chǔ)圖像生成模型進(jìn)行實(shí)驗(yàn)，通過凍結(jié)基模僅訓(xùn)練額外小參數(shù)網(wǎng)絡(luò)提升模型美感；
美學(xué)向量初始化：通過初始化美學(xué)向量，將輸入文本提示分離為內(nèi)容描述和多維度美學(xué)描述，并通過映射網(wǎng)絡(luò)將審美標(biāo)簽作為額外條件整合到去噪模型中；
值混合交叉注意力：引入交叉注意力混合控制網(wǎng)絡(luò)，在不直接改變注意力圖的同時，最小化對圖像-文本對齊的不利影響，從而更好的注入美學(xué)條件。

達(dá)到的效果：

VMix能夠在不損害模型原有圖文匹配能力的同時，提升模型在光影、色彩、構(gòu)圖等不同美學(xué)維度的表現(xiàn)；在與其他方法，如FreeU、DPO、Textual Inversion的比較中表現(xiàn)更出色，證明了其在提升圖像美感方面的有效性。
在MJHQ-30K和LAION-HQ10K基準(zhǔn)測試中，VMix在Aes分?jǐn)?shù)上取得了最高分，表明其在提升美感的重要性。用戶研究也表明，應(yīng)用VMix后，預(yù)訓(xùn)練和開源模型更受用戶青睞。

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

方法

VMix框架的pipeline和實(shí)現(xiàn)細(xì)節(jié)，如下圖所示，分為三個階段：
（1）美學(xué)向量初始化階段；（2）訓(xùn)練階段；（3）推理階段

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

美學(xué)向量初始化

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

其中d是維度，N表示美學(xué)標(biāo)簽對的數(shù)量。

交叉注意力混合控制

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

fa是從美學(xué)向量映射網(wǎng)絡(luò)出的最終文本特征。在訓(xùn)練開始時，作為連接層的零初始化線性層的權(quán)重和偏置被設(shè)置為零。這種初始化確保了微調(diào)模型不會引入有害噪聲，從而保留了原始預(yù)訓(xùn)練模型的能力。

值混合交叉注意力：交叉注意力層中的注意力圖決定了文本標(biāo)記在每個圖像塊的概率分布，為了盡可能保留預(yù)訓(xùn)練模型中固有的圖文匹配能力，通過內(nèi)容分支和美學(xué)分支雙分支的方式在擴(kuò)散模型中引入值混合交叉注意力網(wǎng)絡(luò)，這兩個分支共享注意力圖，對于美學(xué)分支，僅讓網(wǎng)絡(luò)學(xué)習(xí)一個新的value，從而減少注入過程中對原始注意力圖的影響，這個過程可以表示為:

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

訓(xùn)練及推理細(xì)節(jié)

模型全參數(shù)訓(xùn)練雖然會有更高的上限，但會產(chǎn)生高昂的成本，并且高度定制化；訓(xùn)練過程中，基模參數(shù)被凍結(jié)，只訓(xùn)練新增的映射網(wǎng)絡(luò)和值混合交叉注意力網(wǎng)絡(luò)，基模通過掛載一個小參數(shù)的LoRA，從而使模型訓(xùn)練過程更加穩(wěn)定，并增強(qiáng)了其適用性。訓(xùn)練完成后，形成一個即插即用的模塊。在推理階段，默認(rèn)使用所有正面的審美標(biāo)簽，如上圖(c)所示，從而提升模型在所有審美維度上的生成質(zhì)量。盡管在訓(xùn)練階段使用了LoRA，在推理階段這不是必需的，后面有相關(guān)的消融實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

訓(xùn)練數(shù)據(jù)：從LAION等大型公開英文數(shù)據(jù)集中提取了20萬張圖片，采用自動和人工過濾組合方式進(jìn)行清洗。這批圖除了內(nèi)容描述文本外，還會標(biāo)注不同美學(xué)維度（如色彩、光影、構(gòu)圖、重心等）的分類標(biāo)簽，用來作為訓(xùn)練過程中的額外條件。

訓(xùn)練設(shè)置：SD1.5和SDXL的學(xué)習(xí)率分別設(shè)置為1e?4和1e?5。Batch size設(shè)置為256，實(shí)驗(yàn)中的總訓(xùn)練步數(shù)為50,000。在推理階段，使用DDIM采樣器進(jìn)行采樣25步，CFG為7.5，不使用反向提示詞。

評估細(xì)節(jié)：除了使用MJHQ-30K數(shù)據(jù)集進(jìn)行評估外，額外構(gòu)建一個只包含高美學(xué)和高分辨率圖片的LAION-HQ10K數(shù)據(jù)集，使用FID、CLIP Score和Aes Score衡量生成圖像的整體質(zhì)量。

結(jié)果

定性比較：在視覺效果上，VMix顯著優(yōu)于其它方法，并且與使用同樣訓(xùn)練集的SFT方法比，VMix的效果更好，從而驗(yàn)證了條件注入的有效性，同時對高質(zhì)量數(shù)據(jù)進(jìn)行消融。此外，VMix作為插件可以直接應(yīng)用于開源模型，提升它們的美學(xué)表現(xiàn)。

SD1.5上不同方法的比較

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

SDXL上不同方法的比較

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

應(yīng)用于開源模型的效果

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

定量指標(biāo)：VMix模型有著最高的Aes Score，并且可以看到基模的圖文匹配能力并沒有受到影響，甚至條件解耦后模型相較普通SFT方式更容易在高質(zhì)量數(shù)據(jù)集上收斂。推理階段隨著增大，圖片美感也會隨之提升。

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

消融實(shí)驗(yàn)：文中進(jìn)一步分析了AesEmb不同維度對生成結(jié)果的影響，可以看到不同美學(xué)維度都能明顯改善圖片質(zhì)量，當(dāng)一起使用時效果最好；文中還對對LoRA的使用進(jìn)行了消融，從而驗(yàn)證模型性能的提升主要來自VMix本身。

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定-AI.x社區(qū)

結(jié)論

這項(xiàng)研究提出了VMix，它通過引入美學(xué)標(biāo)簽（光影、色彩、構(gòu)圖等）作為額外的條件，并采用交叉注意力混合控制方法來增強(qiáng)模型在各種美學(xué)維度上的表現(xiàn)。論文發(fā)現(xiàn)，讓模型對齊人類期望的最關(guān)鍵因素之一是使用適當(dāng)?shù)臈l件控制方法，在解耦的細(xì)粒度美學(xué)標(biāo)簽下進(jìn)行訓(xùn)練。受此啟發(fā)，論文提出了一種有效的條件控制方法，顯著提高了模型的生成質(zhì)量。廣泛的實(shí)驗(yàn)驗(yàn)證了VMix在文本忠實(shí)度和視覺美學(xué)方面超越了其他最先進(jìn)的方法。作為一個即插即用的插件，VMix可以與開源模型無縫集成，提升審美表現(xiàn)，從而進(jìn)一步推動社區(qū)的發(fā)展。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/nbAcxAyMlMHQWyWhIxAsHA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

CVPR 2024 | 通過細(xì)粒度人類反饋對齊數(shù)據(jù)，提高多模態(tài)大模型可信度

zhangyannni ? 4152瀏覽 ? 0回復(fù)
今日arXiv最熱NLP大模型論文：天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath

pangguiyu ? 4431瀏覽 ? 0回復(fù)
字節(jié)提出新一代數(shù)據(jù)集COCONut，比COCO粒度分割更密集

輕薄滴假象 ? 4171瀏覽 ? 0回復(fù)
填補(bǔ)AlphaFold3空白，字節(jié)跳動提出物理引導(dǎo)的方法讓蛋白質(zhì)動起來

輕薄滴假象 ? 2752瀏覽 ? 0回復(fù)
即插即用，快速適配！港大FlashST：簡單通用的智慧交通時空預(yù)測模型 | ICML 2024

duhorse ? 2433瀏覽 ? 0回復(fù)
即插即用！CVD：第一個生成具有相機(jī)控制的多視圖一致視頻方案?。ㄋ固垢?amp;港中文）

angel ? 2883瀏覽 ? 0回復(fù)
Chameleon：使用大型語言模型的即插即用組合推理

AIRoobt ? 3478瀏覽 ? 0回復(fù)
即插即用，效率遠(yuǎn)超ControlNet！賈佳亞團(tuán)隊(duì)重磅開源ControlNeXt：超強(qiáng)圖像視頻生成方法

angel ? 3642瀏覽 ? 0回復(fù)
賈佳亞團(tuán)隊(duì)推出，即插即用，還能控制視頻生成

Crystalcxt ? 2356瀏覽 ? 0回復(fù)
UltraEdit：基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集

angel ? 3467瀏覽 ? 0回復(fù)
字節(jié)跳動發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 4630瀏覽 ? 0回復(fù)
即插即用 | 時間編碼+LSTM+全局注意力

Tang_Lan ? 4667瀏覽 ? 0回復(fù)
騰訊&新加坡國立發(fā)布IFAdapter：即插即用，提升文生圖模型實(shí)例特征和位置生成準(zhǔn)確性

angel ? 3137瀏覽 ? 0回復(fù)
多階段對比學(xué)習(xí)+多專家CLIP實(shí)現(xiàn)細(xì)粒度多模態(tài)表征學(xué)習(xí)

海因斯DK ? 4743瀏覽 ? 0回復(fù)
適用于多圖的多模態(tài)大模型：粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性

海因斯DK ? 3562瀏覽 ? 0回復(fù)
參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動等發(fā)布首個1.58-bit FLUX量化模型

angel ? 3225瀏覽 ? 0回復(fù)
字節(jié)跳動首創(chuàng)無需數(shù)據(jù)，1.58位超低量化自監(jiān)督生成

Aceryt ? 2419瀏覽 ? 0回復(fù)
運(yùn)動應(yīng)用（生成&克隆&遷移&編輯）全搞定！阿里通義提出動畫框架Perception-as-Control

angel ? 2530瀏覽 ? 0回復(fù)
DeepSeek核心架構(gòu)-DeepSeekMoE：細(xì)粒度專家劃分與共享專家隔離技術(shù)的深度解析！

南夏的算法驛站 ? 2799瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

下一篇：完整復(fù)現(xiàn)Sora，Open-Sora最新技術(shù)報(bào)告發(fā)布，提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具

社區(qū)精華內(nèi)容

目錄