偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生

發(fā)布于 2025-9-1 08:29
瀏覽
0收藏

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2508.18966 Git鏈接:https://github.com/bytedance/USO 

亮點直擊

  • 概念: 現(xiàn)有的風(fēng)格驅(qū)動和主體驅(qū)動方法僅專注于各自任務(wù)內(nèi)的孤立解耦,忽略了它們之間的潛在互補性,從而導(dǎo)致次優(yōu)的解耦效果。首次提出了一種新穎的跨任務(wù)協(xié)同解耦范式,該范式統(tǒng)一了風(fēng)格驅(qū)動和主體驅(qū)動任務(wù),實現(xiàn)了相互增強,并為兩者帶來了顯著的性能提升。
  • 技術(shù): 引入了USO,一個統(tǒng)一的定制架構(gòu),它結(jié)合了漸進(jìn)式風(fēng)格對齊訓(xùn)練、內(nèi)容-風(fēng)格解耦訓(xùn)練以及風(fēng)格獎勵學(xué)習(xí)范式,以進(jìn)一步促進(jìn)跨任務(wù)解耦。發(fā)布了USO-Bench,第一個為評估跨任務(wù)定制而量身定制的基準(zhǔn)。
  • 表現(xiàn): 廣泛評估表明,USO在主體驅(qū)動、風(fēng)格驅(qū)動以及聯(lián)合風(fēng)格-主體驅(qū)動任務(wù)上均取得了SOTA,獲得了最高的CLIP-T、DINO和CSD分?jǐn)?shù)。

USO能夠處理單個任務(wù)及其自由組合,同時在主體一致性、風(fēng)格保真度和文本可控性方面表現(xiàn)出卓越的性能,如圖1所示。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

總結(jié)速覽

解決的問題

任務(wù)割裂問題: 現(xiàn)有文獻(xiàn)通常將風(fēng)格驅(qū)動生成(追求風(fēng)格相似性)和主體驅(qū)動生成(追求主體一致性)視為兩個獨立甚至對立的任務(wù),缺乏統(tǒng)一的框架。特征解耦不充分: 視覺參考圖像本身包含豐富且混雜的特征(如風(fēng)格、外觀主體),而現(xiàn)有方法主要在單一任務(wù)背景下進(jìn)行特征解耦,未能充分利用不同任務(wù)之間的互補性來更精確地分離相關(guān)與無關(guān)特征。評估基準(zhǔn)缺失: 缺乏能夠同時、綜合評估生成圖像風(fēng)格相似度和主體保真度的基準(zhǔn)(Benchmark)。

提出的方案

USO框架(Unified Style-Subject Optimized customization model): 一個統(tǒng)一的風(fēng)格-主體優(yōu)化定制模型,旨在通過一個框架同時解決風(fēng)格化和主體定制兩個任務(wù)。跨任務(wù)協(xié)同解耦范式(Cross-task co-disentanglement paradigm): 核心思想是聯(lián)合建模風(fēng)格驅(qū)動和主體驅(qū)動這兩個互補任務(wù),讓它們相互促進(jìn)。例如,主體驅(qū)動任務(wù)學(xué)習(xí)“包含”主體特征的能力,可以幫助風(fēng)格驅(qū)動任務(wù)更好地學(xué)習(xí)“排除”這些主體特征,反之亦然,從而實現(xiàn)更精確的特征分離。具體實現(xiàn)路徑:

  • “主體為風(fēng)格”數(shù)據(jù)構(gòu)建框架 (Subject-for-style):利用先進(jìn)的主體模型生成高質(zhì)量的風(fēng)格化數(shù)據(jù),構(gòu)建大規(guī)模的三元組數(shù)據(jù)集??<風(fēng)格參考圖, 去風(fēng)格化的主體參考圖, 風(fēng)格化主體結(jié)果圖>??。
  • “風(fēng)格為主體”模型訓(xùn)練框架 (Style-for-subject):在風(fēng)格獎勵和解耦訓(xùn)練的指導(dǎo)下,訓(xùn)練一個更有效的統(tǒng)一模型(USO)。

應(yīng)用的技術(shù)

大規(guī)模三元組數(shù)據(jù)集構(gòu)建: 創(chuàng)建了包含內(nèi)容圖、風(fēng)格圖及其對應(yīng)風(fēng)格化內(nèi)容圖的大規(guī)模數(shù)據(jù)集,為模型訓(xùn)練提供數(shù)據(jù)基礎(chǔ)。解耦學(xué)習(xí)方案 (Disentangled learning scheme): 通過兩個互補的訓(xùn)練目標(biāo)同時進(jìn)行特征對齊和解耦:風(fēng)格對齊訓(xùn)練 (Style-alignment training): 對齊風(fēng)格特征。內(nèi)容-風(fēng)格解耦訓(xùn)練 (Content-style disentanglement training): 將內(nèi)容從風(fēng)格中分離出來。

  • 風(fēng)格獎勵學(xué)習(xí)范式 (Style Reward-Learning, SRL):引入獎勵學(xué)習(xí)機制來進(jìn)一步增強模型的風(fēng)格化性能。
  • USO-Bench 評估基準(zhǔn):發(fā)布了首個能夠聯(lián)合評估風(fēng)格相似性和主體保真度的多指標(biāo)基準(zhǔn),用于全面衡量模型性能。

達(dá)到的效果

實現(xiàn)了風(fēng)格與主體的統(tǒng)一: 成功地將風(fēng)格驅(qū)動和主體驅(qū)動生成任務(wù)統(tǒng)一到一個單一的框架中。取得了先進(jìn)的性能: 大量實驗表明,USO模型在主體一致性風(fēng)格相似性兩個維度上均達(dá)到了開源模型中的最先進(jìn)(SOTA)性能提供了首個聯(lián)合評估基準(zhǔn): 發(fā)布的USO-Bench填補了該領(lǐng)域聯(lián)合評估基準(zhǔn)的空白,為后續(xù)研究提供了可靠的評估工具。

方法

跨任務(wù)三元組構(gòu)建框架

下面詳細(xì)介紹為USO訓(xùn)練構(gòu)建跨任務(wù)三元組的過程。盡管先前的工作已經(jīng)探索了三元組的生成,但它們保留了原始布局,阻止了對主體進(jìn)行任何姿態(tài)或空間上的重新排列。為了共同實現(xiàn)超越簡單基于指令編輯的主體驅(qū)動和風(fēng)格驅(qū)動生成,本文策劃了一個新的USO數(shù)據(jù)集,專門為實現(xiàn)一統(tǒng)一目標(biāo)而設(shè)計。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

統(tǒng)一定制框架(USO)

下面描述了如何將傳統(tǒng)上被分開處理的兩個任務(wù)——風(fēng)格驅(qū)動生成和主體驅(qū)動生成——統(tǒng)一到單個模型中。每個任務(wù)都要求模型掌握不同的知識:前者強調(diào)風(fēng)格相似性,而后者堅持主體一致性。通過同時精通這兩者,模型自然地將內(nèi)容與風(fēng)格分離開來,這是風(fēng)格驅(qū)動生成長期以來的焦點,這反過來又提高了風(fēng)格化和定制的質(zhì)量。除了在風(fēng)格驅(qū)動生成過程中僅僅保留布局之外,該模型現(xiàn)在可以自由地將任何主體與任何風(fēng)格重新組合。

風(fēng)格對齊訓(xùn)練

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

在此階段,凍結(jié)除分層投影器(Hierarchical Projector)之外的所有參數(shù),使得提取的風(fēng)格特征能夠快速與原生文本分布對齊。因此,預(yù)訓(xùn)練的T2I模型被轉(zhuǎn)換為一個能夠接受風(fēng)格參考圖像作為條件輸入的風(fēng)格化變體。

內(nèi)容-風(fēng)格解耦訓(xùn)練

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

因此,USO可以直接在所提出的三元組數(shù)據(jù)集上處理主體驅(qū)動和風(fēng)格驅(qū)動任務(wù)。 與先前的開源風(fēng)格驅(qū)動方法相比(其中大多數(shù)要么(i)在改變風(fēng)格時 rigidly 保留內(nèi)容布局,要么(ii)通過外部 ControlNet 以犧牲與內(nèi)容圖像的主體一致性為代價來保留布局),USO 消除了這些限制。通過在我們的三元組數(shù)據(jù)上進(jìn)行訓(xùn)練,它可以自由地將內(nèi)容圖像中的主體重新定位到任何場景中,同時以參考圖像的風(fēng)格重新渲染它。

風(fēng)格獎勵學(xué)習(xí)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

最終目標(biāo)結(jié)合了兩種損失:

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

如算法1所示,展示了詳細(xì)的SRL算法。整個過程包括無梯度推斷和隨后的獎勵反向傳播步驟。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

實驗

實驗設(shè)置

USO統(tǒng)一基準(zhǔn)

為了實現(xiàn)全面評估,本文引入了USO-Bench,這是一個統(tǒng)一的基準(zhǔn)測試集,由50張內(nèi)容圖像(20張以人為中心,30張以物體為中心)與50張風(fēng)格參考圖像配對組成。進(jìn)一步精心設(shè)計了30個涵蓋姿態(tài)變化、描述性風(fēng)格化和指導(dǎo)性風(fēng)格化的主體驅(qū)動提示詞,以及30個風(fēng)格驅(qū)動提示詞。對于主體驅(qū)動和風(fēng)格驅(qū)動任務(wù),每個提示詞生成四張圖像,對于組合的風(fēng)格-主體驅(qū)動任務(wù),每個提示詞生成一張圖像。這為主體驅(qū)動生成產(chǎn)生了6000個樣本,為風(fēng)格驅(qū)動生成產(chǎn)生了個7040樣本,為組合任務(wù)產(chǎn)生了29500個樣本;完整的構(gòu)建細(xì)節(jié)在補充材料中提供。


評估指標(biāo)

為了進(jìn)行定量評估,從三個維度評估每個任務(wù):(1) 主體一致性,通過遵循[34]的CLIP-I和DINO嵌入的余弦相似度來衡量;(2) 風(fēng)格相似性,對于風(fēng)格驅(qū)動和風(fēng)格-主體驅(qū)動生成,通過遵循[37]的CSD分?jǐn)?shù)來報告;(3) 文本-圖像對齊,使用CLIP-T在所有三個任務(wù)中進(jìn)行評估。


對比方法

作為一個統(tǒng)一的定制框架,USO與特定任務(wù)和統(tǒng)一的基線方法進(jìn)行了比較評估。對于主體驅(qū)動生成,將RealCustom++、RealGeneral、UNO、OmniGen2、BAGEL 、FLUX.1 Kontext dev 和 Qwen-Image Edit作為基準(zhǔn)。對于風(fēng)格驅(qū)動生成,比較了StyleStudio、DreamO、CSGO、InstantStyle 和 DEADiff。對于具有雙重條件的聯(lián)合風(fēng)格-主體驅(qū)動設(shè)置,比較了OmniStyle 和 StyleID。本文還與InfiniteYou進(jìn)行了比較,以進(jìn)一步證明本文提出的方法對身份任務(wù)的積極影響。

實驗結(jié)果

主體驅(qū)動生成

如下圖5所示,前兩列表明USO同時滿足描述性和指導(dǎo)性的風(fēng)格編輯,同時保持高度的主體一致性。相比之下,競爭方法要么無法應(yīng)用風(fēng)格,要么丟失了主體。最后兩列進(jìn)一步說明了USO在保留人物外觀和身份方面的優(yōu)勢;它嚴(yán)格遵循文本提示,并幾乎完美地保留了面部和身體特征,而其他方法則有所不足。當(dāng)提示為“The man is reading a book in a cafe”時,F(xiàn)LUX.1 Kontext dev實現(xiàn)了不錯的面部相似性,但存在復(fù)制粘貼的風(fēng)險。在下圖7中,我們與特定任務(wù)的身份保持方法進(jìn)行了比較;USO產(chǎn)生了更真實、非塑料感的結(jié)果,具有更高的身份一致性。如表1所示,USO顯著優(yōu)于先前的工作,取得了最高的DINO和CLIP-I分?jǐn)?shù),以及領(lǐng)先的CLIP-T分?jǐn)?shù)。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格驅(qū)動生成

下圖6顯示,USO在保留原始風(fēng)格(包括全局調(diào)色板和繪畫筆觸)方面優(yōu)于特定任務(wù)的基線方法。在最后兩列中,給定高度抽象的參考(如材質(zhì)紋理或皮克斯風(fēng)格渲染),USO幾乎完美地處理了它們,而先前的方法則很吃力,這證明了本文跨任務(wù)協(xié)同解耦的泛化能力。定量上,下表1證實USO在所有風(fēng)格驅(qū)動方法中取得了最高的CSD和CLIP-T分?jǐn)?shù)。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格-主體雙驅(qū)動生成

如下圖8所示,在布局保持和布局變換兩種場景下評估了USO。當(dāng)輸入提示為空時,USO不僅保留了內(nèi)容參考的原始布局,還提供了最強的風(fēng)格遵循度。在最后兩列中,在一個更復(fù)雜的提示下,USO同時保持了主體和身份一致性,匹配了參考風(fēng)格,并與文本對齊,而其他方法明顯落后,僅能遵循文本。下表2證實了這些觀察結(jié)果,顯示USO取得了最高的CSD和CLIP-T分?jǐn)?shù),并大幅優(yōu)于所有基線方法。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

用戶研究

本文進(jìn)一步進(jìn)行了一項在線用戶研究問卷調(diào)查,以比較最先進(jìn)的主體驅(qū)動和風(fēng)格驅(qū)動方法。問卷分發(fā)給領(lǐng)域?qū)<液头菍<?,他們對每個任務(wù)的最佳結(jié)果進(jìn)行了排名。(1) 主體驅(qū)動任務(wù)從文本保真度、視覺吸引力、主體一致性和整體質(zhì)量方面進(jìn)行評估。(2) 風(fēng)格驅(qū)動任務(wù)從文本保真度、視覺吸引力、風(fēng)格相似性和整體質(zhì)量方面進(jìn)行評判。如下圖9所示,本文的USO在兩個任務(wù)上都取得了頂級性能,驗證了我們跨任務(wù)協(xié)同解耦的有效性,并展示了其提供最先進(jìn)結(jié)果的能力。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

消融實驗

風(fēng)格獎勵學(xué)習(xí)(SRL)的效果驗證

對于風(fēng)格驅(qū)動任務(wù):如下圖10所示,最后三列顯示風(fēng)格驅(qū)動和風(fēng)格-主體驅(qū)動任務(wù)的風(fēng)格相似性得到明顯提升;筆觸紋理和繪畫風(fēng)格與參考圖像緊密匹配,證實了我們風(fēng)格獎勵學(xué)習(xí)的有效性。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

對于主體驅(qū)動任務(wù):在圖10的前三列和最后一列中,我們觀察到主體和身份一致性有顯著改善,細(xì)節(jié)更統(tǒng)一,面部相似度更高。

如下表3所示,移除SRL會導(dǎo)致CSD分?jǐn)?shù)急劇下降,同時CLIP-I和CLIP-T分?jǐn)?shù)也出現(xiàn)下降。本文僅依賴風(fēng)格獎勵,并未引入任何特定身份數(shù)據(jù);然而,統(tǒng)一模型在內(nèi)容一致性方面受益。通過增強模型提取和保留所需特征的能力,SRL在所有任務(wù)上都帶來了整體改進(jìn),有力地驗證了本文的動機。除了在主體和身份保真度方面的收益外,還觀察到美學(xué)質(zhì)量(例如VMix中的紋理)有明顯提升,并且塑料偽影顯著減少,這是長期困擾文本到圖像生成的問題。通過SRL訓(xùn)練,模型即使在訓(xùn)練期間未明確針對的任務(wù)中也展現(xiàn)出新興特性。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

風(fēng)格對齊訓(xùn)練(SAT)的效果驗證

移除SAT并改為從頭開始聯(lián)合微調(diào)SigLIP和DiT會降低主體驅(qū)動任務(wù)上的CLIP-T分?jǐn)?shù),并降低風(fēng)格-主體驅(qū)動任務(wù)上的CSD分?jǐn)?shù)(表3)。定性上,下圖11顯示“獵豹”示例的油畫風(fēng)格明顯減弱。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

解耦編碼器(DE)的效果驗證

用單個VAE同時處理風(fēng)格和內(nèi)容圖像來替換解耦編碼器會損害幾乎所有指標(biāo)(表3)。視覺上,“獵豹”恢復(fù)到更逼真的外觀,而男子的身份特征出現(xiàn)明顯丟失(圖11)。

層級投影器的效果驗證

下表4顯示分層投影器產(chǎn)生了最高的CSD分?jǐn)?shù)和領(lǐng)先的CLIP-T分?jǐn)?shù),極大地有利于風(fēng)格對齊訓(xùn)練。

風(fēng)格與主體終于完美融合!字節(jié)USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生-AI.x社區(qū)

結(jié)論

USO,一個能夠進(jìn)行主體驅(qū)動、風(fēng)格驅(qū)動以及聯(lián)合風(fēng)格-主體驅(qū)動生成的統(tǒng)一框架。本文引入了一種跨任務(wù)協(xié)同解耦范式,該范式首先構(gòu)建了一個系統(tǒng)的三元組策劃流程,然后在策劃的三元組上應(yīng)用漸進(jìn)式風(fēng)格對齊和內(nèi)容-風(fēng)格解耦訓(xùn)練。此外,提出了一種風(fēng)格獎勵學(xué)習(xí)范式來進(jìn)一步提升性能。為了全面評估我們的方法,構(gòu)建了USO-Bench,一個為現(xiàn)有方法提供特定任務(wù)和聯(lián)合評估的統(tǒng)一基準(zhǔn)。最后,大量實驗證明USO在主體驅(qū)動、風(fēng)格驅(qū)動及其聯(lián)合風(fēng)格-主體驅(qū)動任務(wù)上設(shè)立了新的最先進(jìn)結(jié)果,展現(xiàn)出卓越的主體一致性、風(fēng)格保真度和文本可控性。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/W-sIQZviE87nwWnk401kSw??

標(biāo)簽
已于2025-9-1 09:49:27修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦