字節(jié)開源圖像生成“六邊形戰(zhàn)士”,一個(gè)模型搞定人物/主體/風(fēng)格保持
圖像生成中的多指標(biāo)一致性問題,被字節(jié)團(tuán)隊(duì)解決了!
字節(jié)UXO團(tuán)隊(duì)設(shè)計(jì)并開源了統(tǒng)一框架USO,讓看上去不關(guān)聯(lián)的任務(wù)相互促進(jìn),實(shí)現(xiàn)風(fēng)格遷移和主體保持單任務(wù)和組合任務(wù)的SOTA。
USO通過單一框架能統(tǒng)一之前那些看似孤立的任務(wù)包括主體、身份保持和風(fēng)格化編輯,參考圖風(fēng)格遷移,同時(shí)保持主體和風(fēng)格參考,甚至更抽象復(fù)雜的多風(fēng)格遷移,是實(shí)打?qū)嵉牧呅螒?zhàn)士。

網(wǎng)友們爭相圍觀,甚至有人直接拿來和當(dāng)前火爆的閉源模型對(duì)比,發(fā)現(xiàn)USO彌補(bǔ)了難以同時(shí)做好主體保持和風(fēng)格遷移的短板。

一個(gè)模型搞定人物/主體/風(fēng)格保持
通過單一模型且僅通過一張參考圖,USO就能搞定你想要的主體、人物或是風(fēng)格。
比如說,以卡通人物為例,讓他在街上駕駛小車:

又比如說,積木風(fēng)格,讓這個(gè)男人在咖啡廳看書:

或者前陣子大火的吉卜力風(fēng)格,也可以通過參考風(fēng)格實(shí)現(xiàn),比如一個(gè)男孩站在巨大的貓前“

或者抽象的材質(zhì)參考,也能輕松處理,比如生成一個(gè)大廚在炒菜:

那么再大膽點(diǎn),混合風(fēng)格呢,比如生成一個(gè)男子:

或者同時(shí)參考人物ID和風(fēng)格圖片,然后讓她抱著一只貓呢,可以看到最終結(jié)果在保留ID基礎(chǔ)上完美還原扁平風(fēng)格(設(shè)計(jì)黨狂喜):

以上種種應(yīng)用場景,USO都能輕松處理,甚至畫面質(zhì)量不輸一些商業(yè)大模型。
為了全面評(píng)估模型性能,團(tuán)隊(duì)首次設(shè)計(jì)了一個(gè)USO-Bench,全面評(píng)估不同任務(wù)類型的性能,分別包括主體驅(qū)動(dòng),風(fēng)格驅(qū)動(dòng)以及主體風(fēng)格混合驅(qū)動(dòng)生成,并且對(duì)比了一眾最新模型。

最終,UNO在三大任務(wù)上都處于領(lǐng)先水平。
并且研究團(tuán)隊(duì)還進(jìn)行了用戶研究,結(jié)果顯示,USO在所有評(píng)估維度上都獲得了較高評(píng)價(jià),特別是主體一致性、風(fēng)格一致性和畫面質(zhì)量上表現(xiàn)最為突出。

跨任務(wù)自解耦
USO采用了一種“跨任務(wù)自解耦”的新范式,核心思想是讓模型根據(jù)不同任務(wù)類型學(xué)習(xí)想要包含的特征,從而從根本上增強(qiáng)模型的學(xué)習(xí)能力。
在模型架構(gòu)上,USO以開源模型FLUX.1 dev為基礎(chǔ),設(shè)計(jì)了風(fēng)格對(duì)齊訓(xùn)練以及內(nèi)容-風(fēng)格解耦訓(xùn)練:
- 首先將SigLIP提取的多層風(fēng)格特征對(duì)齊到文本空間,使其成為一個(gè)具備風(fēng)格遷移能力的模型;
- 隨后引入VAE內(nèi)容特征,基于三元組數(shù)據(jù)做風(fēng)格-內(nèi)容解耦訓(xùn)練。

此外研究團(tuán)隊(duì)首次提出了風(fēng)格獎(jiǎng)勵(lì)學(xué)習(xí)(SRL)算法,這是一種為Flow Matching設(shè)計(jì)的帶參考圖的強(qiáng)化學(xué)習(xí)算法。
其獎(jiǎng)勵(lì)函數(shù)來自衡量風(fēng)格一致性的獎(jiǎng)勵(lì)模型數(shù)學(xué)映射,配合預(yù)訓(xùn)練損失監(jiān)督模型訓(xùn)練,最終進(jìn)一步促進(jìn)內(nèi)容和風(fēng)格的解耦。
另外作者也提到,強(qiáng)化學(xué)習(xí)的加入讓模型在別的任務(wù)上也得到了性能提升,進(jìn)一步驗(yàn)證跨任務(wù)對(duì)齊的有效性。

在數(shù)據(jù)方面,團(tuán)隊(duì)構(gòu)建了一套跨任務(wù)數(shù)據(jù)合成框架,創(chuàng)新性地提出同時(shí)構(gòu)建布局改變和布局保留的三元組數(shù)據(jù)。
通過訓(xùn)練UNO模型得到一個(gè)風(fēng)格化和去風(fēng)格化的專家模型,然后利用這兩個(gè)專家模型生成大批量三元組數(shù)據(jù),最后通過VLM過濾出用于訓(xùn)練USO的數(shù)據(jù)集。

更多細(xì)節(jié)請(qǐng)參考該方法的技術(shù)報(bào)告。
論文地址:https://arxiv.org/abs/2508.18966
項(xiàng)目主頁:https://bytedance.github.io/USO/
代碼倉庫:https://github.com/bytedance/USO
HuggingFace在線demo:https://huggingface.co/spaces/bytedance-research/USO

































