偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)開源圖像生成“六邊形戰(zhàn)士”,一個(gè)模型搞定人物/主體/風(fēng)格保持

人工智能 新聞
字節(jié)UXO團(tuán)隊(duì)設(shè)計(jì)并開源了統(tǒng)一框架USO,讓看上去不關(guān)聯(lián)的任務(wù)相互促進(jìn),實(shí)現(xiàn)風(fēng)格遷移和主體保持單任務(wù)和組合任務(wù)的SOTA。

圖像生成中的多指標(biāo)一致性問題,被字節(jié)團(tuán)隊(duì)解決了!

字節(jié)UXO團(tuán)隊(duì)設(shè)計(jì)并開源了統(tǒng)一框架USO,讓看上去不關(guān)聯(lián)的任務(wù)相互促進(jìn),實(shí)現(xiàn)風(fēng)格遷移和主體保持單任務(wù)和組合任務(wù)的SOTA。

USO通過單一框架能統(tǒng)一之前那些看似孤立的任務(wù)包括主體、身份保持和風(fēng)格化編輯,參考圖風(fēng)格遷移,同時(shí)保持主體和風(fēng)格參考,甚至更抽象復(fù)雜的多風(fēng)格遷移,是實(shí)打?qū)嵉牧呅螒?zhàn)士。

網(wǎng)友們爭相圍觀,甚至有人直接拿來和當(dāng)前火爆的閉源模型對(duì)比,發(fā)現(xiàn)USO彌補(bǔ)了難以同時(shí)做好主體保持和風(fēng)格遷移的短板。

一個(gè)模型搞定人物/主體/風(fēng)格保持

通過單一模型且僅通過一張參考圖,USO就能搞定你想要的主體、人物或是風(fēng)格。

比如說,以卡通人物為例,讓他在街上駕駛小車:

又比如說,積木風(fēng)格,讓這個(gè)男人在咖啡廳看書:

或者前陣子大火的吉卜力風(fēng)格,也可以通過參考風(fēng)格實(shí)現(xiàn),比如一個(gè)男孩站在巨大的貓前“

或者抽象的材質(zhì)參考,也能輕松處理,比如生成一個(gè)大廚在炒菜:

那么再大膽點(diǎn),混合風(fēng)格呢,比如生成一個(gè)男子:

或者同時(shí)參考人物ID和風(fēng)格圖片,然后讓她抱著一只貓呢,可以看到最終結(jié)果在保留ID基礎(chǔ)上完美還原扁平風(fēng)格(設(shè)計(jì)黨狂喜):

以上種種應(yīng)用場景,USO都能輕松處理,甚至畫面質(zhì)量不輸一些商業(yè)大模型。

為了全面評(píng)估模型性能,團(tuán)隊(duì)首次設(shè)計(jì)了一個(gè)USO-Bench,全面評(píng)估不同任務(wù)類型的性能,分別包括主體驅(qū)動(dòng),風(fēng)格驅(qū)動(dòng)以及主體風(fēng)格混合驅(qū)動(dòng)生成,并且對(duì)比了一眾最新模型。

最終,UNO在三大任務(wù)上都處于領(lǐng)先水平。

并且研究團(tuán)隊(duì)還進(jìn)行了用戶研究,結(jié)果顯示,USO在所有評(píng)估維度上都獲得了較高評(píng)價(jià),特別是主體一致性、風(fēng)格一致性和畫面質(zhì)量上表現(xiàn)最為突出。

跨任務(wù)自解耦

USO采用了一種“跨任務(wù)自解耦”的新范式,核心思想是讓模型根據(jù)不同任務(wù)類型學(xué)習(xí)想要包含的特征,從而從根本上增強(qiáng)模型的學(xué)習(xí)能力。

在模型架構(gòu)上,USO以開源模型FLUX.1 dev為基礎(chǔ),設(shè)計(jì)了風(fēng)格對(duì)齊訓(xùn)練以及內(nèi)容-風(fēng)格解耦訓(xùn)練:

  • 首先將SigLIP提取的多層風(fēng)格特征對(duì)齊到文本空間,使其成為一個(gè)具備風(fēng)格遷移能力的模型;
  • 隨后引入VAE內(nèi)容特征,基于三元組數(shù)據(jù)做風(fēng)格-內(nèi)容解耦訓(xùn)練。

此外研究團(tuán)隊(duì)首次提出了風(fēng)格獎(jiǎng)勵(lì)學(xué)習(xí)(SRL)算法,這是一種為Flow Matching設(shè)計(jì)的帶參考圖的強(qiáng)化學(xué)習(xí)算法。

其獎(jiǎng)勵(lì)函數(shù)來自衡量風(fēng)格一致性的獎(jiǎng)勵(lì)模型數(shù)學(xué)映射,配合預(yù)訓(xùn)練損失監(jiān)督模型訓(xùn)練,最終進(jìn)一步促進(jìn)內(nèi)容和風(fēng)格的解耦。

另外作者也提到,強(qiáng)化學(xué)習(xí)的加入讓模型在別的任務(wù)上也得到了性能提升,進(jìn)一步驗(yàn)證跨任務(wù)對(duì)齊的有效性。

在數(shù)據(jù)方面,團(tuán)隊(duì)構(gòu)建了一套跨任務(wù)數(shù)據(jù)合成框架,創(chuàng)新性地提出同時(shí)構(gòu)建布局改變和布局保留的三元組數(shù)據(jù)。

通過訓(xùn)練UNO模型得到一個(gè)風(fēng)格化和去風(fēng)格化的專家模型,然后利用這兩個(gè)專家模型生成大批量三元組數(shù)據(jù),最后通過VLM過濾出用于訓(xùn)練USO的數(shù)據(jù)集。

更多細(xì)節(jié)請(qǐng)參考該方法的技術(shù)報(bào)告。

論文地址:https://arxiv.org/abs/2508.18966
項(xiàng)目主頁:https://bytedance.github.io/USO/
代碼倉庫:https://github.com/bytedance/USO
HuggingFace在線demo:https://huggingface.co/spaces/bytedance-research/USO

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2017-02-21 17:25:51

架構(gòu)六邊形架構(gòu)數(shù)據(jù)庫

2020-04-02 13:44:57

架構(gòu)Netflix數(shù)據(jù)

2023-10-30 10:12:20

2025-01-17 11:38:10

2025-02-24 07:39:53

2023-08-06 23:31:36

架構(gòu)系統(tǒng)RPC

2019-12-16 08:08:39

六邊形架構(gòu)分層架構(gòu)架構(gòu)

2023-09-08 18:37:34

HarmonyOS

2025-07-30 09:05:00

AI模型訓(xùn)練

2022-12-28 07:48:40

六邊形動(dòng)畫CSS

2023-04-14 08:00:00

架構(gòu)測試開發(fā)

2021-08-29 18:32:18

CSS

2023-12-13 10:06:28

六邊形架構(gòu)系統(tǒng)測試

2017-06-08 10:33:42

軟件開發(fā)前后端架構(gòu)

2023-11-01 07:41:39

六邊形架構(gòu)適配器架構(gòu)

2025-03-03 08:32:00

模型AI訓(xùn)練

2024-04-17 08:06:41

六邊形洋蔥架構(gòu)領(lǐng)域
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)