偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

字節(jié)開源圖像生成“六邊形戰(zhàn)士”，一個(gè)模型搞定人物/主體/風(fēng)格保持

2025-09-05 09:07:00

人工智能新聞

字節(jié)UXO團(tuán)隊(duì)設(shè)計(jì)并開源了統(tǒng)一框架USO，讓看上去不關(guān)聯(lián)的任務(wù)相互促進(jìn)，實(shí)現(xiàn)風(fēng)格遷移和主體保持單任務(wù)和組合任務(wù)的SOTA。

圖像生成中的多指標(biāo)一致性問題，被字節(jié)團(tuán)隊(duì)解決了！

字節(jié)UXO團(tuán)隊(duì)設(shè)計(jì)并開源了統(tǒng)一框架USO，讓看上去不關(guān)聯(lián)的任務(wù)相互促進(jìn)，實(shí)現(xiàn)風(fēng)格遷移和主體保持單任務(wù)和組合任務(wù)的SOTA。

USO通過單一框架能統(tǒng)一之前那些看似孤立的任務(wù)包括主體、身份保持和風(fēng)格化編輯，參考圖風(fēng)格遷移，同時(shí)保持主體和風(fēng)格參考，甚至更抽象復(fù)雜的多風(fēng)格遷移，是實(shí)打?qū)嵉牧呅螒?zhàn)士。

網(wǎng)友們爭相圍觀，甚至有人直接拿來和當(dāng)前火爆的閉源模型對(duì)比，發(fā)現(xiàn)USO彌補(bǔ)了難以同時(shí)做好主體保持和風(fēng)格遷移的短板。

一個(gè)模型搞定人物/主體/風(fēng)格保持

通過單一模型且僅通過一張參考圖，USO就能搞定你想要的主體、人物或是風(fēng)格。

比如說，以卡通人物為例，讓他在街上駕駛小車：

又比如說，積木風(fēng)格，讓這個(gè)男人在咖啡廳看書：

或者前陣子大火的吉卜力風(fēng)格，也可以通過參考風(fēng)格實(shí)現(xiàn)，比如一個(gè)男孩站在巨大的貓前“

或者抽象的材質(zhì)參考，也能輕松處理，比如生成一個(gè)大廚在炒菜：

那么再大膽點(diǎn)，混合風(fēng)格呢，比如生成一個(gè)男子：

或者同時(shí)參考人物ID和風(fēng)格圖片，然后讓她抱著一只貓呢，可以看到最終結(jié)果在保留ID基礎(chǔ)上完美還原扁平風(fēng)格（設(shè)計(jì)黨狂喜）：

以上種種應(yīng)用場景，USO都能輕松處理，甚至畫面質(zhì)量不輸一些商業(yè)大模型。

為了全面評(píng)估模型性能，團(tuán)隊(duì)首次設(shè)計(jì)了一個(gè)USO-Bench，全面評(píng)估不同任務(wù)類型的性能，分別包括主體驅(qū)動(dòng)，風(fēng)格驅(qū)動(dòng)以及主體風(fēng)格混合驅(qū)動(dòng)生成，并且對(duì)比了一眾最新模型。

最終，UNO在三大任務(wù)上都處于領(lǐng)先水平。

并且研究團(tuán)隊(duì)還進(jìn)行了用戶研究，結(jié)果顯示，USO在所有評(píng)估維度上都獲得了較高評(píng)價(jià)，特別是主體一致性、風(fēng)格一致性和畫面質(zhì)量上表現(xiàn)最為突出。

跨任務(wù)自解耦

USO采用了一種“跨任務(wù)自解耦”的新范式，核心思想是讓模型根據(jù)不同任務(wù)類型學(xué)習(xí)想要包含的特征，從而從根本上增強(qiáng)模型的學(xué)習(xí)能力。

在模型架構(gòu)上，USO以開源模型FLUX.1 dev為基礎(chǔ)，設(shè)計(jì)了風(fēng)格對(duì)齊訓(xùn)練以及內(nèi)容-風(fēng)格解耦訓(xùn)練：

首先將SigLIP提取的多層風(fēng)格特征對(duì)齊到文本空間，使其成為一個(gè)具備風(fēng)格遷移能力的模型；
隨后引入VAE內(nèi)容特征，基于三元組數(shù)據(jù)做風(fēng)格-內(nèi)容解耦訓(xùn)練。

此外研究團(tuán)隊(duì)首次提出了風(fēng)格獎(jiǎng)勵(lì)學(xué)習(xí)（SRL）算法，這是一種為Flow Matching設(shè)計(jì)的帶參考圖的強(qiáng)化學(xué)習(xí)算法。

其獎(jiǎng)勵(lì)函數(shù)來自衡量風(fēng)格一致性的獎(jiǎng)勵(lì)模型數(shù)學(xué)映射，配合預(yù)訓(xùn)練損失監(jiān)督模型訓(xùn)練，最終進(jìn)一步促進(jìn)內(nèi)容和風(fēng)格的解耦。

另外作者也提到，強(qiáng)化學(xué)習(xí)的加入讓模型在別的任務(wù)上也得到了性能提升，進(jìn)一步驗(yàn)證跨任務(wù)對(duì)齊的有效性。

在數(shù)據(jù)方面，團(tuán)隊(duì)構(gòu)建了一套跨任務(wù)數(shù)據(jù)合成框架，創(chuàng)新性地提出同時(shí)構(gòu)建布局改變和布局保留的三元組數(shù)據(jù)。

通過訓(xùn)練UNO模型得到一個(gè)風(fēng)格化和去風(fēng)格化的專家模型，然后利用這兩個(gè)專家模型生成大批量三元組數(shù)據(jù)，最后通過VLM過濾出用于訓(xùn)練USO的數(shù)據(jù)集。

更多細(xì)節(jié)請(qǐng)參考該方法的技術(shù)報(bào)告。

論文地址：https://arxiv.org/abs/2508.18966
項(xiàng)目主頁：https://bytedance.github.io/USO/
代碼倉庫：https://github.com/bytedance/USO
HuggingFace在線demo：https://huggingface.co/spaces/bytedance-research/USO

責(zé)任編輯：張燕妮來源：量子位

AI 圖像生成開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<kbd id="1tifs"><acronym id="1tifs"></acronym></kbd>

<abbr id="1tifs"></abbr>