字節(jié)提出從單一主題發(fā)展到多主題定制的通用框架UNO,通過情境生成釋放更多可控性
字節(jié)跳動的智能創(chuàng)作團(tuán)隊提出了一個從單一主題發(fā)展到多主題定制的通用框架UNO,從少到多的泛化:通過情境生成釋放更多可控性。能夠?qū)⒉煌娜蝿?wù)統(tǒng)一在一個模型下。在單主題和多主題驅(qū)動的生成中都能實現(xiàn)高度一致性,同時確??煽匦?。
舉一個例子:上傳一張人物,一身衣服,一個包,UNO就可以生成這個人穿著衣服拿著包的效果圖,效果看起來很真實!
相關(guān)鏈接
- 論文:https://arxiv.org/abs/2504.02160
- 主頁:https://bytedance.github.io/UNO/
- 代碼:https://github.com/bytedance/UNO
- ComfyUI:https://github.com/jax-explorer/ComfyUI-UNO
- 試用:https://huggingface.co/spaces/bytedance-research/UNO-FLUX
論文介紹
UNO從少到多的泛化:通過上下文生成釋放更多可控性
盡管由于其廣泛的應(yīng)用,主題驅(qū)動生成已在圖像生成中得到廣泛探索,但它在數(shù)據(jù)可擴(kuò)展性和主題擴(kuò)展性方面仍然存在挑戰(zhàn)。對于第一個挑戰(zhàn),從策劃單主題數(shù)據(jù)集轉(zhuǎn)向多主題數(shù)據(jù)集并對其進(jìn)行擴(kuò)展尤其困難。對于第二個挑戰(zhàn),大多數(shù)最新方法都集中在單主題生成上,這在處理多主題場景時很難應(yīng)用。在本研究中,我們提出了一種高度一致的數(shù)據(jù)合成流程來應(yīng)對這一挑戰(zhàn)。該流程利用擴(kuò)散變壓器固有的上下文生成功能,生成高一致性的多主題配對數(shù)據(jù)。此外,我們引入了UNO,它由漸進(jìn)式跨模態(tài)對齊和通用旋轉(zhuǎn)位置嵌入組成。它是一個由文本到圖像模型迭代訓(xùn)練而成的多圖像條件主題到圖像模型。大量實驗表明,我們的方法可以在確保單主題和多主題驅(qū)動生成的可控性的同時實現(xiàn)高度的一致性。
它是如何工作的?
它為模型引入了兩項關(guān)鍵增強(qiáng)功能:漸進(jìn)式跨模態(tài)對齊和通用旋轉(zhuǎn)位置嵌入(UnoPE)。漸進(jìn)式跨模態(tài)對齊分為兩個階段。在第一階段,我們使用單主體上下文生成的數(shù)據(jù)將預(yù)訓(xùn)練的T2I模型微調(diào)為S2I模型。在第二階段,我們繼續(xù)使用生成的多主體數(shù)據(jù)對進(jìn)行訓(xùn)練。UnoPE可以有效地使UNO具備在縮放視覺主體控件時緩解屬性混淆問題的能力。
泛化能力
與最先進(jìn)的方法的比較
應(yīng)用場景
結(jié)論
本文提出了一種通用定制架構(gòu) UNO,它能夠解鎖擴(kuò)散變換器 (Diffusion Transformer) 的多條件上下文能力。這是通過漸進(jìn)式跨模態(tài)對齊和通用旋轉(zhuǎn)位置嵌入實現(xiàn)的。UNO 的訓(xùn)練分為兩個步驟。第一步使用單幅圖像輸入來激發(fā)擴(kuò)散變換器中的主體到圖像能力。下一步是對多主體數(shù)據(jù)對進(jìn)行進(jìn)一步訓(xùn)練。我們提出的通用旋轉(zhuǎn)位置嵌入也能顯著提高主體相似度。此外還提出了一種漸進(jìn)式合成流程,該流程從單主體生成演進(jìn)到多主體上下文生成。該流程能夠生成高質(zhì)量的合成數(shù)據(jù),有效減少復(fù)制粘貼現(xiàn)象。大量實驗表明,UNO 在單主體和多主體定制中均實現(xiàn)了高質(zhì)量的相似度和可控性。
本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio
