偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)生成框架新SOTA:文本+空間+圖像隨意組合,20W+數(shù)據(jù)開源,復(fù)旦騰訊優(yōu)圖出品

人工智能
團(tuán)隊提出了SubjectSpatial200K數(shù)據(jù)集,以彌補(bǔ)當(dāng)前缺少用于訓(xùn)練和測試多條件生成模型的公開數(shù)據(jù)集的不足。團(tuán)隊相信,該研究將推動可控生成領(lǐng)域的發(fā)展。

能處理任意條件組合的新生成框架來了!

復(fù)旦大學(xué)、騰訊優(yōu)圖實驗室等機(jī)構(gòu)的研究人員提出UniCombine,一種基于DiT的多條件可控生成框架,能夠處理包括但不限于文本提示、空間映射和主體圖像在內(nèi)的任意控制條件的任意組合,并保持高度的一致性和出色的和諧性。

具體效果be like:

圖片圖片

據(jù)了解,現(xiàn)有的多條件可控生成框架或是只能處理單一種類的多個條件,或是只適用于某種特定的多類別組合,從而普遍缺乏通用性的多類別+多條件的組合式生成能力。

而在UniCombine這項工作中,團(tuán)隊引入了一種新的Conditional MMDiT注意力機(jī)制,并結(jié)合可訓(xùn)練的LoRA模塊,從而同時提供了training-free和training-based兩種版本。

此外,團(tuán)隊構(gòu)建并開源了首個針對多條件組合式生成任務(wù)設(shè)計的數(shù)據(jù)集SubjectSpatial200K,其中涵蓋了subject-driven和spatially-aligned兩大類控制條件。

UniCombine在4項不同的多條件可控生成任務(wù)上均達(dá)到SOTA,證明了新方法具有卓越的框架通用性和出色的條件一致性。

UniCombine方法

UniCombine框架圖如下:

圖片圖片

(a) 整體框架。團(tuán)隊將基于MMDiT的擴(kuò)散模型視為由文本分支和去噪分支組成。在此基礎(chǔ)上,UniCombine引入了多個條件分支來處理輸入條件。

(b) UniCombine的單條件設(shè)置。該設(shè)置等價于OminiControl,即在單條件設(shè)置下,OminiControl是UniCombine框架的特例。

(c) UniCombine的多條件設(shè)置。團(tuán)隊提出的LoRA Switching模塊可根據(jù)條件類型自適應(yīng)激活去噪分支權(quán)重上的預(yù)訓(xùn)練Condition-LoRA模塊。此外,團(tuán)隊引入了Conditional MMDiT Attention機(jī)制,以替換原始MMDiT Attention 機(jī)制,從而處理統(tǒng)一的多條件輸入序列。是否加載可選的Denoising-LoRA模塊是無訓(xùn)練版本和基于訓(xùn)練版本的區(qū)別。

SubjectSpatial200K數(shù)據(jù)集

圖片圖片

團(tuán)隊的SubjectSpatial200K數(shù)據(jù)集旨在填補(bǔ)當(dāng)前多條件生成任務(wù)中缺少公開可用數(shù)據(jù)集的空白?,F(xiàn)有數(shù)據(jù)集未能同時包含主體驅(qū)動和空間對齊的標(biāo)注。

最近,Subjects200K數(shù)據(jù)集提供了一個面向主體驅(qū)動生成的公開數(shù)據(jù)集。

在此基礎(chǔ)上,團(tuán)隊構(gòu)建了SubjectSpatial200K數(shù)據(jù)集,這是一個高質(zhì)量的統(tǒng)一數(shù)據(jù)集,專為訓(xùn)練和測試多條件可控生成模型設(shè)計。該數(shù)據(jù)集包含全面的標(biāo)注,包括豐富的Subject Grounding Annotation和Spatial Map Annotation。數(shù)據(jù)集的構(gòu)建流程見圖。

實驗結(jié)果

(1)對比實驗

圖片圖片

(2)消融實驗:CMMDiT與MMDiT

圖片圖片

(3)消融實驗:Denoising LoRA與Text-LoRA

圖片圖片

(4)消融實驗:DSB+SSB聯(lián)合訓(xùn)練與DSB單獨訓(xùn)練

圖片圖片

(5)算力開銷分析

圖片

整體而言,研究人員提出了UniCombine,這是一個基于DiT的多條件可控生成框架,能夠處理任意條件組合,包括但不限于文本提示、空間映射和主體圖像。

在主體插入、主體-空間以及多空間等條件生成任務(wù)上的大量實驗表明,無論是無訓(xùn)練還是基于訓(xùn)練的版本,UniCombine都達(dá)到了最先進(jìn)的性能。

此外,團(tuán)隊提出了SubjectSpatial200K數(shù)據(jù)集,以彌補(bǔ)當(dāng)前缺少用于訓(xùn)練和測試多條件生成模型的公開數(shù)據(jù)集的不足。團(tuán)隊相信,該研究將推動可控生成領(lǐng)域的發(fā)展。

論文鏈接:https://arxiv.org/pdf/2503.09277
開源代碼:https://github.com/Xuan-World/UniCombine

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-12-04 09:15:00

AI模型

2025-04-28 14:13:43

開源SOTA多模態(tài)

2024-08-14 14:30:00

AI訓(xùn)練

2024-08-21 10:04:14

2024-03-25 12:40:19

訓(xùn)練模型

2025-01-07 09:11:07

2025-05-08 09:31:50

2023-10-07 09:29:09

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-06-17 02:25:00

工業(yè)異常檢測

2022-12-05 10:08:59

2024-06-28 18:18:22

2024-12-18 09:34:13

2024-03-04 12:32:20

模型訓(xùn)練

2024-04-01 07:25:00

AI框架

2023-12-08 14:14:00

模型訓(xùn)練

2018-10-19 12:16:06

開源技術(shù) 數(shù)據(jù)

2025-04-22 09:22:00

模型檢測AI

2018-09-10 15:02:51

開源技術(shù) 數(shù)據(jù)

2024-02-19 00:09:49

開源模型
點贊
收藏

51CTO技術(shù)棧公眾號