偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大

發(fā)布于 2024-12-25 09:21
瀏覽
0收藏

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.17098
Github鏈接:https://zj-binxia.github.io/DreamOmni-ProjectPage/

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

亮點(diǎn)直擊

  • 對(duì)現(xiàn)有的模型框架進(jìn)行了分析,并基于不同任務(wù)的特點(diǎn),提出了一種高效且強(qiáng)大的統(tǒng)一圖像生成與編輯框架——DreamOmni。
  • 引入了一種合成拼貼數(shù)據(jù)pipeline,用以解決當(dāng)前創(chuàng)建和篩選高質(zhì)量編輯數(shù)據(jù)的低效性和困難。此外,還利用該合成拼貼數(shù)據(jù)pipeline來提高T2I模型輸出的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,合成數(shù)據(jù)是一種高效、優(yōu)質(zhì)且具有成本效益的方法,能夠擴(kuò)展數(shù)據(jù)規(guī)模,進(jìn)而實(shí)現(xiàn)統(tǒng)一的圖像生成與編輯訓(xùn)練。
  • 經(jīng)過統(tǒng)一訓(xùn)練后,結(jié)合T2I數(shù)據(jù)和多種合成數(shù)據(jù)集,DreamOmni展示了具有競(jìng)爭(zhēng)力的T2I生成能力,并在一系列編輯任務(wù)中表現(xiàn)出色。

總結(jié)速覽

解決的問題

文生圖遇到了一些挑戰(zhàn):

  • 將這些模型適應(yīng)到下游應(yīng)用通常需要以不同的方式集成各種插件(如ControlNet和IP-adapter),或擴(kuò)展輸入通道(例如,SD-inpainting 、InstructP2P)。這種對(duì)專門化框架的依賴限制了多任務(wù)泛化能力,并增加了部署的復(fù)雜性。
  • 高質(zhì)量和準(zhǔn)確的編輯數(shù)據(jù)難以獲得,包括基于指令的編輯、拖拽編輯和主題驅(qū)動(dòng)的生成數(shù)據(jù)。

提出的方案

  • 提出將T2I模型與多種編輯任務(wù)(如基于指令的編輯、圖像修復(fù)與擴(kuò)展、拖拽編輯以及參考圖像生成)統(tǒng)一到一個(gè)框架中。
  • 引入了一個(gè)高效的合成數(shù)據(jù)pipeline,用于高效且準(zhǔn)確地構(gòu)建編輯數(shù)據(jù),促進(jìn)原生統(tǒng)一生成與編輯模型的訓(xùn)練。

應(yīng)用的技術(shù)

  • DreamOmni:DreamOmni框架支持統(tǒng)一的圖像生成與編輯,具有快速的訓(xùn)練收斂速度和強(qiáng)大的性能。
  • 一種基于拼貼的合成數(shù)據(jù)生成流程。該流程可以高效地生成用于各種編輯任務(wù)的數(shù)據(jù),例如在基于指令的編輯中進(jìn)行添加、刪除和替換操作,在拖拽編輯中進(jìn)行平移、縮放和旋轉(zhuǎn)操作。此外,它還支持參考圖像生成以及分割與檢測(cè)任務(wù)。此外,合成數(shù)據(jù)生成流程提高了T2I(文本到圖像)生成的準(zhǔn)確性,特別是對(duì)于與文本、幾何形狀、顏色、位置和數(shù)量相關(guān)的屬性。

達(dá)到的效果

T2I視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像修復(fù)比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像條件生成比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

主題驅(qū)動(dòng)生成的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

基于指令的編輯的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

拖動(dòng)編輯的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

方法論

多任務(wù)統(tǒng)一化是計(jì)算機(jī)視覺和人工智能領(lǐng)域的一個(gè)趨勢(shì)和追求,它不僅增強(qiáng)了模型的可用性,減少了部署的復(fù)雜性,還能實(shí)現(xiàn)協(xié)同訓(xùn)練,從而促進(jìn)任務(wù)之間的協(xié)同效應(yīng)。然而,目前的T2I基礎(chǔ)模型主要是專門為T2I設(shè)計(jì)的,通常忽視了與其他任務(wù)(如各種圖像編輯任務(wù))整合的潛力。為此,提出了DreamOmni,一個(gè)統(tǒng)一的圖像生成與編輯模型。從三個(gè)方面設(shè)計(jì)并訓(xùn)練了DreamOmni:

  • 在公平的環(huán)境下比較了各種框架,并基于不同任務(wù)的特性設(shè)計(jì)了一個(gè)強(qiáng)大且訓(xùn)練收斂速度快的框架,支持統(tǒng)一的多任務(wù)處理。
  • 提出了一個(gè)便捷、高效且準(zhǔn)確的合成數(shù)據(jù)流程,用于擴(kuò)展數(shù)據(jù)規(guī)模,以促進(jìn)多任務(wù)的統(tǒng)一訓(xùn)練并增強(qiáng)模型的指令跟隨能力。
  • 介紹DreamOmni的訓(xùn)練方案。

T2I和各種編輯任務(wù)的本地統(tǒng)一訓(xùn)練可以防止概念遺忘和生成質(zhì)量下降,同時(shí)增強(qiáng)模型的編輯和提示跟隨能力。

框架

旨在設(shè)計(jì)一個(gè)統(tǒng)一且強(qiáng)大的圖像生成與編輯框架。目前,不同的編輯模型通常有不同的結(jié)構(gòu)設(shè)計(jì)。例如,IP-adapter和 BLIP-Diffusion通過跨注意力注入信息以保持主體的一致性;而InstructP2P通過為模型添加不同數(shù)量的輸入通道來實(shí)現(xiàn)編輯一致性。這些結(jié)構(gòu)是針對(duì)特定任務(wù)量身定制的,缺乏通用性。因此,如下圖2 (a) 所示,將VLM特征與噪聲隱空間變量進(jìn)行拼接,并將其輸入到DIT塊進(jìn)行聯(lián)合多頭自注意力操作。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

之后,VLM特征和噪聲隱空間變量會(huì)通過FeedForward模塊進(jìn)行處理。這使得模型能夠自主學(xué)習(xí)任何層次的特征(從整體一致性到主體一致性)進(jìn)行編輯和生成。值得注意的是,對(duì)于FeedForward模塊,將VLM特征和噪聲隱空間變量分開,通過兩個(gè)不同的FeedForward模塊進(jìn)行處理,且網(wǎng)絡(luò)結(jié)構(gòu)相同。此外,并沒有使用CLIP或 T5作為文本編碼器,而是引入了一個(gè)視覺-語言模型(VLM),使得圖像和文本提示可以共同理解與編碼。


在當(dāng)前的框架設(shè)計(jì)中,一些工作,如DIT,是在標(biāo)簽條件生成下進(jìn)行比較的,而不是T2I。然而,T2I本質(zhì)上比基于標(biāo)簽的生成更為復(fù)雜,因?yàn)樗枰珊屠斫鈴?fù)雜的提示。此外,許多T2I模型,例如SDXL,使用了不同的模型大小、數(shù)據(jù)集和訓(xùn)練設(shè)置。這種差異使得評(píng)估不同模型組件對(duì)整體性能的影響變得具有挑戰(zhàn)性。此外,SDXL在其UNet結(jié)構(gòu)中融合了許多Transformer塊。


那么,為什么DIT能夠超越SDXL呢? 為了解決這個(gè)問題,進(jìn)行了大量的實(shí)驗(yàn),如圖3所示。觀察到DIT優(yōu)于Unet,因?yàn)镈IT將大部分計(jì)算分配到2×下采樣的隱空間變量,而Unet將更多計(jì)算分配到4×下采樣的隱空間變量。由于在1×隱空間變量上的注意力操作會(huì)帶來內(nèi)存負(fù)擔(dān),進(jìn)一步采用殘差卷積塊來細(xì)化1×隱空間變量的生成細(xì)節(jié)。此外,還觀察到,在UNet框架中使用長連接可以顯著加速模型的訓(xùn)練收斂速度,而不會(huì)影響性能。如圖2 (a)所示,將早期和后期的特征沿通道維度進(jìn)行拼接,并應(yīng)用線性層將這兩個(gè)特征合并。值得注意的是,VLM特征和噪聲隱空間變量使用的線性層是不同的。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

合成數(shù)據(jù)

除了統(tǒng)一框架外,還需要大量數(shù)據(jù)來支持聯(lián)合訓(xùn)練。雖然T2I數(shù)據(jù)比較容易獲取,但為像基于指令的編輯任務(wù)創(chuàng)建和篩選準(zhǔn)確、高質(zhì)量的數(shù)據(jù)要復(fù)雜得多。為了解決這一問題,引入了一個(gè)合成拼貼數(shù)據(jù)流程,能夠高效且準(zhǔn)確地生成所需的編輯數(shù)據(jù)。如圖2 (b) 所示,流程涵蓋了六個(gè)任務(wù)。值得注意的是,這并不是合成流程的全部能力;它還能夠處理更復(fù)雜的任務(wù)組合。

  • T2I生成:如圖2 (b)所示,除了常規(guī)的T2I數(shù)據(jù)外,通過結(jié)合合成數(shù)據(jù)進(jìn)一步增強(qiáng)模型在T2I任務(wù)中的表現(xiàn),特別是在文本、形狀、位置、數(shù)量和顏色生成方面。具體來說,對(duì)于文本,在空白畫布上隨機(jī)生成單詞或短語,使用各種字體、顏色、厚度和大小。對(duì)于形狀和數(shù)量,隨機(jī)創(chuàng)建具有不同數(shù)量、顏色和大小的幾何形狀,并將它們排列在畫布上。基于這些屬性及其位置,我們生成準(zhǔn)確的提示,并通過LLM進(jìn)一步優(yōu)化。此外,使用多種貼紙和分割數(shù)據(jù)進(jìn)行合成,將它們放置在畫布上并計(jì)算它們的精確空間關(guān)系。這些提示隨后會(huì)由LLM生成并進(jìn)一步優(yōu)化,以產(chǎn)生更自然的描述。
  • 修復(fù)與擴(kuò)展:隨機(jī)生成用于涂抹、塊狀物和圖像邊緣的mask。值得注意的是,在訓(xùn)練過程中,除了將被遮罩的圖像及其相應(yīng)的mask輸入到VLM進(jìn)行編碼外,還以50%的概率包含圖像描述。
  • 基于指令的編輯:將任務(wù)分為三種操作:添加、刪除和替換。對(duì)于刪除和替換操作,隨機(jī)選擇一個(gè)背景圖像和一個(gè)物體圖像來創(chuàng)建源圖像。在刪除情況下,目標(biāo)圖像僅為背景圖像;對(duì)于替換,目標(biāo)圖像通過將物體替換為不同的物體來生成。值得注意的是,對(duì)于添加,由于需要將添加的物體放置在與背景相對(duì)的合適位置,在本論文中使用了空白背景。
  • 拖動(dòng)編輯:將數(shù)據(jù)分為三種類型:平移、縮放和旋轉(zhuǎn)。值得注意的是,Instadrag 將每一對(duì)拖動(dòng)點(diǎn)視為一張獨(dú)立的圖像,這種方法較為稀疏且由于固定的拖動(dòng)點(diǎn)數(shù)量要求,實(shí)用性較差。因此,使用格式  表示每個(gè)拖動(dòng)點(diǎn),作為提示輸入,其中 和 表示源圖像中拖動(dòng)點(diǎn)的坐標(biāo),dx 和 dy 表示平移向量。此外,我們通過將這些坐標(biāo)除以圖像的寬度或高度來對(duì)其進(jìn)行歸一化。
  • 參考圖像生成:將數(shù)據(jù)分為兩種類型:基于圖像的生成,類似于ControlNet,和基于主體的生成。對(duì)于基于圖像的生成,首先選擇高質(zhì)量的圖像,并創(chuàng)建相應(yīng)的Canny圖、深度圖和分割mask作為訓(xùn)練的源圖像。對(duì)于基于主體的生成,合成源圖像,并隨機(jī)選擇這些圖像中的物體來創(chuàng)建目標(biāo)圖像。模型通過參考源圖像中的特定屬性生成新的內(nèi)容,從而能夠靈活地生成多樣的場(chǎng)景和主體。
  • 分割與檢測(cè):隨機(jī)選擇一個(gè)背景圖像和一個(gè)物體圖像,將它們合成成源圖像。隨后,應(yīng)用顏色操作或在物體區(qū)域畫一個(gè)邊框,基于物體圖像的Alpha通道來獲得目標(biāo)圖像。


總體來說,合成拼貼數(shù)據(jù)流程既高效又精確,能夠輕松生成數(shù)十億種多樣化的編輯圖像。它非常適合用于DreamOmni的大規(guī)模預(yù)訓(xùn)練和微調(diào)。

模型訓(xùn)練

經(jīng)過仔細(xì)考慮,為DreamOmni的DIT模型選擇了2.5B參數(shù)的模型大小。這一大小在確保強(qiáng)大性能的同時(shí),也能保證用戶友好性。對(duì)于VLM編碼器,直接采用了Qwen2-VL 7B模型,基于以下三個(gè)原因:

  • 它支持任意分辨率的圖像輸入;
  • 它提供強(qiáng)大的模型性能;
  • 它是以寬松的開源許可證發(fā)布的。


VLM特征來源于Qwen2-VL的倒數(shù)第二層。此外,使用FLUX-schnell的VAE作為DreamOmni的VAE,它保留了更多的隱空間通道,使模型能夠捕捉更細(xì)致的圖像細(xì)節(jié)。此外,我們使用Rectified Flow優(yōu)化DreamOmni,該方法通過在噪聲和數(shù)據(jù)之間沿直線插值執(zhí)行前向過程。使用損失L對(duì)DreamOmni進(jìn)行訓(xùn)練:

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

其中, 表示在時(shí)間步t的噪聲特征圖。真實(shí)圖像通過VAE編碼到隱空間空間以得到z。這里,表示高斯噪聲,表示DIT模型,是條件信息。

T2I訓(xùn)練數(shù)據(jù)集包括1.25億張圖像,涵蓋了LAION數(shù)據(jù)集(1.03億)和收集的數(shù)據(jù)(2200萬)。這些圖像已通過InternVL2 進(jìn)行了標(biāo)注。對(duì)于合成數(shù)據(jù),如T2I、指令編輯、修復(fù)與擴(kuò)展、拖動(dòng)編輯和參考圖像生成,分別生成了1200萬張圖像,總數(shù)大約為6000萬張。此外,對(duì)于分割與檢測(cè),生成了800萬張圖像。在訓(xùn)練之前,為了提高訓(xùn)練速度,首先將提示編碼為VLM特征。


訓(xùn)練過程分為三個(gè)階段。在第一階段,使用256×256大小的圖像,批次大小為2048,學(xué)習(xí)率為1×10??,進(jìn)行377K次迭代;在第二階段,使用512×512大小的圖像,批次大小為1024,學(xué)習(xí)率為5×10??,進(jìn)行189K次迭代;在最后階段,從12M高質(zhì)量T2I數(shù)據(jù)中隨機(jī)抽取1M張高質(zhì)量圖像,并結(jié)合每種合成數(shù)據(jù)類型,訓(xùn)練1024×1024大小的圖像,批次大小為256,學(xué)習(xí)率為2×10??,進(jìn)行140K次迭代。


所有實(shí)驗(yàn)均在64個(gè)A100 GPU上進(jìn)行。此外,為了使模型能夠生成不同分辨率的圖像,在訓(xùn)練時(shí),類似于SDXL的方法,依據(jù)圖像的縱橫比將圖像分成31個(gè)buckets,縱橫比從4:1到1:4不等。

實(shí)驗(yàn)

框架評(píng)估

在相似的設(shè)置下比較了幾種T2I模型框架,以識(shí)別有效的組成部分。使用相同的VAE、CLIP文本編碼器、參數(shù)、運(yùn)行時(shí)間以及LAION訓(xùn)練/測(cè)試數(shù)據(jù)集,評(píng)估了基于Unet的SDXL、基于DIT的Pixart、SD3-Medium和DreamOmni變體。值得注意的是,如圖3所示,為了便于比較,并沒有使用DreamOmni的全部2.5B參數(shù),而是將所有模型的參數(shù)調(diào)整為0.85B。DreamOmni-V1具有與SDXL相同的兩個(gè)下采樣層(2×和4×),但缺少Unet連接。

DreamOmni-V2在DreamOmni-V1的基礎(chǔ)上增加了Unet連接,而DreamOmni-V3進(jìn)一步集中所有DIT操作于2×下采樣的隱空間空間。

  1. 有Unet連接的模型(如SDXL、DreamOmni-V2、DreamOmni-V3)顯示出比沒有Unet連接的模型(如SD3-Medium、DreamOmni-V1)更快的收斂速度。尤其是,DreamOmni-V3的收斂速度比SD3-Medium快四倍,顯著提升了訓(xùn)練和微調(diào)效率。
  2. 比較DreamOmni-V3和DreamOmni-V2時(shí),發(fā)現(xiàn)將DIT模塊的計(jì)算集中在更高分辨率的隱空間空間(2×)上,更具成本效益。

T2I生成評(píng)估

如表1所示,我們的合成數(shù)據(jù)顯著提升了DreamOmni在T2I生成方面的能力,特別是在數(shù)量、顏色和位置方面,使得我們的模型在GenEval上取得了SOTA結(jié)果。值得注意的是,SD3-Medium 是一個(gè)2B的開源SOTA T2I模型,參數(shù)與我們的DreamOmni相似。此外,圖4展示了定性結(jié)果??梢钥吹?,DreamOmni的輸出不僅視覺上更具吸引力,而且與給定的提示更為一致。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

修復(fù)評(píng)估

將DreamOmni與ControlNet-Inpainting和SD-Inpainting 在我們的高質(zhì)量評(píng)估數(shù)據(jù)集上進(jìn)行了比較,以評(píng)估其性能。定量結(jié)果如表2所示,表明DreamOmni在生成質(zhì)量和一致性方面顯著優(yōu)于ControlNet-Inpainting和SD-Inpainting。視覺結(jié)果(圖5)進(jìn)一步強(qiáng)調(diào)了DreamOmni在生成細(xì)節(jié)方面的優(yōu)勢(shì),超越了ControlNet-Inpainting和SD-Inpainting。此外,DreamOmni在處理大面積掩碼時(shí)非常有效,能夠生成逼真的內(nèi)容,而不是模糊和不一致的輸出。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

參考圖像生成評(píng)估

對(duì)于基于圖像的生成,與ControlNet 在Canny圖、深度圖和分割圖像條件下進(jìn)行了比較。圖6展示了視覺結(jié)果。這些結(jié)果表明,在所有測(cè)試條件下,DreamOmni明顯優(yōu)于ControlNet。方法不僅能更忠實(shí)地遵循圖像條件和提示,還表現(xiàn)出更好的視覺質(zhì)量,具有更好的構(gòu)圖和更豐富的細(xì)節(jié)。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

對(duì)于基于主體的圖像生成,將我們的方法與競(jìng)爭(zhēng)方法(如BLIP-Diffusion和IP-Adapter)進(jìn)行了比較。為了展示DreamOmni強(qiáng)大的泛化能力,在動(dòng)漫和攝影圖像上驗(yàn)證了其性能。圖7展示了視覺結(jié)果。與其他方法相比,我們的DreamOmni不僅能有效保留指定的主體,而且能較好地遵循提示。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

指令編輯評(píng)估

將DreamOmni與MGIE 和InstructP2P 等競(jìng)爭(zhēng)方法進(jìn)行了比較。圖8展示了視覺結(jié)果??梢钥吹?,DreamOmni在添加、刪除和替換操作上表現(xiàn)出更精確的編輯。具體來說,編輯結(jié)果展現(xiàn)出較高的一致性,對(duì)未編輯區(qū)域的變化最小,并且生成的編輯內(nèi)容質(zhì)量較高。這進(jìn)一步驗(yàn)證了我們的合成數(shù)據(jù)pipeline是一種高效且有效的創(chuàng)建基于指令編輯數(shù)據(jù)集的方法,能夠使模型學(xué)習(xí)精準(zhǔn)的指令編輯。此外,合成數(shù)據(jù)pipeline的高效性使得模型能夠輕松擴(kuò)展多樣化的訓(xùn)練數(shù)據(jù)。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

拖動(dòng)編輯評(píng)估

在合成評(píng)估數(shù)據(jù)集上對(duì)DreamOmni進(jìn)行了評(píng)估。下圖9展示了視覺結(jié)果。

  • 與目標(biāo)圖像相比,DreamOmni能夠準(zhǔn)確執(zhí)行平移、旋轉(zhuǎn)和縮放的拖動(dòng)編輯。
  • 對(duì)于平移和縮放,DreamOmni能夠保持拖動(dòng)物體的完整性。然而,大范圍的旋轉(zhuǎn)操作對(duì)DreamOmni來說更具挑戰(zhàn)性,因?yàn)樗婕拔矬w自身的復(fù)雜變換,這可能導(dǎo)致編輯物體的變形。
  • 這些結(jié)果展示了我們的合成數(shù)據(jù)pipeline在拖動(dòng)編輯方面的有效性,通過將拖動(dòng)點(diǎn)位置和位移信息編碼為指令輸入,使得模型能夠?qū)W習(xí)精確的拖動(dòng)編輯(如前面圖2所示)。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

結(jié)論

當(dāng)前的T2I基礎(chǔ)模型缺乏統(tǒng)一的框架和下游任務(wù)訓(xùn)練,如圖像編輯。為了解決這個(gè)問題,介紹了DreamOmni,一種用于T2I生成和編輯的統(tǒng)一模型。在公平設(shè)置下評(píng)估了現(xiàn)有模型的框架,并考慮了不同編輯任務(wù)的具體需求。通過分析,開發(fā)了一個(gè)將T2I與各種編輯任務(wù)集成的框架。此外,訓(xùn)練編輯模型的挑戰(zhàn)之一是創(chuàng)建高質(zhì)量、大規(guī)模的編輯數(shù)據(jù),這通常是低效的。為了解決這個(gè)問題,設(shè)計(jì)了一種合成拼貼數(shù)據(jù)pipeline,能夠高效生成大量精準(zhǔn)、高質(zhì)量的編輯數(shù)據(jù)。此外,該pipeline增強(qiáng)了模型在文本、位置、數(shù)量、顏色和幾何方面的生成準(zhǔn)確性。通過聯(lián)合訓(xùn)練T2I和多任務(wù)合成數(shù)據(jù),開發(fā)了一個(gè)原生的、統(tǒng)一的圖像生成與編輯模型。T2I訓(xùn)練強(qiáng)化了模型對(duì)特定概念的掌握,并提高了生成質(zhì)量,而編輯訓(xùn)練使其能夠處理編輯任務(wù)的需求。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/sLknSiSY1iZ9v7AsO2nFfw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦