偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA

發(fā)布于 2024-6-27 10:05
瀏覽
0收藏

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2406.09162

git鏈接:https://tencentqqgylab.github.io/EMMA


圖像生成的最新進(jìn)展使得從文本條件創(chuàng)建高質(zhì)量圖像成為可能。然而,當(dāng)面對(duì)多模態(tài)條件(如文本結(jié)合參考外觀)時(shí),現(xiàn)有方法難以有效平衡多種條件,通常表現(xiàn)出對(duì)某一種模態(tài)的偏好。為了解決這一挑戰(zhàn),引入了EMMA,這是一種基于最先進(jìn)的文本到圖像(T2I)擴(kuò)散模型ELLA構(gòu)建的新型圖像生成模型,能夠接受多模態(tài)提示。EMMA通過一種創(chuàng)新的多模態(tài)特征連接器設(shè)計(jì)無縫結(jié)合文本和其他模態(tài)信息,引導(dǎo)圖像生成。該設(shè)計(jì)使用了一種特殊的注意機(jī)制,有效整合了文本和補(bǔ)充模態(tài)信息。


通過凍結(jié)原T2I擴(kuò)散模型中的所有參數(shù),只調(diào)整一些附加層,發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,即預(yù)訓(xùn)練的T2I擴(kuò)散模型實(shí)際上可以接受多模態(tài)提示。這一有趣的特性便于適應(yīng)不同的現(xiàn)有框架,使得EMMA成為一個(gè)靈活有效的工具,用于生成個(gè)性化和情境感知的圖像甚至視頻。此外,本文引入了一種策略來組合已學(xué)習(xí)的EMMA模塊,以同時(shí)生成基于多模態(tài)條件的圖像,消除了需要對(duì)混合多模態(tài)提示進(jìn)行額外訓(xùn)練的需求。大量實(shí)驗(yàn)表明,EMMA在保持生成圖像的高保真度和細(xì)節(jié)方面效果顯著,展示了其作為高級(jí)多模態(tài)條件圖像生成任務(wù)的強(qiáng)大解決方案的潛力。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

主要貢獻(xiàn)如下:

  • 多模態(tài)提示的創(chuàng)新集成機(jī)制:本文引入了EMMA,這是一種開創(chuàng)性的方式,將多模態(tài)提示的特征融合到圖像生成過程中,同時(shí)不影響文本控制。本文的方法顯著增強(qiáng)了圖像生成的靈活性和適用性,能夠?qū)崿F(xiàn)多種模態(tài)之間的協(xié)同交互。這一創(chuàng)新允許在多種輸入條件下生成高質(zhì)量的圖像。
  • 模塊化且高效的模型訓(xùn)練:本文的框架便于根據(jù)不同模態(tài)進(jìn)行模型的模塊化組裝,從而簡(jiǎn)化了流程,在引入新條件時(shí)無需重新訓(xùn)練。這種高效的訓(xùn)練程序節(jié)省了資源,加快了模型適應(yīng)新任務(wù)的速度。
  • 通用兼容性和適應(yīng)性:EMMA作為即插即用模塊,可無需微調(diào)即適用于各種現(xiàn)有和新興的模型,包括各種圖像和視頻生成應(yīng)用。它與Stable Diffusion框架及其他模型的兼容性增強(qiáng)了其在不同領(lǐng)域的實(shí)用性。
  • 穩(wěn)健的性能和細(xì)節(jié)保留:通過實(shí)驗(yàn),確認(rèn)了EMMA模型對(duì)各種控制信號(hào)的穩(wěn)健性,確保在生成圖像時(shí)保留文本和視覺細(xì)節(jié)。模型的架構(gòu)設(shè)計(jì)具有可擴(kuò)展性和靈活性,能夠適應(yīng)廣泛的條件和應(yīng)用,同時(shí)保持高保真度和高質(zhì)量。

方法

模型架構(gòu)

EMMA 的整體流程如下圖2(a)所示。本文的模型條件包括兩個(gè)方面。一是文本特征,另一是自定義圖像特征,例如視覺剪輯特征或面部embedding。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

在 EMMA 中,通過 ELLA提出的 Perceiver Resampler 塊注入文本特征,如上面圖 2(b) 所示。圖像特征通過新提出的模塊 Assemblable Gated Perceiver Resampler 感知,如圖 2 (c) 所示。


具體來說,將EMMA分為三個(gè)主要組件,并詳細(xì)描述它們。


文本編碼器:配備了T5以理解豐富的文本內(nèi)容。先前的研究表明,T5 擅長(zhǎng)提取文本特征,使其非常適合為下游任務(wù)提供文本特征。


圖像生成器:在圖像生成領(lǐng)域,眾多研究人員和從業(yè)者根據(jù)其具體目標(biāo)和數(shù)據(jù)類型微調(diào)了各種模型。研究者們致力于使最終網(wǎng)絡(luò)確保特征的泛化,從而最大限度地利用社區(qū)中常見的高質(zhì)量模型。


多模態(tài)特征連接器:網(wǎng)絡(luò)架構(gòu)如上圖2所示。借鑒 Flamingo和 ELLA 的靈感,連接器由兩個(gè)交替堆疊的網(wǎng)絡(luò)模塊組成:Perceiver Resampler 和 Assemblable Gated Perceiver Resampler。Perceiver Resampler 主要負(fù)責(zé)整合文本信息,而 Assemblable Gated Perceiver Resampler 旨在整合其他信息。這些網(wǎng)絡(luò)模塊使用注意力機(jī)制將多模態(tài)信息同化為可學(xué)習(xí)的token embedding,然后作為條件提供給 U-net。定義這些模塊如下。連接器包含 K 個(gè)可學(xué)習(xí)token,表示為 Latent。時(shí)間embeddings、文本特征和附加條件分別表示為 t、T 和 C。


Perceiver Resampler 塊可以分為兩個(gè)部分。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

這里,TimeAwareAttn 和 TimeAwareFFN 是自定義的注意力和前饋神經(jīng)網(wǎng)絡(luò) (FFN) 模塊,使用 AdaLN 將時(shí)間embedding整合到輸入中。ELLA 已經(jīng)證明了這種方法的優(yōu)勢(shì)。Assemblable Gated Perceiver Resampler 的公式類似。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

在這些方程中,AttnGate 和 FFNGate 是兩組用于調(diào)節(jié)特征整合的門控。它們的定義如下。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

這里,λ 是門控比例,一個(gè)固定的超參數(shù),A 和 F 是全局門控。Linear(L) 是可分離門控。

多條件圖像生成

開發(fā)文本生成圖像能力。通過 ELLA 的訓(xùn)練范式,開發(fā)了一個(gè)具備強(qiáng)大文本生成圖像能力的模型。如圖4 第一行所示,ELLA 可以生成嚴(yán)格遵循指令的圖像,這構(gòu)成了 EMMA 多模態(tài)指導(dǎo)的基礎(chǔ)。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

選擇性模塊化特征訓(xùn)練。為了增強(qiáng)訓(xùn)練過程的穩(wěn)定性和最終性能,在網(wǎng)絡(luò)架構(gòu)中集成了幾個(gè)創(chuàng)新設(shè)計(jì)元素。例如,Perceiver Resampler 和 Assemblable Gated Perceiver Resampler 之間的交替結(jié)構(gòu)旨在限制網(wǎng)絡(luò)中間層的特征空間。這可以防止圖像信息傳遞過多的先驗(yàn)知識(shí),可能會(huì)削弱文本的控制力并破壞最終的生成結(jié)果。Assemblable Gated Perceiver Resampler 包含分離的門控,使得可以將額外的特征整合到幾個(gè)可訓(xùn)練的embedding中。


多條件圖像生成模塊的組裝。在為每個(gè)單獨(dú)的條件建立強(qiáng)大模型之后,設(shè)計(jì)了一種創(chuàng)新方法,使模型能夠整合現(xiàn)有模塊并生成受多個(gè)因素約束的圖像。如圖所示,集成了 Assemblable Gated Perceiver Resampler。無需額外訓(xùn)練,模型可以合成所有輸入條件并生成新穎的輸出。這表明在不依賴預(yù)先存在的訓(xùn)練數(shù)據(jù)集的情況下進(jìn)行圖像生成的潛力。


這個(gè)過程可以用數(shù)學(xué)表達(dá)式表示為:

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

以這種方式,可以在無需進(jìn)一步訓(xùn)練的情況下,將各種條件應(yīng)用于圖像生成過程。

實(shí)驗(yàn)

定量評(píng)估

風(fēng)格條件生成。根據(jù) IP-Adapter的評(píng)估設(shè)置,評(píng)估了所有方法在 COCO 驗(yàn)證集上的 CLIP-T 和 CLIP-I 分?jǐn)?shù)。驗(yàn)證集中有 5000 個(gè)提示。按照 IP-Adapter的描述,為每個(gè)提示生成四張圖像。


肖像生成。研究者們收集了一個(gè)肖像數(shù)據(jù)集,并基于 ActivityNet 驗(yàn)證集構(gòu)建了 20 個(gè)人體動(dòng)作提示。在此基礎(chǔ)上,測(cè)試了各種主體驅(qū)動(dòng)的圖像生成方法的生成能力,并使用 CLIP-T 分?jǐn)?shù)和 DINO 分?jǐn)?shù)指標(biāo)評(píng)估了結(jié)果。結(jié)果如下表 2 所示,本文提出的 EMMA 相較于之前的方法獲得了最高分?jǐn)?shù)。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

可分離門控機(jī)制。如下表 1 所示,比較了在有和沒有分離門控的風(fēng)格條件下訓(xùn)練的 EMMA 模型。帶有分離門控的 EMMA 表現(xiàn)更好,這是因?yàn)檫@種設(shè)計(jì)對(duì)不同的token embedding引入了更細(xì)粒度的控制。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

如圖 5 所示,在特定條件下,不同的tokens 起到不同的作用。沒有分離門控的情況下,生成的結(jié)果很容易受到不相關(guān)token embeddings的影響。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

可視化

不同條件下的肖像創(chuàng)建。展示了各種肖像生成的結(jié)果。如前面圖4 所示,本文的方法在保持關(guān)鍵圖像元素(如衣物)方面表現(xiàn)出色,并且嚴(yán)格遵循文本指令。第一行展示了文本生成圖像的輸出,描繪了一位女性在不同場(chǎng)景中從事各種活動(dòng)。中間行展示了多模態(tài)圖像生成的結(jié)果,附加條件如面部或肖像特征生成了符合給定指令的角色圖像。最后一行展示了復(fù)合條件圖像生成,可以生成既遵循指令又保留一張圖像中的面部特征和另一張圖像中的肖像元素的圖像。


門控值可視化。在本文提出的 EMMA 中,門控設(shè)計(jì)是一個(gè)關(guān)鍵模塊,允許在模型內(nèi)自由組合。該設(shè)計(jì)引入了更多的模型參數(shù),增強(qiáng)了模型的表達(dá)能力。此外,研究者們觀察到不同模型中顯著門控值的tokens 索引分布具有獨(dú)特的模式。tokens 索引分布的這種獨(dú)特模式對(duì)于本文方法的適應(yīng)性至關(guān)重要,能夠?qū)崿F(xiàn)靈活和不受限制的模型集成??梢暬Y(jié)果如上面圖 5 所示。

結(jié)論

本文提出了 EMMA,一種多模態(tài)圖像生成模型,具有革新從多種條件生成圖像方式的潛力。通過獨(dú)特的多模態(tài)特征連接器集成文本和附加模態(tài),EMMA 在圖像生成的真實(shí)度和細(xì)節(jié)上達(dá)到了現(xiàn)有方法無法匹敵的水平。其模塊化設(shè)計(jì)允許輕松適應(yīng)各種框架。此外,EMMA 可以組合現(xiàn)有模塊以同時(shí)生成基于多種模態(tài)條件的圖像,消除了額外訓(xùn)練的需要。EMMA 為個(gè)性化圖像生成提供了高效且適應(yīng)性強(qiáng)的解決方案。


總之,EMMA 在圖像生成方面的創(chuàng)新方法為平衡多種輸入模態(tài)設(shè)立了新的基準(zhǔn)。隨著生成模型領(lǐng)域的不斷發(fā)展,EMMA 有望成為開發(fā)更復(fù)雜和用戶友好技術(shù)的基石,推動(dòng) AI 驅(qū)動(dòng)內(nèi)容創(chuàng)作的下一波創(chuàng)新。


限制。當(dāng)前版本的 EMMA 只能處理英文提示。未來,研究者們將嘗試在支持多語言提示的擴(kuò)散模型中實(shí)現(xiàn)相同的算法。

你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Yucheng Han等


原文鏈接:??https://mp.weixin.qq.com/s/f4-sMrKSctUPc7x84SLtaQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦