偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景

發(fā)布于 2024-8-28 09:23
瀏覽
0收藏

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.13858

亮點(diǎn)直擊

  • 定義與標(biāo)準(zhǔn):本文提供了一個(gè)明確的實(shí)驗(yàn)性復(fù)雜場景定義,并引入了復(fù)雜性分解標(biāo)準(zhǔn)(CDC),以有效管理復(fù)雜提示。
  • CxD框架:受藝術(shù)創(chuàng)作過程的啟發(fā),本文提出了一種無需訓(xùn)練的復(fù)雜擴(kuò)散(CxD)框架,將復(fù)雜場景圖像的生成分為三個(gè)階段:構(gòu)圖、繪畫和潤色。
  • 驗(yàn)證與性能:大量實(shí)驗(yàn)表明,CxD能夠生成高質(zhì)量、一致且多樣的復(fù)雜場景圖像,即使在處理復(fù)雜提示時(shí)也表現(xiàn)出色。

總結(jié)速覽

解決的問題

  • 復(fù)雜場景的生成不足:盡管文本生成圖像的擴(kuò)散模型在圖像質(zhì)量上取得了顯著進(jìn)展,但復(fù)雜場景的生成仍然相對未被充分探索。
  • “復(fù)雜場景”定義不明確:關(guān)于“復(fù)雜場景”的具體定義尚不清晰,導(dǎo)致難以有效處理這類生成任務(wù)。

提出的方案

  • 復(fù)雜場景的精確定義:首先對復(fù)雜場景進(jìn)行了精確定義,明確了其構(gòu)成和特點(diǎn)。
  • 復(fù)雜分解標(biāo)準(zhǔn)(CDC)的引入:基于對復(fù)雜場景的定義,提出了一套復(fù)雜分解標(biāo)準(zhǔn)(Complex Decomposition Criteria,CDC),用于管理和處理復(fù)雜提示。
  • 復(fù)雜擴(kuò)散(CxD)框架:提出了一種無訓(xùn)練需求的擴(kuò)散框架——復(fù)雜擴(kuò)散(Complex Diffusion,CxD),將生成過程分為三個(gè)階段:構(gòu)圖、繪畫和潤色。

應(yīng)用的技術(shù)

  • 大語言模型(LLMs)的鏈?zhǔn)剿季S:利用LLMs的強(qiáng)大鏈?zhǔn)剿季S能力,根據(jù)CDC對復(fù)雜提示進(jìn)行分解,管理構(gòu)圖和布局。
  • 注意力調(diào)制方法:開發(fā)了一種注意力調(diào)制方法,將簡單提示引導(dǎo)至特定區(qū)域,以完成復(fù)雜場景的繪畫。
  • 潤色模型:將LLM的詳細(xì)輸出注入到潤色模型中,增強(qiáng)圖像細(xì)節(jié),從而實(shí)現(xiàn)潤色階段。

達(dá)到的效果

  • 生成高質(zhì)量圖像:大量實(shí)驗(yàn)表明,CxD在生成高質(zhì)量、語義一致且視覺上多樣的復(fù)雜場景圖像方面表現(xiàn)優(yōu)異。
  • 顯著提升:即使面對復(fù)雜提示,CxD也表現(xiàn)出顯著的提升,優(yōu)于先前的最先進(jìn)方法(SOTA),在處理復(fù)雜場景的圖像生成任務(wù)中顯示出明顯的優(yōu)勢。

方法:CxD

本節(jié)介紹了無訓(xùn)練需求的框架CxD,該框架模擬了藝術(shù)家的繪畫過程,將復(fù)雜場景的生成分為三個(gè)階段:構(gòu)圖、繪畫和潤色,如下圖3所示。首先,基于復(fù)雜場景提示,在大語言模型(LLMs)中使用鏈?zhǔn)剿季S(Chain-of-Thought,CoT)方法進(jìn)行構(gòu)圖。LLM提取實(shí)體和屬性,對實(shí)體進(jìn)行重新措辭,合并它們,并根據(jù)復(fù)雜分解標(biāo)準(zhǔn)(CDC)劃分背景并分配布局。隨后,CxD在每個(gè)采樣步驟中計(jì)算并結(jié)合復(fù)雜和簡單的交叉注意力圖。最后,將LLM提取的屬性注入ControlNet tile中,以進(jìn)行詳細(xì)潤色。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

使用LLMs進(jìn)行構(gòu)圖與布局生成

實(shí)體提取

在接收到用戶提供的復(fù)雜場景y提示后,利用LLM的高級語言理解和推理能力,從提示中提取實(shí)體E及其對應(yīng)的屬性A。這個(gè)過程可以描述如下:

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

提示的重新措辭
受RPG的啟發(fā),該方法利用LLM對提示進(jìn)行重新措辭并使用鏈?zhǔn)剿季S(CoT)來規(guī)劃區(qū)域劃分。研究者們同樣使用LLM基于提取的實(shí)體E及其對應(yīng)的屬性A,將原始復(fù)雜提示重新措辭為子提示。設(shè)計(jì)這些子提示時(shí),盡可能與原始復(fù)雜提示中的相關(guān)描述保持一致。此過程可以表示為:

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

提示的合并或拆分

在重新措辭后,子提示相比原始的復(fù)雜提示已經(jīng)簡化了很多。然而,無法保證所有的子提示都足夠簡單,以便生成模型處理,因?yàn)槠渲幸恍┛赡苋匀幌鄬?fù)雜。此外,有些子提示本身可能非常簡單,即使將它們組合在一起,整體提示對生成模型來說可能依然相對簡單。為確保圖像生成的質(zhì)量和效率,我們使用LLM根據(jù)復(fù)雜分解標(biāo)準(zhǔn)(CDC)對子提示進(jìn)行合并或拆分。合并或拆分的結(jié)果被記錄為簡單提示。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

布局分配

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

最后,按布局面積大小的降序排列LLM分配的布局,并相應(yīng)地調(diào)整簡單提示的順序。這種方法與藝術(shù)家優(yōu)先關(guān)注主要對象的實(shí)踐一致,并有助于在圖像生成過程中避免較小的對象被較大的對象遮擋。

交叉注意力調(diào)制

如前文分析,擴(kuò)散模型在處理包含超過四個(gè)概念的復(fù)雜場景時(shí)往往效果較差。為了解決這一挑戰(zhàn),對交叉注意力進(jìn)行調(diào)制,以適應(yīng)LLM生成的構(gòu)圖,從而有效處理復(fù)雜場景提示,如下圖4所示。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

提示批處理

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

在調(diào)制結(jié)果后,根據(jù)邊界框的面積,將所有簡單提示的去噪潛變量結(jié)果進(jìn)行拼接,以實(shí)現(xiàn)對位置關(guān)系的控制。未被邊界框覆蓋的區(qū)域則填充背景去噪潛變量的結(jié)果。將這個(gè)過程定義為:

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

其中, w是用于平衡復(fù)雜提示和簡單提示貢獻(xiàn)的權(quán)重。


為了應(yīng)對復(fù)雜場景的挑戰(zhàn),我們將復(fù)雜提示分解為更簡單的提示,以管理概念過載。LLM提供的邊界框幫助為每個(gè)簡單提示創(chuàng)建精確的潛變量表示,確保準(zhǔn)確的位置控制。獨(dú)立生成每個(gè)潛變量可以最小化實(shí)體之間的沖突??傊珻xD有效地解決了與復(fù)雜場景相關(guān)的問題。

使用ControlNet-tile模型進(jìn)行潤色

本文的方法有效地生成了符合復(fù)雜提示描述的圖像。然而,當(dāng)實(shí)體和屬性的數(shù)量超出預(yù)訓(xùn)練擴(kuò)散模型的能力時(shí),可能會(huì)丟失或模糊一些與復(fù)雜提示無關(guān)的局部細(xì)節(jié)。為了解決這一問題,使用潤色模型來精細(xì)化結(jié)果,類似于藝術(shù)家在畫作上進(jìn)行的最后潤色。將LLM提取的實(shí)體和屬性作為細(xì)節(jié)提供給ControlNet 擴(kuò)展——ControlNet-tile模型,該模型通過修正缺陷和添加新細(xì)節(jié)來增強(qiáng)圖像。應(yīng)用ControlNet-tile后,圖像保持原有的語義,但在細(xì)節(jié)和紋理上獲得了更高的清晰度。因此,我們通過構(gòu)圖、繪畫和潤色三個(gè)階段完成了復(fù)雜場景圖像的創(chuàng)建,這與藝術(shù)家的創(chuàng)作過程類似。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

對于CxD框架,使用了開源的LLaMA-2 13B版本作為大語言模型(LLM),并使用了Stable Diffusion XL版本作為預(yù)訓(xùn)練擴(kuò)散模型。然而,CxD被設(shè)計(jì)為一個(gè)通用且可擴(kuò)展的框架,能夠集成各種LLM架構(gòu)。所有實(shí)驗(yàn)均在NVIDIA RTX 3090 GPU上進(jìn)行。使用CxD生成復(fù)雜場景圖像大約需要2分鐘,包括處理復(fù)雜提示所需的時(shí)間。我們精心設(shè)計(jì)了任務(wù)感知模板和高質(zhì)量的上下文示例,以有效利用LLM的鏈?zhǔn)剿季S(CoT)能力。

質(zhì)量評估

評估了CxD在各種復(fù)雜性指標(biāo)下的表現(xiàn),包括概念數(shù)量、空間位置和沖突關(guān)系。下圖1展示了SD XL模型和CxD的結(jié)果對比。頂部一行顯示,SD XL在處理包含五個(gè)實(shí)體和屬性的提示時(shí),面臨著高復(fù)雜性的挑戰(zhàn),包括空間定位的失真和不準(zhǔn)確,同時(shí)也往往忽視實(shí)體之間的沖突。相比之下,CxD能夠有效管理高復(fù)雜度、精確的空間安排和沖突實(shí)體,生成了一致和諧、視覺上令人愉悅的圖像。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

將CxD與之前的最先進(jìn)文本到圖像模型進(jìn)行比較,包括SDXL、LDM+ 、DALLE-3 和RPG。LDM+ 和 RPG 利用LLM進(jìn)行構(gòu)圖輔助。如下圖5所示,SDXL 和 LDM+ 在處理復(fù)雜提示時(shí)表現(xiàn)不佳,生成的圖像未能完全滿足提示要求。雖然 DALLE-3 和 RPG 能夠有效捕捉整體內(nèi)容,但在復(fù)雜提示的局部細(xì)節(jié)上有時(shí)會(huì)有所遺漏(例如圖5中的紅色部分)。相比之下,CxD將復(fù)雜提示分解為簡單提示,確保沒有遺漏任何實(shí)體或?qū)傩?。因此,CxD 在管理整體語義和局部細(xì)節(jié)方面表現(xiàn)出色,顯示出其在處理復(fù)雜場景方面的有效性。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

定量實(shí)驗(yàn)

使用 T2I-Compbench 基準(zhǔn)對 CxD 模型與之前的最先進(jìn)文本到圖像模型進(jìn)行了比較。如下表1所示,CxD 模型在通用文本到圖像生成和復(fù)雜生成任務(wù)中均優(yōu)于所有其他模型,其中 RPG 排名第二。這突顯了該方法在處理復(fù)雜場景生成任務(wù)中的優(yōu)越性。本文的模型在大多數(shù)任務(wù)中設(shè)立了新的最先進(jìn)基準(zhǔn),特別是在對象關(guān)系和復(fù)雜場景方面表現(xiàn)突出,顯著優(yōu)于第二名的方法。這一卓越表現(xiàn)歸功于我們提出的復(fù)雜分解標(biāo)準(zhǔn)(CDC)與這些任務(wù)的強(qiáng)對齊,展示了該方法在解決復(fù)雜場景生成問題中的優(yōu)越性。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

消融研究

對CxD框架的各個(gè)組件進(jìn)行了評估:(a) 復(fù)雜提示潛變量,(b) 背景提示潛變量,(c) 注意力增強(qiáng)調(diào)制,和(d) 圖像潤色,如下圖6所示。第一列展示了沒有復(fù)雜提示潛變量的圖像,結(jié)果為不連貫和不一致的輸出。第二列缺少背景提示潛變量,顯示的背景不符合提示要求。第三列未進(jìn)行注意力增強(qiáng)調(diào)制,結(jié)果是實(shí)體被遮擋。第四列缺少修改,生成的圖像由于實(shí)體過多而細(xì)節(jié)模糊。最后一列展示了CxD框架的輸出,保持了語義并增強(qiáng)了細(xì)節(jié),突顯了CxD每個(gè)組件在生成復(fù)雜場景中的重要性。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴(kuò)散模型生成復(fù)雜場景-AI.x社區(qū)

結(jié)論

CxD,一種無訓(xùn)練需求的擴(kuò)散框架,旨在解決復(fù)雜場景生成的挑戰(zhàn)。本文精確定義了“復(fù)雜場景”,并提供了一套復(fù)雜分解標(biāo)準(zhǔn)(CDC),以幫助人類和大語言模型(LLMs)有效處理復(fù)雜場景提示。CxD框架將生成過程分為三個(gè)階段——構(gòu)圖、繪畫和潤色——模擬傳統(tǒng)藝術(shù)家的繪畫方法。實(shí)驗(yàn)結(jié)果表明,CxD 在生成復(fù)雜場景方面表現(xiàn)良好。未來的工作將集中在集成額外的模態(tài)數(shù)據(jù)作為輸入條件,以進(jìn)一步增強(qiáng)可控性。


本文轉(zhuǎn)自 AI生成未來 ,作者:Minghao Liu等


原文鏈接:??https://mp.weixin.qq.com/s/CFL1QH4Lt222PLqKE7Gvyw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦