偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)

發(fā)布于 2025-7-18 11:15
瀏覽
0收藏

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2507.11533

Git鏈接:https://github.com/Murray-Wang/CharaConsist

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

在固定背景下生成一致的角色

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

不同背景下一致的角色生成

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

故事生成

亮點(diǎn)直擊

  • 現(xiàn)有的一致性生成方法采用了相對(duì)粗略的任務(wù)設(shè)定,主要關(guān)注于相似角色在不同場(chǎng)景中的過(guò)渡,而缺乏對(duì)角色細(xì)節(jié)和背景環(huán)境的細(xì)粒度一致性。
  • CharaConsist,利用點(diǎn)追蹤和掩碼提取自動(dòng)感知關(guān)鍵特征,從而實(shí)現(xiàn)細(xì)粒度一致性,使其非常適合實(shí)際應(yīng)用場(chǎng)景。
  • CharaConsist是第一個(gè)基于 DiT 模型的無(wú)需訓(xùn)練的一致性文本生成圖像(T2I)方法。它無(wú)需額外訓(xùn)練或附加模塊,能夠高效利用擁有數(shù)十億參數(shù)的大型 DiT 模型。提出的基于 DiT 的點(diǎn)追蹤和掩碼提取技術(shù)也可作為圖像編輯等相關(guān)任務(wù)的有效工具。

總結(jié)速覽

解決的問(wèn)題

  1. 背景一致性差:現(xiàn)有的無(wú)需訓(xùn)練一致性生成方法在背景細(xì)節(jié)上缺乏一致性,限制了其在真實(shí)場(chǎng)景中的應(yīng)用。
  2. 前景角色一致性不足:當(dāng)角色發(fā)生大幅動(dòng)作變化時(shí),角色的身份特征和服飾細(xì)節(jié)容易出現(xiàn)不一致。
  3. 任務(wù)設(shè)定粗略:現(xiàn)有方法對(duì)一致性問(wèn)題的建模較為粗糙,主要關(guān)注角色在不同場(chǎng)景中的相似性,忽視了對(duì)角色細(xì)節(jié)和背景環(huán)境的細(xì)粒度控制。

提出的方案

  • CharaConsist 方法:針對(duì)上述問(wèn)題,提出了一種無(wú)需訓(xùn)練的一致性文本生成圖像方法 ——CharaConsist,專(zhuān)為 DiT(Diffusion Transformer)架構(gòu)設(shè)計(jì)。

應(yīng)用的技術(shù)

  • 點(diǎn)追蹤注意力機(jī)制(Point-Tracking Attention):自動(dòng)感知并跟蹤圖像中的關(guān)鍵點(diǎn),以保持前景角色的身份和細(xì)節(jié)一致性。
  • 自適應(yīng) Token 合并(Adaptive Token Merge):優(yōu)化視覺(jué)信息的表達(dá)與處理,提升整體一致性效果。
  • 前景與背景的解耦控制:分別建模和控制前景角色與背景環(huán)境,實(shí)現(xiàn)更精細(xì)的生成控制。
  • 基于 DiT 的一致性生成:首次將一致性生成方法與 DiT 模型結(jié)合,利用其強(qiáng)大的建模能力,無(wú)需額外訓(xùn)練或附加模塊。

達(dá)到的效果

  • 前景與背景的細(xì)粒度一致性:CharaConsist 能夠在連續(xù)或離散鏡頭中保持角色形象和背景環(huán)境的一致性。
  • 無(wú)需訓(xùn)練即可高效應(yīng)用:方法無(wú)需額外訓(xùn)練,直接適配大規(guī)模 DiT 模型,具備較強(qiáng)的泛化能力和實(shí)用性。
  • 高質(zhì)量視覺(jué)輸出:結(jié)合 DiT 模型的強(qiáng)大生成能力,CharaConsist 可生成高質(zhì)量、視覺(jué)一致性強(qiáng)的圖像序列。
  • 廣泛的實(shí)際應(yīng)用潛力:適用于角色動(dòng)畫(huà)、虛擬人生成、圖像編輯等多種實(shí)際應(yīng)用場(chǎng)景。

方法

首先在簡(jiǎn)要回顧并分析了用于提升一致性的核心技術(shù)——圖像間注意力(inter-image attention),以及基礎(chǔ)模型 FLUX.1 的一些技術(shù)細(xì)節(jié)。然后介紹我們提出的方法 CharaConsist。下圖4展示了本文方法的整體框架及各個(gè)組成部分的示意圖。

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

預(yù)備知識(shí)

圖像間注意力(Inter-image Attention)在以往的工作中,圖像間注意力是一項(xiàng)用于提升一致性的核心技術(shù)。在一批圖像的生成過(guò)程中,圖像間注意力通過(guò)將相鄰圖像的 key 和 value 拼接到每張圖像的自注意力過(guò)程中,從而實(shí)現(xiàn)圖像間的信息共享。該過(guò)程通過(guò)增強(qiáng)圖像之間的關(guān)聯(lián),有助于在生成序列中保持連貫性。

盡管注意力模塊具有全局感受野,直接應(yīng)用圖像間注意力仍難以捕捉保持一致性所需的對(duì)應(yīng)關(guān)系。為了直觀地展示這一點(diǎn),如下圖3所示,使用 UNet 架構(gòu)的 SDXL 和基于 DiT 的 FLUX.1 生成內(nèi)容相似但布局不同的圖像,并計(jì)算其平均圖像間注意力權(quán)重。以查詢點(diǎn)的坐標(biāo)為原點(diǎn),我們將每張圖像劃分為等面積的同心圓環(huán),并計(jì)算每個(gè)圓環(huán)內(nèi)的注意力權(quán)重總和。結(jié)果表明,隨著與查詢點(diǎn)距離的增加,對(duì)應(yīng)區(qū)域的注意力權(quán)重總和顯著下降。

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

這一現(xiàn)象表明模型存在局部性偏置(locality bias),傾向于將更多的注意力權(quán)重分配給空間上更接近的區(qū)域,而非語(yǔ)義上更相關(guān)的區(qū)域。因此,模型難以在布局變化較大的情況下保持一致性,無(wú)法捕捉到距離較遠(yuǎn)但上下文上重要的特征。

如下圖2所示,以往方法中觀察到的不一致性,很大程度上可能源于這種局部性偏置。當(dāng)不同圖像中的角色發(fā)生大幅度動(dòng)作變化或出現(xiàn)在圖像中不同位置時(shí),它們之間的相對(duì)距離可能顯著增加。結(jié)果是,圖像間注意力對(duì)這些遠(yuǎn)距離區(qū)域的響應(yīng)強(qiáng)度較低,難以獲取足夠的信息以保證一致性。

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

本文方法從點(diǎn)追蹤(point tracking)開(kāi)始,并引入多種技術(shù)以緩解位置偏移的影響,從而在不同圖像布局下實(shí)現(xiàn)更穩(wěn)健且一致的表示。

FLUX.1

FLUX.1 是一個(gè)基于 DiT 的隱空間文本生成圖像(T2I)模型,其核心架構(gòu)為多模態(tài) Transformer。它包含兩種類(lèi)型的 Transformer 塊:雙重塊(double block)和單一塊(single block),這兩種塊都以文本和圖像 token 作為輸入。

雖然這兩種塊在結(jié)構(gòu)和參數(shù)分配上有所不同,但其核心機(jī)制保持一致:拼接后的文本和圖像 token 進(jìn)行全局注意力操作。作為一個(gè)無(wú)需訓(xùn)練的方法,我們主要關(guān)注模型內(nèi)部的注意力過(guò)程。因此,忽略這兩種塊之間的結(jié)構(gòu)差異,并將它們的注意力過(guò)程統(tǒng)一表述為如下形式:

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

CharaConsist

Pipeline定義將一致性生成流程分為兩個(gè)部分:身份圖像生成(identity image generation)和幀圖像生成(frame images generation)。身份圖像生成遵循原始的生成過(guò)程,無(wú)需修改,并在特定時(shí)間步從特定層中存儲(chǔ)中間變量,如 key、value 和注意力輸出。幀圖像隨后通過(guò)訪問(wèn)這些存儲(chǔ)的變量與身份圖像實(shí)現(xiàn)一致性。


與以往方法需要并行生成至少 2 到 4 張圖像以獲取身份信息不同,CharaConsist 僅需一張身份圖像。這一優(yōu)勢(shì)主要得益于我們方法中的追蹤機(jī)制,它能夠有效利用單張圖像中的身份信息,從而無(wú)需通過(guò)并行處理進(jìn)行增強(qiáng)。因此,該方法顯著減少了額外的 GPU 內(nèi)存開(kāi)銷(xiāo)。

點(diǎn)匹配(Point Matching)

點(diǎn)匹配的目標(biāo)是為幀圖像中的每個(gè)點(diǎn)在身份圖像中找到語(yǔ)義上對(duì)應(yīng)的點(diǎn),從而指導(dǎo)后續(xù)的注意力和 token 融合過(guò)程。例如,幀圖像中角色的面部特征應(yīng)與身份圖像中的面部特征對(duì)齊。


以往工作 DIFT 表明,可以通過(guò)測(cè)量擴(kuò)散模型中 UNet 在特定時(shí)間步的中間特征之間的相似性來(lái)確定語(yǔ)義對(duì)應(yīng)關(guān)系。然而,這種方法在 FLUX.1 中并不奏效。本文測(cè)試了 FLUX.1 中中間 Transformer 塊和注意力層輸出的余弦相似度。對(duì)于 Transformer 塊的輸出,發(fā)現(xiàn)匹配點(diǎn)始終固定在相同位置,無(wú)法捕捉語(yǔ)義對(duì)應(yīng)關(guān)系。相比之下,對(duì)于注意力層的輸出,匹配點(diǎn)在不同層、時(shí)間步和樣本之間波動(dòng)顯著,導(dǎo)致匹配不穩(wěn)定且不準(zhǔn)確。


盡管不同層之間的匹配關(guān)系差異較大,但相似度分布卻表現(xiàn)出一致的特征?;谶@一觀察,我們對(duì)同一時(shí)間步中不同層的相似度得分進(jìn)行平均,公式如下:

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)


DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

本文僅在文本序列的實(shí)際長(zhǎng)度范圍內(nèi)應(yīng)用 Softmax 操作,以避免圖像鍵和特殊文本鍵 “<s>” 的影響。在這里,我們觀察到與點(diǎn)匹配過(guò)程類(lèi)似的問(wèn)題:每個(gè)詞對(duì)應(yīng)的注意力權(quán)重在不同層之間存在顯著波動(dòng)。為了解決這一問(wèn)題,分別在前景和背景文本序列內(nèi)對(duì)注意力權(quán)重進(jìn)行平均,并在不同層之間也進(jìn)行平均。通過(guò)比較這些平均注意力權(quán)重,我們得出魯棒的前景掩碼,表示為:

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

點(diǎn)追蹤注意力 

在獲得點(diǎn)匹配關(guān)系和前景掩碼之后,引入點(diǎn)追蹤注意力。首先提取幀圖像中的前景 token 索引,以及在身份圖像中匹配的 token 索引:

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

與背景相關(guān)的操作是可選的,取決于用戶是否希望保持背景不變。然后注意力過(guò)程表示為:

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

自適應(yīng) Token 合并

盡管位置嵌入的重新編碼通過(guò)注意力增強(qiáng)了一致性,但由于位置重排,可能會(huì)破壞 token 的局部幾何關(guān)系。此外,部分 token 可能無(wú)法完美匹配,導(dǎo)致信息丟失??紤]到注意力輸出是所有值的加權(quán)和,并攜帶更多全局信息,它有助于彌補(bǔ)此類(lèi)信息丟失。因此,我們引入了自適應(yīng) token 合并,將幀圖像的注意力輸出與身份圖像的注意力輸出進(jìn)行插值。

在此過(guò)程中,首先從身份圖像和幀圖像中提取對(duì)應(yīng)前景圖像 token 的片段注意力輸出。然后根據(jù)點(diǎn)匹配關(guān)系重新排列身份圖像的注意力輸出,并執(zhí)行插值:

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

評(píng)估數(shù)據(jù)集

本工作聚焦于角色和環(huán)境的一致性生成,而現(xiàn)有基準(zhǔn)缺乏適用于該任務(wù)的特征。因此,我們使用 GPT-4 生成了一系列適用于該應(yīng)用場(chǎng)景的 T2I 提示詞。指示 GPT-4 以“[環(huán)境], [角色], [動(dòng)作].”的格式創(chuàng)建多個(gè)提示詞組,組內(nèi)內(nèi)容不同。我們提出了兩個(gè)評(píng)估任務(wù):背景保持和背景切換。在前者中,“[環(huán)境]”和“[角色]”在一組提示中保持一致,而“[動(dòng)作]”變化;在后者中,僅“[角色]”保持不變。每組包含 5-8 個(gè)提示。對(duì)于這兩類(lèi)任務(wù),我們各生成了超過(guò) 200 個(gè) T2I 提示。

對(duì)比方法

對(duì)比方法包括無(wú)需訓(xùn)練的一致性生成方法 StoryDiffusion、ConsiStory,以及依賴訓(xùn)練的身份參考方法 IP-Adapter、PhotoMaker。上述生成的提示詞對(duì)所有方法共享。對(duì)于身份參考方法,首先利用提示中的“[角色]”部分生成角色頭像,然后使用 RetinaFace 裁剪人臉區(qū)域,作為輸入的參考人臉圖像。

評(píng)估指標(biāo)

參考前人工作,引入 CLIP 文本-圖像相似度(CLIP-T)來(lái)衡量圖像與文本提示之間的對(duì)齊程度,以及成對(duì) CLIP 圖像相似度(CLIP-I)來(lái)衡量整圖一致性。為了更好地評(píng)估本工作的特性,我們引入了三個(gè)額外指標(biāo)。首先,引入解耦的 CLIP-I,分別稱(chēng)為 CLIP-I-fg 和 CLIP-I-bg,用于分別評(píng)估前景和背景的一致性。使用 SAM 對(duì)每張生成圖像進(jìn)行前景分割,并分別計(jì)算遮罩前景和遮罩背景圖像的 CLIP 相似度。還引入身份相似度(ID Sim),通過(guò) RetinaFace 和 FaceNet 計(jì)算人臉嵌入相似度,以評(píng)估身份一致性。此外,引入圖像質(zhì)量分?jǐn)?shù)(IQS)和圖像美學(xué)分?jǐn)?shù)(IAS),使用 Q-Align 評(píng)估生成圖像的質(zhì)量。

實(shí)驗(yàn)結(jié)果

定性結(jié)果

在下圖5中,展示了 CharaConsist 及所有對(duì)比方法在背景保持和背景切換任務(wù)上的結(jié)果??梢杂^察到,所有對(duì)比方法在服裝一致性方面存在不同程度的問(wèn)題。在背景保持任務(wù)中,這些方法只能生成相似場(chǎng)景,但無(wú)法保證完全一致。而在背景切換任務(wù)中,這些方法僅關(guān)注前景主體,導(dǎo)致偏離了獨(dú)特的動(dòng)作提示,例如圖5中的“電話”、“卡通人物”以及前面圖2 中的“拍照”都缺失了。此外,我們?cè)趫D6中展示了點(diǎn)和掩碼的結(jié)果,以直觀展示我們點(diǎn)匹配和掩碼提取方法的有效性。更多定性結(jié)果見(jiàn)補(bǔ)充材料。

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

定量結(jié)果

如下表1所示,與一致性生成方法相比,在兩個(gè)評(píng)估任務(wù)中,本文的CharaConsist 在大多數(shù)一致性指標(biāo)上表現(xiàn)更優(yōu),特別是在 CLIP-I-bg 和 ID Sim 上。這些結(jié)果強(qiáng)有力地驗(yàn)證了我們方法在保持角色和場(chǎng)景一致性方面的優(yōu)勢(shì)。唯一的例外是在背景切換任務(wù)中,由于環(huán)境變化,我們方法在整圖 CLIP-I 得分較低是合理的。與身份參考方法相比,CharaConsist 在 CLIP-I-fg 和 CLIP-I-bg 得分上具有顯著優(yōu)勢(shì),表明本文的方法能夠保留角色服裝和背景環(huán)境的細(xì)節(jié)。雖然本文的方法在身份相似度上不如這些方法(這是它們的訓(xùn)練目標(biāo)),但這并不矛盾。作為一種無(wú)需訓(xùn)練的方法,CharaConsist 可以通過(guò)解決服裝和環(huán)境一致性問(wèn)題,補(bǔ)充身份參考生成方法的不足。

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

此外,有一個(gè)問(wèn)題是本文的方法相比其他方法具有較低的 CLIP-T 得分。這在很大程度上可能是由于基礎(chǔ)模型帶來(lái)的領(lǐng)域差異,因?yàn)?FLUX.1 的原始結(jié)果也顯示出較低的 CLIP-T,這在消融實(shí)驗(yàn)和表 2 中有更詳細(xì)的說(shuō)明。

消融實(shí)驗(yàn)

由于本工作基于與基線方法不同的基礎(chǔ)模型,進(jìn)行了消融實(shí)驗(yàn),以分析基礎(chǔ)模型本身以及我們提出的方法的影響。對(duì)于我們的 CharaConsist 和對(duì)比方法,我們?cè)u(píng)估了對(duì)應(yīng)基礎(chǔ)模型的原始結(jié)果以及一致性方面的提升。ConsiStory、StoryDiffusion 和我們的 CharaConsist 分別采用的基礎(chǔ)模型是 SDXL、RealVisXL4.0 和 FLUX.1。下表2中的結(jié)果表明,首先,與 FLUX.1 的原始結(jié)果相比,本文的方法顯著提升了一致性,表明其有效性。其次,本文的方法在一致性方面實(shí)現(xiàn)了最大的提升。這表明表 1 中展示的優(yōu)越一致性結(jié)果并非由于新的基礎(chǔ)模型。相反,盡管 FLUX.1 在圖像質(zhì)量方面帶來(lái)了顯著提升,其原始結(jié)果在幾乎所有指標(biāo)上與 RealVisXL4.0 相比表現(xiàn)出更低的一致性。此外,F(xiàn)LUX.1 的 CLIP-T 得分顯著低于其他兩個(gè)基礎(chǔ)模型,這可能是由于視覺(jué)風(fēng)格上的領(lǐng)域差異所致。

DiT迎來(lái)真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場(chǎng)景換裝不崩人設(shè)-AI.x社區(qū)

結(jié)論與討論

CharaConsist,用于增強(qiáng)一致性的文本到圖像生成。通過(guò)使用點(diǎn)跟蹤注意力和自適應(yīng) token 合并來(lái)解決局部性偏差,它在角色動(dòng)作變化下確保了細(xì)粒度的一致性。它還支持可控的背景保持或切換,拓展了實(shí)際應(yīng)用場(chǎng)景。

局限性

作為一種專(zhuān)注于無(wú)需訓(xùn)練的一致性生成方法,CharaConsist能夠生成與文本提示一致的內(nèi)容,但無(wú)法將輸入身份作為參考。一個(gè)理想的解決方案是將訓(xùn)練好的身份參考模型與本文的方法結(jié)合,其中前者可以提供接受輸入身份并保持更高人臉相似度的能力,而本文的方法可以彌補(bǔ)它們?cè)诒尘碍h(huán)境和角色服裝一致性方面的不足。這是我們未來(lái)探索的重要方向。

本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/EwbvqNSexs3q6KOSvuThjg??

標(biāo)簽
已于2025-7-18 11:27:22修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄