DiT迎來真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場景換裝不崩人設(shè)
論文鏈接:https://arxiv.org/pdf/2507.11533
Git鏈接:https://github.com/Murray-Wang/CharaConsist
在固定背景下生成一致的角色
不同背景下一致的角色生成
故事生成
亮點直擊
- 現(xiàn)有的一致性生成方法采用了相對粗略的任務(wù)設(shè)定,主要關(guān)注于相似角色在不同場景中的過渡,而缺乏對角色細節(jié)和背景環(huán)境的細粒度一致性。
- CharaConsist,利用點追蹤和掩碼提取自動感知關(guān)鍵特征,從而實現(xiàn)細粒度一致性,使其非常適合實際應(yīng)用場景。
- CharaConsist是第一個基于 DiT 模型的無需訓練的一致性文本生成圖像(T2I)方法。它無需額外訓練或附加模塊,能夠高效利用擁有數(shù)十億參數(shù)的大型 DiT 模型。提出的基于 DiT 的點追蹤和掩碼提取技術(shù)也可作為圖像編輯等相關(guān)任務(wù)的有效工具。
總結(jié)速覽
解決的問題
- 背景一致性差:現(xiàn)有的無需訓練一致性生成方法在背景細節(jié)上缺乏一致性,限制了其在真實場景中的應(yīng)用。
- 前景角色一致性不足:當角色發(fā)生大幅動作變化時,角色的身份特征和服飾細節(jié)容易出現(xiàn)不一致。
- 任務(wù)設(shè)定粗略:現(xiàn)有方法對一致性問題的建模較為粗糙,主要關(guān)注角色在不同場景中的相似性,忽視了對角色細節(jié)和背景環(huán)境的細粒度控制。
提出的方案
- CharaConsist 方法:針對上述問題,提出了一種無需訓練的一致性文本生成圖像方法 ——CharaConsist,專為 DiT(Diffusion Transformer)架構(gòu)設(shè)計。
應(yīng)用的技術(shù)
- 點追蹤注意力機制(Point-Tracking Attention):自動感知并跟蹤圖像中的關(guān)鍵點,以保持前景角色的身份和細節(jié)一致性。
- 自適應(yīng) Token 合并(Adaptive Token Merge):優(yōu)化視覺信息的表達與處理,提升整體一致性效果。
- 前景與背景的解耦控制:分別建模和控制前景角色與背景環(huán)境,實現(xiàn)更精細的生成控制。
- 基于 DiT 的一致性生成:首次將一致性生成方法與 DiT 模型結(jié)合,利用其強大的建模能力,無需額外訓練或附加模塊。
達到的效果
- 前景與背景的細粒度一致性:CharaConsist 能夠在連續(xù)或離散鏡頭中保持角色形象和背景環(huán)境的一致性。
- 無需訓練即可高效應(yīng)用:方法無需額外訓練,直接適配大規(guī)模 DiT 模型,具備較強的泛化能力和實用性。
- 高質(zhì)量視覺輸出:結(jié)合 DiT 模型的強大生成能力,CharaConsist 可生成高質(zhì)量、視覺一致性強的圖像序列。
- 廣泛的實際應(yīng)用潛力:適用于角色動畫、虛擬人生成、圖像編輯等多種實際應(yīng)用場景。
方法
首先在簡要回顧并分析了用于提升一致性的核心技術(shù)——圖像間注意力(inter-image attention),以及基礎(chǔ)模型 FLUX.1 的一些技術(shù)細節(jié)。然后介紹我們提出的方法 CharaConsist。下圖4展示了本文方法的整體框架及各個組成部分的示意圖。
預(yù)備知識
圖像間注意力(Inter-image Attention)在以往的工作中,圖像間注意力是一項用于提升一致性的核心技術(shù)。在一批圖像的生成過程中,圖像間注意力通過將相鄰圖像的 key 和 value 拼接到每張圖像的自注意力過程中,從而實現(xiàn)圖像間的信息共享。該過程通過增強圖像之間的關(guān)聯(lián),有助于在生成序列中保持連貫性。
盡管注意力模塊具有全局感受野,直接應(yīng)用圖像間注意力仍難以捕捉保持一致性所需的對應(yīng)關(guān)系。為了直觀地展示這一點,如下圖3所示,使用 UNet 架構(gòu)的 SDXL 和基于 DiT 的 FLUX.1 生成內(nèi)容相似但布局不同的圖像,并計算其平均圖像間注意力權(quán)重。以查詢點的坐標為原點,我們將每張圖像劃分為等面積的同心圓環(huán),并計算每個圓環(huán)內(nèi)的注意力權(quán)重總和。結(jié)果表明,隨著與查詢點距離的增加,對應(yīng)區(qū)域的注意力權(quán)重總和顯著下降。
這一現(xiàn)象表明模型存在局部性偏置(locality bias),傾向于將更多的注意力權(quán)重分配給空間上更接近的區(qū)域,而非語義上更相關(guān)的區(qū)域。因此,模型難以在布局變化較大的情況下保持一致性,無法捕捉到距離較遠但上下文上重要的特征。
如下圖2所示,以往方法中觀察到的不一致性,很大程度上可能源于這種局部性偏置。當不同圖像中的角色發(fā)生大幅度動作變化或出現(xiàn)在圖像中不同位置時,它們之間的相對距離可能顯著增加。結(jié)果是,圖像間注意力對這些遠距離區(qū)域的響應(yīng)強度較低,難以獲取足夠的信息以保證一致性。
本文方法從點追蹤(point tracking)開始,并引入多種技術(shù)以緩解位置偏移的影響,從而在不同圖像布局下實現(xiàn)更穩(wěn)健且一致的表示。
FLUX.1
FLUX.1 是一個基于 DiT 的隱空間文本生成圖像(T2I)模型,其核心架構(gòu)為多模態(tài) Transformer。它包含兩種類型的 Transformer 塊:雙重塊(double block)和單一塊(single block),這兩種塊都以文本和圖像 token 作為輸入。
雖然這兩種塊在結(jié)構(gòu)和參數(shù)分配上有所不同,但其核心機制保持一致:拼接后的文本和圖像 token 進行全局注意力操作。作為一個無需訓練的方法,我們主要關(guān)注模型內(nèi)部的注意力過程。因此,忽略這兩種塊之間的結(jié)構(gòu)差異,并將它們的注意力過程統(tǒng)一表述為如下形式:
CharaConsist
Pipeline定義將一致性生成流程分為兩個部分:身份圖像生成(identity image generation)和幀圖像生成(frame images generation)。身份圖像生成遵循原始的生成過程,無需修改,并在特定時間步從特定層中存儲中間變量,如 key、value 和注意力輸出。幀圖像隨后通過訪問這些存儲的變量與身份圖像實現(xiàn)一致性。
與以往方法需要并行生成至少 2 到 4 張圖像以獲取身份信息不同,CharaConsist 僅需一張身份圖像。這一優(yōu)勢主要得益于我們方法中的追蹤機制,它能夠有效利用單張圖像中的身份信息,從而無需通過并行處理進行增強。因此,該方法顯著減少了額外的 GPU 內(nèi)存開銷。
點匹配(Point Matching)
點匹配的目標是為幀圖像中的每個點在身份圖像中找到語義上對應(yīng)的點,從而指導后續(xù)的注意力和 token 融合過程。例如,幀圖像中角色的面部特征應(yīng)與身份圖像中的面部特征對齊。
以往工作 DIFT 表明,可以通過測量擴散模型中 UNet 在特定時間步的中間特征之間的相似性來確定語義對應(yīng)關(guān)系。然而,這種方法在 FLUX.1 中并不奏效。本文測試了 FLUX.1 中中間 Transformer 塊和注意力層輸出的余弦相似度。對于 Transformer 塊的輸出,發(fā)現(xiàn)匹配點始終固定在相同位置,無法捕捉語義對應(yīng)關(guān)系。相比之下,對于注意力層的輸出,匹配點在不同層、時間步和樣本之間波動顯著,導致匹配不穩(wěn)定且不準確。
盡管不同層之間的匹配關(guān)系差異較大,但相似度分布卻表現(xiàn)出一致的特征?;谶@一觀察,我們對同一時間步中不同層的相似度得分進行平均,公式如下:
本文僅在文本序列的實際長度范圍內(nèi)應(yīng)用 Softmax 操作,以避免圖像鍵和特殊文本鍵 “<s>” 的影響。在這里,我們觀察到與點匹配過程類似的問題:每個詞對應(yīng)的注意力權(quán)重在不同層之間存在顯著波動。為了解決這一問題,分別在前景和背景文本序列內(nèi)對注意力權(quán)重進行平均,并在不同層之間也進行平均。通過比較這些平均注意力權(quán)重,我們得出魯棒的前景掩碼,表示為:
點追蹤注意力
在獲得點匹配關(guān)系和前景掩碼之后,引入點追蹤注意力。首先提取幀圖像中的前景 token 索引,以及在身份圖像中匹配的 token 索引:
與背景相關(guān)的操作是可選的,取決于用戶是否希望保持背景不變。然后注意力過程表示為:
自適應(yīng) Token 合并
盡管位置嵌入的重新編碼通過注意力增強了一致性,但由于位置重排,可能會破壞 token 的局部幾何關(guān)系。此外,部分 token 可能無法完美匹配,導致信息丟失??紤]到注意力輸出是所有值的加權(quán)和,并攜帶更多全局信息,它有助于彌補此類信息丟失。因此,我們引入了自適應(yīng) token 合并,將幀圖像的注意力輸出與身份圖像的注意力輸出進行插值。
在此過程中,首先從身份圖像和幀圖像中提取對應(yīng)前景圖像 token 的片段注意力輸出。然后根據(jù)點匹配關(guān)系重新排列身份圖像的注意力輸出,并執(zhí)行插值:
實驗
實驗設(shè)置
評估數(shù)據(jù)集
本工作聚焦于角色和環(huán)境的一致性生成,而現(xiàn)有基準缺乏適用于該任務(wù)的特征。因此,我們使用 GPT-4 生成了一系列適用于該應(yīng)用場景的 T2I 提示詞。指示 GPT-4 以“[環(huán)境], [角色], [動作].”的格式創(chuàng)建多個提示詞組,組內(nèi)內(nèi)容不同。我們提出了兩個評估任務(wù):背景保持和背景切換。在前者中,“[環(huán)境]”和“[角色]”在一組提示中保持一致,而“[動作]”變化;在后者中,僅“[角色]”保持不變。每組包含 5-8 個提示。對于這兩類任務(wù),我們各生成了超過 200 個 T2I 提示。
對比方法
對比方法包括無需訓練的一致性生成方法 StoryDiffusion、ConsiStory,以及依賴訓練的身份參考方法 IP-Adapter、PhotoMaker。上述生成的提示詞對所有方法共享。對于身份參考方法,首先利用提示中的“[角色]”部分生成角色頭像,然后使用 RetinaFace 裁剪人臉區(qū)域,作為輸入的參考人臉圖像。
評估指標
參考前人工作,引入 CLIP 文本-圖像相似度(CLIP-T)來衡量圖像與文本提示之間的對齊程度,以及成對 CLIP 圖像相似度(CLIP-I)來衡量整圖一致性。為了更好地評估本工作的特性,我們引入了三個額外指標。首先,引入解耦的 CLIP-I,分別稱為 CLIP-I-fg 和 CLIP-I-bg,用于分別評估前景和背景的一致性。使用 SAM 對每張生成圖像進行前景分割,并分別計算遮罩前景和遮罩背景圖像的 CLIP 相似度。還引入身份相似度(ID Sim),通過 RetinaFace 和 FaceNet 計算人臉嵌入相似度,以評估身份一致性。此外,引入圖像質(zhì)量分數(shù)(IQS)和圖像美學分數(shù)(IAS),使用 Q-Align 評估生成圖像的質(zhì)量。
實驗結(jié)果
定性結(jié)果
在下圖5中,展示了 CharaConsist 及所有對比方法在背景保持和背景切換任務(wù)上的結(jié)果??梢杂^察到,所有對比方法在服裝一致性方面存在不同程度的問題。在背景保持任務(wù)中,這些方法只能生成相似場景,但無法保證完全一致。而在背景切換任務(wù)中,這些方法僅關(guān)注前景主體,導致偏離了獨特的動作提示,例如圖5中的“電話”、“卡通人物”以及前面圖2 中的“拍照”都缺失了。此外,我們在圖6中展示了點和掩碼的結(jié)果,以直觀展示我們點匹配和掩碼提取方法的有效性。更多定性結(jié)果見補充材料。
定量結(jié)果
如下表1所示,與一致性生成方法相比,在兩個評估任務(wù)中,本文的CharaConsist 在大多數(shù)一致性指標上表現(xiàn)更優(yōu),特別是在 CLIP-I-bg 和 ID Sim 上。這些結(jié)果強有力地驗證了我們方法在保持角色和場景一致性方面的優(yōu)勢。唯一的例外是在背景切換任務(wù)中,由于環(huán)境變化,我們方法在整圖 CLIP-I 得分較低是合理的。與身份參考方法相比,CharaConsist 在 CLIP-I-fg 和 CLIP-I-bg 得分上具有顯著優(yōu)勢,表明本文的方法能夠保留角色服裝和背景環(huán)境的細節(jié)。雖然本文的方法在身份相似度上不如這些方法(這是它們的訓練目標),但這并不矛盾。作為一種無需訓練的方法,CharaConsist 可以通過解決服裝和環(huán)境一致性問題,補充身份參考生成方法的不足。
此外,有一個問題是本文的方法相比其他方法具有較低的 CLIP-T 得分。這在很大程度上可能是由于基礎(chǔ)模型帶來的領(lǐng)域差異,因為 FLUX.1 的原始結(jié)果也顯示出較低的 CLIP-T,這在消融實驗和表 2 中有更詳細的說明。
消融實驗
由于本工作基于與基線方法不同的基礎(chǔ)模型,進行了消融實驗,以分析基礎(chǔ)模型本身以及我們提出的方法的影響。對于我們的 CharaConsist 和對比方法,我們評估了對應(yīng)基礎(chǔ)模型的原始結(jié)果以及一致性方面的提升。ConsiStory、StoryDiffusion 和我們的 CharaConsist 分別采用的基礎(chǔ)模型是 SDXL、RealVisXL4.0 和 FLUX.1。下表2中的結(jié)果表明,首先,與 FLUX.1 的原始結(jié)果相比,本文的方法顯著提升了一致性,表明其有效性。其次,本文的方法在一致性方面實現(xiàn)了最大的提升。這表明表 1 中展示的優(yōu)越一致性結(jié)果并非由于新的基礎(chǔ)模型。相反,盡管 FLUX.1 在圖像質(zhì)量方面帶來了顯著提升,其原始結(jié)果在幾乎所有指標上與 RealVisXL4.0 相比表現(xiàn)出更低的一致性。此外,F(xiàn)LUX.1 的 CLIP-T 得分顯著低于其他兩個基礎(chǔ)模型,這可能是由于視覺風格上的領(lǐng)域差異所致。
結(jié)論與討論
CharaConsist,用于增強一致性的文本到圖像生成。通過使用點跟蹤注意力和自適應(yīng) token 合并來解決局部性偏差,它在角色動作變化下確保了細粒度的一致性。它還支持可控的背景保持或切換,拓展了實際應(yīng)用場景。
局限性
作為一種專注于無需訓練的一致性生成方法,CharaConsist能夠生成與文本提示一致的內(nèi)容,但無法將輸入身份作為參考。一個理想的解決方案是將訓練好的身份參考模型與本文的方法結(jié)合,其中前者可以提供接受輸入身份并保持更高人臉相似度的能力,而本文的方法可以彌補它們在背景環(huán)境和角色服裝一致性方面的不足。這是我們未來探索的重要方向。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
