偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)

發(fā)布于 2025-3-24 12:32
瀏覽
0收藏

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.12885 
項目鏈接:https://limuloo.github.io/DreamRenderer

亮點直擊

  • DreamRenderer,一種無需訓練的方法,使用戶能夠在深度條件或邊緣條件生成中控制每個區(qū)域和實例的生成內容。
  • 引入了一種新穎的Hard Text Attribute Binding(硬文本屬性綁定)技術,確保文本嵌入在聯(lián)合注意力過程中綁定正確的視覺屬性。
  • 針對多實例生成,首次深入分析了 FLUX 模型中每一層的隱空間功能,明確了哪些層處理全局操作,哪些層對渲染單個實例至關重要,為后續(xù)研究提供了新的見解。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

總結速覽

解決的問題

  • 多實例內容控制不準確:現(xiàn)有圖像生成模型(如FLUX和3DIS)在控制多個實例(或區(qū)域)的內容時存在困難,容易出現(xiàn)屬性泄漏問題,導致用戶無法精確控制每個實例的視覺屬性。
  • 文本嵌入與視覺信息綁定不準確:現(xiàn)有的文本到圖像模型(如T5文本編碼器)僅基于文本數(shù)據(jù)進行預訓練,缺乏視覺信息,導致在多實例控制場景下,文本嵌入容易與錯誤的視覺屬性綁定。
  • 圖像質量與控制的平衡:在聯(lián)合注意力機制中,過度限制圖像標記的注意力范圍會導致圖像質量下降,而過于寬松的控制則無法保證每個實例的視覺屬性準確生成。

提出的方案

  • DreamRenderer:基于FLUX模型的無需訓練的插件式工具,允許用戶通過邊界框或掩碼控制每個實例的內容,同時保持整體視覺和諧。
  • Bridge Image Tokens(橋接圖像標記):通過復制實例的圖像標記作為橋接標記,在聯(lián)合注意力機制中模擬單實例生成過程,確保文本嵌入綁定正確的視覺屬性。
  • Hard Image Attribute Binding(硬圖像屬性綁定):僅在關鍵層應用硬綁定,確保每個實例的圖像嵌入包含正確的視覺信息,而在其他層使用軟綁定以保持圖像質量。

應用的技術

  • Bridge Image Tokens:在聯(lián)合注意力機制中,使用復制的圖像標記作為橋接標記,確保文本嵌入與正確的視覺屬性綁定。
  • Hard Image Attribute Binding:在FLUX模型的關鍵層(中間層)應用硬綁定,確保每個實例的視覺屬性準確生成,而在輸入和輸出層使用軟綁定以保持整體視覺和諧。
  • 聯(lián)合注意力機制:通過調整圖像標記的注意力范圍,確保每個實例的文本嵌入和圖像嵌入能夠準確綁定視覺信息。

達到的效果

  • 提升圖像生成成功率:在COCO-POS和COCO-MIG基準測試中,DreamRenderer將圖像生成成功率(Image Success Ratio)比FLUX模型提高了17.7%,并且在布局到圖像模型(如GLIGEN和3DIS)上的表現(xiàn)提升了高達26.8%。
  • 增強多實例控制能力:DreamRenderer能夠精確控制每個實例的視覺屬性,避免了屬性泄漏問題,顯著提升了用戶對多實例內容的控制能力。
  • 保持圖像質量:通過僅在關鍵層應用硬綁定,DreamRenderer在確保精確控制的同時,保持了生成圖像的整體視覺質量。

方法

概述

下圖 2 展示了 DreamRenderer 的概覽。在聯(lián)合注意力機制中,DreamRenderer 引入了一種新穎的Hard Text Attribute Binding(硬文本屬性綁定)算法,以確保每個實例的文本嵌入正確綁定相關的視覺信息。此外,為了在保持每個實例圖像嵌入屬性準確的同時增強生成圖像的整體和諧性,對 FLUX 中的每一層進行了實驗分析,并決定僅在 FLUX 模型的中間層應用 Hard Image Attribute Binding(硬圖像屬性綁定)。在其他所有層中,使用Soft Image Attribute Binding(軟圖像屬性綁定)。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

準備工作

如上圖 2 (a) 所示,DreamRenderer 首先通過 T5 文本編碼器分別嵌入每個實例的輸入文本描述和全局提示。這些編碼后的嵌入隨后被連接起來,形成生成過程的完整文本嵌入。本文的方法要求用戶提供深度圖或邊緣圖作為結構指導,這為生成圖像中實例的空間排列提供了基礎。對于實例定位,利用用戶提供的邊界框或掩碼來識別每個實例在結構指導中的區(qū)域。

硬文本屬性綁定

動機:當生成單個實例時,F(xiàn)LUX 模型通常會生成與文本提示一致的圖像,表現(xiàn)出最少的屬性錯誤。在這種情況下,聯(lián)合注意力中的圖像和文本標記僅關注該單個實例的信息,從而使文本嵌入能夠綁定準確的視覺屬性?;谶@一觀察,提出在多實例場景中,每個實例的圖像和文本標記應主要關注自身,而不是屬于其他實例的標記,從而使文本嵌入能夠有效綁定正確的視覺信息。

樸素解決方案:確保每個實例的文本嵌入綁定正確屬性的一個直接方法是在聯(lián)合注意力過程中獨立處理每個實例。在這種方法中,給定實例的圖像和文本標記僅與自身交互,與其他實例的標記保持隔離。然而,這種完全隔離引入了一個顯著的缺點:它破壞了整體圖像的視覺和諧性,并顯著降低了生成結果的質量(如下圖 7 所示)。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

橋接圖像標記的進階解決方案:由于在聯(lián)合注意力中嚴格隔離每個實例的原始圖像標記會降低圖像質量,DreamRenderer 提出了一種進階解決方案:在聯(lián)合注意力過程中,為每個實例的圖像標記創(chuàng)建一個額外的副本,稱為 Bridge Image Tokens(橋接圖像標記)。這些橋接圖像標記不會貢獻到最終輸出圖像中,而是僅用于在聯(lián)合注意力過程中幫助每個實例的文本嵌入綁定正確的視覺屬性。如圖 2 所示,橋接圖像標記和每個實例的文本標記與單實例生成過程中的對齊方式完全相同,確保最終文本嵌入中的視覺屬性與文本描述一致。形式上,對于第  個實例,硬文本屬性綁定的注意力掩碼  定義為:

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

圖像屬性綁定

概述:在確保文本嵌入屬性的準確性之后,下一步是保證每個實例的圖像標記中視覺屬性的正確性。DreamRenderer 在關鍵綁定層使用 Hard Image Attribute Binding(硬圖像屬性綁定),以確保每個實例以正確的屬性渲染。在其余層中,使用 Soft Image Attribute Binding(軟圖像屬性綁定),以確保所有實例最終形成一個連貫的圖像。后面將詳細說明硬圖像屬性綁定和軟圖像屬性綁定的機制,并解釋如何識別用于硬圖像屬性綁定的關鍵層。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

搜索關鍵綁定層:如下圖 3 所示,在 FLUX 網(wǎng)絡(由 57 個聯(lián)合注意力層組成)中逐層應用硬圖像屬性綁定,并與在所有層中使用軟圖像綁定的結果進行比較,以確定哪些層更適合綁定特定實例屬性。圖 3 的結果表明,在 FLUX 的輸入層和輸出層附近應用硬圖像綁定會導致性能顯著下降。相反,在 FLUX 的中間層實施硬圖像屬性綁定通常會增強屬性保真度?;谶@些發(fā)現(xiàn),F(xiàn)LUX 的輸入層和輸出層主要處理全局圖像信息,而中間層在渲染圖像中實例屬性方面起著關鍵作用。因此,在 FLUX 的中間層執(zhí)行硬圖像綁定,而在其余層使用軟圖像綁定。這種方法在實例屬性保真度和圖像整體連貫性之間實現(xiàn)了最佳平衡。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

實驗

實驗設置

基線方法:除了 FLUX 模型外,還評估了本文的方法與其他幾種最先進的多實例生成方法的對比。由于 DreamRenderer 被設計為即插即用的解決方案,通過將其與現(xiàn)有方法(如 GLIGEN、InstanceDiffusion、MIGC 和 3DIS)集成來進行實驗。


實現(xiàn)細節(jié):分別使用 FLUX.1-Canny 和 FLUX.1-Depth 進行邊緣條件和深度條件生成。在這兩種情況下,我們對圖像進行 20 步采樣。在深度條件生成中,我們將無分類器引導(CFG)的比例設置為 10.0,而在邊緣條件生成中,CFG 比例設置為 30。在實驗中,對于通過邊界框指定位置的實例,我們進一步使用 SAM-2 模型對其進行分割,以獲得更精確的實例掩碼。


評估基準本文在兩個廣泛使用的基準上進行了實驗:

  1. COCO-POS 基準:要求根據(jù)指定的布局生成圖像。從 COCO 數(shù)據(jù)集的圖像中提取深度圖或邊緣圖作為條件信號,并利用數(shù)據(jù)集的固有布局進行渲染。模型必須生成與指定位置的實例類別匹配的結果。將本文的方法與包括 Multi-Diffusion 和 3DIS 在內的無需訓練的渲染方法進行比較。
  2. COCO-MIG 基準:測試具有精確位置和屬性控制的多實例生成。通過首先使用這些模型生成 RGB 圖像,然后提取深度圖并結合布局進行實例渲染,來評估DreamRenderer與最先進的 MIG 模型的集成能力。這評估了DreamRenderer在應用于現(xiàn)有 MIG 框架時的屬性控制效果。

評估指標本文使用以下指標來評估模型:

  1. 平均交并比(MIoU):衡量渲染實例位置與目標位置之間的重疊比例。
  2. 局部 CLIP 分數(shù):評估渲染實例與其對應文本描述的視覺一致性。
  3. 平均精度(AP):評估渲染圖像布局的準確性。
  4. 實例成功率(ISR):計算正確渲染實例的比例。
  5. 圖像成功率(ISR):衡量所有實例均正確渲染的圖像比例。

與最先進方法的比較

COCO-POS 基準:下表 1 展示了本文的方法與 FLUX 和 3DIS 的定量比較結果。在深度引導和邊緣引導生成場景中,本文的方法在所有指標上均表現(xiàn)出一致的優(yōu)勢。在深度引導設置中,DreamRenderer 在 SR(62.50% vs. 3DIS 的 53.88%)上顯示出顯著提升,表明其生成場景結構更加連貫。高 ISR(94.51%)和 MIoU(84.36%)進一步證實了其在實例級別控制的精確性。在更具挑戰(zhàn)性的邊緣引導場景中,DreamRenderer 的 SR 也比 3DIS 高出 5.21%。同時,如下圖 4 所示,本文的方法并未影響原始 FLUX 模型的圖像生成質量——這得益于僅在關鍵層應用硬圖像屬性綁定。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

COCO-MIG 基準:下表 2 和圖 5 展示了將 DreamRenderer 應用于各種最先進的布局到圖像方法的結果。如圖所示,DreamRenderer 顯著增強了實例屬性控制的準確性,最終將圖像成功率(ISR)比 GLIGEN 提高了 26.8%,比 InstanceDiffusion 提高了 19.9%,比 MIGC 提高了 8.3%,比 3DIS 提高了 7.4%。值得注意的是,隨著需要控制的實例數(shù)量增加,這種改進變得更加顯著:例如,當控制兩個實例時,DreamRenderer 的性能提升僅為 2.5%,而在控制六個實例時,提升達到 10.5%。這些優(yōu)勢源于我們的硬文本屬性綁定算法,該算法確保每個實例的文本嵌入在聯(lián)合注意力過程中準確綁定其視覺屬性,即使對于大量實例也是如此。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

用戶研究下表 3 展示了一項有 31 名參與者參與的用戶研究,比較了本文的方法與 FLUX 和 3DIS 在感知質量上的表現(xiàn)。參與者在盲測中查看成對的輸出,并根據(jù)(1)布局準確性和(2)圖像質量進行評分,使用 5 分制,輸入布局和文本描述會顯示。每名參與者評估了 17 對輸出。結果顯示,我們提出的 DreamRenderer 不僅增強了 FLUX 模型的布局控制能力,還生成了對用戶更具視覺吸引力的輸出。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

消融實驗

橋接圖像標記用于硬文本屬性綁定:下表 4 和圖 7 展示了我們對硬文本屬性綁定機制的消融實驗結果。樸素解決方案(§ 3.5)在聯(lián)合注意力過程中隔離每個實例,破壞了模型的固有特征分布,從而導致性能下降。引入橋接圖像標記(不參與最終輸出)可以有效解決這一問題,使文本標記能夠綁定正確的屬性,并在不損害圖像質量的情況下提高準確性。隨著控制實例數(shù)量的增加,硬文本屬性綁定的優(yōu)勢變得更加顯著:例如,從控制 2 個實例增加到 6 個實例時,實例成功率(ISR)的提升從 3.5% 增加到 6.2%。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

圖像屬性綁定的關鍵層:下表 5 和圖 6 展示了我們對硬圖像屬性綁定機制的消融實驗結果。在 FLUX 的輸入層或輸出層應用硬圖像屬性綁定并未帶來明顯的性能提升,反而顯著降低了圖像質量,這表明這些層對模型的全局信息處理至關重要。在這些階段強加實例或區(qū)域隔離會嚴重破壞中間特征分布,最終導致性能急劇下降。相比之下,將硬圖像屬性綁定限制在中間層可以在保持圖像質量的同時顯著提高性能——例如,將實例成功率(ISR)提高 15.7%。這一發(fā)現(xiàn)表明,F(xiàn)LUX 的中間層在確定每個實例的視覺內容方面起著關鍵作用,使其更適合綁定實例的屬性。

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

FLUX秒變高玩!DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)-AI.x社區(qū)

結論

DreamRenderer,一種即插即用的方法,能夠在深度和邊緣條件生成中控制特定區(qū)域和實例的內容,同時不損害原始模型的圖像質量。本文有兩個關鍵貢獻:

  1. 硬文本屬性綁定機制:引入了一種新穎的硬文本屬性綁定機制,利用橋接圖像標記(Bridge Image Tokens),確保每個實例的文本嵌入在聯(lián)合注意力過程中綁定正確的視覺信息。
  2. 關鍵層的硬圖像屬性綁定:通過對 FLUX 各層的實驗分析,僅在關鍵層應用硬圖像屬性綁定,在保持精確實例級別控制的同時,確保全局圖像的連貫性。


在 COCO-POS 和 COCO-MIG 基準上的大量實驗證明了 DreamRenderer 的卓越性能。在深度引導設置中,本文的方法實現(xiàn)了 62.50% 的 SR(成功率)、94.51% 的 ISR(實例成功率)和 84.36% 的 MIoU(平均交并比),顯著優(yōu)于現(xiàn)有方法。即使在更具挑戰(zhàn)性的邊緣引導設置中,DreamRenderer 依然表現(xiàn)穩(wěn)健,實現(xiàn)了 74.61% 的 ISR 和 66.95% 的 MIoU。此外,DreamRenderer 可以作為重新渲染器,顯著提高布局到圖像方法的準確性。其無需訓練的特性使得 DreamRenderer 能夠輕松應用于各種基礎模型,具有高度的靈活性。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/p2p6Te_cUIME2YH5jaj2Qw??


收藏
回復
舉報
回復
相關推薦