“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯(lián)合發(fā)布IterComp 精華
文章鏈接:https://arxiv.org/pdf/2410.07171
項(xiàng)目鏈接:https://github.com/YangLing0818/IterComp
亮點(diǎn)直擊
- 提出了第一個(gè)基于獎(jiǎng)勵(lì)控制的迭代組合感知框架IterComp,以全面提升基礎(chǔ)擴(kuò)散模型的組合性。
- 精心挑選了模型庫,并開發(fā)了一個(gè)高質(zhì)量的組合感知模型偏好數(shù)據(jù)集,該數(shù)據(jù)集包含大量圖像排序?qū)Α?/li>
- 使用了新的迭代反饋學(xué)習(xí)框架,逐步增強(qiáng)獎(jiǎng)勵(lì)模型和基礎(chǔ)擴(kuò)散模型。
- 與之前的SOTA方法進(jìn)行的大量定性和定量比較表明,本文的方法在組合生成能力上具有顯著優(yōu)勢(shì)。
總結(jié)速覽
解決的問題
現(xiàn)有的擴(kuò)散模型(如RPG、Stable Diffusion 3 和 FLUX)在生成組合性圖像時(shí)各有所長(zhǎng),有的擅長(zhǎng)屬性綁定,有的則在空間關(guān)系上表現(xiàn)更好。然而,這些模型無法全面解決組合性生成的多方面需求,缺乏一種能夠綜合各模型優(yōu)勢(shì)的方法。
總之,要解決以下兩個(gè)問題:
1. 如何提取不同模型在各自領(lǐng)域的優(yōu)勢(shì),并引導(dǎo)模型進(jìn)行有效學(xué)習(xí)?
針對(duì)該問題,我們首先構(gòu)建了模型庫(model gallery),其包含多種在不同方面表現(xiàn)出色的模型,每個(gè)模型都具備特定的組合生成偏好(composition-aware model preference)。我們嘗試通過擴(kuò)散模型對(duì)齊方法,將base diffusion model與模型庫中的組合生成偏好進(jìn)行對(duì)齊。
我們聚焦于compositional generation的三個(gè)關(guān)鍵方面:屬性綁定(attribute binding)、空間關(guān)系(spatial relationship)和非空間關(guān)系(non-spatial relationship)。為此,我們收集了不同模型在這些方面的偏好數(shù)據(jù),并通過人工排序,構(gòu)建了一個(gè)面向組合生成的模型偏好數(shù)據(jù)集(composition-aware model preference dataset)。針對(duì)這三個(gè)方面,我們分別訓(xùn)練三個(gè)composition-aware reward models,并對(duì)base模型進(jìn)行多獎(jiǎng)勵(lì)反饋優(yōu)化。
2. 組合生成任務(wù)很難優(yōu)化,如何更充分地學(xué)習(xí)到不同模型的組合偏好?
我們?cè)赿iffusion領(lǐng)域創(chuàng)新地引入迭代式學(xué)習(xí)框架(iterative feedback learning),實(shí)現(xiàn)reward models與base diffusion model之間“左腳踩右腳登天”。
具體地,在上述第一輪優(yōu)化后,我們將optimized base diffusion model以及額外選擇的其他模型(例如Omost等)添加進(jìn)model gallery。對(duì)新增模型進(jìn)行偏好采樣,與初始model gallery中的圖像按照預(yù)訓(xùn)練的reward model構(gòu)建圖像對(duì)。這些圖像對(duì)被用于進(jìn)一步優(yōu)化獎(jiǎng)勵(lì)模型,隨后繼續(xù)用更新的獎(jiǎng)勵(lì)模型優(yōu)化基礎(chǔ)擴(kuò)散模型。具體的流程如下偽代碼所示:
提出的方案
本文提出了一個(gè)名為IterComp的框架,通過聚合多個(gè)模型在組合生成任務(wù)中的偏好,利用迭代反饋學(xué)習(xí)方法,逐步優(yōu)化組合性生成能力。該框架構(gòu)建了一個(gè)由六個(gè)強(qiáng)大的開源擴(kuò)散模型組成的模型庫,并基于三項(xiàng)關(guān)鍵組合性指標(biāo)(屬性綁定、空間關(guān)系、非空間關(guān)系)評(píng)估這些模型。隨后,通過圖像排序?qū)Φ臄?shù)據(jù)集訓(xùn)練組合偏好獎(jiǎng)勵(lì)模型,并在封閉循環(huán)中使用迭代反饋學(xué)習(xí)方法逐步優(yōu)化基礎(chǔ)模型和獎(jiǎng)勵(lì)模型的組合性生成能力。
應(yīng)用的技術(shù)
- 多模型組合偏好聚合
- 迭代反饋學(xué)習(xí)方法
- 獎(jiǎng)勵(lì)模型訓(xùn)練
- 組合性生成指標(biāo)評(píng)估(屬性綁定、空間關(guān)系、非空間關(guān)系)
達(dá)到的效果
理論證明了IterComp的有效性,實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的SOTA方法(如Omost和FLUX)相比,IterComp在多類別對(duì)象組合和復(fù)雜語義對(duì)齊方面表現(xiàn)出明顯的優(yōu)勢(shì),顯著提高了組合性生成的效果。
動(dòng)機(jī)
自2022年以來,基于diffusion的文生圖模型取得了快速的發(fā)展,尤其在復(fù)雜組合生成(complex/compositional generation)任務(wù)上取得了顯著進(jìn)展。例如,今年8月發(fā)布的FLUX展現(xiàn)出了十分震撼的復(fù)雜場(chǎng)景生成能力與美學(xué)質(zhì)量;RPG通過MLLM的輔助,將復(fù)雜的組合生成任務(wù)分解為簡(jiǎn)單子任務(wù);InstanceDiffusion通過布局控制(layout-based),實(shí)現(xiàn)了與布局分布高度一致的精確圖像生成。
然而,我們發(fā)現(xiàn)這些模型的優(yōu)勢(shì)僅限于某些特定的組合生成任務(wù),且存在諸多局限?;谖谋荆╰ext-based)的生成方法(如SDXL、SD3、FLUX等)由于其訓(xùn)練數(shù)據(jù)和框架的優(yōu)勢(shì),在物體與場(chǎng)景的模擬上表現(xiàn)出色,特別在美學(xué)質(zhì)量、屬性綁定和非空間關(guān)系(non-spatial relationships)方面表現(xiàn)出色。然而,當(dāng)涉及多個(gè)物體,且存在復(fù)雜的空間關(guān)系時(shí),這類模型往往表現(xiàn)出明顯的不足。
基于大語言模型(LLM-based)的生成方法,如Omost和RPG,通常需要對(duì)LLM進(jìn)行額外訓(xùn)練或設(shè)計(jì)復(fù)雜的提示提示。然而,對(duì)于LLM處理后的復(fù)雜指令,diffusion backbone并不具備復(fù)雜指令下精確生成的能力。基于布局(layout-based)的生成方法,如Instancediffusion和LMD+,雖然提供了精確的控制,但在圖像的美學(xué)質(zhì)量和真實(shí)性上存在明顯下降,并且需要人為設(shè)計(jì)布局。
因此,一個(gè)值得深入探討的問題是:我們能否設(shè)計(jì)出一個(gè)強(qiáng)大的模型,在上述多個(gè)方面都表現(xiàn)出色,同時(shí)不引入額外的復(fù)雜指令或增加計(jì)算開銷?
基于此,我們提出一個(gè)全新的文生圖框架:IterComp。
方法
本節(jié)介紹了方法IterComp,它從模型庫中收集組合感知的模型偏好,并利用迭代反饋學(xué)習(xí)來增強(qiáng)基礎(chǔ)擴(kuò)散模型在組合生成中的綜合能力。下圖2展示了IterComp的概覽。首先介紹了從模型庫中收集組合感知模型偏好數(shù)據(jù)集的方法。再描述了組合感知獎(jiǎng)勵(lì)模型的訓(xùn)練過程及多獎(jiǎng)勵(lì)反饋學(xué)習(xí)。然后提出了迭代反饋學(xué)習(xí)框架,以實(shí)現(xiàn)基礎(chǔ)擴(kuò)散模型和獎(jiǎng)勵(lì)模型的自我優(yōu)化,逐步提升組合生成能力。
收集組合性的人類偏好
組合性指標(biāo)與模型庫
專注于組合性的三個(gè)關(guān)鍵方面:屬性綁定、空間關(guān)系和非空間關(guān)系,以收集組合感知的模型偏好。初步選擇了六個(gè)在不同組合生成方面表現(xiàn)突出的開源模型作為我們的模型庫:FLUX-dev、Stable Diffusion 3、SDXL、Stable Diffusion 1.5、RPG、InstanceDiffusion。
屬性綁定的人工排名
對(duì)于屬性綁定,我們從T2I-CompBench的顏色、形狀和紋理類別中隨機(jī)選擇了500個(gè)提示。三位專業(yè)專家對(duì)六個(gè)模型為每個(gè)提示生成的圖像進(jìn)行了排名,并通過加權(quán)得出了最終結(jié)果。主要標(biāo)準(zhǔn)是生成的圖像是否準(zhǔn)確反映了提示中提到的屬性,尤其是屬性是否正確綁定到相應(yīng)的對(duì)象上。
復(fù)雜關(guān)系的人工排名
對(duì)于空間和非空間關(guān)系,從T2I-CompBench中為每個(gè)類別選擇了1,000個(gè)提示,并使用相同的人工注釋方法來獲得排名。對(duì)于空間關(guān)系,主要排名標(biāo)準(zhǔn)是對(duì)象是否被正確生成以及它們的空間位置是否與提示匹配。對(duì)于非空間關(guān)系,重點(diǎn)是對(duì)象是否展示了自然和逼真的動(dòng)作。
組合感知模型偏好數(shù)據(jù)集分析
在下圖3中可視化了每個(gè)模型生成的圖像中排名第一的比例。結(jié)果表明,不同模型在組合生成的各個(gè)方面表現(xiàn)出不同的優(yōu)勢(shì),該數(shù)據(jù)集有效地捕捉了多樣的組合感知模型偏好。
組合感知的多獎(jiǎng)勵(lì)反饋學(xué)習(xí)
組合感知獎(jiǎng)勵(lì)模型訓(xùn)練
為了在組合生成中實(shí)現(xiàn)全面的提升,我們利用3.1節(jié)中描述的三類組合感知數(shù)據(jù)集,將組合性分解為三個(gè)子任務(wù),并為每個(gè)子任務(wù)訓(xùn)練一個(gè)特定的獎(jiǎng)勵(lì)模型。
多獎(jiǎng)勵(lì)反饋學(xué)習(xí)
由于擴(kuò)散模型中的多步去噪過程,無法為其生成結(jié)果提供概率,因此在語言模型中使用的RLHF方法不適用于擴(kuò)散模型。一些現(xiàn)有的方法通過將獎(jiǎng)勵(lì)模型的分?jǐn)?shù)視為人類偏好損失,直接微調(diào)擴(kuò)散模型。為了使用多個(gè)組合感知獎(jiǎng)勵(lì)模型優(yōu)化基礎(chǔ)擴(kuò)散模型,我們?cè)O(shè)計(jì)了以下?lián)p失函數(shù):
組合感知反饋學(xué)習(xí)的迭代優(yōu)化
組合生成因其復(fù)雜性和多方面特征而難以優(yōu)化,這需要我們的獎(jiǎng)勵(lì)模型和基礎(chǔ)擴(kuò)散模型在復(fù)雜文本理解以及復(fù)雜關(guān)系生成等方面表現(xiàn)出色。為了確保更徹底的優(yōu)化,我們提出了一個(gè)迭代反饋學(xué)習(xí)框架,逐步優(yōu)化獎(jiǎng)勵(lì)模型和基礎(chǔ)擴(kuò)散模型。
迭代反饋學(xué)習(xí)的有效性
通過這個(gè)迭代反饋學(xué)習(xí)框架,獎(jiǎng)勵(lì)模型在理解復(fù)雜的組合提示詞方面變得更加有效,并為基礎(chǔ)擴(kuò)散模型的組合生成提供了更全面的指導(dǎo)。迭代反饋學(xué)習(xí)過程的優(yōu)化目標(biāo)在以下引理中形式化:
引理 1
迭代反饋學(xué)習(xí)的統(tǒng)一優(yōu)化框架可以表述為:
優(yōu)于 Diffusion-DPO 和 ImageReward
在此,我們闡明 IterComp 相較于 Diffusion-DPO 和 ImageReward 的一些優(yōu)勢(shì)。首先,IterComp 專注于組合感知的獎(jiǎng)勵(lì),旨在優(yōu)化文本到圖像 (T2I) 模型,使其能夠應(yīng)對(duì)復(fù)雜的生成場(chǎng)景,并構(gòu)建了一個(gè)強(qiáng)大的模型庫來收集多個(gè)組合感知的模型偏好。其次,我們創(chuàng)新的迭代反饋學(xué)習(xí)框架能夠有效實(shí)現(xiàn)基礎(chǔ)擴(kuò)散模型和獎(jiǎng)勵(lì)模型在多個(gè)迭代中的漸進(jìn)自我優(yōu)化。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集和訓(xùn)練設(shè)置
基線模型
研究者們策劃了一個(gè)包含六個(gè)開源模型的模型庫,每個(gè)模型在組合生成的不同方面表現(xiàn)優(yōu)異:FLUX、Stable Diffusion 3、SDXL、Stable Diffusion 1.5、RPG 和 InstanceDiffusion。為了確?;A(chǔ)擴(kuò)散模型能夠充分、全面地學(xué)習(xí)組合感知模型偏好,我們通過在每次迭代中引入新模型(如 Omost 、Stable Cascade 、PixArt-α)來逐步擴(kuò)展模型庫。為了在組合生成性能上進(jìn)行比較,我們選擇了幾種最先進(jìn)的方法,包括 FLUX、SDXL 和 RPG 與我們的方法進(jìn)行比較。我們使用 GPT-4o 進(jìn)行 LLM 控制的方法,并根據(jù)提示推斷布局以實(shí)現(xiàn)布局控制的方法。
主要結(jié)果
定性比較
如下圖 4 所示,IterComp 在組合生成結(jié)果上優(yōu)于三種主要類型的組合生成方法:文本控制、LLM 控制和布局控制的方法。與文本控制方法 FLUX相比,IterComp 在處理空間關(guān)系方面表現(xiàn)出色,顯著減少了諸如物體遺漏和數(shù)量及位置不準(zhǔn)確等錯(cuò)誤。與 LLM 控制方法 RPG 相比,IterComp 產(chǎn)生了更合理的物體放置,避免了 LLM 幻覺造成的不切實(shí)際的定位。與布局控制方法 InstanceDiffusion 相比,IterComp 在語義美學(xué)和組合性方面明顯占優(yōu)勢(shì),特別是在復(fù)雜提示下的生成表現(xiàn)更佳。
定量比較
在 T2I-CompBench 上將 IterComp 與之前出色的組合文本/布局到圖像模型進(jìn)行了比較,涵蓋六個(gè)關(guān)鍵組合場(chǎng)景。如表 2 所示,IterComp 在所有評(píng)估任務(wù)中表現(xiàn)出色。布局控制的方法,如 LMD+ 和 InstanceDiffusion ,在生成準(zhǔn)確的空間關(guān)系方面表現(xiàn)優(yōu)異,而文本到圖像模型,如 SDXL 和 GenTron,在屬性綁定和非空間關(guān)系上具有特別優(yōu)勢(shì)。相比之下,IterComp 在組合生成方面實(shí)現(xiàn)了全面的改進(jìn)。它通過收集組合感知模型偏好,整合了各種模型的優(yōu)點(diǎn),并采用了新穎的迭代反饋學(xué)習(xí)方法,以閉環(huán)的方式實(shí)現(xiàn)基礎(chǔ)擴(kuò)散模型和獎(jiǎng)勵(lì)模型的自我優(yōu)化。IterComp 在提高生成圖像的真實(shí)感和美學(xué)的同時(shí),實(shí)現(xiàn)了高水平的組合性。
如下表 3 所示,我們通過計(jì)算 CLIP 分?jǐn)?shù)、美學(xué)分?jǐn)?shù)和圖像獎(jiǎng)勵(lì)來評(píng)估圖像真實(shí)感的提升。IterComp 在所有三個(gè)場(chǎng)景中顯著優(yōu)于之前的模型,在與復(fù)雜文本提示對(duì)齊時(shí)展現(xiàn)出卓越的保真度和精確性。這些令人鼓舞的結(jié)果突顯了 IterComp 在組合性和保真度方面的多樣性。在附錄 A.3 中提供了 IterComp 與其他擴(kuò)散對(duì)齊方法之間的更多定量比較結(jié)果。
IterComp 生成高質(zhì)量圖像所需的時(shí)間更少。在下表 4 中,將 IterComp 的推理時(shí)間與其他優(yōu)秀模型(如 FLUX、RPG)生成單張圖像的時(shí)間進(jìn)行了比較。使用相同的文本提示,并將去噪步數(shù)固定為 40,IterComp 顯示出更快的生成速度,因?yàn)樗苊饬?RPG 和 Omost 中復(fù)雜的注意力計(jì)算。我們的方法能夠在不增加任何計(jì)算開銷的情況下,整合來自不同模型的組合感知知識(shí)。這種效率凸顯了其在各種應(yīng)用中的潛力,并為處理復(fù)雜生成任務(wù)提供了新的視角。
用戶研究
我們進(jìn)行了一個(gè)全面的用戶研究,以評(píng)估 IterComp 在組合生成中的有效性。如下圖 5 所示,我們隨機(jī)選擇了 16 個(gè)提示進(jìn)行比較,并邀請(qǐng)了來自不同背景的 23 位用戶對(duì)圖像組合性進(jìn)行投票,共獲得 1,840 票。結(jié)果顯示,IterComp 在組合生成方面獲得了廣泛的用戶認(rèn)可。
消融研究
模型庫大小的影響
在模型庫大小的消融研究中,如下圖 6 所示,我們觀察到增加模型庫的大小會(huì)提高 IterComp 在各項(xiàng)評(píng)估任務(wù)上的性能。為了利用這一發(fā)現(xiàn)并提供更細(xì)粒度的獎(jiǎng)勵(lì)指導(dǎo),我們通過逐步擴(kuò)展模型庫,結(jié)合優(yōu)化后的基礎(chǔ)擴(kuò)散模型和新模型(如 Omost)來進(jìn)行多次迭代。
組合感知迭代反饋學(xué)習(xí)的影響
研究者們進(jìn)行了消融研究(見下圖 7),以評(píng)估組合感知迭代反饋學(xué)習(xí)的影響。結(jié)果顯示,這種方法顯著提高了組合生成的準(zhǔn)確性和生成圖像的美學(xué)質(zhì)量。隨著迭代次數(shù)的增加,模型的偏好逐漸收斂?;谶@一觀察,在 IterComp 中將迭代次數(shù)設(shè)置為 3。
泛化研究
IterComp 可以作為各種組合生成任務(wù)的強(qiáng)大基礎(chǔ),充分利用其在空間意識(shí)、復(fù)雜提示理解和更快推理方面的優(yōu)勢(shì)。如下圖 8 所示,將 IterComp 集成到 Omost 和 RPG 中。結(jié)果表明,配備更強(qiáng)大 IterComp 骨干的 Omost 和 RPG 實(shí)現(xiàn)了出色的組合生成性能,突顯了 IterComp 的強(qiáng)泛化能力和更廣泛應(yīng)用的潛力。
結(jié)論
本文提出了一種新穎的框架,IterComp,旨在解決復(fù)雜的組合文本到圖像生成的挑戰(zhàn)。IterComp 從模型庫中聚合組合感知模型偏好,并采用迭代反饋學(xué)習(xí)方法,逐步優(yōu)化獎(jiǎng)勵(lì)模型和基礎(chǔ)擴(kuò)散模型,以實(shí)現(xiàn)多次迭代的精細(xì)化。未來的工作中,我們計(jì)劃通過引入更復(fù)雜的輸入條件以及將其擴(kuò)展到更實(shí)用的應(yīng)用中,進(jìn)一步增強(qiáng)該框架的能力。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
