如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過(guò)獎(jiǎng)勵(lì)梯度進(jìn)行視頻擴(kuò)散對(duì)齊
論文鏈接:https://arxiv.org/pdf/2407.08737
git鏈接:https://vader-vid.github.io/
亮點(diǎn)直擊:
- 引入獎(jiǎng)勵(lì)模型梯度對(duì)齊方法:VADER通過(guò)利用獎(jiǎng)勵(lì)模型的梯度,對(duì)多種視頻擴(kuò)散模型進(jìn)行調(diào)整和對(duì)齊,包括文本到視頻和圖像到視頻的擴(kuò)散模型。
- 廣泛使用預(yù)訓(xùn)練視覺(jué)模型:該方法涵蓋了多種預(yù)訓(xùn)練視覺(jué)模型,以提高對(duì)不同任務(wù)的適應(yīng)能力和性能。
- 內(nèi)存使用優(yōu)化技巧:VADER提出了多種技巧,有效改善內(nèi)存使用效率,使得可以在單個(gè)16GB VRAM的GPU上進(jìn)行訓(xùn)練。
- 顯著改進(jìn)模型生成質(zhì)量:定性可視化結(jié)果顯示,VADER顯著改進(jìn)了基礎(chǔ)模型在多種任務(wù)上的生成質(zhì)量和效果。
- 超越傳統(tǒng)對(duì)齊方法的性能:與傳統(tǒng)方法如DPO或DDPO相比,VADER展示了更高的性能,特別是在未見(jiàn)過(guò)的提示上的泛化能力。
目前已經(jīng)在建立基礎(chǔ)視頻擴(kuò)散模型方面取得了顯著進(jìn)展。由于這些模型是使用大規(guī)模無(wú)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練的,因此將這些模型調(diào)整到特定的下游任務(wù)變得至關(guān)重要。通過(guò)監(jiān)督微調(diào)來(lái)適應(yīng)這些模型需要收集視頻目標(biāo)數(shù)據(jù)集,這是具有挑戰(zhàn)性和繁瑣的。本文利用預(yù)訓(xùn)練的獎(jiǎng)勵(lì)模型,通過(guò)對(duì)頂尖視覺(jué)辨別模型的偏好進(jìn)行學(xué)習(xí),來(lái)適應(yīng)視頻擴(kuò)散模型。這些模型包含關(guān)于生成的RGB像素的密集梯度信息,這對(duì)于在復(fù)雜的搜索空間(如視頻)中進(jìn)行高效學(xué)習(xí)至關(guān)重要。本文展示了從這些獎(jiǎng)勵(lì)模型向視頻擴(kuò)散模型反向傳播梯度的結(jié)果,可以實(shí)現(xiàn)計(jì)算和采樣的高效對(duì)齊。本文展示了在多種獎(jiǎng)勵(lì)模型和視頻擴(kuò)散模型上的結(jié)果,表明本文的方法在獎(jiǎng)勵(lì)查詢(xún)和計(jì)算方面比之前無(wú)梯度方法能夠更高效地學(xué)習(xí)。
VADER: 通過(guò)獎(jiǎng)勵(lì)梯度進(jìn)行視頻擴(kuò)散
本文的方法,用于將視頻擴(kuò)散模型調(diào)整為執(zhí)行通過(guò)獎(jiǎng)勵(lì)函數(shù) R(.) 指定的特定任務(wù)。
VADER在去噪進(jìn)度上非常靈活,本文展示了與DDIM和EDM求解器的結(jié)果。為了防止過(guò)度優(yōu)化,本文使用截?cái)喾聪騻鞑?,其中梯度僅向后傳播K步,其中K < T,T為總擴(kuò)散時(shí)間步數(shù)。使用較小的K值還可以減少梯度向后傳播的內(nèi)存負(fù)擔(dān),使訓(xùn)練更加可行。本文在下面的算法1中提供了完整訓(xùn)練過(guò)程的偽代碼。接下來(lái),本文討論用于對(duì)齊視頻模型的獎(jiǎng)勵(lì)函數(shù)類(lèi)型。
本文使用多種類(lèi)型的獎(jiǎng)勵(lì)函數(shù)來(lái)對(duì)齊視頻擴(kuò)散模型。以下是本文考慮的不同類(lèi)型的獎(jiǎng)勵(lì)函數(shù)。
圖像-文本相似度獎(jiǎng)勵(lì) 擴(kuò)散模型生成的視頻與用戶(hù)提供的文本相對(duì)應(yīng)。為確保視頻與提供的文本對(duì)齊,本文可以定義一個(gè)獎(jiǎng)勵(lì),用于衡量生成的視頻與提供的文本之間的相似性。為了利用流行的大規(guī)模圖像-文本模型如CLIP,本文可以采取以下方法。為了使整個(gè)視頻能夠很好地對(duì)齊,視頻的每個(gè)單獨(dú)幀很可能需要與上下文 c 具有高相似度。假設(shè)存在一個(gè)圖像-上下文相似度模型gimg有:
減少內(nèi)存開(kāi)銷(xiāo): 訓(xùn)練視頻擴(kuò)散模型非常消耗內(nèi)存,因?yàn)閮?nèi)存使用量與生成幀的數(shù)量成線性關(guān)系。雖然VADER顯著提高了微調(diào)這些模型的樣本效率,但卻增加了內(nèi)存的消耗。這是因?yàn)榭晌ⅹ?jiǎng)勵(lì)是在生成的幀上計(jì)算的,而這些幀是通過(guò)順序去噪步驟生成的。
- 常規(guī)技巧:為了減少內(nèi)存使用, 本文使用 LoRA只更新模型參數(shù)的子集,此外使用混合精度(mixed precision),將不可訓(xùn)練參數(shù)存儲(chǔ)為 fp16。在反向傳播過(guò)程中,為了減少內(nèi)存使用,使用梯度檢查點(diǎn)(gradient checkpointing),對(duì)于長(zhǎng)時(shí)間跨度的任務(wù),將反向計(jì)算圖的存儲(chǔ)從GPU內(nèi)存轉(zhuǎn)移到CPU內(nèi)存。
- 截?cái)喾聪騻鞑ィ捍送?,在本文的?shí)驗(yàn)中,僅通過(guò)擴(kuò)散模型進(jìn)行一步時(shí)間步長(zhǎng)的反向傳播,而不是通過(guò)多個(gè)時(shí)間步長(zhǎng)進(jìn)行反向傳播,本文發(fā)現(xiàn)這種方法在需要更少內(nèi)存的同時(shí)能夠獲得競(jìng)爭(zhēng)力的結(jié)果。
- 幀子采樣:由于本文考慮的所有視頻擴(kuò)散模型都是潛在擴(kuò)散模型,本文進(jìn)一步通過(guò)不將所有幀解碼為RGB像素來(lái)減少內(nèi)存使用。相反,隨機(jī)對(duì)幀進(jìn)行子采樣,僅對(duì)子采樣的幀解碼并應(yīng)用損失。
本文在2塊A6000顯卡(每塊48GB VRAM)上進(jìn)行實(shí)驗(yàn),本文的模型平均需要12小時(shí)進(jìn)行訓(xùn)練。然而,本文的代碼庫(kù)支持在單塊16GB VRAM的GPU上進(jìn)行訓(xùn)練。
結(jié)果
這項(xiàng)工作專(zhuān)注于通過(guò)一系列針對(duì)圖像和視頻定制的獎(jiǎng)勵(lì)模型,對(duì)各種條件視頻擴(kuò)散模型進(jìn)行微調(diào),包括 VideoCrafter, Open-Sora, Stable Video Diffusion 和 ModelScope。這些獎(jiǎng)勵(lì)模型包括圖像美學(xué)模型,用于圖像文本對(duì)齊的 HPSv2 和 PickScore,用于物體移除的 YOLOS,用于動(dòng)作分類(lèi)的 VideoMAE,以及用于時(shí)序一致性的自監(jiān)督損失 V-JEPA。本文的實(shí)驗(yàn)旨在回答以下問(wèn)題:
- VADER在樣本效率和計(jì)算需求上與無(wú)梯度技術(shù)(如DDPO或DPO)相比如何?
- 模型在多大程度上能夠推廣到訓(xùn)練過(guò)程中未見(jiàn)的提示?
- 經(jīng)過(guò)人類(lèi)評(píng)估者評(píng)判,微調(diào)的模型彼此之間如何比較?
- VADER在各種圖像和視頻獎(jiǎng)勵(lì)模型上的表現(xiàn)如何?
這個(gè)評(píng)估框架評(píng)估了VADER在從各種輸入條件生成高質(zhì)量、對(duì)齊的視頻內(nèi)容方面的效果。
基準(zhǔn)方法。 本文將VADER與以下方法進(jìn)行比較:
- VideoCrafter, Open-Sora 1.2 和 ModelScope 是當(dāng)前公開(kāi)的文本到視頻擴(kuò)散模型,被用作微調(diào)和比較的基礎(chǔ)模型。
- Stable Video Diffusion 是當(dāng)前公開(kāi)的圖像到視頻擴(kuò)散模型,在所有圖像到視頻空間的實(shí)驗(yàn)中,使用它們的基礎(chǔ)模型進(jìn)行微調(diào)和比較。
- DDPO 是一種最近的圖像擴(kuò)散對(duì)齊方法,使用策略梯度來(lái)調(diào)整擴(kuò)散模型的權(quán)重。具體地,它應(yīng)用了PPO算法到擴(kuò)散去噪過(guò)程中。研究者們擴(kuò)展了他們的代碼來(lái)適應(yīng)視頻擴(kuò)散模型。
- Diffusion-DPO 擴(kuò)展了最近在LLM空間中開(kāi)發(fā)的直接偏好優(yōu)化(DPO)到圖像擴(kuò)散模型。他們表明,直接使用偏好數(shù)據(jù)來(lái)建模似然性可以減少對(duì)獎(jiǎng)勵(lì)模型的需求。作者擴(kuò)展了他們的實(shí)現(xiàn)來(lái)對(duì)齊視頻擴(kuò)散模型,其中使用獎(jiǎng)勵(lì)模型來(lái)獲得所需的偏好數(shù)據(jù)。
?
獎(jiǎng)勵(lì)模型。本文使用以下獎(jiǎng)勵(lì)模型來(lái)微調(diào)視頻擴(kuò)散模型:
- 美學(xué)獎(jiǎng)勵(lì)模型:本文使用LAION美學(xué)預(yù)測(cè)器V2,它以圖像作為輸入并輸出其在1-10范圍內(nèi)的美學(xué)評(píng)分。該模型基于CLIP圖像嵌入進(jìn)行訓(xùn)練,使用包含17.6萬(wàn)張圖像評(píng)分的數(shù)據(jù)集,評(píng)分從1到10不等,其中評(píng)分為10的圖像被分類(lèi)為藝術(shù)品。
- 人類(lèi)偏好獎(jiǎng)勵(lì)模型:本文使用HPSv2和PickScore,它們以圖像-文本對(duì)作為輸入,并預(yù)測(cè)人類(lèi)對(duì)生成圖像的偏好。HPSv2通過(guò)對(duì)CLIP模型進(jìn)行微調(diào),使用包含約79.8萬(wàn)個(gè)人類(lèi)偏好排名的數(shù)據(jù)集,涵蓋了43.376萬(wàn)對(duì)圖像。而PickScore則通過(guò)對(duì)CLIP模型進(jìn)行微調(diào),使用了58.4萬(wàn)個(gè)人類(lèi)偏好示例的數(shù)據(jù)集。這些數(shù)據(jù)集在領(lǐng)域內(nèi)屬于最廣泛的,為增強(qiáng)圖像-文本對(duì)齊提供了堅(jiān)實(shí)的基礎(chǔ)。
- 物體移除獎(jiǎng)勵(lì)模型:本文設(shè)計(jì)了基于YOLOS的獎(jiǎng)勵(lì)模型,YOLOS是基于Vision Transformer的物體檢測(cè)模型,訓(xùn)練數(shù)據(jù)包括11.8萬(wàn)個(gè)注釋圖像。獎(jiǎng)勵(lì)是目標(biāo)物體類(lèi)別置信度分?jǐn)?shù)的反數(shù),通過(guò)該獎(jiǎng)勵(lì)模型,視頻模型學(xué)習(xí)從視頻中移除目標(biāo)物體類(lèi)別。
- 視頻動(dòng)作分類(lèi)獎(jiǎng)勵(lì)模型:雖然以上獎(jiǎng)勵(lì)模型作用于單個(gè)圖像,作者采用一個(gè)獎(jiǎng)勵(lì)模型,將整個(gè)視頻作為輸入。這有助于獲取視頻生成的時(shí)間方面的梯度。具體而言,考慮了VideoMAE,它在Kinetics數(shù)據(jù)集上進(jìn)行了動(dòng)作分類(lèi)任務(wù)的微調(diào)。獎(jiǎng)勵(lì)是動(dòng)作分類(lèi)器為期望行為預(yù)測(cè)的概率。
- 時(shí)間一致性獎(jiǎng)勵(lì)模型:雖然動(dòng)作分類(lèi)模型僅限于固定的動(dòng)作標(biāo)簽集,但考慮了一個(gè)更通用的獎(jiǎng)勵(lì)函數(shù)。具體來(lái)說(shuō),使用自監(jiān)督的遮蔽預(yù)測(cè)目標(biāo)作為獎(jiǎng)勵(lì)函數(shù),以提高時(shí)間一致性。本文使用V-JEPA作為獎(jiǎng)勵(lì)模型,獎(jiǎng)勵(lì)是在V-JEPA特征空間中遮蔽自編碼損失的負(fù)值。
?
提示數(shù)據(jù)集。 本文考慮以下一組提示數(shù)據(jù)集,用于對(duì)文本到視頻和圖像到視頻擴(kuò)散模型進(jìn)行獎(jiǎng)勵(lì)微調(diào):
- 活動(dòng)提示(文本):考慮來(lái)自DDPO的活動(dòng)提示。每個(gè)提示結(jié)構(gòu)化為"a(n) [動(dòng)物] [活動(dòng)]",使用了包含45種常見(jiàn)動(dòng)物的集合。每個(gè)提示的活動(dòng)來(lái)自三個(gè)選項(xiàng)之一:"騎自行車(chē)"、"下棋"和"洗碗"。
- HPSv2動(dòng)作提示(文本):本文從HPSv2數(shù)據(jù)集中的一組提示中篩選出了50個(gè)提示。篩選這些提示以確保它們包含動(dòng)作或運(yùn)動(dòng)信息。
- ChatGPT生成的提示(文本):本文提示ChatGPT生成一些生動(dòng)且創(chuàng)意設(shè)計(jì)的文本描述,涵蓋各種場(chǎng)景,例如書(shū)籍放在杯子旁邊,動(dòng)物穿著衣服,以及動(dòng)物演奏樂(lè)器。
- ImageNet狗類(lèi)別(圖像):對(duì)于圖像到視頻擴(kuò)散模型,本文考慮ImageNet中拉布拉多犬和馬爾濟(jì)斯犬類(lèi)別的圖像作為提示集。
- Stable Diffusion圖像(圖像):這里本文考慮Stable Diffusion在線演示網(wǎng)頁(yè)中的全部25張圖像作為提示數(shù)據(jù)集。
樣本和計(jì)算效率
大規(guī)模視頻擴(kuò)散模型的訓(xùn)練由少數(shù)擁有大量計(jì)算資源的實(shí)體完成;然而,這些模型的微調(diào)卻由許多擁有有限計(jì)算資源的實(shí)體完成。因此,擁有既能提升樣本效率又能提升計(jì)算效率的微調(diào)方法變得至關(guān)重要。
在本節(jié)中,將比較VADER在樣本和計(jì)算效率上與其他強(qiáng)化學(xué)習(xí)方法如DDPO和DPO的表現(xiàn)。在下圖7中,可視化了訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)曲線,圖中上半部分的x軸是獎(jiǎng)勵(lì)查詢(xún)次數(shù),下半部分的x軸是GPU小時(shí)數(shù)。從圖中可以看出,與DDPO或DPO相比,VADER在樣本和計(jì)算效率上顯著更高。這主要是因?yàn)閷?lái)自獎(jiǎng)勵(lì)模型的密集梯度發(fā)送到擴(kuò)散模型的權(quán)重中,而基線方法只是反向傳播標(biāo)量反饋。
通用化能力
微調(diào)的一個(gè)期望屬性是泛化能力,即在有限提示集上微調(diào)的模型能夠泛化到未見(jiàn)過(guò)的提示上。在本節(jié)中,通過(guò)多個(gè)獎(jiǎng)勵(lì)模型和基準(zhǔn)模型廣泛評(píng)估這一屬性。在訓(xùn)練文本到視頻(T2V)模型時(shí),在訓(xùn)練集中使用了HPSv2行動(dòng)提示,而在測(cè)試集中使用了活動(dòng)提示。對(duì)于訓(xùn)練圖像到視頻(I2V)模型,在訓(xùn)練集中使用了拉布拉多犬類(lèi)別,而馬耳他犬類(lèi)別則形成了本文的測(cè)試集。下表1展示了VADER的泛化能力。
人類(lèi)評(píng)估
研究者們進(jìn)行了一項(xiàng)研究,通過(guò)Amazon Mechanical Turk評(píng)估人類(lèi)偏好。測(cè)試包括VADER和ModelScope之間的并排比較。為了測(cè)試從這兩種模型生成的視頻如何與它們的文本提示對(duì)齊,向參與者展示了由VADER和基線方法生成的兩個(gè)視頻,并要求他們選擇哪個(gè)視頻更符合給定的文本。為了評(píng)估視頻質(zhì)量,研究者們要求參與者比較以相同提示生成的兩個(gè)視頻,一個(gè)來(lái)自VADER,另一個(gè)來(lái)自基線方法,并決定哪個(gè)視頻的質(zhì)量更高。每個(gè)比較收集了100個(gè)回復(fù)。下表2中的結(jié)果顯示,相比基線方法,人們更偏好VADER。
定性可視化
本節(jié)將展示VADER生成的視頻及其相應(yīng)的基準(zhǔn)模型。將在各種基礎(chǔ)模型上,通過(guò)所有考慮的獎(jiǎng)勵(lì)函數(shù)進(jìn)行廣泛的可視化展示。
HPS獎(jiǎng)勵(lì)模型: 在下圖3中,可視化了使用HPSv2.1和美學(xué)獎(jiǎng)勵(lì)函數(shù)對(duì)VideoCrafter進(jìn)行微調(diào)前后的結(jié)果,前三行展示了這些結(jié)果。在微調(diào)前,浣熊沒(méi)有拿著雪球,狐貍也沒(méi)有戴帽子,這與文本描述不一致;然而,從VADER生成的視頻中不會(huì)出現(xiàn)這些不一致之處。此外,如圖3的第三行所示,VADER成功地泛化到未見(jiàn)過(guò)的提示,狗的爪子看起來(lái)不像左側(cè)視頻中的人類(lèi)手那樣。類(lèi)似的改進(jìn)也可以在使用Open-Sora V1.2和ModelScope生成的視頻中觀察到,如下圖6的第二和第三行所示。
美學(xué)獎(jiǎng)勵(lì)模型: 在上圖3中,前三行可視化了使用美學(xué)獎(jiǎng)勵(lì)函數(shù)和HPSv2.1模型組合微調(diào)ModelScope前后的結(jié)果。此外,還通過(guò)美學(xué)獎(jiǎng)勵(lì)函數(shù)微調(diào)了ModelScope,并在上圖6的最后一行展示了其生成的視頻。觀察到,美學(xué)微調(diào)使得生成的視頻更具藝術(shù)感。
PickScore模型: 在上圖3的最后三行,展示了通過(guò)PickScore微調(diào)的VideoCrafter生成的視頻。VADER顯示出比基準(zhǔn)模型更好的文本到視頻對(duì)齊效果。在最后一行,測(cè)試了兩個(gè)模型對(duì)在訓(xùn)練時(shí)未見(jiàn)過(guò)的提示的響應(yīng)。此外,通過(guò)PickScore微調(diào)的Open-Sora生成的視頻顯示在上圖6的第一行。
對(duì)象移除: 在下圖5中,顯示了經(jīng)過(guò)使用基于YOLOS的對(duì)象移除獎(jiǎng)勵(lì)函數(shù)微調(diào)后,由VideoCrafter生成的視頻。在這個(gè)例子中,書(shū)籍是要移除的目標(biāo)對(duì)象。這些視頻展示了成功將書(shū)籍替換為其他物體,比如毯子或面包。
視頻動(dòng)作分類(lèi): 在下圖8中,展示了ModelScope和VADER的視頻生成結(jié)果。在這種情況下,使用動(dòng)作分類(lèi)目標(biāo)對(duì)VADER進(jìn)行微調(diào),以符合提示中指定的動(dòng)作。對(duì)于提示中的“一個(gè)人在吃甜甜圈”,發(fā)現(xiàn)VADER使人臉更加明顯,并在甜甜圈上添加了彩色的糖珠。之前的生成通常被錯(cuò)誤分類(lèi)為烘烤餅干,這是Kinetics數(shù)據(jù)集中的另一個(gè)動(dòng)作類(lèi)別。向甜甜圈添加顏色和糖珠使其與餅干更易于區(qū)分,從而獲得更高的獎(jiǎng)勵(lì)。
V-JEPA 獎(jiǎng)勵(lì)模型: 在下圖9中,展示了通過(guò)Stable Video Diffusion(SVD)增加視頻長(zhǎng)度的結(jié)果。為了在SVD上生成長(zhǎng)距離視頻,使用自回歸推理,其中由SVD生成的最后一幀作為條件輸入,用于生成下一組圖像。進(jìn)行了三步推理,因此將SVD的上下文長(zhǎng)度擴(kuò)展了三倍。然而,正如在紅色邊框中可以看到的那樣,在進(jìn)行一步推理后,SVD開(kāi)始在預(yù)測(cè)中累積錯(cuò)誤。這導(dǎo)致了泰迪熊的變形,或者影響了運(yùn)動(dòng)中的火箭。VADER使用V-JEPA目標(biāo)的掩碼編碼,以強(qiáng)制生成的視頻自一致性。如下圖9所示,這成功解決了生成中的時(shí)間和空間差異問(wèn)題。
結(jié)論
本文介紹了VADER,這是一個(gè)通過(guò)獎(jiǎng)勵(lì)梯度對(duì)預(yù)訓(xùn)練視頻擴(kuò)散模型進(jìn)行微調(diào)的樣本和計(jì)算高效框架。本文利用在圖像或視頻上評(píng)估的各種獎(jiǎng)勵(lì)函數(shù)來(lái)微調(diào)視頻擴(kuò)散模型。此外,展示了本文的框架對(duì)條件無(wú)關(guān),并且可以在文本到視頻和圖像到視頻擴(kuò)散模型上都能工作。希望本文的工作能夠引起更多人對(duì)調(diào)整視頻擴(kuò)散模型的興趣。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Zheyang Qin等
