偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025) 原創(chuàng)

發(fā)布于 2025-5-19 09:12
瀏覽
0收藏

摘要

VILA-U 是一個統(tǒng)一基礎(chǔ)模型,融合了視頻、圖像和語言的理解與生成能力。傳統(tǒng)的視覺語言模型(VLMs)在處理視覺內(nèi)容的理解和生成任務(wù)時,使用獨立的模塊,這可能導(dǎo)致模塊間的不協(xié)調(diào)和模型復(fù)雜度的增加。相比之下,VILA-U 采用單一的自回歸下一個標(biāo)記預(yù)測框架來處理這兩項任務(wù),避免了使用如擴散模型等額外組件的需求。這種方法不僅簡化了模型結(jié)構(gòu),還在視覺語言理解和生成任務(wù)中取得了接近當(dāng)前最優(yōu)水平的性能。VILA-U 的成功主要歸因于兩個關(guān)鍵因素:一是統(tǒng)一的視覺塔,它在預(yù)訓(xùn)練過程中將離散的視覺標(biāo)記與文本輸入對齊,從而增強了視覺感知能力;二是在高質(zhì)量數(shù)據(jù)集上進行訓(xùn)練時,自回歸圖像生成能夠達(dá)到與擴散模型相似的效果。這使得 VILA-U 能夠在使用完全基于標(biāo)記的自回歸框架的情況下,與更為復(fù)雜的模型表現(xiàn)相媲美。我們的代碼已在??https://github.com/mit-han-lab/vila-u??開源。

1、引言

近年來,大語言模型(LLMs)在各種語言任務(wù)中展現(xiàn)出卓越的能力。它們具有遵循指令、零樣本泛化和少樣本上下文學(xué)習(xí)等吸引人的特性,這激發(fā)了研究人員將其與視覺模型相結(jié)合,構(gòu)建用于多模態(tài)任務(wù)的視覺語言模型(VLMs)。該領(lǐng)域的許多研究(Dai 等人,2024;Liu 等人,2024b;Lin 等人,2023)在視覺語言理解方面取得了顯著成果。在這些工作中,視覺輸入通過像 CLIP(Radford 等人,2021)這樣的視覺模型映射到 LLMs 的語義空間中,通過包含文本 - 圖像對齊目標(biāo)來彌合兩種模態(tài)之間的差距。

除了視覺理解,結(jié)合視覺和語言模態(tài)的另一個重要研究方向是視覺生成。目前,文本引導(dǎo)的圖像生成主要有兩種流行方法。一種方法是使用擴散模型(Rombach 等人,2022a),這是一種在各種生成任務(wù)中都表現(xiàn)強大的工具。另一種方法則是通過向量量化(VQ)將視覺內(nèi)容轉(zhuǎn)換為離散標(biāo)記,然后利用自回歸變壓器進行高質(zhì)量、多樣化的生成(Esser 等人,2021;Yu 等人,2021;Lee 等人,2022;Tian 等人,2024b;Sun 等人,2024)。

隨著視覺理解和生成技術(shù)的迅速發(fā)展,將這些技術(shù)統(tǒng)一到一個單一的多模態(tài)框架中成為一種新興趨勢。在 VILA-U 之前,實現(xiàn)這種統(tǒng)一主要有兩種方法:(1)一種方法(Liu 等人,2024a;Yu 等人,2023a;Xie 等人,2024)利用基于 VQGAN(Esser 等人,2021)的分詞器將視覺輸入轉(zhuǎn)換為離散標(biāo)記,并使用自回歸模型進行理解和生成。然而,Xie 等人(2024)指出,基于 VQGAN 的編碼器生成的視覺標(biāo)記缺乏語義信息,這通常會導(dǎo)致在下游視覺理解任務(wù)中性能嚴(yán)重下降。(2)另一種方法(Zhan 等人,2024;Ge 等人,2023b;Jin 等人,2023)利用碼本對像 CLIP 這樣的預(yù)訓(xùn)練視覺模型產(chǎn)生的特征進行量化。由于 CLIP 特征編碼了豐富的語義信息,這些方法通常在理解任務(wù)上取得明顯更好的性能。但是,這些分詞器缺乏解碼能力,需要外部視覺生成模型(如擴散模型),以生成的視覺標(biāo)記作為條件來產(chǎn)生視覺輸出。這種方法增加了基礎(chǔ)設(shè)施設(shè)計的復(fù)雜性。現(xiàn)有的大規(guī)?;A(chǔ)模型訓(xùn)練管道和部署系統(tǒng)已經(jīng)針對基于下一個標(biāo)記預(yù)測的語言建模進行了高度優(yōu)化。設(shè)計和維護一個額外的堆棧來支持?jǐn)U散模型將帶來巨大的工程成本。

在這項工作中,我們提出了 VILA-U,這是一個端到端的自回歸框架,具有統(tǒng)一的下一個標(biāo)記預(yù)測目標(biāo),適用于視覺和文本輸入。它能夠在視覺語言理解和生成任務(wù)中實現(xiàn)有競爭力的性能,而無需像擴散模型這樣的外部組件的幫助。我們確定了統(tǒng)一視覺和語言模態(tài)的兩個關(guān)鍵原則:(1)現(xiàn)有的統(tǒng)一端到端自回歸視覺語言模型無法實現(xiàn)具有競爭力的視覺理解性能,因為離散的 VQGAN 標(biāo)記僅在圖像重建損失上進行訓(xùn)練,并未與文本輸入對齊。因此,在 VQ 視覺塔預(yù)訓(xùn)練期間引入文本對齊以增強感知能力至關(guān)重要。(2)如果在足夠規(guī)模的高質(zhì)量數(shù)據(jù)上進行訓(xùn)練,自回歸圖像生成可以達(dá)到與擴散模型相似的質(zhì)量。受這些見解的啟發(fā),VILA-U 采用了統(tǒng)一的基礎(chǔ)視覺塔,通過向量量化將視覺輸入轉(zhuǎn)換為離散標(biāo)記,并使用對比學(xué)習(xí)將這些標(biāo)記與文本輸入對齊。VILA-U 的多模態(tài)訓(xùn)練在一個小尺寸的高質(zhì)量圖像 - 文本語料庫上,利用統(tǒng)一的下一個標(biāo)記預(yù)測目標(biāo)對視覺和文本標(biāo)記進行訓(xùn)練。

我們在常見的視覺語言任務(wù)上對 VILA-U 進行了評估,包括圖像 - 語言理解、視頻 - 語言理解、圖像生成和視頻生成。VILA-U 顯著縮小了端到端自回歸模型與連續(xù)標(biāo)記視覺語言模型在視覺理解性能上的差距,同時引入了具有競爭力的原生視覺生成能力。

2、相關(guān)工作

2.1 大語言模型(LLMs)

基于預(yù)訓(xùn)練大規(guī)模變壓器(Vaswani 等人,2017)的大語言模型徹底革新了自然語言處理領(lǐng)域。憑借巨大的模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)語料庫,大語言模型在各種語言任務(wù)中取得了顯著的性能。開源大語言模型的發(fā)展,如 LLaMA(Touvron 等人,2023a)、Mixtral(Jiang 等人,2024)和 Vicuna(Chiang 等人,2023),進一步推動了關(guān)于如何將大語言模型應(yīng)用于復(fù)雜語言任務(wù)的研究。除了在不同領(lǐng)域具有出色的零樣本泛化能力外,大語言模型通常還在定制數(shù)據(jù)集上進行微調(diào),以在特定任務(wù)中獲得更好的性能。指令調(diào)整(OpenAI,2023;Chung 等人,2024;Ouyang 等人,2022)也是在應(yīng)用大語言模型時獲得更好輸出的關(guān)鍵步驟。在這項工作中,我們采用 LLaMA-2-7B(Touvron 等人,2023a)模型作為我們的基礎(chǔ)大語言模型。

2.2 視覺語言模型(VLMs)

在這個大語言模型時代,計算機視覺和自然語言處理的結(jié)合催生了視覺語言模型。在視覺語言模型中,研究人員利用諸如 CLIP(Radford 等人,2021)、BLIP(Li 等人,2022)和 CoCa(Yu 等人,2022)等視覺基礎(chǔ)模型來提取視覺特征,與文本對齊,并將其輸入到大語言模型中,以實現(xiàn)文本和視覺內(nèi)容之間的跨模態(tài)理解。在這些進展的基礎(chǔ)上,許多視覺語言模型(Alayrac 等人,2022;Li 等人,2023b;Liu 等人,2024b;Lin 等人,2023;Luo 等人,2024;Tian 等人,2024a)已經(jīng)在廣泛的視覺語言數(shù)據(jù)上進行設(shè)計和訓(xùn)練,以在視覺理解和推理任務(wù)中取得顯著的性能。在這項工作中,我們旨在開發(fā)一種視覺語言模型,其視覺理解能力與先前的工作相當(dāng),同時還具備新的視覺生成能力。

2.3 統(tǒng)一視覺語言模型

人們已經(jīng)做出了許多努力來開發(fā)能夠生成文本以及視覺內(nèi)容(包括圖像和視頻)的統(tǒng)一視覺語言模型。在視覺語言模型中,生成視覺內(nèi)容主要有兩種主流方法。許多工作(Sun 等人,2023b;a;Jin 等人,2023;Ge 等人,2023b;Li 等人,2023c;Ge 等人,2024;Jin 等人,2024;Ge 等人,2023a)將視覺語言模型與像 Stable Diffusion(Rombach 等人,2022a)這樣的擴散模型相結(jié)合,以實現(xiàn)高質(zhì)量的圖像生成。其他工作(Liu 等人,2024a;Yu 等人,2023a;Lu 等人,2023;Team,2024;Xie 等人,2024)采用基于 VQGAN 的視覺編碼器,將視覺輸入轉(zhuǎn)換為離散標(biāo)記,并讓大語言模型學(xué)習(xí)預(yù)測這些標(biāo)記。關(guān)于我們的方法與其他統(tǒng)一視覺語言模型之間區(qū)別的更多細(xì)節(jié),請參見附錄 A。

3、方法

這項工作提出了一個多模態(tài)框架,旨在有效地統(tǒng)一視覺和語言模態(tài)。實現(xiàn)這種統(tǒng)一的關(guān)鍵組件是一個統(tǒng)一的基礎(chǔ)視覺塔,它將視覺輸入轉(zhuǎn)換為與文本對齊的離散標(biāo)記,以及一個統(tǒng)一的多模態(tài)生成訓(xùn)練過程。圖 1 展示了我們框架中主要的多模態(tài)訓(xùn)練和推理過程的概述。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

圖1:我們框架的多模態(tài)訓(xùn)練和推理過程概述:視覺輸入被標(biāo)記化為離散標(biāo)記,并與文本標(biāo)記連接形成多模態(tài)標(biāo)記序列。所有標(biāo)記都參與我們的下一個標(biāo)記預(yù)測過程,實現(xiàn)統(tǒng)一的訓(xùn)練目標(biāo)。在推理過程中,輸出標(biāo)記由我們的文本去標(biāo)記器或視覺塔解碼器解碼,以生成多模態(tài)內(nèi)容。

3.1 統(tǒng)一基礎(chǔ)視覺塔

為了支持多樣化的視覺理解和生成任務(wù),我們首先構(gòu)建了一個統(tǒng)一的基礎(chǔ)視覺塔,以提供合適的視覺特征。我們建議在視覺塔訓(xùn)練中納入文本 - 圖像對比損失和基于 VQ 的圖像重建損失,賦予視覺塔文本對齊和離散標(biāo)記化的能力。如圖 2 所示,從圖像中提取的特征主要通過殘差量化進行離散化。然后,在一條路徑中,離散的視覺特征被輸入到解碼器中以重建圖像并計算重建損失;在另一條路徑中,我們計算離散視覺特征與文本編碼器提供的文本特征之間的文本 - 圖像對比損失。通過這個訓(xùn)練過程,視覺塔學(xué)習(xí)提取適用于我們視覺語言模型中理解和生成任務(wù)的離散特征。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

圖2:我們統(tǒng)一基礎(chǔ)視覺塔概述:給定輸入圖像,視覺編碼器提取的特征通過殘差量化進行離散化。然后,離散的視覺特征同時輸入到視覺解碼器中以重建圖像,并用于執(zhí)行文本 - 圖像對齊。在此過程中,計算重建損失和對比損失以更新視覺塔,使其能夠生成與文本對齊的離散視覺特征。

統(tǒng)一訓(xùn)練方法

從頭開始使用兩個目標(biāo)訓(xùn)練統(tǒng)一視覺塔是困難的,因為對齊和重建任務(wù)分別需要高級語義特征和低級外觀特征。同時使用這兩個目標(biāo)從頭開始訓(xùn)練整個視覺塔可能會導(dǎo)致目標(biāo)沖突。在實踐中,我們觀察到,使用圖像重建和對比損失從頭開始訓(xùn)練向量量化的視覺塔,在經(jīng)過幾個訓(xùn)練周期后,在 ImageNet(Deng 等人,2009a)上的零樣本圖像分類的 Top-1 準(zhǔn)確率僅為 5%。

為了解決這個問題,我們嘗試了不同的訓(xùn)練方法(失敗的方法列在附錄 C 中),并發(fā)現(xiàn)以下解決方案最為有效。我們建議不要同時學(xué)習(xí)兩個目標(biāo),而是首先賦予模型文本 - 圖像對齊能力,然后在保持對齊能力的同時學(xué)習(xí)重建能力。我們使用來自 CLIP 模型的預(yù)訓(xùn)練權(quán)重初始化視覺編碼器和文本編碼器,以確保良好的文本 - 圖像對齊。接下來,我們凍結(jié)文本編碼器,并使所有視覺組件在對比損失和重建損失下保持可訓(xùn)練狀態(tài)。對比損失保持對齊能力,而重建損失培養(yǎng)重建能力。這種方法收斂迅速,并產(chǎn)生強大的性能。預(yù)訓(xùn)練的 CLIP 權(quán)重包含已學(xué)習(xí)的高級先驗知識,從頭開始學(xué)習(xí)這些知識既困難又計算成本高昂。使用這些權(quán)重進行初始化,使視覺編碼器能夠更快、更易于處理地結(jié)合低級和高級特征。通過這種方法,我們可以訓(xùn)練出一個既具有良好文本對齊能力又具有圖像重建能力的視覺塔。我們使用加權(quán)和來組合文本 - 圖像對比損失和基于 VQ 的圖像重建損失:

L_{total} = w_{contra}L_{contra} + w_{recon}L_{recon} (1)

在我們的實驗中,我們選擇w_{contra}=1和w_{recon}=1。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

殘差向量量化

我們的視覺特征被離散量化,因此它們的表示能力在很大程度上取決于我們在量化器中使用的碼本大小。由于我們希望它們同時包含高級和低級特征,我們需要在其向量特征空間中擁有更多的容量,這使得更大的碼本大小對于下游任務(wù)的良好性能是必要的。然而,每個圖像的碼本數(shù)量過多會導(dǎo)致在視覺生成過程中,大語言模型需要生成的標(biāo)記過多,從而產(chǎn)生大量延遲。因此,為了在增加向量特征容量的同時,為大語言模型保持合理數(shù)量的標(biāo)記,我們采用了一種基于 RQ-VAE(Lee 等人,2022)的殘差向量量化方法,將向量z離散化為D個離散碼:

\mathcal{R} \mathcal{Q}(z ; \mathcal{C}, D)=\left(k_{1}, \cdots, k_{D}\right) \in[K]^{D}

 (2)

其中\(zhòng)mathcal{C}是碼本,K = |\mathcal{C}|,k_5gk0f71da是z在深度d處的碼。從r_{0}=z開始,我們通過以下方式遞歸地執(zhí)行向量量化:

\begin{aligned} k_5gk0f71da & =\mathcal{Q}\left(r_{d-1}, \mathcal{C}\right), \\ r_5gk0f71da & =r_{d-1}-e\left(k_5gk0f71da\right), \end{aligned}

對于每個深度d = 1,2,\cdots,D,其中e是碼本嵌入表,\mathcal{Q}是標(biāo)準(zhǔn)向量量化:

\mathcal{Q}(z ; \mathcal{C})=\underset{k \in[K]}{arg min }\| z-e(k)\| _{2}^{2}

 (4)


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

z的量化向量是在深度維度上的求和:\widehat{z}=\sum_{i=1}^{D} e(k_{i})。直觀地說,在每個深度我們選擇一個碼來減少量化誤差。因此,與標(biāo)準(zhǔn)向量量化方法相比,我們有D個碼來量化一個向量,允許更精細(xì)的逼近和更大的特征空間。在多模態(tài)訓(xùn)練和推理過程中,大語言模型只需要預(yù)測碼本嵌入,不同深度的碼由一個深度變壓器依次生成,該變壓器以碼本嵌入作為初始輸入,如我們將在 3.2 節(jié)中介紹的。因此,通過這種殘差量化,我們可以在幾乎不增加延遲的情況下增強視覺塔的表示能力。

3.2 統(tǒng)一多模態(tài)生成預(yù)訓(xùn)練

圖 1 展示了我們統(tǒng)一多模態(tài)預(yù)訓(xùn)練過程的概述。我們的視覺塔編碼器按順序處理視覺輸入,生成一維標(biāo)記序列。然后,這個序列與文本標(biāo)記連接,形成一個多模態(tài)序列。為了區(qū)分不同模態(tài)并實現(xiàn)視覺內(nèi)容生成,我們插入特殊標(biāo)記:在圖像標(biāo)記的開頭和結(jié)尾分別插入和 < image_end>,在視頻標(biāo)記的開頭和結(jié)尾分別插入 < video_start > 和 < video_end>。視頻標(biāo)記是多幀圖像標(biāo)記的直接連接。

預(yù)訓(xùn)練數(shù)據(jù)形式

在統(tǒng)一預(yù)訓(xùn)練數(shù)據(jù)方面,我們利用文本和視覺標(biāo)記之間的不同連接形式來促進理解和生成。我們使用 [圖像,文本]、[文本,圖像] 和 [文本,視頻] 的形式,僅在每對中的后一個模態(tài)上添加監(jiān)督損失,以避免無條件的內(nèi)容生成并促進模態(tài)對齊。我們還采用交錯的文本和圖像連接形式來增強理解,僅在文本上應(yīng)用監(jiān)督損失。值得注意的是,出于效率原因,我們在預(yù)訓(xùn)練期間排除了 [視頻,文本] 的形式,因為我們發(fā)現(xiàn)在有監(jiān)督的微調(diào)期間納入它可以有效地產(chǎn)生出色的視頻理解能力。

訓(xùn)練目標(biāo)

由于視覺標(biāo)記和文本標(biāo)記都是離散的,我們可以使用通用的語言建模下一個標(biāo)記預(yù)測目標(biāo)來訓(xùn)練我們的大語言模型。然而,由于對視覺標(biāo)記使用了殘差量化,文本和視覺標(biāo)記的訓(xùn)練目標(biāo)略有不同。對于文本標(biāo)記,負(fù)對數(shù)似然損失計算為:

\mathcal{L}_{text }=-\sum_{i=1}^{T} log P_{\theta}\left(y_{i} | y_{     <i}\right)< span>      </i}\right)<>


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)圖片

其中T是多模態(tài)序列的長度,i僅在文本標(biāo)記出現(xiàn)在位置i時計數(shù)。對于視覺標(biāo)記,殘差量化在每個視覺位置j引入了代碼的深度堆疊結(jié)構(gòu)。為了解決這個問題,我們利用了 RQ-VAE(Lee 等人,2022)中引入的深度變壓器。具體來說,給定大語言模型為視覺位置j的視覺標(biāo)記生成的代碼嵌入h_{j},深度變壓器自回歸地預(yù)測D個殘差標(biāo)記((k_{j1}, ..., k_{jD}))。在訓(xùn)練過程中,深度變壓器在深度d的輸入v_{jd}定義為直到深度d - 1的代碼嵌入之和,即當(dāng)d>1時:

v_{j d}=\sum_{d'=1}^{d-1} e\left(k_{j d'}\right)

并且v_{j1}=h_{j}。因此,深度變壓器基于之前直到d - 1的估計來預(yù)測下一個代碼,以更精細(xì)地估計特征\hat{z}_{j}。然后,視覺標(biāo)記的負(fù)對數(shù)似然損失為:

\mathcal{L}_{visual }=-\sum_{j=1}^{T} \sum_{d=1}^{D} log P_{\delta}\left(k_{j d} | k_{j,     <d}\right)< span>      </d}\right)<>

其中T是多模態(tài)序列的長度,j僅在視覺標(biāo)記出現(xiàn)在位置j時計數(shù)。在多模態(tài)預(yù)訓(xùn)練期間,深度變壓器的權(quán)重被隨機初始化,并與大語言模型一起更新。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

4、實驗

在本節(jié)中,我們介紹了全面的實驗,以評估我們的方法在各種視覺理解和生成任務(wù)上的性能。首先,我們概述了實驗設(shè)置,包括模型架構(gòu)、訓(xùn)練數(shù)據(jù)集和評估基準(zhǔn)。隨后,我們評估了統(tǒng)一基礎(chǔ)視覺塔的性能。然后,我們將我們的方法與其他流行的視覺語言模型在各種視覺理解和生成基準(zhǔn)上進行比較。最后,我們給出了一些定性結(jié)果。

4.1 實驗設(shè)置

在我們的實驗中,我們采用 LLaMA-2-7B(Touvron 等人,2023b)作為基礎(chǔ)語言模型。對于視覺塔,我們選擇 SigLIP-Large-patch16-256 / SigLIP-SO400M-patch14-384(Zhai 等人,2023)作為視覺編碼器架構(gòu),并采用 RQ-VAE(Lee 等人,2022)中的殘差量化器、深度變換器以及解碼器架構(gòu)。量化器碼本大小為 16384。所有圖像和視頻都被調(diào)整為 256×256 / 384×384 的分辨率,每個圖像或視頻幀通過深度為 D = 4 / D = 16 的殘差量化轉(zhuǎn)換為 16×16×4 / 27×27×16 的代碼。我們在 COYO-700M(Byeon 等人,2022)上訓(xùn)練視覺塔,并在 ImageNet(Deng 等人,2009b)上評估其零樣本分類和重建性能。對于視覺理解,我們利用來自 ShareGPT4V(Chen 等人,2023)的 100 萬對 [圖像,文本] 數(shù)據(jù),以及來自 MMC4(Zhu 等人,2024)的 600 萬對交錯文本和圖像數(shù)據(jù)。對于視覺生成,我們納入了從我們內(nèi)部數(shù)據(jù)集精心挑選的 1500 萬對高質(zhì)量 [文本,圖像] 數(shù)據(jù),以及來自 OpenVid(Nan 等人,2024)數(shù)據(jù)集的 100 萬對 [文本,視頻] 數(shù)據(jù)。在視覺生成中采用無分類器引導(dǎo)(Ho & Salimans,2022),CFG 值設(shè)為 3。

為檢驗視覺理解能力,我們在廣泛使用的基于零樣本圖像的視覺語言基準(zhǔn)測試上評估模型,這些基準(zhǔn)包括 VQAv2(Goyal 等人,2017)、GQA(Hudson & Manning,2019)、TextVQA(Singh 等人,2019)、POPE(Li 等人,2023d)、MME(Fu 等人,2024)、SEED(Li 等人,2023a)、MM-Vet(Yu 等人,2023b);以及基于視頻的視覺語言基準(zhǔn)測試,如 ActivityNet(Caba Heilbron 等人,2015)、MSVD(Chen & Dolan,2011)、MSRVTT(Xu 等人,2017)、TGIF(Li 等人,2016)。

為評估視覺生成能力,我們使用 MJHQ-30K(Li 等人,2024)和 GenAI-Bench(Lin 等人,2024)進行圖像生成評估,使用 VBench(Huang 等人,2024)進行視頻生成評估。MJHQ-30K 通過生成圖像與 3 萬張高質(zhì)量圖像之間的 FID 分?jǐn)?shù)來反映圖像生成的整體能力。GenAI-Bench 是一個具有挑戰(zhàn)性的圖像到文本生成基準(zhǔn),用于反映圖像生成模型的綜合生成能力。Vbench 是一個全面的視頻生成模型基準(zhǔn)套件,它將生成質(zhì)量分解為多個明確的維度,以便進行細(xì)粒度和客觀的評估。

4.2 統(tǒng)一基礎(chǔ)視覺塔

我們在表 1 中展示了常用的指標(biāo) —— 重建 FID(rFID)和在 ImageNet 上零樣本圖像分類的 Top-1 準(zhǔn)確率,以此來衡量統(tǒng)一基礎(chǔ)視覺塔的重建能力和文本對齊能力。定性的重建結(jié)果請參考附錄 B.1。我們的模型比 VQ-GAN 取得了顯著更好的重建結(jié)果。在使用相同代碼形狀的情況下,我們的 rFID 略遜于 RQ-VAE。這是意料之中的,因為在訓(xùn)練過程中引入對比損失旨在增強圖像理解,這導(dǎo)致了重建質(zhì)量的下降。對于文本對齊能力,我們的統(tǒng)一視覺塔在 256 / 384 分辨率下實現(xiàn)了 73.3 / 78.0 的 Top-1 準(zhǔn)確率。這證明了我們統(tǒng)一視覺塔卓越的文本對齊能力。然而,值得注意的是,視覺塔的 rFID 和 Top-1 準(zhǔn)確率都只是一個中間指標(biāo)。由于統(tǒng)一視覺塔是整個自回歸模型的一個組成部分,我們認(rèn)為它在下游任務(wù)(如視覺理解和生成)中的表現(xiàn)更具意義。

表1:我們統(tǒng)一視覺塔在ImageNet上的重建FID(rFID)和零樣本圖像分類的Top-1準(zhǔn)確率

    - 模型:列出不同模型,如VQ - GAN、RQ - VAE、本文提出的模型(Ours)。

    - 預(yù)訓(xùn)練權(quán)重:各模型使用的預(yù)訓(xùn)練權(quán)重情況。

    - 分辨率:模型處理圖像時的分辨率,如256×256、384×384。

    - 代碼形狀:視覺特征量化后的代碼形狀,如16×16、8×8×4、16×16×4、27×27×16。

    - rFID:反映模型重建圖像質(zhì)量的指標(biāo)。

- Top-1準(zhǔn)確率:衡量模型在零樣本圖像分類任務(wù)中的性能指標(biāo)。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

4.3 定量評估

視覺理解任務(wù)

表 2 和表 3 分別總結(jié)了我們的方法與其他領(lǐng)先的視覺語言模型在圖像 - 語言和視頻 - 語言基準(zhǔn)測試上的比較結(jié)果。與像 CLIP 這樣的基礎(chǔ)模型生成的連續(xù)視覺標(biāo)記這一主流選擇相比,基于 VQGAN 的離散視覺標(biāo)記與文本的對齊性較差,從而損害了視覺語言模型在視覺理解任務(wù)上的性能。借助我們的統(tǒng)一基礎(chǔ)視覺塔,即使使用離散視覺標(biāo)記,我們的模型也能達(dá)到接近領(lǐng)先視覺語言模型的性能。

表2:與領(lǐng)先方法在基于圖像的視覺語言基準(zhǔn)測試上的比較。即使使用離散視覺標(biāo)記類型,在相同的大語言模型(LLM)規(guī)模下,我們的性能接近領(lǐng)先的視覺語言模型(VLMs),并在很大程度上超越了許多方法。表示在視覺語言模型訓(xùn)練期間觀察到了這些數(shù)據(jù)集中訓(xùn)練分割的圖像:對比了不同方法在VQAv2、GQA、TextVQA、POPE、MME、SEED、MM - Vet等基于圖像的視覺語言基準(zhǔn)測試中的性能,涉及的方法包括LLaVA - 1.5、VILA、Unified - IO 2等,展示了不同方法使用的大語言模型、視覺標(biāo)記類型、分辨率以及在各基準(zhǔn)測試中的得分情況。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

表3:與領(lǐng)先方法在基于視頻的視覺語言基準(zhǔn)測試上的比較。即使使用離散視覺標(biāo)記類型,在相同的大語言模型(LLM)規(guī)模下,我們的方法性能接近最先進的視覺語言模型(VLMs),超越了許多方法:呈現(xiàn)了不同方法在MSVD - QA、MSRVTT - QA、TGIF - QA、Activity Net - QA等基于視頻的視覺語言基準(zhǔn)測試中的結(jié)果,對比了如Unified - IO 2、Emu、Video - LLaMA等方法使用的大語言模型、視覺標(biāo)記類型、分辨率以及在各基準(zhǔn)測試中的得分情況。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

視覺生成任務(wù)

如表 4 所示,VILA-U 在 FID 指標(biāo)上優(yōu)于其他自回歸方法,并且與一些基于擴散模型的方法性能相當(dāng)。這一結(jié)果表明了我們的方法在視覺生成方面的可行性。表 5 總結(jié)了我們的方法與其他視覺生成方法在 GenAI-Bench 上的定量結(jié)果。盡管我們的方法不如那些在數(shù)十億級圖像 - 文本對上進行訓(xùn)練的基于擴散模型的視覺生成方法,但在高級提示下,即使訓(xùn)練數(shù)據(jù)量少了幾個數(shù)量級,我們的方法與 SD v2.1(Rombach 等人,2022b)和 SD-XL(Podell 等人,2023)的性能差距也相對較小。這進一步表明,VILA-U 能夠通過我們的統(tǒng)一訓(xùn)練框架有效地學(xué)習(xí)視覺和文本模態(tài)之間的相關(guān)性。對于視頻生成,我們在 VBench(Huang 等人,2024)上評估我們的方法,并與 Open-Sora(Zheng 等人)、CogVideo(Hong 等人,2022)和 CogVideoX(Yang 等人,2024)進行比較。表 6 中的結(jié)果表明,我們的方法性能優(yōu)于 CogVideo,與 Open-Sora 相當(dāng),突出了我們方法的有效性。

表4:與其他視覺生成方法在MJHQ - 30K評估基準(zhǔn)上的比較:比較了不同視覺生成方法在MJHQ - 30K評估基準(zhǔn)上的表現(xiàn),列出了方法類型(如Diffusion、Autoregressive)、訓(xùn)練圖像數(shù)量(部分未列出)以及FID指標(biāo)得分,涉及的方法有SD v2.1、SD - XL、PixArt、Playground v2.5、LWM、Show - o、本文提出的模型(Ours)等。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

表5:與其他視覺生成方法在GenAI - Bench上的比較。結(jié)果表明,我們的方法優(yōu)于以前的自回歸視覺生成方法。對于需要更好的文本跟隨能力才能生成的高級提示,即使訓(xùn)練數(shù)據(jù)少得多,我們的方法與基于擴散的方法之間的性能差距也相對較?。赫故玖瞬煌曈X生成方法在GenAI - Bench圖像生成基準(zhǔn)上的定量結(jié)果,對比了如SD v2.1、SD - XL、Midjourney v6、DALL - E 3、LWM、Show - o、本文提出的模型(Ours)等方法在屬性、場景、關(guān)系、空間、動作、部分、總體等方面的得分情況。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

表6:與其他視覺生成方法在VBench(Huang等人,2024)上的比較:呈現(xiàn)了不同視覺生成方法在VBench視頻生成基準(zhǔn)上的性能對比,列出了方法(如Open - Sora、CogVideo、CogVideoX、本文提出的模型(Ours))以及對應(yīng)的總分?jǐn)?shù)、質(zhì)量分?jǐn)?shù)、語義分?jǐn)?shù)。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

4.4 定性評估

視覺理解

為了驗證 VILA-U 在綜合視覺理解任務(wù)中的有效性,我們將其應(yīng)用于多個理解和推理任務(wù),圖 3 和圖 4 展示了一些示例。從結(jié)果中可以看出,VILA-U 在包括視覺描述和視覺問答在內(nèi)的各種任務(wù)中具有通用性。此外,我們的模型繼承了 VILA(Lin 等人,2023)的一些重要能力,如多圖像理解、上下文學(xué)習(xí),如圖 5 和圖 6 所示。更多可視化結(jié)果可在附錄 B.2 和 B.3 中找到。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

圖3:VILA-U能正確描述視頻并涵蓋所有細(xì)節(jié),這得益于我們視覺編碼器的文本對齊功能:提示:<視頻>\n詳細(xì)闡述視頻中的視覺和敘事元素。VILA-U(我們的模型):視頻中一個人穿著藍(lán)色T恤、卡其褲和帽子,在混凝土路上進行一系列霹靂舞動作。背景中有晴朗的天空、一座橋和一列駛過的火車。舞者的動作很有活力,有旋轉(zhuǎn)、翻轉(zhuǎn)和倒立。光線明亮,表明是白天,陰影顯示太陽位置較高。舞者的著裝很休閑,場景似乎是一條安靜、車輛稀少的道路。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

圖4:VILA-U具有良好的視覺問答能力。圖像和問題來自VQAv2數(shù)據(jù)集的測試集

    - 輸入圖像:展示了不同場景的圖片。

    - 問題:如“能看到水嗎?”“天空中有什么在飛?”“圖片中有多少輛摩托車?”等。

- 輸出:對應(yīng)問題的正確回答,如“是”“風(fēng)箏”“2”等。

圖5:VILA-U具有良好的上下文學(xué)習(xí)能力。我們將兩個圖像 - 文本對和第三張圖像作為上下文輸入,以提示視覺語言模型

    - 輸入少量示例 + 目標(biāo)圖像:展示了不同的圖像 - 文本對,如“是駱駝的棲息地”對應(yīng)沙漠場景圖像,“是北極熊的棲息地”對應(yīng)雪地場景圖像等,以及一張目標(biāo)圖像。

    - 輸出:根據(jù)輸入的上下文和目標(biāo)圖像進行的合理回答。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

圖6:VILA-U可以正確地對多幅圖像進行推理

    - 提示:如“Image 1:\nImage 2:\n兩張圖片的共同點和不同點是什么?”

    - VILA-U(我們的模型)輸出:以兩張包含熊貓的圖片為例,回答“兩張圖片的共同點是都有一只熊貓。不同點是圖片1中的熊貓?zhí)稍趲r石上,而圖片2中的熊貓?zhí)稍谀绢^上”;以兩張包含樹木的圖片為例,回答“兩張圖片的共同點是都有樹,但兩張圖片的不同之處在于陽光的角度。在圖片1中,陽光透過樹木照耀,營造出明亮活潑的氛圍。相比之下,圖片2中看不到太陽,呈現(xiàn)出更黑暗、更柔和的森林場景”。

視覺生成

我們在圖 7 中展示了一些視覺生成結(jié)果的示例。即使在相對較小的數(shù)據(jù)集上進行訓(xùn)練,我們的模型也能夠應(yīng)用于圖像生成和視頻生成。在給定的示例中,我們的方法能夠根據(jù)用戶輸入生成美觀的圖像和連貫的視頻。更多可視化結(jié)果可在附錄 B.4 中找到。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

圖7:VILA-U可以根據(jù)文本輸入生成高質(zhì)量的圖像和視頻:展示了一系列文本提示及其對應(yīng)的生成圖像示例,如“快樂的夢幻貓頭鷹怪物坐在樹枝上,周圍有彩色閃爍的粒子,森林背景,羽毛細(xì)節(jié)豐富”“一只可愛的橙色小貓從藍(lán)色滑梯上滑下,開心又興奮。色彩鮮艷,水濺到鏡頭上”等文本對應(yīng)的生成圖像。

5、消融研究

5.1 對比損失對視覺理解的影響

我們在視覺塔訓(xùn)練中納入對比損失,賦予其文本對齊能力。在多模態(tài)訓(xùn)練過程中,這種文本對齊能力對于增強模態(tài)融合以及在下游視覺語言任務(wù)中的性能至關(guān)重要。我們通過分別在有和沒有對比損失的情況下訓(xùn)練視覺塔,來驗證這種對齊的重要性,并評估其對視覺語言理解性能的影響。在這個消融實驗中,我們從 COYO-700M 中隨機抽取 2500 萬數(shù)據(jù)來訓(xùn)練視覺塔。對于多模態(tài)訓(xùn)練,我們使用 ShareGPT4V 和 MMC4,但不包含文本 - 圖像和文本 - 視頻數(shù)據(jù)。表 7 前兩行的結(jié)果展示了文本對齊在實現(xiàn)強大的視覺語言理解性能中的關(guān)鍵作用。將數(shù)據(jù)集規(guī)模從 2500 萬擴展到 7 億進一步提升了性能,這突出了在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)文本對齊的重要性。

表7:對比損失對視覺理解的影響:展示了在不同預(yù)訓(xùn)練權(quán)重、數(shù)據(jù)規(guī)模和損失類型下,模型在視覺語言理解任務(wù)中的性能表現(xiàn),包括Top - 1準(zhǔn)確率以及在VQAv2、POPE、MME、SEED、MM - Vet等基準(zhǔn)測試中的得分情況,以驗證對比損失對視覺理解性能的影響。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

5.2 對比損失對視覺生成的影響

我們進行了兩個實驗來展示對比損失對生成性能的影響。為提高效率,我們僅進行文本到圖像的預(yù)訓(xùn)練,并使用 Sheared-LLaMA-1.3B(Xia 等人,2023)代替 LLaMA-2-7B 作為大語言模型。在第一個實驗中,我們使用 RQ-VAE 作為視覺塔,其 rFID 為 1.30。在第二個實驗中,我們采用我們的統(tǒng)一視覺塔。結(jié)果如表 8 所示。在 MJHQ-30K 上,我們的統(tǒng)一視覺塔產(chǎn)生的 FID 結(jié)果略遜于 RQ-VAE,這可能是由于對比損失導(dǎo)致其 rFID 較差。

表8:對比損失對視覺生成的影響:對比了使用不同視覺塔(RQ - VAE和本文提出的統(tǒng)一視覺塔)和大語言模型(Sheared - LLaMA - 1.3B)時,在256×256分辨率下的rFID和FID指標(biāo),以探究對比損失對視覺生成性能的影響。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

5.3 無分類器引導(dǎo)的影響

我們在視覺內(nèi)容生成過程中采用無分類器引導(dǎo)。我們研究了 CFG 值對我們 256 分辨率模型的影響。表 9 中的結(jié)果表明,CFG 值為 3.0 時可獲得最佳 FID 分?jǐn)?shù)。

表9:無分類器引導(dǎo)(CFG)的影響:展示了不同CFG值(1.0、2.0、3.0、5.0)對模型在視覺生成任務(wù)中FID指標(biāo)得分的影響。


VILA-U:融合視覺理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025)-AI.x社區(qū)

6、結(jié)論與局限

我們提出了 VILA-U,這是一種新穎的統(tǒng)一視覺語言模型,它將視頻、圖像和語言的理解與生成任務(wù)集成到一個自回歸下一個標(biāo)記預(yù)測框架中。我們的方法比大多數(shù)為統(tǒng)一視覺生成和理解而利用擴散模型等額外組件的視覺語言模型更加簡潔,并且證明了自回歸方法可以達(dá)到與當(dāng)前最先進的視覺語言模型相媲美的性能。我們相信 VILA-U 可以作為多種視覺語言任務(wù)的通用框架。

如 5.2 節(jié)所示,對比損失的引入影響了視覺塔的重建能力。在統(tǒng)一視覺塔中平衡這兩種能力是一個有趣且復(fù)雜的挑戰(zhàn),需要進一步探索。此外,我們目前尚未觀察到理解和生成任務(wù)之間存在顯著的協(xié)同作用或相互增強效果。未來,我們旨在研究和探索更有效的方法,使這些任務(wù)能夠相互補充和強化,從而充分實現(xiàn)統(tǒng)一視覺語言模型尚未開發(fā)的潛力。

?

本文轉(zhuǎn)載自??AIRoobt?? ,作者:Yecheng Wu等

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦