VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成 原創(chuàng)
摘要
我們提出了 VARGPT,這是一種新穎的多模態(tài)大語(yǔ)言模型(MLLM),能夠在單一自回歸框架內(nèi)統(tǒng)一視覺(jué)理解和生成。VARGPT 采用下一個(gè) token 預(yù)測(cè)范式進(jìn)行視覺(jué)理解,并采用下一個(gè)尺度預(yù)測(cè)范式進(jìn)行視覺(jué)自回歸生成。該模型創(chuàng)新性地?cái)U(kuò)展了 LLaVA 架構(gòu),在多模態(tài)大語(yǔ)言模型中實(shí)現(xiàn)了高效的按比例自回歸視覺(jué)生成,同時(shí)在單一模型框架內(nèi)無(wú)縫處理混合模態(tài)輸入和輸出。VARGPT 在專門構(gòu)建的數(shù)據(jù)集上經(jīng)歷了三階段統(tǒng)一訓(xùn)練過(guò)程,包括預(yù)訓(xùn)練階段和兩個(gè)混合視覺(jué)指令微調(diào)階段。統(tǒng)一訓(xùn)練策略旨在實(shí)現(xiàn)視覺(jué)和文本特征的對(duì)齊,增強(qiáng)理解和生成的指令跟隨能力,并提高視覺(jué)生成質(zhì)量。盡管基于 LLaVA 架構(gòu)進(jìn)行多模態(tài)理解,VARGPT 在各種以視覺(jué)為中心的基準(zhǔn)測(cè)試中顯著優(yōu)于 LLaVA-1.5,例如視覺(jué)問(wèn)答和推理任務(wù)。值得注意的是,VARGPT 自然支持自回歸視覺(jué)生成和指令到圖像合成能力,展示了其在視覺(jué)理解和生成任務(wù)中的多功能性。Project Page: https://vargpt-1.github.io/
1. 引言
近年來(lái),多模態(tài)人工智能在理解和生成這兩個(gè)核心領(lǐng)域取得了重大突破。多模態(tài)大語(yǔ)言模型(MLLMs)[2, 5, 9, 48, 94]借助大語(yǔ)言模型(LLMs)強(qiáng)大的通用性[2, 85, 86],在理解多模態(tài)數(shù)據(jù)方面展現(xiàn)出卓越的能力。與此同時(shí),去噪擴(kuò)散概率模型(DDPMs)[24, 62]為圖像生成領(lǐng)域帶來(lái)了顯著進(jìn)展,在文本到視覺(jué)模態(tài)的生成任務(wù)中表現(xiàn)優(yōu)異。此外,受自回歸大語(yǔ)言模型(如縮放定律[23, 29])優(yōu)勢(shì)特性的啟發(fā),許多研究通過(guò)預(yù)測(cè)下一個(gè)詞元(token)或下一個(gè)尺度來(lái)探索自回歸視覺(jué)生成,例如Emu3[87]、VAR[84]、LlamaGen[76]、HART[79]和Infinity[22]等,均取得了顯著成果。鑒于在視覺(jué)理解和生成方面取得的這些成就,近期的研究開(kāi)始探索能夠處理理解和生成任務(wù)的統(tǒng)一模型,為此設(shè)計(jì)了各種統(tǒng)一架構(gòu)來(lái)實(shí)現(xiàn)這一目標(biāo)(如圖3所示)。近期的一些研究[18, 90, 91]嘗試將來(lái)自這兩個(gè)不同領(lǐng)域(如大語(yǔ)言模型和去噪擴(kuò)散概率模型)的模型組合起來(lái),形成一個(gè)能夠處理多模態(tài)理解和生成的統(tǒng)一系統(tǒng)(如圖3(3)所示)。例如,NExT-GPT[90]和SEEDX[18]可能依賴預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行圖像生成。此外,LWM[53]、Chameleon[81]和Janus[88]探索了純粹的下一個(gè)詞元預(yù)測(cè)統(tǒng)一模型(如圖3(4)所示),而Dual Diffusion[46]研究了使用兩個(gè)擴(kuò)散模型分別進(jìn)行理解和生成。TokenFlow[64]探索了統(tǒng)一的圖像分詞器,但生成模型和理解模型是分開(kāi)的。Show-o[91]提出在單個(gè)Transformer中結(jié)合自回歸和擴(kuò)散模型范式(如圖3(4)所示)。Liquid[89]在同一空間中學(xué)習(xí)圖像和文本嵌入,并使用預(yù)測(cè)下一個(gè)詞元的范式實(shí)現(xiàn)自回歸視覺(jué)理解和生成。

圖 3:不同模型架構(gòu)的比較,其中 “AR” 代表自回歸,“VAR” 表示視覺(jué)自回歸。我們對(duì)僅用于理解任務(wù)、僅用于生成任務(wù)以及統(tǒng)一理解和生成的架構(gòu),與我們提出的 VARGPT 模型進(jìn)行了對(duì)比分析。VARGPT 被設(shè)計(jì)為純自回歸多模態(tài)模型,通過(guò)下一個(gè) token 預(yù)測(cè)實(shí)現(xiàn)視覺(jué)理解,通過(guò)下一個(gè)尺度預(yù)測(cè)實(shí)現(xiàn)視覺(jué)生成。
在這項(xiàng)工作中,我們致力于在視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中統(tǒng)一視覺(jué)生成和理解,使其自然地支持混合模態(tài)的輸入和輸出。與現(xiàn)有的所有統(tǒng)一模型不同,我們提出在一個(gè)統(tǒng)一模型中將理解和生成建模為兩種不同的范式:分別通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行視覺(jué)理解,通過(guò)預(yù)測(cè)下一個(gè)尺度進(jìn)行視覺(jué)生成,并訓(xùn)練了一個(gè)名為VARGPT的新型統(tǒng)一模型。具體而言:
1. 模型架構(gòu)方面:VARGPT的核心結(jié)構(gòu)借鑒了LLaVA-1.5-7B,同時(shí)我們額外引入了一個(gè)視覺(jué)解碼器和兩個(gè)用于視覺(jué)生成的額外視覺(jué)特征投影儀。這些投影儀用于生成的視覺(jué)特征和文本特征之間的相互映射。VARGPT采用自回歸方法預(yù)測(cè)下一個(gè)文本詞元,以進(jìn)行視覺(jué)理解和問(wèn)答。當(dāng)預(yù)測(cè)到用于視覺(jué)生成的特殊詞元時(shí),模型會(huì)自回歸地預(yù)測(cè)下一個(gè)尺度的詞元,并通過(guò)視覺(jué)解碼器獲得最終的輸出圖像。所提出的架構(gòu)使VARGPT能夠在視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中實(shí)現(xiàn)統(tǒng)一的理解和生成。
2. 訓(xùn)練方法方面:我們采用統(tǒng)一的指令微調(diào)方法來(lái)學(xué)習(xí)視覺(jué)理解和視覺(jué)生成。具體來(lái)說(shuō),我們通過(guò)將視覺(jué)詞元預(yù)測(cè)構(gòu)建為指令跟隨格式,將指令微調(diào)擴(kuò)展到視覺(jué)生成,并將構(gòu)建的視覺(jué)生成指令數(shù)據(jù)集與來(lái)自LLaVA-1.5[49]的多輪對(duì)話指令數(shù)據(jù)集相結(jié)合進(jìn)行混合訓(xùn)練。通過(guò)所提出的統(tǒng)一指令微調(diào),我們同時(shí)賦予多模態(tài)大語(yǔ)言模型理解和生成的能力。我們將訓(xùn)練過(guò)程分為三個(gè)階段,包括一個(gè)預(yù)訓(xùn)練階段和兩個(gè)指令微調(diào)階段。在第一階段的預(yù)訓(xùn)練中,模型學(xué)習(xí)文本和視覺(jué)空間之間的特征映射。在第二和第三階段的指令微調(diào)中,VARGPT分別增強(qiáng)其在視覺(jué)問(wèn)答和指令到圖像生成方面的能力。
3. 訓(xùn)練數(shù)據(jù)集方面:為了高效地訓(xùn)練模型,我們構(gòu)建并收集了128萬(wàn)個(gè)用于第一階段預(yù)訓(xùn)練的數(shù)據(jù),118萬(wàn)個(gè)用于第二階段混合視覺(jué)理解和生成指令微調(diào)的數(shù)據(jù),以及140萬(wàn)個(gè)用于第三階段視覺(jué)生成指令微調(diào)的數(shù)據(jù)。通過(guò)統(tǒng)一的指令跟隨格式,我們?cè)诨旌弦曈X(jué)指令微調(diào)中統(tǒng)一了理解和生成的訓(xùn)練。 大量實(shí)驗(yàn)表明,我們的VARGPT能夠?qū)崿F(xiàn)顯著的視覺(jué)理解能力(如圖1所示),并賦予多模態(tài)大語(yǔ)言模型視覺(jué)生成能力,自然地支持混合模態(tài)輸入和輸出(如圖2所示)。據(jù)我們所知,VARGPT是第一個(gè)支持在理解任務(wù)中預(yù)測(cè)下一個(gè)詞元、在生成任務(wù)中預(yù)測(cè)下一個(gè)尺度的統(tǒng)一模型,同時(shí)在理解能力方面超越了許多規(guī)模相當(dāng)?shù)亩嗄B(tài)大語(yǔ)言模型和統(tǒng)一模型。

圖 1:多個(gè)視覺(jué)理解與生成基準(zhǔn)測(cè)試中各類多模態(tài)大語(yǔ)言模型的對(duì)比分析。CLIP 分?jǐn)?shù)用于衡量文本到圖像的視覺(jué)生成,其余指標(biāo)源自標(biāo)準(zhǔn)視覺(jué)問(wèn)答基準(zhǔn)和多模態(tài)理解基準(zhǔn)。值得注意的是,我們的 VARGPT 模型在所有理解基準(zhǔn)測(cè)試中均顯著優(yōu)于對(duì)比基線。此外,它還展現(xiàn)出卓越的指令到圖像生成能力,從而提升了其在各類視覺(jué)語(yǔ)言任務(wù)中的通用性和適用性。

圖 2:VARGPT 在 ImageNet 上訓(xùn)練生成的部分 256×256 樣本。VARGPT 支持用戶的文本和圖像指令,并同時(shí)輸出文本和圖像混合模態(tài)數(shù)據(jù)。
2. 相關(guān)工作
2.1 視覺(jué)生成
擴(kuò)散模型 [25,74,75] 將圖像生成視為從噪聲到圖像的反向擴(kuò)散過(guò)程。擴(kuò)散模型的進(jìn)展主要集中在采樣方法 [4,55] 和架構(gòu)設(shè)計(jì) [26,63] 上,催生了如 [57,63] 等令人印象深刻的模型。在擴(kuò)散模型取得重大進(jìn)展的背景下,基于流的生成模型 [1] 作為簡(jiǎn)化框架出現(xiàn),推動(dòng)了高級(jí)視覺(jué)生成模型的發(fā)展。自回歸模型 [14,97] 采用類似 GPT [65] 的技術(shù)來(lái)預(yù)測(cè)序列中的下一個(gè) token。像 [12,15,67,76,77,87] 等工作利用類似 VQGAN [36] 的視覺(jué) tokenizer 將圖像轉(zhuǎn)換為離散 token,實(shí)現(xiàn)了視覺(jué)數(shù)據(jù)的 token 化,并采用類似 GPT 的預(yù)測(cè)方法。最近,另一類基于預(yù)測(cè)下一個(gè)尺度的自回歸模型,如 VAR [84]、HART [79] 和 Infinity [22],引起了關(guān)注,并已被驗(yàn)證可能具有與縮放定律 [23,29] 一致的特性。在這項(xiàng)工作中,我們的統(tǒng)一自回歸框架通過(guò)預(yù)測(cè)下一個(gè)尺度的范式來(lái)完成圖像生成任務(wù)。
2.2 多模態(tài)大語(yǔ)言模型
LLM [85,86] 的進(jìn)步推動(dòng)了 MLLM 的發(fā)展。MLLM 使用預(yù)訓(xùn)練的 LLM 作為文本解碼器,通過(guò)連接器 [35,43] 將文本和圖像與視覺(jué)編碼器連接起來(lái)進(jìn)行集成。LLaVA [49] 使用各種任務(wù)(如視覺(jué)問(wèn)答和圖像描述)的數(shù)據(jù)以指令格式對(duì)模型進(jìn)行微調(diào),使模型能夠理解新指令并泛化到未見(jiàn)任務(wù)。LLaVA-1.5 [50] 和 LLaVA-NeXT [39,40,42,52,101] 系列通過(guò)更多樣和更高質(zhì)量的數(shù)據(jù)集進(jìn)一步提升了視覺(jué)理解性能。隨著架構(gòu)優(yōu)化、創(chuàng)新訓(xùn)練范式和多樣化數(shù)據(jù)的引入,一系列先進(jìn)的 MLLM 應(yīng)運(yùn)而生,如 Qwen-VL [2]、mPLUG-Owl2 [95]、InternVL [7]、InstructBLIP [9]。
2.3 視覺(jué)理解與生成的統(tǒng)一模型
近年來(lái),研究人員致力于在單個(gè)模型中統(tǒng)一理解和生成能力 [13,80,93]。大多數(shù)現(xiàn)有方法 [17,78,90] 嘗試將預(yù)訓(xùn)練的擴(kuò)散模型與現(xiàn)有系統(tǒng)集成。然而,這些系統(tǒng)本質(zhì)上是將擴(kuò)散模型視為外部工具,而非將其作為 MLLM 的內(nèi)在生成能力。Show-o [92] 通過(guò)結(jié)合自回歸和(離散)擴(kuò)散建模,能夠自適應(yīng)處理各種混合模態(tài)的輸入和輸出。Li 等人 [46] 采用跨模態(tài)最大似然估計(jì)框架,顯著改進(jìn)了現(xiàn)有的基于擴(kuò)散的多模態(tài)模型。[3,83] 探索了使用自回歸方法將圖像生成集成到大型語(yǔ)言模型(LLM)中,取得了顯著成果。例如,LWM [53] 和 Chameleon [82] 利用 VQ tokenizer [14,84] 對(duì)圖像進(jìn)行編碼,實(shí)現(xiàn)了對(duì)多模態(tài)理解和生成的同時(shí)支持。Janus [88] 通過(guò)將視覺(jué)編碼解耦為獨(dú)立路徑,進(jìn)一步提高了模型的靈活性和性能,而 Dual Diffusion [46] 則研究了使用兩個(gè)擴(kuò)散模型進(jìn)行理解和生成。Liquid [89] 在同一空間中學(xué)習(xí)圖像和文本嵌入,并使用預(yù)測(cè)下一個(gè) token 的范式實(shí)現(xiàn)自回歸視覺(jué)理解和生成。與所有現(xiàn)有統(tǒng)一模型不同,我們提出在統(tǒng)一模型中將理解和生成建模為兩種不同的范式:視覺(jué)理解采用下一個(gè) token 預(yù)測(cè),視覺(jué)生成采用下一個(gè)尺度預(yù)測(cè)。
3. 方法
3.1 模型架構(gòu)
我們的 VARGPT 統(tǒng)一了視覺(jué)理解和生成,其架構(gòu)如圖 4 所示。我們的架構(gòu)遵循下一個(gè) token 預(yù)測(cè)范式進(jìn)行理解和問(wèn)答,遵循下一個(gè)尺度預(yù)測(cè)范式進(jìn)行圖像生成。

圖 4:VARGPT 框架示意圖,它由(1)一個(gè)大語(yǔ)言模型、視覺(jué)編碼器和用于視覺(jué)理解的投影儀;(2)一個(gè)視覺(jué)解碼器和雙生成投影儀,用于視覺(jué)生成。VARGPT 在大語(yǔ)言模型主干中使用因果注意力機(jī)制,在視覺(jué)解碼器中使用塊因果注意力機(jī)制。
3.1.1 通過(guò)下一個(gè) token 預(yù)測(cè)實(shí)現(xiàn)視覺(jué)理解
在視覺(jué)理解方面,我們的模型架構(gòu)參考了 LLaVA-1.5 [50] 的結(jié)構(gòu),使用 Vicuna-7B-v1.5 [102] 作為 LLMθ,并采用 CLIP [66] 的視覺(jué)編碼器(ViT/14)作為視覺(jué)編碼器,同時(shí)使用兩層線性網(wǎng)絡(luò)作為投影儀。最初,用于視覺(jué)理解的圖像 Ximg 經(jīng)過(guò)視覺(jué)編碼器處理生成嵌入 Himg,然后通過(guò)接口(如線性層)進(jìn)行調(diào)整,以與通過(guò)查詢 Xquery 獲得的文本嵌入 Htxt 對(duì)齊。組合后的數(shù)據(jù)作為輸入提供給 LLM,LLM 以自回歸方式生成文本輸出 Ytxt,如下所示:

其中,Ytxt_t 表示 Ytxt 的第 t 個(gè) token,Ytxt_
3.1.2 通過(guò)下一個(gè)尺度預(yù)測(cè)實(shí)現(xiàn)視覺(jué)生成
在視覺(jué)生成方面,我們遵循 VAR [84] 的大部分設(shè)置,采用多尺度圖像 tokenizer 進(jìn)行視覺(jué) token 編碼和解碼。我們構(gòu)建了兩個(gè)圖像生成投影儀,用于在 LLM 的輸入和輸出端轉(zhuǎn)換用于生成的視覺(jué)特征。此外,我們構(gòu)建了一個(gè)額外的 2B 視覺(jué)解碼器 ?,包含 30 層 Transformer,用于解碼視覺(jué)特征,這在一定程度上可以避免文本解碼器中的知識(shí)與圖像生成知識(shí)之間的沖突。通過(guò)視覺(jué)解碼器獲得的圖像特征將進(jìn)一步通過(guò)多尺度 VAE 解碼器解碼,生成可用的圖像。與文本解碼器(即 LLM)不同,視覺(jué)解碼器使用遵循 VAR [84] 中塊因果注意力的注意力機(jī)制,以支持預(yù)測(cè)下一個(gè)尺度的 token。此外,在將用于視覺(jué)生成的特征輸入視覺(jué)解碼器之前,我們添加絕對(duì)位置編碼,以進(jìn)一步區(qū)分視覺(jué) token 的位置信息。
形式上,我們將圖像的多尺度特征圖定義為通過(guò)多尺度 tokenizer 獲得的 (R1,R2,?,RK)。因此,下一個(gè)尺度的圖像 token 將以自回歸方式生成:

3.1.3 混合模態(tài)生成的提示模板
為了區(qū)分用于文本生成的 token 和用于圖像合成的 token,我們?cè)O(shè)計(jì)了一些特殊的 token 標(biāo)記。具體來(lái)說(shuō),我們使用用于圖像生成 token 的位置填充,表示圖像生成 token 的開(kāi)始,表示生成結(jié)束。當(dāng) VARGPT 生成 < image_gen_start>token 時(shí),與 < image_gen>token 相關(guān)的特征將通過(guò)投影儀處理,然后輸入視覺(jué)解碼器,以獲取圖像生成所需的特征。在視覺(jué)理解任務(wù)中,我們使用token 作為輸入圖像的表示。我們?cè)诟戒?7 中總結(jié)了 VARGPT 使用的提示模板。
3.1.4 無(wú)分類器引導(dǎo)(CFG)
CFG 顯著增強(qiáng)了生成擴(kuò)散模型生成高保真樣本的能力。該方法將條件生成模型與同時(shí)訓(xùn)練的無(wú)條件模型的分布估計(jì)相結(jié)合,從而提高了整體生成質(zhì)量。受 DALL-E 2 [68]、VAR [84] 和 VAR-CLIP [100] 的啟發(fā),我們使用高斯噪聲作為輸入來(lái)模擬無(wú)條件生成。隨后,我們通過(guò)從條件生成的 logits 分布中減去無(wú)條件生成的概率,得到視覺(jué)輸出的最終分布。更多細(xì)節(jié)見(jiàn)附錄 7。
3.2 訓(xùn)練
對(duì)于 VARGPT 模型訓(xùn)練,我們提出了一階段預(yù)訓(xùn)練過(guò)程和兩階段指令微調(diào)過(guò)程,如圖 5 所示。
3.2.1 階段 1:預(yù)訓(xùn)練
我們使用 ImageNet [11] 中的圖像作為圖像源,構(gòu)建用于預(yù)訓(xùn)練兩個(gè)圖像生成投影儀的訓(xùn)練數(shù)據(jù)。我們將預(yù)訓(xùn)練數(shù)據(jù)組織成 128 萬(wàn)單輪對(duì)話數(shù)據(jù)(具體數(shù)據(jù)構(gòu)建見(jiàn)第 4 節(jié))。該預(yù)訓(xùn)練階段的主要目的是訓(xùn)練投影儀,使圖像生成特征與文本特征初步對(duì)齊。在預(yù)訓(xùn)練期間,除了兩個(gè)用于圖像生成的投影儀外,我們凍結(jié)所有參數(shù),如圖 5 所示。

圖 5:VARGPT 的三個(gè)訓(xùn)練階段,包括第一階段預(yù)訓(xùn)練、第二和第三階段指令微調(diào)。
3.2.2 階段 2:視覺(jué)理解的監(jiān)督微調(diào)(SFT)
在第二階段,我們解凍語(yǔ)言模型和視覺(jué)編碼器特征輸出的投影儀,并使用我們精心構(gòu)建的多輪對(duì)話和理解數(shù)據(jù)集進(jìn)行訓(xùn)練。該階段的主要目的是確保 VARGPT 保持出色的多輪對(duì)話、視覺(jué)理解和問(wèn)答能力。此外,在該階段,我們從構(gòu)建的 Imagenet-Instruct 數(shù)據(jù)集中引入 5K 樣本,使 VARGPT 能夠區(qū)分視覺(jué)理解和視覺(jué)生成任務(wù)。當(dāng)用戶輸入生成指令時(shí),VARGPT 可以通過(guò)輸出特殊 token準(zhǔn)確響應(yīng),開(kāi)始自回歸視覺(jué)生成。階段 2 訓(xùn)練數(shù)據(jù)集的組成見(jiàn)第 4 節(jié)。
3.2.3 階段 3:視覺(jué)生成的監(jiān)督微調(diào)(SFT)
與第二階段相比,第三階段主要通過(guò)監(jiān)督微調(diào)提高 VARGPT 的指令到圖像能力。在該階段,我們解凍視覺(jué)解碼器和兩個(gè)用于視覺(jué)生成的投影儀,同時(shí)凍結(jié)其他參數(shù)進(jìn)行 SFT,如圖 5 階段 3 所示。第三階段的訓(xùn)練數(shù)據(jù)包括從 ImageNet 構(gòu)建的 140 萬(wàn)指令對(duì)(詳細(xì)信息見(jiàn)第 4 節(jié))。
4. 統(tǒng)一指令跟隨數(shù)據(jù)
在本節(jié)中,我們將詳細(xì)介紹三個(gè)不同訓(xùn)練階段所使用的訓(xùn)練數(shù)據(jù)集的來(lái)源,以及各類數(shù)據(jù)在其中的占比情況。值得注意的是,我們引入了圖像生成指令跟隨數(shù)據(jù)集(如圖8a所示),并闡述了其來(lái)源,以及利用大語(yǔ)言模型生成該數(shù)據(jù)集所采用的方法。通過(guò)這種方式,我們將視覺(jué)理解和生成的訓(xùn)練方法統(tǒng)一為視覺(jué)指令微調(diào)。

圖8:我們構(gòu)建和收集的數(shù)據(jù)分布,包括:(a)三個(gè)訓(xùn)練階段的數(shù)據(jù)比例分解;(b)第二階段指令微調(diào)期間使用的混合指令數(shù)據(jù)分布。我們用于第二階段訓(xùn)練的復(fù)合數(shù)據(jù)集源自LLaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。
4.1 生成指令跟隨數(shù)據(jù)集
我們構(gòu)建了兩個(gè)圖像生成指令跟隨數(shù)據(jù)集:ImageNet-Instruct-130K和ImageNet-Instruct-1270K。以ImageNet-Instruct-130K的構(gòu)建為例,圖6展示了該數(shù)據(jù)集的一個(gè)樣本。

圖6 ImageNet-Instruct-130K圖像生成指令跟隨數(shù)據(jù)集的一個(gè)樣本,其圖片說(shuō)明文字是一個(gè)人淹沒(méi)在水下。代表用于填充圖像生成token位置的特殊token。
- **ImageNet-1K-VL-Enriched**:我們采用ImageNet-1K-VL-Enriched數(shù)據(jù)集[34]作為基礎(chǔ)數(shù)據(jù)集。ImageNet-1K-VL-Enriched是ImageNet數(shù)據(jù)集的增強(qiáng)版本,其中的圖像描述是使用BLIP2[44]圖像字幕模型生成的。
- **通過(guò)Deepseek-LLM構(gòu)建ImageNet-Instruct-130K**:為構(gòu)建用于指令微調(diào)數(shù)據(jù)集的問(wèn)答格式,我們利用Deepseek-V3 Chat LLM[10](以下簡(jiǎn)稱LLM)生成提示和答案的種子格式(Prompt_limit_seeds和Answer_limit_seeds)。如圖7(a)所示,Prompt_limit_seeds有效地模擬了用戶請(qǐng)求,而Answer_limit_seeds則模擬了VLLM與用戶之間的對(duì)話。我們從種子池中隨機(jī)選擇prompt_limit_seed、image_cap_limit_seed和answer_limit_seed,作為L(zhǎng)LM調(diào)用模板中的元素。
- **LLM調(diào)用模板**:我們從基礎(chǔ)數(shù)據(jù)集中隨機(jī)選擇4個(gè)圖像描述樣本,作為4-shot示例,引導(dǎo)大模型生成相應(yīng)的對(duì)話樣本。如圖7(b)所示,我們對(duì)生成的提示和答案添加了相關(guān)約束,以確保輸出盡可能合規(guī)且多樣。我們隨機(jī)采樣了130K個(gè)圖像描述數(shù)據(jù)樣本,從而創(chuàng)建了用于ImageNet[11]圖像生成指令微調(diào)數(shù)據(jù)集的130K個(gè)樣本,并將其命名為ImageNet-Instruct-130K。附錄8中提供了關(guān)于數(shù)據(jù)集構(gòu)建的更多詳細(xì)信息。

圖7 所提出的圖像生成指令跟隨樣本生成的示意圖,包括(a)種子生成:我們利用大語(yǔ)言模型生成用于約束指令跟隨數(shù)據(jù)集創(chuàng)建的種子;(b)指令跟隨樣本生成:指令跟隨數(shù)據(jù)集的提示模板。
4.2 三個(gè)訓(xùn)練階段的數(shù)據(jù)構(gòu)成 -
**階段1**:用于階段1預(yù)訓(xùn)練的ImageNet-Instruct-class數(shù)據(jù)集包含128萬(wàn)個(gè)單輪對(duì)話樣本,源自ImageNet,專注于學(xué)習(xí)類別與圖像之間的對(duì)應(yīng)關(guān)系。假設(shè)類別是“魚”,格式如下:{‘prompt’: ‘請(qǐng)為我生成一張魚的圖像。’, ‘a(chǎn)nswer’: ‘生成的魚的圖像如下}。
- **階段2**:我們?cè)陔A段2使用的混合指令微調(diào)數(shù)據(jù)集來(lái)自LLaVA-1.5[51]、LLaVA-OneVision[41]和ImageNet-Instruct-130K。各部分組成如圖8b所示。
- **LLaVA-1.5-665K**:LLaVA-1.5的指令跟隨數(shù)據(jù)集包含視覺(jué)問(wèn)答(VQA)[20, 27, 60, 70]、光學(xué)字符識(shí)別(OCR)[61, 72]、區(qū)域級(jí)視覺(jué)問(wèn)答[30, 31, 58]、視覺(jué)對(duì)話[49]和語(yǔ)言對(duì)話[71]數(shù)據(jù)。我們將所有665K個(gè)指令跟隨樣本都納入階段2的訓(xùn)練中。
- **LLaVA-OneVision**:LLaVA-OneVision的視覺(jué)指令微調(diào)數(shù)據(jù)整合了LLaVA-1.5及后續(xù)多個(gè)LLaVA-NeXT版本[39, 40, 42, 52, 101]的數(shù)據(jù),并從互聯(lián)網(wǎng)上收集了開(kāi)源數(shù)據(jù)集,通過(guò)設(shè)置特定格式的提示來(lái)整合數(shù)據(jù)并避免沖突。最終形成了一個(gè)320萬(wàn)個(gè)樣本的高質(zhì)量單圖像數(shù)據(jù)集。在去除K12 Printing子集中的樣本后,我們從該數(shù)據(jù)集中隨機(jī)采樣508K個(gè)樣本,納入階段2的訓(xùn)練(值得注意的是,我們只采樣了5K個(gè)純文本問(wèn)答對(duì))。
- **ImageNet-Instruct-130K**:我們從ImageNet-Instruct-130K數(shù)據(jù)集中隨機(jī)采樣5K個(gè)樣本,納入階段2的訓(xùn)練。
- **階段3**:在階段3,除了構(gòu)建的ImageNet-Instruct-130K數(shù)據(jù)集外,我們還創(chuàng)建了一個(gè)更大的圖像生成指令跟隨數(shù)據(jù)集ImageNet-Instruct-1270K。與ImageNet-Instruct-130K相比,它擁有更多樣化的提示和答案模板(多達(dá)400個(gè))。提示和答案的構(gòu)建涉及模板與圖像描述的直接連接。
5. 實(shí)驗(yàn)
實(shí)驗(yàn)細(xì)節(jié):對(duì)于用于圖像生成任務(wù)的圖像,我們將它們統(tǒng)一調(diào)整大小并裁剪為256x256像素,隨后應(yīng)用與VAR [84] 中一致的預(yù)處理技術(shù)。對(duì)于用于視覺(jué)理解任務(wù)的圖像,我們遵循LLaVA-1.5框架中建立的預(yù)處理協(xié)議。我們的語(yǔ)言模型、視覺(jué)編碼器和視覺(jué)特征映射器使用LLaVA-1.5-7B-hf架構(gòu)進(jìn)行初始化。視覺(jué)解碼器使用VAR-d30參數(shù)進(jìn)行初始化,包含大約20億模型參數(shù)。VARGPT中用于視覺(jué)生成的特征映射器進(jìn)行隨機(jī)初始化,并在第一階段的預(yù)訓(xùn)練中初步更新。我們采用類似于VAR [84] 的多尺度VQVAE [14] 進(jìn)行圖像標(biāo)記化,以支持按比例預(yù)測(cè)范式。表2全面總結(jié)了我們模型在三個(gè)訓(xùn)練階段的訓(xùn)練細(xì)節(jié)。在圖像生成過(guò)程中,我們模型的VARGPT的top-k和top-p采樣參數(shù)分別設(shè)置為900和0.95。此外,CFG(分類器自由引導(dǎo))尺度參數(shù)配置為1.5。
評(píng)估基準(zhǔn):按照常見(jiàn)設(shè)置 [51, 52, 103],我們?cè)谝幌盗袑W(xué)術(shù)任務(wù)導(dǎo)向基準(zhǔn)測(cè)試和最近為指令跟隨型MLLMs專門提出的基準(zhǔn)測(cè)試中評(píng)估我們VARGPT在視覺(jué)理解方面的有效性,總共包括11個(gè)基準(zhǔn)測(cè)試:(1)五個(gè)多模態(tài)基準(zhǔn)測(cè)試,用于指令跟隨型MLLMs,包括MMbench-dev(en)[54]、SEED-bench [38]、MMMU [98]、POPE [45]和MME [16]基準(zhǔn)測(cè)試。對(duì)于POPE基準(zhǔn)測(cè)試,我們?cè)陔S機(jī)、流行和對(duì)抗性設(shè)置中進(jìn)行評(píng)估,以準(zhǔn)確率作為評(píng)估指標(biāo);(2)六個(gè)視覺(jué)中心問(wèn)答基準(zhǔn)測(cè)試,包括GQA [28]、TextVQA [73]、VQAv2 [19]、SciQA-img [56]、OKVQA [59]和VizWizQA [21]。對(duì)于視覺(jué)理解基準(zhǔn)測(cè)試,我們使用lmmseval [99]中的設(shè)置以實(shí)現(xiàn)統(tǒng)一評(píng)估。對(duì)于視覺(jué)生成評(píng)估,我們構(gòu)建了一個(gè)包含50,000條文本指令的評(píng)估數(shù)據(jù)集,以評(píng)估模型的生成能力。我們采用CLIPscore來(lái)評(píng)估文本指令與生成圖像之間的CLIP分?jǐn)?shù)。此外,我們還使用Fréchet Inception Distance(FID)指標(biāo)來(lái)評(píng)估我們VARGPT模型在ImageNet-1K數(shù)據(jù)集上訓(xùn)練生成的圖像樣本的質(zhì)量。
基線對(duì)比:我們對(duì)我們的VARGPT模型進(jìn)行了對(duì)比分析,對(duì)比對(duì)象是其他用于視覺(jué)理解的多模態(tài)大型語(yǔ)言模型,這些模型與我們模型的規(guī)模相近。對(duì)比包括LLaVA1.5 [48]、MiniGPT-4 [5]和mPLUG-Owl2 [94]等杰出模型,以及InstructBLIP [9]和Qwen-VL [2]。此外,我們的對(duì)比研究還擴(kuò)展到包括Chameleon [82]、SEEDLLaMA [17]、Show-o [91]和VILA-U [91]在內(nèi)的統(tǒng)一模型。這一全面的對(duì)比使我們能夠評(píng)估VARGPT與該領(lǐng)域多種先進(jìn)模型的關(guān)系。
5.1 主要結(jié)果
5.1.1 多模態(tài)基準(zhǔn)評(píng)估
我們進(jìn)行了零樣本多模態(tài)評(píng)估,并將 VARGPT 與各種用于視覺(jué)理解的多模態(tài)模型進(jìn)行了比較,結(jié)果如表 1 所示?;谶@些結(jié)果,我們有幾個(gè)詳細(xì)的觀察:(1)可以看出,我們的方法在視覺(jué)理解方面顯著優(yōu)于大多數(shù)現(xiàn)有的 MLLM 基線,包括 LLaVA-1.5 [48]、MiniGPT-4 [5]、InstructBLIP [9] 和 Qwen-VL [2]。我們的 VARGPT 在所有基準(zhǔn)和一些視覺(jué)幻覺(jué)評(píng)估基準(zhǔn)(如 POPE)上均取得了更高的性能,這表明了我們方法在視覺(jué)生成中的優(yōu)越性和泛化性。(2)盡管我們的視覺(jué)理解核心架構(gòu)與 LLaVA-1.5 相似,但我們的方法取得了顯著更好的性能,并且在單個(gè)大型模型中支持視覺(jué)生成。(3)與支持生成和理解的其他統(tǒng)一模型(例如SEEDLLaMA [17]和VILA-U [91])相比,我們的模型自然支持混合模式輸出(在對(duì)話中連續(xù)輸出文本和圖像),并且在視覺(jué)理解方面取得了顯著更好的性能。此外,我們?cè)贚LaVA-Bench基準(zhǔn)測(cè)試上進(jìn)行了樣本分析,部分結(jié)果展示在表6中。觀察結(jié)果表明,與LLaVA-1.5相比,我們的方法在圖像理解能力方面表現(xiàn)出更高的水平,并且在識(shí)別和分析圖像中的幽默元素方面表現(xiàn)出更強(qiáng)的能力。



表6:VARGPT展示了理解和解釋視覺(jué)內(nèi)容中幽默元素的能力。
5.1.2 視覺(jué)問(wèn)答任務(wù)評(píng)估
我們將各種視覺(jué)問(wèn)答任務(wù)與現(xiàn)有方法進(jìn)行了比較,結(jié)果如表 3 所示。如表 3 所示,我們有以下觀察:(1)VARGPT 在大多數(shù)理解基準(zhǔn)上始終取得最佳結(jié)果,超越了相同參數(shù)規(guī)模的用于視覺(jué)理解的 MLLM。這進(jìn)一步證明了 VARGPT 的有效性;(2)除了取得顯著的理解能力(如在 SciQA-img 基準(zhǔn)上比 LLaVA-1.5 高 12.2%)外,與這些基線相比,VARGPT 還支持視覺(jué)生成能力。

5.1.3 指令到圖像任務(wù)評(píng)估
為了評(píng)估 VARGPT 的視覺(jué)生成能力,我們構(gòu)建了一個(gè)包含 5 萬(wàn)個(gè)樣本的基于指令的問(wèn)答生成評(píng)估數(shù)據(jù)集。該數(shù)據(jù)集中的指令描述來(lái)自 ImageNet-1K 圖像描述,每個(gè)類別限制 50 個(gè)樣本,以確保類間平衡表示。為了定量評(píng)估 VARGPT 的指令跟隨能力,我們?cè)u(píng)估了兩個(gè)關(guān)鍵指標(biāo):(1)5 萬(wàn)張生成圖像與 ImageNet-1k 數(shù)據(jù)集之間的 FID 分?jǐn)?shù),(2)通過(guò) CLIP 模型計(jì)算的指令與生成圖像之間的 CLIP 分?jǐn)?shù)。評(píng)估結(jié)果如表 4 所示。此外,我們?cè)趫D 9 中提供了 VARGPT 生成的圖像和對(duì)話的可視化。觀察分析表明,VARGPT 能夠生成高度符合給定指令的高質(zhì)量圖像。值得注意的是,VARGPT 展示了在單個(gè)對(duì)話中無(wú)縫集成文本描述和圖像生成的能力,使用單個(gè)統(tǒng)一模型處理多模態(tài)輸入和輸出。這種能力進(jìn)一步凸顯了 VARGPT 在統(tǒng)一視覺(jué)生成和理解任務(wù)中的獨(dú)特優(yōu)勢(shì)。VARGPT 中使用的圖像生成數(shù)據(jù)集(128 萬(wàn) ImageNet)與其他統(tǒng)一模型(如 Show-1:3600 萬(wàn),VILA-U:1500 萬(wàn),Liquid:3000 萬(wàn)圖像)相比,規(guī)模顯著更小且質(zhì)量更低。因此,VARGPT 的圖像生成性能目前落后于這些方法。然而,通過(guò)數(shù)據(jù)縮放提高質(zhì)量的潛力為未來(lái)的研究和發(fā)展提供了有希望的途徑。


圖9:我們的VARGPT在ImageNet-1K上訓(xùn)練生成的部分256×256樣本。VARGPT支持用戶文本命令輸入,并同時(shí)輸出文本和圖像模態(tài)數(shù)據(jù)。
5.2方法分析
我們從模型參數(shù)、訓(xùn)練設(shè)置和數(shù)據(jù)效率等方面對(duì)我們的VARGPT進(jìn)行了消融實(shí)驗(yàn),以詳細(xì)評(píng)估各個(gè)組件的有效性。具體來(lái)說(shuō),我們通過(guò)移除特定設(shè)置來(lái)評(píng)估組件的有效性,如表4和表5所示。
訓(xùn)練策略對(duì)生成的影響:如表4所示,省略我們訓(xùn)練協(xié)議中的任何一個(gè)階段或階段組合,都會(huì)導(dǎo)致我們模型的視覺(jué)生成性能顯著下降。值得注意的是,省略第三階段(涉及指令微調(diào))會(huì)導(dǎo)致生成圖像的質(zhì)量和模型遵循給定指令的能力大幅下降。這些發(fā)現(xiàn)強(qiáng)調(diào)了三個(gè)訓(xùn)練階段在提高模型視覺(jué)生成質(zhì)量和文本到圖像能力方面的重要作用。此外,我們還進(jìn)行了額外的實(shí)驗(yàn),在第三階段訓(xùn)練中選擇性地凍結(jié)映射器和視覺(jué)解碼器的參數(shù)。我們的觀察結(jié)果表明,如果在第三階段訓(xùn)練中不微調(diào)這些組件,也會(huì)導(dǎo)致性能下降。這些結(jié)果共同為我們的三階段訓(xùn)練策略的有效性提供了有力證據(jù)。在各種消融場(chǎng)景中觀察到的一致性能下降進(jìn)一步強(qiáng)化了每個(gè)提議組件和階段的重要性。
訓(xùn)練策略對(duì)理解的影響:為了評(píng)估我們的訓(xùn)練策略對(duì)視覺(jué)理解能力的有效性,我們通過(guò)在第二階段訓(xùn)練中選擇性地凍結(jié)組件進(jìn)行了消融研究。具體來(lái)說(shuō),我們?cè)诘诙A段進(jìn)行指令微調(diào)時(shí),分別進(jìn)行了凍結(jié)映射器或LLM骨干的實(shí)驗(yàn)。如表5所示,我們?cè)趦煞N情況下都觀察到了顯著的性能下降。這些結(jié)果進(jìn)一步驗(yàn)證了我們的訓(xùn)練策略在增強(qiáng)視覺(jué)理解能力方面的有效性。這一實(shí)證證據(jù)強(qiáng)調(diào)了允許映射器和LLM骨干在指令微調(diào)階段進(jìn)行適應(yīng)的重要性,突顯了我們提出的訓(xùn)練方法對(duì)模型整體視覺(jué)理解能力的協(xié)同效應(yīng)。

數(shù)據(jù)效率對(duì)理解的影響:此外,我們還對(duì)我們?cè)诘诙A段訓(xùn)練中使用的混合數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。結(jié)果如表5所示。我們可以觀察到,移除任何一個(gè)理解數(shù)據(jù)集(502K或665K)都會(huì)對(duì)模型的理解性能產(chǎn)生負(fù)面影響。相反,當(dāng)我們進(jìn)一步納入我們構(gòu)建的用于生成的指令數(shù)據(jù)集時(shí),它增強(qiáng)了模型區(qū)分理解指令和生成指令的能力,并準(zhǔn)確提高了VARGPT輸出用于視覺(jué)生成的特殊標(biāo)記(即、和)的能力,而不會(huì)顯著影響其理解性能。
訓(xùn)練損失曲線可視化:我們進(jìn)一步展示了我們模型在第二階段和第三階段訓(xùn)練過(guò)程中的損失曲線,如圖10所示。這些損失曲線的趨勢(shì)顯示出合理且一致的下降,為我們的學(xué)習(xí)策略的有效性提供了實(shí)證支持。對(duì)這些曲線的分析表明,訓(xùn)練損失隨時(shí)間呈現(xiàn)出有原則的下降趨勢(shì),這在相當(dāng)程度上證實(shí)了我們提出的學(xué)習(xí)方法的有效性。此外,對(duì)第三階段損失曲線的仔細(xì)檢查表明,模型的視覺(jué)生成能力仍有很大的優(yōu)化潛力。這一觀察結(jié)果表明,延長(zhǎng)訓(xùn)練時(shí)間和擴(kuò)大訓(xùn)練數(shù)據(jù)集可能會(huì)在第三階段帶來(lái)進(jìn)一步的視覺(jué)生成性能提升。

6. 結(jié)論、局限性與未來(lái)工作
6.1 結(jié)論
本文介紹了 VARGPT,這是一種新穎的 MLLM,成功地在統(tǒng)一自回歸框架內(nèi)集成了視覺(jué)理解和生成。通過(guò)采用創(chuàng)新的下一個(gè) token 和下一個(gè)尺度預(yù)測(cè)范式,VARGPT 將傳統(tǒng) MLLM 的能力擴(kuò)展到包括高效的視覺(jué)自回歸生成。該模型的三階段訓(xùn)練管道利用專門構(gòu)建的數(shù)據(jù)集,實(shí)現(xiàn)了視覺(jué)和文本特征的有效對(duì)齊,增強(qiáng)了理解和生成能力。與 LLaVA-1.5 等現(xiàn)有模型相比,VARGPT 在各種以視覺(jué)為中心的任務(wù)上表現(xiàn)出卓越性能。此外,它在自回歸視覺(jué)生成和文本到圖像合成方面表現(xiàn)出非凡的熟練度。這些成就凸顯了 VARGPT 的多功能性和推動(dòng)多模態(tài)人工智能領(lǐng)域發(fā)展的潛力,為統(tǒng)一多模態(tài)模型的未來(lái)研究提供了有意義的探索。
6.2 局限性
(1)由于我們的視覺(jué)生成數(shù)據(jù)集主要來(lái)源于 ImageNet,VARGPT 與某些擴(kuò)散模型(如 SDv2.1 [69] 和更先進(jìn)的模型如 FLUX [33])之間存在明顯的質(zhì)量差距,這些模型在大規(guī)模高質(zhì)量圖像數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。這種差異主要?dú)w因于訓(xùn)練數(shù)據(jù)的不同。此外,在整個(gè)訓(xùn)練過(guò)程中,生成圖像的分辨率始終設(shè)置為 256×256 像素。因此,當(dāng)前版本的 VARGPT 僅支持該分辨率的自回歸圖像生成。(2)盡管 VARGPT 在指令理解和指令到圖像生成方面表現(xiàn)出初步的熟練度,在大多數(shù)情況下能夠有效跟隨用戶輸入指令,但在某些情況下,指令中的細(xì)微細(xì)節(jié)可能無(wú)法在生成的圖像中得到充分體現(xiàn)。這種局限性在某些情況下會(huì)表現(xiàn)出來(lái),表明模型在全面捕捉和渲染復(fù)雜指令細(xì)節(jié)的能力上仍有改進(jìn)空間。
6.3 未來(lái)工作
(1)為了實(shí)現(xiàn)更高質(zhì)量的圖像生成并支持更高分辨率的輸出,我們計(jì)劃改進(jìn)下一個(gè)尺度預(yù)測(cè)模型架構(gòu),擴(kuò)展圖像數(shù)據(jù)集,提高圖像質(zhì)量,并實(shí)現(xiàn)動(dòng)態(tài)分辨率能力。(2)在后續(xù)版本的 VARGPT 中,我們打算探索支持統(tǒng)一自回歸視頻理解和生成。
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:Xianwei Zhang等


















