VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成 原創(chuàng)
摘要
我們提出了 VARGPT,這是一種新穎的多模態(tài)大語言模型(MLLM),能夠在單一自回歸框架內(nèi)統(tǒng)一視覺理解和生成。VARGPT 采用下一個(gè) token 預(yù)測范式進(jìn)行視覺理解,并采用下一個(gè)尺度預(yù)測范式進(jìn)行視覺自回歸生成。該模型創(chuàng)新性地?cái)U(kuò)展了 LLaVA 架構(gòu),在多模態(tài)大語言模型中實(shí)現(xiàn)了高效的按比例自回歸視覺生成,同時(shí)在單一模型框架內(nèi)無縫處理混合模態(tài)輸入和輸出。VARGPT 在專門構(gòu)建的數(shù)據(jù)集上經(jīng)歷了三階段統(tǒng)一訓(xùn)練過程,包括預(yù)訓(xùn)練階段和兩個(gè)混合視覺指令微調(diào)階段。統(tǒng)一訓(xùn)練策略旨在實(shí)現(xiàn)視覺和文本特征的對齊,增強(qiáng)理解和生成的指令跟隨能力,并提高視覺生成質(zhì)量。盡管基于 LLaVA 架構(gòu)進(jìn)行多模態(tài)理解,VARGPT 在各種以視覺為中心的基準(zhǔn)測試中顯著優(yōu)于 LLaVA-1.5,例如視覺問答和推理任務(wù)。值得注意的是,VARGPT 自然支持自回歸視覺生成和指令到圖像合成能力,展示了其在視覺理解和生成任務(wù)中的多功能性。Project Page: https://vargpt-1.github.io/
1. 引言
近年來,多模態(tài)人工智能在理解和生成這兩個(gè)核心領(lǐng)域取得了重大突破。多模態(tài)大語言模型(MLLMs)[2, 5, 9, 48, 94]借助大語言模型(LLMs)強(qiáng)大的通用性[2, 85, 86],在理解多模態(tài)數(shù)據(jù)方面展現(xiàn)出卓越的能力。與此同時(shí),去噪擴(kuò)散概率模型(DDPMs)[24, 62]為圖像生成領(lǐng)域帶來了顯著進(jìn)展,在文本到視覺模態(tài)的生成任務(wù)中表現(xiàn)優(yōu)異。此外,受自回歸大語言模型(如縮放定律[23, 29])優(yōu)勢特性的啟發(fā),許多研究通過預(yù)測下一個(gè)詞元(token)或下一個(gè)尺度來探索自回歸視覺生成,例如Emu3[87]、VAR[84]、LlamaGen[76]、HART[79]和Infinity[22]等,均取得了顯著成果。鑒于在視覺理解和生成方面取得的這些成就,近期的研究開始探索能夠處理理解和生成任務(wù)的統(tǒng)一模型,為此設(shè)計(jì)了各種統(tǒng)一架構(gòu)來實(shí)現(xiàn)這一目標(biāo)(如圖3所示)。近期的一些研究[18, 90, 91]嘗試將來自這兩個(gè)不同領(lǐng)域(如大語言模型和去噪擴(kuò)散概率模型)的模型組合起來,形成一個(gè)能夠處理多模態(tài)理解和生成的統(tǒng)一系統(tǒng)(如圖3(3)所示)。例如,NExT-GPT[90]和SEEDX[18]可能依賴預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行圖像生成。此外,LWM[53]、Chameleon[81]和Janus[88]探索了純粹的下一個(gè)詞元預(yù)測統(tǒng)一模型(如圖3(4)所示),而Dual Diffusion[46]研究了使用兩個(gè)擴(kuò)散模型分別進(jìn)行理解和生成。TokenFlow[64]探索了統(tǒng)一的圖像分詞器,但生成模型和理解模型是分開的。Show-o[91]提出在單個(gè)Transformer中結(jié)合自回歸和擴(kuò)散模型范式(如圖3(4)所示)。Liquid[89]在同一空間中學(xué)習(xí)圖像和文本嵌入,并使用預(yù)測下一個(gè)詞元的范式實(shí)現(xiàn)自回歸視覺理解和生成。
圖 3:不同模型架構(gòu)的比較,其中 “AR” 代表自回歸,“VAR” 表示視覺自回歸。我們對僅用于理解任務(wù)、僅用于生成任務(wù)以及統(tǒng)一理解和生成的架構(gòu),與我們提出的 VARGPT 模型進(jìn)行了對比分析。VARGPT 被設(shè)計(jì)為純自回歸多模態(tài)模型,通過下一個(gè) token 預(yù)測實(shí)現(xiàn)視覺理解,通過下一個(gè)尺度預(yù)測實(shí)現(xiàn)視覺生成。
在這項(xiàng)工作中,我們致力于在視覺自回歸多模態(tài)大語言模型中統(tǒng)一視覺生成和理解,使其自然地支持混合模態(tài)的輸入和輸出。與現(xiàn)有的所有統(tǒng)一模型不同,我們提出在一個(gè)統(tǒng)一模型中將理解和生成建模為兩種不同的范式:分別通過預(yù)測下一個(gè)詞元進(jìn)行視覺理解,通過預(yù)測下一個(gè)尺度進(jìn)行視覺生成,并訓(xùn)練了一個(gè)名為VARGPT的新型統(tǒng)一模型。具體而言:
1. 模型架構(gòu)方面:VARGPT的核心結(jié)構(gòu)借鑒了LLaVA-1.5-7B,同時(shí)我們額外引入了一個(gè)視覺解碼器和兩個(gè)用于視覺生成的額外視覺特征投影儀。這些投影儀用于生成的視覺特征和文本特征之間的相互映射。VARGPT采用自回歸方法預(yù)測下一個(gè)文本詞元,以進(jìn)行視覺理解和問答。當(dāng)預(yù)測到用于視覺生成的特殊詞元時(shí),模型會自回歸地預(yù)測下一個(gè)尺度的詞元,并通過視覺解碼器獲得最終的輸出圖像。所提出的架構(gòu)使VARGPT能夠在視覺自回歸多模態(tài)大語言模型中實(shí)現(xiàn)統(tǒng)一的理解和生成。
2. 訓(xùn)練方法方面:我們采用統(tǒng)一的指令微調(diào)方法來學(xué)習(xí)視覺理解和視覺生成。具體來說,我們通過將視覺詞元預(yù)測構(gòu)建為指令跟隨格式,將指令微調(diào)擴(kuò)展到視覺生成,并將構(gòu)建的視覺生成指令數(shù)據(jù)集與來自LLaVA-1.5[49]的多輪對話指令數(shù)據(jù)集相結(jié)合進(jìn)行混合訓(xùn)練。通過所提出的統(tǒng)一指令微調(diào),我們同時(shí)賦予多模態(tài)大語言模型理解和生成的能力。我們將訓(xùn)練過程分為三個(gè)階段,包括一個(gè)預(yù)訓(xùn)練階段和兩個(gè)指令微調(diào)階段。在第一階段的預(yù)訓(xùn)練中,模型學(xué)習(xí)文本和視覺空間之間的特征映射。在第二和第三階段的指令微調(diào)中,VARGPT分別增強(qiáng)其在視覺問答和指令到圖像生成方面的能力。
3. 訓(xùn)練數(shù)據(jù)集方面:為了高效地訓(xùn)練模型,我們構(gòu)建并收集了128萬個(gè)用于第一階段預(yù)訓(xùn)練的數(shù)據(jù),118萬個(gè)用于第二階段混合視覺理解和生成指令微調(diào)的數(shù)據(jù),以及140萬個(gè)用于第三階段視覺生成指令微調(diào)的數(shù)據(jù)。通過統(tǒng)一的指令跟隨格式,我們在混合視覺指令微調(diào)中統(tǒng)一了理解和生成的訓(xùn)練。 大量實(shí)驗(yàn)表明,我們的VARGPT能夠?qū)崿F(xiàn)顯著的視覺理解能力(如圖1所示),并賦予多模態(tài)大語言模型視覺生成能力,自然地支持混合模態(tài)輸入和輸出(如圖2所示)。據(jù)我們所知,VARGPT是第一個(gè)支持在理解任務(wù)中預(yù)測下一個(gè)詞元、在生成任務(wù)中預(yù)測下一個(gè)尺度的統(tǒng)一模型,同時(shí)在理解能力方面超越了許多規(guī)模相當(dāng)?shù)亩嗄B(tài)大語言模型和統(tǒng)一模型。
圖 1:多個(gè)視覺理解與生成基準(zhǔn)測試中各類多模態(tài)大語言模型的對比分析。CLIP 分?jǐn)?shù)用于衡量文本到圖像的視覺生成,其余指標(biāo)源自標(biāo)準(zhǔn)視覺問答基準(zhǔn)和多模態(tài)理解基準(zhǔn)。值得注意的是,我們的 VARGPT 模型在所有理解基準(zhǔn)測試中均顯著優(yōu)于對比基線。此外,它還展現(xiàn)出卓越的指令到圖像生成能力,從而提升了其在各類視覺語言任務(wù)中的通用性和適用性。
圖 2:VARGPT 在 ImageNet 上訓(xùn)練生成的部分 256×256 樣本。VARGPT 支持用戶的文本和圖像指令,并同時(shí)輸出文本和圖像混合模態(tài)數(shù)據(jù)。
2. 相關(guān)工作
2.1 視覺生成
擴(kuò)散模型 [25,74,75] 將圖像生成視為從噪聲到圖像的反向擴(kuò)散過程。擴(kuò)散模型的進(jìn)展主要集中在采樣方法 [4,55] 和架構(gòu)設(shè)計(jì) [26,63] 上,催生了如 [57,63] 等令人印象深刻的模型。在擴(kuò)散模型取得重大進(jìn)展的背景下,基于流的生成模型 [1] 作為簡化框架出現(xiàn),推動(dòng)了高級視覺生成模型的發(fā)展。自回歸模型 [14,97] 采用類似 GPT [65] 的技術(shù)來預(yù)測序列中的下一個(gè) token。像 [12,15,67,76,77,87] 等工作利用類似 VQGAN [36] 的視覺 tokenizer 將圖像轉(zhuǎn)換為離散 token,實(shí)現(xiàn)了視覺數(shù)據(jù)的 token 化,并采用類似 GPT 的預(yù)測方法。最近,另一類基于預(yù)測下一個(gè)尺度的自回歸模型,如 VAR [84]、HART [79] 和 Infinity [22],引起了關(guān)注,并已被驗(yàn)證可能具有與縮放定律 [23,29] 一致的特性。在這項(xiàng)工作中,我們的統(tǒng)一自回歸框架通過預(yù)測下一個(gè)尺度的范式來完成圖像生成任務(wù)。
2.2 多模態(tài)大語言模型
LLM [85,86] 的進(jìn)步推動(dòng)了 MLLM 的發(fā)展。MLLM 使用預(yù)訓(xùn)練的 LLM 作為文本解碼器,通過連接器 [35,43] 將文本和圖像與視覺編碼器連接起來進(jìn)行集成。LLaVA [49] 使用各種任務(wù)(如視覺問答和圖像描述)的數(shù)據(jù)以指令格式對模型進(jìn)行微調(diào),使模型能夠理解新指令并泛化到未見任務(wù)。LLaVA-1.5 [50] 和 LLaVA-NeXT [39,40,42,52,101] 系列通過更多樣和更高質(zhì)量的數(shù)據(jù)集進(jìn)一步提升了視覺理解性能。隨著架構(gòu)優(yōu)化、創(chuàng)新訓(xùn)練范式和多樣化數(shù)據(jù)的引入,一系列先進(jìn)的 MLLM 應(yīng)運(yùn)而生,如 Qwen-VL [2]、mPLUG-Owl2 [95]、InternVL [7]、InstructBLIP [9]。
2.3 視覺理解與生成的統(tǒng)一模型
近年來,研究人員致力于在單個(gè)模型中統(tǒng)一理解和生成能力 [13,80,93]。大多數(shù)現(xiàn)有方法 [17,78,90] 嘗試將預(yù)訓(xùn)練的擴(kuò)散模型與現(xiàn)有系統(tǒng)集成。然而,這些系統(tǒng)本質(zhì)上是將擴(kuò)散模型視為外部工具,而非將其作為 MLLM 的內(nèi)在生成能力。Show-o [92] 通過結(jié)合自回歸和(離散)擴(kuò)散建模,能夠自適應(yīng)處理各種混合模態(tài)的輸入和輸出。Li 等人 [46] 采用跨模態(tài)最大似然估計(jì)框架,顯著改進(jìn)了現(xiàn)有的基于擴(kuò)散的多模態(tài)模型。[3,83] 探索了使用自回歸方法將圖像生成集成到大型語言模型(LLM)中,取得了顯著成果。例如,LWM [53] 和 Chameleon [82] 利用 VQ tokenizer [14,84] 對圖像進(jìn)行編碼,實(shí)現(xiàn)了對多模態(tài)理解和生成的同時(shí)支持。Janus [88] 通過將視覺編碼解耦為獨(dú)立路徑,進(jìn)一步提高了模型的靈活性和性能,而 Dual Diffusion [46] 則研究了使用兩個(gè)擴(kuò)散模型進(jìn)行理解和生成。Liquid [89] 在同一空間中學(xué)習(xí)圖像和文本嵌入,并使用預(yù)測下一個(gè) token 的范式實(shí)現(xiàn)自回歸視覺理解和生成。與所有現(xiàn)有統(tǒng)一模型不同,我們提出在統(tǒng)一模型中將理解和生成建模為兩種不同的范式:視覺理解采用下一個(gè) token 預(yù)測,視覺生成采用下一個(gè)尺度預(yù)測。
3. 方法
3.1 模型架構(gòu)
我們的 VARGPT 統(tǒng)一了視覺理解和生成,其架構(gòu)如圖 4 所示。我們的架構(gòu)遵循下一個(gè) token 預(yù)測范式進(jìn)行理解和問答,遵循下一個(gè)尺度預(yù)測范式進(jìn)行圖像生成。
圖 4:VARGPT 框架示意圖,它由(1)一個(gè)大語言模型、視覺編碼器和用于視覺理解的投影儀;(2)一個(gè)視覺解碼器和雙生成投影儀,用于視覺生成。VARGPT 在大語言模型主干中使用因果注意力機(jī)制,在視覺解碼器中使用塊因果注意力機(jī)制。
3.1.1 通過下一個(gè) token 預(yù)測實(shí)現(xiàn)視覺理解
在視覺理解方面,我們的模型架構(gòu)參考了 LLaVA-1.5 [50] 的結(jié)構(gòu),使用 Vicuna-7B-v1.5 [102] 作為 LLMθ,并采用 CLIP [66] 的視覺編碼器(ViT/14)作為視覺編碼器,同時(shí)使用兩層線性網(wǎng)絡(luò)作為投影儀。最初,用于視覺理解的圖像 Ximg 經(jīng)過視覺編碼器處理生成嵌入 Himg,然后通過接口(如線性層)進(jìn)行調(diào)整,以與通過查詢 Xquery 獲得的文本嵌入 Htxt 對齊。組合后的數(shù)據(jù)作為輸入提供給 LLM,LLM 以自回歸方式生成文本輸出 Ytxt,如下所示:
其中,Ytxt_t 表示 Ytxt 的第 t 個(gè) token,Ytxt_
3.1.2 通過下一個(gè)尺度預(yù)測實(shí)現(xiàn)視覺生成
在視覺生成方面,我們遵循 VAR [84] 的大部分設(shè)置,采用多尺度圖像 tokenizer 進(jìn)行視覺 token 編碼和解碼。我們構(gòu)建了兩個(gè)圖像生成投影儀,用于在 LLM 的輸入和輸出端轉(zhuǎn)換用于生成的視覺特征。此外,我們構(gòu)建了一個(gè)額外的 2B 視覺解碼器 ?,包含 30 層 Transformer,用于解碼視覺特征,這在一定程度上可以避免文本解碼器中的知識與圖像生成知識之間的沖突。通過視覺解碼器獲得的圖像特征將進(jìn)一步通過多尺度 VAE 解碼器解碼,生成可用的圖像。與文本解碼器(即 LLM)不同,視覺解碼器使用遵循 VAR [84] 中塊因果注意力的注意力機(jī)制,以支持預(yù)測下一個(gè)尺度的 token。此外,在將用于視覺生成的特征輸入視覺解碼器之前,我們添加絕對位置編碼,以進(jìn)一步區(qū)分視覺 token 的位置信息。
形式上,我們將圖像的多尺度特征圖定義為通過多尺度 tokenizer 獲得的 (R1,R2,?,RK)。因此,下一個(gè)尺度的圖像 token 將以自回歸方式生成:
3.1.3 混合模態(tài)生成的提示模板
為了區(qū)分用于文本生成的 token 和用于圖像合成的 token,我們設(shè)計(jì)了一些特殊的 token 標(biāo)記。具體來說,我們使用用于圖像生成 token 的位置填充,表示圖像生成 token 的開始,表示生成結(jié)束。當(dāng) VARGPT 生成 < image_gen_start>token 時(shí),與 < image_gen>token 相關(guān)的特征將通過投影儀處理,然后輸入視覺解碼器,以獲取圖像生成所需的特征。在視覺理解任務(wù)中,我們使用token 作為輸入圖像的表示。我們在附錄 7 中總結(jié)了 VARGPT 使用的提示模板。
3.1.4 無分類器引導(dǎo)(CFG)
CFG 顯著增強(qiáng)了生成擴(kuò)散模型生成高保真樣本的能力。該方法將條件生成模型與同時(shí)訓(xùn)練的無條件模型的分布估計(jì)相結(jié)合,從而提高了整體生成質(zhì)量。受 DALL-E 2 [68]、VAR [84] 和 VAR-CLIP [100] 的啟發(fā),我們使用高斯噪聲作為輸入來模擬無條件生成。隨后,我們通過從條件生成的 logits 分布中減去無條件生成的概率,得到視覺輸出的最終分布。更多細(xì)節(jié)見附錄 7。
3.2 訓(xùn)練
對于 VARGPT 模型訓(xùn)練,我們提出了一階段預(yù)訓(xùn)練過程和兩階段指令微調(diào)過程,如圖 5 所示。
3.2.1 階段 1:預(yù)訓(xùn)練
我們使用 ImageNet [11] 中的圖像作為圖像源,構(gòu)建用于預(yù)訓(xùn)練兩個(gè)圖像生成投影儀的訓(xùn)練數(shù)據(jù)。我們將預(yù)訓(xùn)練數(shù)據(jù)組織成 128 萬單輪對話數(shù)據(jù)(具體數(shù)據(jù)構(gòu)建見第 4 節(jié))。該預(yù)訓(xùn)練階段的主要目的是訓(xùn)練投影儀,使圖像生成特征與文本特征初步對齊。在預(yù)訓(xùn)練期間,除了兩個(gè)用于圖像生成的投影儀外,我們凍結(jié)所有參數(shù),如圖 5 所示。
圖 5:VARGPT 的三個(gè)訓(xùn)練階段,包括第一階段預(yù)訓(xùn)練、第二和第三階段指令微調(diào)。
3.2.2 階段 2:視覺理解的監(jiān)督微調(diào)(SFT)
在第二階段,我們解凍語言模型和視覺編碼器特征輸出的投影儀,并使用我們精心構(gòu)建的多輪對話和理解數(shù)據(jù)集進(jìn)行訓(xùn)練。該階段的主要目的是確保 VARGPT 保持出色的多輪對話、視覺理解和問答能力。此外,在該階段,我們從構(gòu)建的 Imagenet-Instruct 數(shù)據(jù)集中引入 5K 樣本,使 VARGPT 能夠區(qū)分視覺理解和視覺生成任務(wù)。當(dāng)用戶輸入生成指令時(shí),VARGPT 可以通過輸出特殊 token準(zhǔn)確響應(yīng),開始自回歸視覺生成。階段 2 訓(xùn)練數(shù)據(jù)集的組成見第 4 節(jié)。
3.2.3 階段 3:視覺生成的監(jiān)督微調(diào)(SFT)
與第二階段相比,第三階段主要通過監(jiān)督微調(diào)提高 VARGPT 的指令到圖像能力。在該階段,我們解凍視覺解碼器和兩個(gè)用于視覺生成的投影儀,同時(shí)凍結(jié)其他參數(shù)進(jìn)行 SFT,如圖 5 階段 3 所示。第三階段的訓(xùn)練數(shù)據(jù)包括從 ImageNet 構(gòu)建的 140 萬指令對(詳細(xì)信息見第 4 節(jié))。
4. 統(tǒng)一指令跟隨數(shù)據(jù)
在本節(jié)中,我們將詳細(xì)介紹三個(gè)不同訓(xùn)練階段所使用的訓(xùn)練數(shù)據(jù)集的來源,以及各類數(shù)據(jù)在其中的占比情況。值得注意的是,我們引入了圖像生成指令跟隨數(shù)據(jù)集(如圖8a所示),并闡述了其來源,以及利用大語言模型生成該數(shù)據(jù)集所采用的方法。通過這種方式,我們將視覺理解和生成的訓(xùn)練方法統(tǒng)一為視覺指令微調(diào)。
圖8:我們構(gòu)建和收集的數(shù)據(jù)分布,包括:(a)三個(gè)訓(xùn)練階段的數(shù)據(jù)比例分解;(b)第二階段指令微調(diào)期間使用的混合指令數(shù)據(jù)分布。我們用于第二階段訓(xùn)練的復(fù)合數(shù)據(jù)集源自LLaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。
4.1 生成指令跟隨數(shù)據(jù)集
我們構(gòu)建了兩個(gè)圖像生成指令跟隨數(shù)據(jù)集:ImageNet-Instruct-130K和ImageNet-Instruct-1270K。以ImageNet-Instruct-130K的構(gòu)建為例,圖6展示了該數(shù)據(jù)集的一個(gè)樣本。
圖6 ImageNet-Instruct-130K圖像生成指令跟隨數(shù)據(jù)集的一個(gè)樣本,其圖片說明文字是一個(gè)人淹沒在水下。代表用于填充圖像生成token位置的特殊token。
- **ImageNet-1K-VL-Enriched**:我們采用ImageNet-1K-VL-Enriched數(shù)據(jù)集[34]作為基礎(chǔ)數(shù)據(jù)集。ImageNet-1K-VL-Enriched是ImageNet數(shù)據(jù)集的增強(qiáng)版本,其中的圖像描述是使用BLIP2[44]圖像字幕模型生成的。
- **通過Deepseek-LLM構(gòu)建ImageNet-Instruct-130K**:為構(gòu)建用于指令微調(diào)數(shù)據(jù)集的問答格式,我們利用Deepseek-V3 Chat LLM[10](以下簡稱LLM)生成提示和答案的種子格式(Prompt_limit_seeds和Answer_limit_seeds)。如圖7(a)所示,Prompt_limit_seeds有效地模擬了用戶請求,而Answer_limit_seeds則模擬了VLLM與用戶之間的對話。我們從種子池中隨機(jī)選擇prompt_limit_seed、image_cap_limit_seed和answer_limit_seed,作為LLM調(diào)用模板中的元素。
- **LLM調(diào)用模板**:我們從基礎(chǔ)數(shù)據(jù)集中隨機(jī)選擇4個(gè)圖像描述樣本,作為4-shot示例,引導(dǎo)大模型生成相應(yīng)的對話樣本。如圖7(b)所示,我們對生成的提示和答案添加了相關(guān)約束,以確保輸出盡可能合規(guī)且多樣。我們隨機(jī)采樣了130K個(gè)圖像描述數(shù)據(jù)樣本,從而創(chuàng)建了用于ImageNet[11]圖像生成指令微調(diào)數(shù)據(jù)集的130K個(gè)樣本,并將其命名為ImageNet-Instruct-130K。附錄8中提供了關(guān)于數(shù)據(jù)集構(gòu)建的更多詳細(xì)信息。
圖7 所提出的圖像生成指令跟隨樣本生成的示意圖,包括(a)種子生成:我們利用大語言模型生成用于約束指令跟隨數(shù)據(jù)集創(chuàng)建的種子;(b)指令跟隨樣本生成:指令跟隨數(shù)據(jù)集的提示模板。
4.2 三個(gè)訓(xùn)練階段的數(shù)據(jù)構(gòu)成 -
**階段1**:用于階段1預(yù)訓(xùn)練的ImageNet-Instruct-class數(shù)據(jù)集包含128萬個(gè)單輪對話樣本,源自ImageNet,專注于學(xué)習(xí)類別與圖像之間的對應(yīng)關(guān)系。假設(shè)類別是“魚”,格式如下:{‘prompt’: ‘請為我生成一張魚的圖像?!? ‘a(chǎn)nswer’: ‘生成的魚的圖像如下}。
- **階段2**:我們在階段2使用的混合指令微調(diào)數(shù)據(jù)集來自LLaVA-1.5[51]、LLaVA-OneVision[41]和ImageNet-Instruct-130K。各部分組成如圖8b所示。
- **LLaVA-1.5-665K**:LLaVA-1.5的指令跟隨數(shù)據(jù)集包含視覺問答(VQA)[20, 27, 60, 70]、光學(xué)字符識別(OCR)[61, 72]、區(qū)域級視覺問答[30, 31, 58]、視覺對話[49]和語言對話[71]數(shù)據(jù)。我們將所有665K個(gè)指令跟隨樣本都納入階段2的訓(xùn)練中。
- **LLaVA-OneVision**:LLaVA-OneVision的視覺指令微調(diào)數(shù)據(jù)整合了LLaVA-1.5及后續(xù)多個(gè)LLaVA-NeXT版本[39, 40, 42, 52, 101]的數(shù)據(jù),并從互聯(lián)網(wǎng)上收集了開源數(shù)據(jù)集,通過設(shè)置特定格式的提示來整合數(shù)據(jù)并避免沖突。最終形成了一個(gè)320萬個(gè)樣本的高質(zhì)量單圖像數(shù)據(jù)集。在去除K12 Printing子集中的樣本后,我們從該數(shù)據(jù)集中隨機(jī)采樣508K個(gè)樣本,納入階段2的訓(xùn)練(值得注意的是,我們只采樣了5K個(gè)純文本問答對)。
- **ImageNet-Instruct-130K**:我們從ImageNet-Instruct-130K數(shù)據(jù)集中隨機(jī)采樣5K個(gè)樣本,納入階段2的訓(xùn)練。
- **階段3**:在階段3,除了構(gòu)建的ImageNet-Instruct-130K數(shù)據(jù)集外,我們還創(chuàng)建了一個(gè)更大的圖像生成指令跟隨數(shù)據(jù)集ImageNet-Instruct-1270K。與ImageNet-Instruct-130K相比,它擁有更多樣化的提示和答案模板(多達(dá)400個(gè))。提示和答案的構(gòu)建涉及模板與圖像描述的直接連接。
5. 實(shí)驗(yàn)
實(shí)驗(yàn)細(xì)節(jié):對于用于圖像生成任務(wù)的圖像,我們將它們統(tǒng)一調(diào)整大小并裁剪為256x256像素,隨后應(yīng)用與VAR [84] 中一致的預(yù)處理技術(shù)。對于用于視覺理解任務(wù)的圖像,我們遵循LLaVA-1.5框架中建立的預(yù)處理協(xié)議。我們的語言模型、視覺編碼器和視覺特征映射器使用LLaVA-1.5-7B-hf架構(gòu)進(jìn)行初始化。視覺解碼器使用VAR-d30參數(shù)進(jìn)行初始化,包含大約20億模型參數(shù)。VARGPT中用于視覺生成的特征映射器進(jìn)行隨機(jī)初始化,并在第一階段的預(yù)訓(xùn)練中初步更新。我們采用類似于VAR [84] 的多尺度VQVAE [14] 進(jìn)行圖像標(biāo)記化,以支持按比例預(yù)測范式。表2全面總結(jié)了我們模型在三個(gè)訓(xùn)練階段的訓(xùn)練細(xì)節(jié)。在圖像生成過程中,我們模型的VARGPT的top-k和top-p采樣參數(shù)分別設(shè)置為900和0.95。此外,CFG(分類器自由引導(dǎo))尺度參數(shù)配置為1.5。
評估基準(zhǔn):按照常見設(shè)置 [51, 52, 103],我們在一系列學(xué)術(shù)任務(wù)導(dǎo)向基準(zhǔn)測試和最近為指令跟隨型MLLMs專門提出的基準(zhǔn)測試中評估我們VARGPT在視覺理解方面的有效性,總共包括11個(gè)基準(zhǔn)測試:(1)五個(gè)多模態(tài)基準(zhǔn)測試,用于指令跟隨型MLLMs,包括MMbench-dev(en)[54]、SEED-bench [38]、MMMU [98]、POPE [45]和MME [16]基準(zhǔn)測試。對于POPE基準(zhǔn)測試,我們在隨機(jī)、流行和對抗性設(shè)置中進(jìn)行評估,以準(zhǔn)確率作為評估指標(biāo);(2)六個(gè)視覺中心問答基準(zhǔn)測試,包括GQA [28]、TextVQA [73]、VQAv2 [19]、SciQA-img [56]、OKVQA [59]和VizWizQA [21]。對于視覺理解基準(zhǔn)測試,我們使用lmmseval [99]中的設(shè)置以實(shí)現(xiàn)統(tǒng)一評估。對于視覺生成評估,我們構(gòu)建了一個(gè)包含50,000條文本指令的評估數(shù)據(jù)集,以評估模型的生成能力。我們采用CLIPscore來評估文本指令與生成圖像之間的CLIP分?jǐn)?shù)。此外,我們還使用Fréchet Inception Distance(FID)指標(biāo)來評估我們VARGPT模型在ImageNet-1K數(shù)據(jù)集上訓(xùn)練生成的圖像樣本的質(zhì)量。
基線對比:我們對我們的VARGPT模型進(jìn)行了對比分析,對比對象是其他用于視覺理解的多模態(tài)大型語言模型,這些模型與我們模型的規(guī)模相近。對比包括LLaVA1.5 [48]、MiniGPT-4 [5]和mPLUG-Owl2 [94]等杰出模型,以及InstructBLIP [9]和Qwen-VL [2]。此外,我們的對比研究還擴(kuò)展到包括Chameleon [82]、SEEDLLaMA [17]、Show-o [91]和VILA-U [91]在內(nèi)的統(tǒng)一模型。這一全面的對比使我們能夠評估VARGPT與該領(lǐng)域多種先進(jìn)模型的關(guān)系。
5.1 主要結(jié)果
5.1.1 多模態(tài)基準(zhǔn)評估
我們進(jìn)行了零樣本多模態(tài)評估,并將 VARGPT 與各種用于視覺理解的多模態(tài)模型進(jìn)行了比較,結(jié)果如表 1 所示?;谶@些結(jié)果,我們有幾個(gè)詳細(xì)的觀察:(1)可以看出,我們的方法在視覺理解方面顯著優(yōu)于大多數(shù)現(xiàn)有的 MLLM 基線,包括 LLaVA-1.5 [48]、MiniGPT-4 [5]、InstructBLIP [9] 和 Qwen-VL [2]。我們的 VARGPT 在所有基準(zhǔn)和一些視覺幻覺評估基準(zhǔn)(如 POPE)上均取得了更高的性能,這表明了我們方法在視覺生成中的優(yōu)越性和泛化性。(2)盡管我們的視覺理解核心架構(gòu)與 LLaVA-1.5 相似,但我們的方法取得了顯著更好的性能,并且在單個(gè)大型模型中支持視覺生成。(3)與支持生成和理解的其他統(tǒng)一模型(例如SEEDLLaMA [17]和VILA-U [91])相比,我們的模型自然支持混合模式輸出(在對話中連續(xù)輸出文本和圖像),并且在視覺理解方面取得了顯著更好的性能。此外,我們在LLaVA-Bench基準(zhǔn)測試上進(jìn)行了樣本分析,部分結(jié)果展示在表6中。觀察結(jié)果表明,與LLaVA-1.5相比,我們的方法在圖像理解能力方面表現(xiàn)出更高的水平,并且在識別和分析圖像中的幽默元素方面表現(xiàn)出更強(qiáng)的能力。
表6:VARGPT展示了理解和解釋視覺內(nèi)容中幽默元素的能力。
5.1.2 視覺問答任務(wù)評估
我們將各種視覺問答任務(wù)與現(xiàn)有方法進(jìn)行了比較,結(jié)果如表 3 所示。如表 3 所示,我們有以下觀察:(1)VARGPT 在大多數(shù)理解基準(zhǔn)上始終取得最佳結(jié)果,超越了相同參數(shù)規(guī)模的用于視覺理解的 MLLM。這進(jìn)一步證明了 VARGPT 的有效性;(2)除了取得顯著的理解能力(如在 SciQA-img 基準(zhǔn)上比 LLaVA-1.5 高 12.2%)外,與這些基線相比,VARGPT 還支持視覺生成能力。
5.1.3 指令到圖像任務(wù)評估
為了評估 VARGPT 的視覺生成能力,我們構(gòu)建了一個(gè)包含 5 萬個(gè)樣本的基于指令的問答生成評估數(shù)據(jù)集。該數(shù)據(jù)集中的指令描述來自 ImageNet-1K 圖像描述,每個(gè)類別限制 50 個(gè)樣本,以確保類間平衡表示。為了定量評估 VARGPT 的指令跟隨能力,我們評估了兩個(gè)關(guān)鍵指標(biāo):(1)5 萬張生成圖像與 ImageNet-1k 數(shù)據(jù)集之間的 FID 分?jǐn)?shù),(2)通過 CLIP 模型計(jì)算的指令與生成圖像之間的 CLIP 分?jǐn)?shù)。評估結(jié)果如表 4 所示。此外,我們在圖 9 中提供了 VARGPT 生成的圖像和對話的可視化。觀察分析表明,VARGPT 能夠生成高度符合給定指令的高質(zhì)量圖像。值得注意的是,VARGPT 展示了在單個(gè)對話中無縫集成文本描述和圖像生成的能力,使用單個(gè)統(tǒng)一模型處理多模態(tài)輸入和輸出。這種能力進(jìn)一步凸顯了 VARGPT 在統(tǒng)一視覺生成和理解任務(wù)中的獨(dú)特優(yōu)勢。VARGPT 中使用的圖像生成數(shù)據(jù)集(128 萬 ImageNet)與其他統(tǒng)一模型(如 Show-1:3600 萬,VILA-U:1500 萬,Liquid:3000 萬圖像)相比,規(guī)模顯著更小且質(zhì)量更低。因此,VARGPT 的圖像生成性能目前落后于這些方法。然而,通過數(shù)據(jù)縮放提高質(zhì)量的潛力為未來的研究和發(fā)展提供了有希望的途徑。
圖9:我們的VARGPT在ImageNet-1K上訓(xùn)練生成的部分256×256樣本。VARGPT支持用戶文本命令輸入,并同時(shí)輸出文本和圖像模態(tài)數(shù)據(jù)。
5.2方法分析
我們從模型參數(shù)、訓(xùn)練設(shè)置和數(shù)據(jù)效率等方面對我們的VARGPT進(jìn)行了消融實(shí)驗(yàn),以詳細(xì)評估各個(gè)組件的有效性。具體來說,我們通過移除特定設(shè)置來評估組件的有效性,如表4和表5所示。
訓(xùn)練策略對生成的影響:如表4所示,省略我們訓(xùn)練協(xié)議中的任何一個(gè)階段或階段組合,都會導(dǎo)致我們模型的視覺生成性能顯著下降。值得注意的是,省略第三階段(涉及指令微調(diào))會導(dǎo)致生成圖像的質(zhì)量和模型遵循給定指令的能力大幅下降。這些發(fā)現(xiàn)強(qiáng)調(diào)了三個(gè)訓(xùn)練階段在提高模型視覺生成質(zhì)量和文本到圖像能力方面的重要作用。此外,我們還進(jìn)行了額外的實(shí)驗(yàn),在第三階段訓(xùn)練中選擇性地凍結(jié)映射器和視覺解碼器的參數(shù)。我們的觀察結(jié)果表明,如果在第三階段訓(xùn)練中不微調(diào)這些組件,也會導(dǎo)致性能下降。這些結(jié)果共同為我們的三階段訓(xùn)練策略的有效性提供了有力證據(jù)。在各種消融場景中觀察到的一致性能下降進(jìn)一步強(qiáng)化了每個(gè)提議組件和階段的重要性。
訓(xùn)練策略對理解的影響:為了評估我們的訓(xùn)練策略對視覺理解能力的有效性,我們通過在第二階段訓(xùn)練中選擇性地凍結(jié)組件進(jìn)行了消融研究。具體來說,我們在第二階段進(jìn)行指令微調(diào)時(shí),分別進(jìn)行了凍結(jié)映射器或LLM骨干的實(shí)驗(yàn)。如表5所示,我們在兩種情況下都觀察到了顯著的性能下降。這些結(jié)果進(jìn)一步驗(yàn)證了我們的訓(xùn)練策略在增強(qiáng)視覺理解能力方面的有效性。這一實(shí)證證據(jù)強(qiáng)調(diào)了允許映射器和LLM骨干在指令微調(diào)階段進(jìn)行適應(yīng)的重要性,突顯了我們提出的訓(xùn)練方法對模型整體視覺理解能力的協(xié)同效應(yīng)。
數(shù)據(jù)效率對理解的影響:此外,我們還對我們在第二階段訓(xùn)練中使用的混合數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。結(jié)果如表5所示。我們可以觀察到,移除任何一個(gè)理解數(shù)據(jù)集(502K或665K)都會對模型的理解性能產(chǎn)生負(fù)面影響。相反,當(dāng)我們進(jìn)一步納入我們構(gòu)建的用于生成的指令數(shù)據(jù)集時(shí),它增強(qiáng)了模型區(qū)分理解指令和生成指令的能力,并準(zhǔn)確提高了VARGPT輸出用于視覺生成的特殊標(biāo)記(即、和)的能力,而不會顯著影響其理解性能。
訓(xùn)練損失曲線可視化:我們進(jìn)一步展示了我們模型在第二階段和第三階段訓(xùn)練過程中的損失曲線,如圖10所示。這些損失曲線的趨勢顯示出合理且一致的下降,為我們的學(xué)習(xí)策略的有效性提供了實(shí)證支持。對這些曲線的分析表明,訓(xùn)練損失隨時(shí)間呈現(xiàn)出有原則的下降趨勢,這在相當(dāng)程度上證實(shí)了我們提出的學(xué)習(xí)方法的有效性。此外,對第三階段損失曲線的仔細(xì)檢查表明,模型的視覺生成能力仍有很大的優(yōu)化潛力。這一觀察結(jié)果表明,延長訓(xùn)練時(shí)間和擴(kuò)大訓(xùn)練數(shù)據(jù)集可能會在第三階段帶來進(jìn)一步的視覺生成性能提升。
6. 結(jié)論、局限性與未來工作
6.1 結(jié)論
本文介紹了 VARGPT,這是一種新穎的 MLLM,成功地在統(tǒng)一自回歸框架內(nèi)集成了視覺理解和生成。通過采用創(chuàng)新的下一個(gè) token 和下一個(gè)尺度預(yù)測范式,VARGPT 將傳統(tǒng) MLLM 的能力擴(kuò)展到包括高效的視覺自回歸生成。該模型的三階段訓(xùn)練管道利用專門構(gòu)建的數(shù)據(jù)集,實(shí)現(xiàn)了視覺和文本特征的有效對齊,增強(qiáng)了理解和生成能力。與 LLaVA-1.5 等現(xiàn)有模型相比,VARGPT 在各種以視覺為中心的任務(wù)上表現(xiàn)出卓越性能。此外,它在自回歸視覺生成和文本到圖像合成方面表現(xiàn)出非凡的熟練度。這些成就凸顯了 VARGPT 的多功能性和推動(dòng)多模態(tài)人工智能領(lǐng)域發(fā)展的潛力,為統(tǒng)一多模態(tài)模型的未來研究提供了有意義的探索。
6.2 局限性
(1)由于我們的視覺生成數(shù)據(jù)集主要來源于 ImageNet,VARGPT 與某些擴(kuò)散模型(如 SDv2.1 [69] 和更先進(jìn)的模型如 FLUX [33])之間存在明顯的質(zhì)量差距,這些模型在大規(guī)模高質(zhì)量圖像數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。這種差異主要?dú)w因于訓(xùn)練數(shù)據(jù)的不同。此外,在整個(gè)訓(xùn)練過程中,生成圖像的分辨率始終設(shè)置為 256×256 像素。因此,當(dāng)前版本的 VARGPT 僅支持該分辨率的自回歸圖像生成。(2)盡管 VARGPT 在指令理解和指令到圖像生成方面表現(xiàn)出初步的熟練度,在大多數(shù)情況下能夠有效跟隨用戶輸入指令,但在某些情況下,指令中的細(xì)微細(xì)節(jié)可能無法在生成的圖像中得到充分體現(xiàn)。這種局限性在某些情況下會表現(xiàn)出來,表明模型在全面捕捉和渲染復(fù)雜指令細(xì)節(jié)的能力上仍有改進(jìn)空間。
6.3 未來工作
(1)為了實(shí)現(xiàn)更高質(zhì)量的圖像生成并支持更高分辨率的輸出,我們計(jì)劃改進(jìn)下一個(gè)尺度預(yù)測模型架構(gòu),擴(kuò)展圖像數(shù)據(jù)集,提高圖像質(zhì)量,并實(shí)現(xiàn)動(dòng)態(tài)分辨率能力。(2)在后續(xù)版本的 VARGPT 中,我們打算探索支持統(tǒng)一自回歸視頻理解和生成。
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:Xianwei Zhang等
