自回歸+流匹配完美融合!Show-o2:語(yǔ)言模型一鍵生成高清圖/視頻,多模態(tài)理解也封神!
論文鏈接:https://arxiv.org/pdf/2506.15564
Git鏈接:https://github.com/showlab/Show-o
亮點(diǎn)直擊
- 提出了一種改進(jìn)的原生統(tǒng)一多模態(tài)模型,無(wú)縫整合自回歸建模與流匹配技術(shù),能夠跨(交錯(cuò))文本、圖像及視頻實(shí)現(xiàn)廣泛的多模態(tài)理解與生成任務(wù)。
- 基于3D因果VAE空間,通過(guò)語(yǔ)義與低維特征的雙路徑時(shí)空融合機(jī)制,構(gòu)建了可擴(kuò)展至多模態(tài)理解與生成、圖像與視頻模態(tài)的統(tǒng)一視覺(jué)表示。
- 設(shè)計(jì)了一種兩階段訓(xùn)練流程,高效學(xué)習(xí)統(tǒng)一多模態(tài)模型,既能保留語(yǔ)言知識(shí),又無(wú)需海量文本語(yǔ)料即可支持模型規(guī)模的有效擴(kuò)展。
- 所提模型在多模態(tài)理解與視覺(jué)生成基準(zhǔn)測(cè)試中達(dá)到領(lǐng)先性能,各項(xiàng)指標(biāo)均超越現(xiàn)有方法。
效果展示
圖生視頻
總結(jié)速覽
解決的問(wèn)題
- 多模態(tài)統(tǒng)一建模的局限性:現(xiàn)有統(tǒng)一多模態(tài)模型(UMMs)主要關(guān)注文本和圖像,缺乏對(duì)文本、圖像和視頻多模態(tài)的統(tǒng)一處理能力。
- 視覺(jué)表示與生成的分離:許多方法采用分離的視覺(jué)表示(如CLIP理解+VAE生成),導(dǎo)致語(yǔ)義與低維特征割裂,難以兼顧理解與生成。
- 生成能力的缺失:基于語(yǔ)言模型的多模態(tài)系統(tǒng)通常缺乏原生的視覺(jué)生成能力,需依賴(lài)外部適配器或額外模型組裝。
提出的方案
- Show-o2模型架構(gòu):
- 3D因果變分自編碼器(3D Causal VAE)空間:統(tǒng)一處理圖像和視頻的隱空間表示,支持時(shí)空融合。
- 雙路徑視覺(jué)表示:通過(guò)語(yǔ)義層、投影器和空間(-時(shí)序)融合,構(gòu)建同時(shí)包含高層語(yǔ)義和低維結(jié)構(gòu)的統(tǒng)一視覺(jué)表示。
- 多模態(tài)統(tǒng)一建模:
- 語(yǔ)言頭(Language Head):基于自回歸建模預(yù)測(cè)文本token。
- 流頭(Flow Head):基于流匹配(Flow Matching)生成圖像/視頻,實(shí)現(xiàn)文本到視覺(jué)的端到端生成。
- 兩階段訓(xùn)練策略:
- 第一階段:預(yù)訓(xùn)練流頭,學(xué)習(xí)跨文本、圖像、視頻的生成能力。
- 第二階段:全模型微調(diào),結(jié)合高質(zhì)量多模態(tài)理解與生成數(shù)據(jù)。
應(yīng)用的技術(shù)
- 3D Causal VAE:擴(kuò)展傳統(tǒng)VAE至視頻模態(tài),支持時(shí)序建模。
- 流匹配(Flow Matching):替代擴(kuò)散模型,提升生成效率和質(zhì)量。
- 雙路徑融合機(jī)制:結(jié)合語(yǔ)義層(理解)與低維特征(生成),實(shí)現(xiàn)多模態(tài)對(duì)齊。
- 自回歸與流匹配協(xié)同:語(yǔ)言頭(自回歸)處理文本,流頭(流匹配)處理視覺(jué),共享語(yǔ)言模型基座。
達(dá)到的效果
- 多模態(tài)統(tǒng)一能力:
- 支持文本、圖像、視頻的理解與生成任務(wù),如視覺(jué)問(wèn)答、文本到圖像/視頻生成。
- 在3D VAE空間實(shí)現(xiàn)跨模態(tài)時(shí)空融合,視頻生成中保持時(shí)序一致性。
- 性能優(yōu)勢(shì):
- 在多項(xiàng)多模態(tài)理解與生成基準(zhǔn)測(cè)試中超越現(xiàn)有方法(如Chameleon、Transfusion等)。
- 流匹配技術(shù)提升生成速度和質(zhì)量,兩階段訓(xùn)練保留語(yǔ)言模型知識(shí)的同時(shí)高效學(xué)習(xí)視覺(jué)生成。
- 擴(kuò)展性:模型設(shè)計(jì)支持更大規(guī)模訓(xùn)練,為未來(lái)多模態(tài)統(tǒng)一框架提供可擴(kuò)展基礎(chǔ)。
基于視覺(jué)表示類(lèi)型的選擇性統(tǒng)一多模態(tài)模型比較分析,以及用于多模態(tài)理解和生成的統(tǒng)一建模
方法論
本節(jié)介紹整體框架,包含兩個(gè)關(guān)鍵組件:i) 適用于圖像和視頻的多模態(tài)理解與生成的統(tǒng)一視覺(jué)表示設(shè)計(jì),ii) 多模態(tài)理解與生成能力的原生學(xué)習(xí)。隨后,提出兩階段訓(xùn)練流程,旨在漸進(jìn)式學(xué)習(xí)并有效擴(kuò)展統(tǒng)一多模態(tài)模型。
整體框架
總體架構(gòu)
本文提出的統(tǒng)一模型概覽如下圖1所示。給定(交錯(cuò)的)文本、圖像或視頻,文本分詞器與嵌入層以及3D因果VAE編碼器分別將其處理為連續(xù)的文本嵌入和視覺(jué)隱空間表示。隨后,視覺(jué)隱空間表示經(jīng)過(guò)雙路徑時(shí)空融合提取以構(gòu)建統(tǒng)一視覺(jué)表示。這些表示被組織為序列,輸入至配備語(yǔ)言頭和流頭的語(yǔ)言模型中,分別通過(guò)自回歸建模和流匹配進(jìn)行序列建模。最終,文本反分詞器與3D因果VAE解碼器聯(lián)合解碼輸出。接下來(lái)將深入探討統(tǒng)一視覺(jué)表示和流頭背后的基礎(chǔ)設(shè)計(jì)原則。
統(tǒng)一視覺(jué)表示
訓(xùn)練方案
現(xiàn)有統(tǒng)一多模態(tài)模型(如Show-o、Janus-Pro、Transfusion、Chameleon和Emu3)通?;诖笮驼Z(yǔ)言模型(LLMs)、大型多模態(tài)模型(LMMs)或從頭開(kāi)始訓(xùn)練。這些方法旨在培養(yǎng)視覺(jué)生成建模能力,同時(shí)保持語(yǔ)言建模能力。然而,該過(guò)程通常依賴(lài)于網(wǎng)絡(luò)規(guī)模的高質(zhì)量文本語(yǔ)料庫(kù),其收集成本極高。因此,缺乏此類(lèi)資源會(huì)導(dǎo)致語(yǔ)言知識(shí)和建模性能的退化。為解決這一挑戰(zhàn),我們采用兩階段訓(xùn)練方案(如下表2所示),在無(wú)需海量文本語(yǔ)料的情況下,有效保留語(yǔ)言知識(shí)的同時(shí)發(fā)展視覺(jué)生成能力。
第一階段
第二階段
隨后使用900萬(wàn)高質(zhì)量多模態(tài)理解指令數(shù)據(jù)(來(lái)自Densefusion-1M和LLaVA-OneVision)以及從6600萬(wàn)圖文對(duì)中篩選的1600萬(wàn)高質(zhì)量視覺(jué)生成數(shù)據(jù),對(duì)完整模型進(jìn)行微調(diào)。
規(guī)?;瘮U(kuò)展
在完成約15億參數(shù)的LLM小規(guī)模模型訓(xùn)練后,我們將預(yù)訓(xùn)練的流頭遷移至70億參數(shù)的LLM大模型中,并引入輕量級(jí)MLP變換對(duì)齊隱藏層維度,使其快速適配大模型并收斂。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集
- 整理的約6600萬(wàn)圖文對(duì)包含分辨率至少為512×512的圖像,篩選自CC12M、COYO、LAION-Aesthetic-12M及AI合成數(shù)據(jù)(合成數(shù)據(jù)除外,其余圖像均通過(guò)ShareGPT4-V重新標(biāo)注)。
- 900萬(wàn)高質(zhì)量多模態(tài)理解指令數(shù)據(jù)來(lái)自Densefusion-1M和LLaVA-OneVision。
在蒸餾過(guò)程中,公式(1)僅在最后20K次迭代中以0.3的概率應(yīng)用于視覺(jué)潛變量。通過(guò)配置3D因果VAE編碼器的輸入圖像分辨率為432×432,并采用2×2的塊嵌入層,最終獲得729個(gè)(27×27)視覺(jué)潛變量,與SigLIP提取的潛變量維度匹配。經(jīng)蒸餾后,語(yǔ)義層S(·)能夠從干凈和含噪的視覺(jué)潛變量中提取豐富的語(yǔ)義特征。統(tǒng)計(jì)數(shù)據(jù)顯示,在精選的6600萬(wàn)圖文數(shù)據(jù)集上,S(·)從干凈視覺(jué)潛變量提取的特征與原始SigLIP提取特征的余弦相似度已收斂至約0.9。當(dāng)處理其他圖像/視頻分辨率時(shí),本文采用雙三次插值模式對(duì)位置嵌入進(jìn)行插值。
本文的模型基于兩種大語(yǔ)言模型變體:Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct。采用Wan2.1提出的3D因果VAE架構(gòu),空間和時(shí)間壓縮率分別為8倍和4倍。
第一階段訓(xùn)練中,首先在6600萬(wàn)精選圖文數(shù)據(jù)(分辨率432×432)上,使用AdamW優(yōu)化器(恒定學(xué)習(xí)率0.0001)對(duì)15億參數(shù)模型進(jìn)行150K次迭代訓(xùn)練。單圖文對(duì)的上下文長(zhǎng)度設(shè)為1024,多模態(tài)理解與生成任務(wù)的批大小分別為128和384。公式(4)中的α設(shè)為0.2。對(duì)于視覺(jué)生成數(shù)據(jù),以0.1概率隨機(jī)丟棄標(biāo)題以實(shí)現(xiàn)分類(lèi)器無(wú)關(guān)引導(dǎo)。該訓(xùn)練過(guò)程使用64塊H100 GPU耗時(shí)約1.5天。隨后將生成數(shù)據(jù)替換為1600萬(wàn)高質(zhì)量數(shù)據(jù)(從6600萬(wàn)圖文對(duì)中篩選),繼續(xù)訓(xùn)練40K次迭代。
第二階段參照LLaVA-OneVision策略,使用約900萬(wàn)多模態(tài)指令數(shù)據(jù)和1600萬(wàn)高質(zhì)量生成數(shù)據(jù)對(duì)15億模型進(jìn)行總計(jì)約35K次迭代訓(xùn)練,此時(shí)式(4)中α設(shè)為1.0,耗時(shí)約15小時(shí)。對(duì)于混合模態(tài)和視頻生成能力的模型,我們?cè)诘谝浑A段逐步加入視頻文本和交錯(cuò)數(shù)據(jù)。視頻數(shù)據(jù)采用隨機(jī)采樣策略:從每段視頻中抽取2秒480p或432×432的17幀片段,幀間隔為3幀,此時(shí)上下文長(zhǎng)度設(shè)置為7006。第二階段加入高質(zhì)量視頻文本和交錯(cuò)數(shù)據(jù)以增強(qiáng)視頻和混合模態(tài)生成能力。為提升圖像生成和文本渲染質(zhì)量,進(jìn)一步在小規(guī)模模型上訓(xùn)練更高分辨率圖像(512×512和1024×1024)并引入TextAtlas的文本密集圖像子集。
在基于70億參數(shù)大模型的訓(xùn)練中,復(fù)用15億模型預(yù)訓(xùn)練的流預(yù)測(cè)頭,對(duì)新初始化的空間(-時(shí)序)融合模塊、投影器和MLP變換層進(jìn)行3K次迭代訓(xùn)練(含2K步熱身)以實(shí)現(xiàn)隱層尺寸對(duì)齊,隨后聯(lián)合訓(xùn)練空間(-時(shí)序)融合模塊、投影器、MLP變換層和流預(yù)測(cè)頭。之后按照15億模型的相同流程進(jìn)行第一、二階段訓(xùn)練。整個(gè)70億模型訓(xùn)練過(guò)程使用128塊H100 GPU耗時(shí)約2.5天。由于巨大計(jì)算成本和訓(xùn)練時(shí)長(zhǎng),大規(guī)模模型訓(xùn)練階段未包含交錯(cuò)和視頻數(shù)據(jù)。
多模態(tài)理解
定量結(jié)果
下表3展示了本文的模型在多模態(tài)理解基準(zhǔn)測(cè)試中的性能表現(xiàn),評(píng)估指標(biāo)包括MME、GQA、SEED-Bench、MM-Bench、MMU、MMStar和AI2D。如表所示,1.5B和7B模型變體在多數(shù)指標(biāo)上均優(yōu)于當(dāng)前最優(yōu)模型。
對(duì)于參數(shù)量相近的模型(1.5B),本文的模型在MME-p和MMU-val基準(zhǔn)上取得最高分,同時(shí)在GQA和SEED-Bench指標(biāo)上保持競(jìng)爭(zhēng)力。與約7B參數(shù)的更大模型相比,本文的模型在MME-p、GQA、MMMU-val、MMStar和AI2D等指標(biāo)上超越了Janus-Pro等先進(jìn)模型,甚至顯著優(yōu)于14B參數(shù)的TokenFlow-XL模型,而在SEED-Bench和MM-Bench上保持競(jìng)爭(zhēng)性表現(xiàn)。這些結(jié)果驗(yàn)證了統(tǒng)一視覺(jué)表示的強(qiáng)大感知能力。
定性結(jié)果
下圖2展示了本文模型的多模態(tài)理解能力。該模型在回答關(guān)于圖像的通用問(wèn)題時(shí)表現(xiàn)優(yōu)異。它能夠提供圖像的詳細(xì)描述、統(tǒng)計(jì)物體數(shù)量并識(shí)別圖像中的文字。此外,模型還能結(jié)合其世界知識(shí),為制作牛油果奶昔等日常飲品提供分步指導(dǎo),并支持雙語(yǔ)問(wèn)答功能,充分體現(xiàn)了其實(shí)用性和多功能性。更重要的是,我們的模型同時(shí)支持中英文多模態(tài)理解,實(shí)現(xiàn)了雙語(yǔ)交互能力。
視覺(jué)生成
圖像生成
在GenEval和DPG-Bench基準(zhǔn)測(cè)試中(下表4和表5),本文的模型超越了TokenFlow-XL、Show-o、Emu3和Transfusion等多數(shù)方法。與使用1.44億圖文對(duì)訓(xùn)練的Janus-Pro相比,僅用6600萬(wàn)數(shù)據(jù)即取得可比結(jié)果。在DPG-Bench評(píng)估中,本文的模型相比SD3-Medium等純生成模型及Emu3-DPO等統(tǒng)一模型獲得最高綜合分?jǐn)?shù)。上圖2的生成樣例顯示模型可生成高質(zhì)量逼真圖像。
視頻生成在文本/圖像到視頻生成任務(wù)中(下表6和表7),我們的20億參數(shù)模型性能優(yōu)于60億參數(shù)的Show-1、Emu3和VILA-U,并與CogVideoX和Step-Video-T2V競(jìng)爭(zhēng)。圖2中部展示了文本/圖像到視頻生成樣例,模型能根據(jù)文本提示或輸入圖像生成動(dòng)作合理的連續(xù)視頻幀(如微笑女孩、海浪和浮云)。
混合模態(tài)生成
如前圖2所示,我們使用下游任務(wù)視覺(jué)敘事數(shù)據(jù)集驗(yàn)證模型的混合模態(tài)生成能力。微調(diào)時(shí),給定交錯(cuò)圖文序列,以0.3概率對(duì)所有圖像添加噪聲,否則隨機(jī)保留序列中部分早期圖像僅對(duì)后續(xù)圖像加噪?;?.節(jié)所述通用交錯(cuò)序列格式,模型可預(yù)測(cè)[BOI]令牌開(kāi)始生成圖像。檢測(cè)到[BOI]令牌后,將向序列追加噪聲逐步生成圖像,已生成的文本令牌和圖像將作為上下文繼續(xù)生成后續(xù)輸出。圖2展示兩個(gè)案例,證明模型能交錯(cuò)生成連貫文本與圖像以生動(dòng)敘述故事。
消融實(shí)驗(yàn)
下表8的預(yù)研實(shí)驗(yàn)驗(yàn)證了空間(-時(shí)序)融合對(duì)多模態(tài)理解與生成性能的影響。實(shí)驗(yàn)采用LLaMA-3.2-1B作為基礎(chǔ)語(yǔ)言模型,僅使用約100萬(wàn)多模態(tài)理解數(shù)據(jù)和ImageNet-1K生成數(shù)據(jù)。相同訓(xùn)練設(shè)置下,MME-p、GQA和FID-5K等指標(biāo)均有提升,表明融合機(jī)制中的語(yǔ)義與低維特征對(duì)多模態(tài)生成和理解能力具有協(xié)同增強(qiáng)作用。
下表9展示分類(lèi)器無(wú)關(guān)引導(dǎo)(CFG)和推理步數(shù)對(duì)1.5B模型性能的影響。增大CFG引導(dǎo)系數(shù)和推理步數(shù)(合理范圍內(nèi))可提升GenEval和DPG-Bench分?jǐn)?shù),但當(dāng)CFG引導(dǎo)超過(guò)5.0時(shí)GenEval分?jǐn)?shù)提升不顯著。
下表10說(shuō)明兩階段訓(xùn)練對(duì)生成性能的影響。第二階段訓(xùn)練持續(xù)顯著提升GenEval和DPG-Bench指標(biāo),驗(yàn)證其必要性。
結(jié)論
原生統(tǒng)一多模態(tài)模型Show-o2,通過(guò)整合3D因果VAE、自回歸建模和流匹配技術(shù),實(shí)現(xiàn)多模態(tài)理解與生成、圖像與視頻模態(tài)的統(tǒng)一建模??臻g(-時(shí)序)雙路徑融合機(jī)制構(gòu)建了同時(shí)包含高低層特征的統(tǒng)一視覺(jué)表示,兩階段訓(xùn)練方案有效學(xué)習(xí)多模態(tài)能力,使模型可處理多模態(tài)理解和圖像/視頻生成等多樣化任務(wù)。大量實(shí)驗(yàn)證明該模型在多項(xiàng)基準(zhǔn)測(cè)試中達(dá)到最先進(jìn)性能。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
原文鏈接:??https://mp.weixin.qq.com/s/4XtfXlWljpwzvEyeq_bFXQ??
