多模態(tài)終極大一統(tǒng)!字節(jié)開源BAGEL爆火:圖文生成理解雙冠王,竟能預測未來畫面?
論文鏈接:https://arxiv.org/pdf/2505.14683
項目鏈接:https://bagel-ai.org/
模型地址:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
亮點直擊
- 可擴展生成認知模型(Scalable Generative Cognitive Model,BAGEL),一個開源的多模態(tài)基礎(chǔ)模型,具有 7B 活躍參數(shù)(總計14B),在大規(guī)模交錯多模態(tài)數(shù)據(jù)上訓練。
- BAGEL 在標準多模態(tài)理解排行榜上超越了當前頂級的開源視覺語言模型(VLMs),并且在文本到圖像質(zhì)量方面,與領(lǐng)先的公開生成器如SD3和 FLUX.1-dev相當。
- BAGEL 在經(jīng)典圖像編輯場景中的定性表現(xiàn)也始終優(yōu)于主要的開源模型。
- 它擴展到自由形式的視覺操作、多視圖合成和世界導航,這些能力構(gòu)成了超出以往圖像編輯模型范疇的“世界建模”任務。
總結(jié)速覽
統(tǒng)一多模態(tài)能力
- 輸入與輸出:處理文本和圖像輸入,生成混合格式輸出(如圖像+文本)
- 預訓練基礎(chǔ):基于 Qwen2.5-7B-Instruct 和 siglip-so400m 模型初始化,結(jié)合 FLUX.1-schnell 的變分自編碼器(VAE),提供強大的推理、對話和生成能力
- 數(shù)據(jù)驅(qū)動:通過數(shù)萬億交錯多模態(tài) tokens(語言、圖像、視頻、網(wǎng)絡數(shù)據(jù))進行預訓練、持續(xù)訓練和監(jiān)督微調(diào),支持生成高保真、逼真的圖像和視頻幀
核心功能
- 生成:生成高保真圖像、視頻幀及交錯內(nèi)容,如三個標有 “SDXL”、“BAGEL”、“FLUX” 的魔法藥水瓶,展示細節(jié)化生成能力
- 編輯:支持復雜圖像編輯(如風格轉(zhuǎn)換、3D 動畫風格、Jellycat 毛絨玩具風格),通過視覺-語言推理超越基礎(chǔ)編輯任務
- 導航:從現(xiàn)實世界視頻數(shù)據(jù)中學習導航知識,適應科幻、藝術(shù)畫等多樣化環(huán)境
- 多輪對話:通過統(tǒng)一多模態(tài)接口,支持多輪交互、物理動態(tài)建模和未來幀預測
- 思考模式:利用多模態(tài)推理(CoT),將簡短提示轉(zhuǎn)化為詳細、邏輯一致的輸出,如將“由小車組成的大車”細化為逼真圖像描述
技術(shù)架構(gòu)
- 模型結(jié)構(gòu):采用 Mixture-of-Transformer-Experts (MoT) 架構(gòu),結(jié)合兩個編碼器分別捕獲像素級和語義級圖像特征,最大化多模態(tài)信息學習能力
- 訓練方法:
- Next Group of Token Prediction:預測下一組語言或視覺令牌,提升壓縮效率
- 訓練階段:包括預訓練、持續(xù)訓練和監(jiān)督微調(diào),基于數(shù)萬億多模態(tài) token(語言、圖像、視頻、網(wǎng)絡數(shù)據(jù))
- 基礎(chǔ)模型:基于 Qwen2.5-7B-Instruct、siglip-so400m 和 FLUX.1-schnell VAE,所有均采用 Apache 2.0 許可證
性能表現(xiàn)(基準測試)
- 視覺理解(與開源模型對比):
- MME:2388(優(yōu)于 Qwen2.5-VL-7B 的 2347)
- MMBench:85.0(優(yōu)于 Janus-Pro-7B 的 79.2)
- MMMU:55.3(略低于 Qwen2.5-VL-7B 的 58.6)
- MM-Vet:67.2(略優(yōu)于 Qwen2.5-VL-7B 的 67.1)
- MathVista:73.1(優(yōu)于 Qwen2.5-VL-7B 的 68.2)
- 結(jié)論:BAGEL 在多模態(tài)理解任務中整體領(lǐng)先,特別是在 MME 和 MathVista 上表現(xiàn)突出
- 文本到圖像生成(GenEval 評分,0-1,1 為最佳):
- 整體得分:0.88,優(yōu)于 FLUX-1-dev(0.82)、SD3-Medium(0.74)和 Janus-Pro-7B(0.80)
- 細分表現(xiàn):在單物體(0.98)、雙物體(0.95)、計數(shù)(0.84)、顏色(0.95)等任務中表現(xiàn)優(yōu)異,展現(xiàn)高精度和多樣性
- 圖像編輯(GEdit-Bench-EN 和 IntelligentBench):
- 結(jié)構(gòu)一致性 (SC):7.36(優(yōu)于 Step1X-Edit 的 7.09 和 Gemini-2-exp 的 6.73)
- 提示質(zhì)量 (PQ):6.83(優(yōu)于 Step1X-Edit 的 6.76)
- 整體 (O):6.52(優(yōu)于 Gemini-2-exp 的 6.32)
- GEdit-Bench-EN:
- IntelligentBench:BAGEL 得分 44.0,結(jié)合 CoT 后提升至 55.3,接近 Gemini-2-exp 的 57.6
- 結(jié)論:BAGEL 在圖像編輯任務中表現(xiàn)卓越,尤其在結(jié)合 CoT 后智能編輯能力顯著提升
新興特性
- 能力分階段顯現(xiàn):
- 早期:多模態(tài)理解和生成能力
- 中期:基礎(chǔ)圖像編輯能力
- 后期:復雜智能編輯、自由視覺操作、多視角合成和世界導航能力
- 關(guān)鍵發(fā)現(xiàn):結(jié)合變分自編碼器(VAE)和視覺變換器(ViT)特征顯著提升智能編輯能力,強調(diào)視覺-語義上下文對高級多模態(tài)推理的重要性
- 世界建模:BAGEL 超越傳統(tǒng)圖像編輯,具備多視角合成和導航等“世界建?!蹦芰?,適用于科幻場景、藝術(shù)創(chuàng)作等復雜任務
模型
如下圖 2 所示,BAGEL 采用 MoT 架構(gòu),由兩個 Transformer 專家組成——一個專注于多模態(tài)理解,另一個專注于多模態(tài)生成。相應地,模型使用兩個獨立的視覺編碼器:一個面向理解的編碼器,另一個面向生成的編碼器。這兩個 Transformer 專家通過每一層的共享自注意力操作,在相同的 token 序列上運行。
在預測文本 token 時,BAGEL 遵循 Next-Token-Prediction 范式,繼承了自回歸語言模型的成熟優(yōu)勢。對于視覺 token 的預測,BAGEL采用Rectified Flow 方法,遵循視覺生成領(lǐng)域的最佳實踐。
模型設(shè)計空間
統(tǒng)一的多模態(tài)生成與理解模型的典型設(shè)計選擇包括:
量化自回歸(Quantized AR):使用離散視覺 tokenizer進行的自回歸視覺生成。這類方法在文本與視覺 token 生成中均采用 Next-Token-Prediction 范式,易于實現(xiàn),因為它可以直接利用現(xiàn)有的 LLM 基礎(chǔ)架構(gòu)。不幸的是,自回歸模型的視覺生成質(zhì)量在經(jīng)驗上劣于基于擴散的方法。此外,由于自回歸方法的序列性質(zhì),其推理延遲較高。
外部擴散器(External Diffuser):將LLM 主干與外部擴散模塊結(jié)合。該設(shè)計通過輕量可訓練的適配器將預訓練的 LLM/VLM 與擴散模型連接。通常,語言主干以自回歸方式生成一組潛在 token 作為“語義條件”信號,隨后由擴散模塊生成圖像。該設(shè)置通常在最小數(shù)據(jù)消耗下迅速收斂,并可能在多模態(tài)生成與理解的標準基準測試中獲得有競爭力的性能。然而,其主要缺點在于將 LLM 上下文壓縮為相對較少的潛在 token,這在理解與生成模塊之間引入了顯式瓶頸,存在顯著信息損失的風險——尤其是在長上下文多模態(tài)推理中。這種約束可能違背大型基礎(chǔ)模型的擴展理念。
集成式 Transformer(Integrated Transformer):在單一Transformer 中統(tǒng)一集成 LLM 與擴散模型。該方法受到自回歸 Transformer(強大的理解/推理能力)與擴散 Transformer(出色的視覺生成能力)互補優(yōu)勢的驅(qū)動,利用它們共同的模型架構(gòu)實現(xiàn)兩種范式之間的無縫切換。與外部擴散器方案相比,該方法需要顯著更高的訓練計算量。然而,它提供了一個關(guān)鍵優(yōu)勢:在所有 Transformer 塊中保持無瓶頸的上下文,從而實現(xiàn)理解與生成模塊之間的無損交互,并更適合擴展。
本研究認為統(tǒng)一模型有能力從大規(guī)模交錯多模態(tài)數(shù)據(jù)中學習更豐富的多模態(tài)能力——這些新興能力是傳統(tǒng)基準測試無法捕捉的。為此,選擇無瓶頸的集成式 Transformer 方案,認為該方案在大規(guī)模訓練設(shè)置中更具潛力,并可能更適合作為長上下文多模態(tài)推理與強化學習的基礎(chǔ)模型。
架構(gòu)
主干模型繼承自一個僅使用解碼器的 Transformer 架構(gòu)的 LLM。選擇 Qwen2.5 LLM作為初始化模型,因其卓越性能且公開可用。該模型采用RMSNorm進行歸一化,使用 SwiGLU作為激活函數(shù),采用 RoPE進行位置編碼,并使用 GQA進行 KV 緩存壓縮。此外,在每個注意力塊中加入了QK-Norm,這一做法借鑒了圖像/視頻生成模型中的通用實踐,在穩(wěn)定訓練過程中表現(xiàn)有效。
視覺信息從兩個方面進行表示:
- 用于視覺理解,利用 ViT 編碼器將原始像素轉(zhuǎn)換為 token。采用 SigLIP2-so400m/14,分辨率固定為 384,作為 ViT 編碼器的初始化。在此基礎(chǔ)上,首先對位置嵌入進行插值,并將最大輸入尺寸設(shè)為980X980 ,然后集成 NaViT以支持按圖像原始寬高比進行處理。采用一個兩層的 MLP 連接器來匹配 ViT token 的特征維度與 LLM 的隱藏狀態(tài)。
- 用于視覺生成,使用來自 FLUX的預訓練 VAE 模型,將圖像從像素空間轉(zhuǎn)換為隱空間,反之亦然。該潛在表示的下采樣比例為 8,潛在通道數(shù)為 16,隨后通過一個2X2的 patch embedding 層處理,以減小空間尺寸并匹配 LLM 主干的隱藏維度。VAE 模型在訓練過程中保持凍結(jié)。
我們的框架在將 ViT 和 VAE token 融入 LLM 主干之前,對其應用二維位置編碼。對于擴散時間步編碼,我們遵循 [17],將時間步嵌入直接加到 VAE token 的初始隱藏狀態(tài)中,而不是像傳統(tǒng)擴散 Transformer [19, 35, 81] 那樣使用 AdaLN。這一修改在保持性能的同時帶來了更簡潔的架構(gòu)。
在 LLM 內(nèi)部,來自理解和生成任務的文本、ViT 和 VAE token 會根據(jù)輸入的模態(tài)結(jié)構(gòu)進行交錯排列。對于屬于同一個樣本的 token,我們采用一種廣義版本的因果注意力機制。這些 token 首先被劃分為多個連續(xù)的分段,每個分段包含來自單一模態(tài)(例如文本、ViT 或 VAE)的 token。某一分段中的 token 可以關(guān)注所有前面分段中的 token。在每個分段內(nèi)部,我們對文本 token 采用因果注意力,而對視覺 token 保持雙向注意力。
廣義因果注意力(Generalized Causal Attention)
在訓練過程中,一個交錯的多模態(tài)生成樣本可能包含多張圖像。對于每張圖像,我們準備三組視覺 token:
- 加噪 VAE token:被擴散噪聲擾亂的 VAE 潛變量,僅用于 Rectified-Flow 訓練;MSE 損失在此集合上計算。
- 干凈 VAE token:原始(無噪聲)潛變量,用作生成后續(xù)圖像或文本 token 時的條件。
- ViT token:由 SigLIP2 編碼器獲得,有助于在交錯的生成與理解數(shù)據(jù)之間統(tǒng)一輸入格式,并在經(jīng)驗上提升交錯生成質(zhì)量。
在交錯的圖像或文本生成中,后續(xù)的圖像或文本 token 可以關(guān)注前面圖像的干凈 VAE token 和 ViT token,但不能關(guān)注其加噪的 VAE token。
對于交錯的多圖像生成,我們采用 diffusion forcing 策略,為不同圖像添加獨立的噪聲水平,并將每張圖像條件于前面圖像的加噪表示。此外,為增強生成一致性,遵循 [17],隨機將連續(xù)圖像分組,并在每組內(nèi)應用完整注意力。每組內(nèi)的噪聲水平保持一致。
我們使用 PyTorch FlexAttention [71] 實現(xiàn)廣義因果注意力,相比于樸素的縮放點積注意力實現(xiàn)約 的加速。在推理階段,廣義因果結(jié)構(gòu)允許我們緩存已生成多模態(tài)上下文的 key-value (KV) 對,從而加速多模態(tài)解碼。僅緩存干凈 VAE token 和 ViT token 的 KV 對;一旦圖像完全生成,上下文中的對應加噪 VAE token 將被其干凈版本替換。
為了在交錯推理中啟用無分類器引導(classifier-free guidance),以概率分別為0.1、0.5 和 0.1 隨機丟棄文本、ViT 和干凈 VAE token。廣義因果注意力的示意圖如下圖 15 所示。
Transformer 設(shè)計
遵循集成式 Transformer 方案的原則,比較了幾種 Transformer 變體:標準的 Dense Transformer、Mixture-of-Experts (MoE) Transformer,以及 Mixture-of-Transformers (MoT) 架構(gòu)。
- MoE 變體:僅復制每個 Qwen2.5 LLM 塊中的前饋網(wǎng)絡(FFN),作為生成專家的初始化。
- MoT 變體:復制 Qwen2.5 LLM 的所有可訓練參數(shù),以創(chuàng)建一個完整尺寸的生成專家。類似的架構(gòu)也被 [65] 采用。
模型中的 MoE 和 MoT 都使用硬路由:新復制的生成專家專門處理 VAE token,而原始參數(shù)(理解專家)處理文本和 ViT token,遵循 Qwen-VL 系列的策略。盡管 MoE 和 MoT 架構(gòu)相比于密集基線模型使總參數(shù)量大約增加了一倍,但三種模型變體在訓練和推理過程中具有相同的 FLOPs。
15 億參數(shù)的 Qwen-2.5 LLM 上進行對照實驗,保持超參數(shù)和數(shù)據(jù)配置一致,以將 Transformer 架構(gòu)作為唯一變量。如下圖 3 所示,MoT 變體在性能上始終優(yōu)于密集和 MoE 設(shè)計,尤其在多模態(tài)生成任務上差距最為顯著。MSE 損失(生成)呈現(xiàn)出平滑、單調(diào)下降的軌跡,MoT 不僅收斂最快,還達到了最低的最終損失。相比之下,CE 損失(理解)在每一步之間波動較大——這是交錯異構(gòu)數(shù)據(jù)的預期結(jié)果——但 MoT 在整體上仍保持最佳性能。這些發(fā)現(xiàn)突顯出將用于生成的參數(shù)與用于理解的參數(shù)解耦的明顯優(yōu)勢,表明這兩個目標可能會將模型引導至參數(shù)空間的不同區(qū)域——至少在本次 15 億參數(shù)規(guī)模的實驗中如此。簡言之,為多模態(tài)理解和生成分別分配容量可以緩解由模態(tài)特定學習目標之間競爭引發(fā)的優(yōu)化挑戰(zhàn)。
數(shù)據(jù)
由于數(shù)據(jù)定義了大型基礎(chǔ)模型的知識邊界,BAGEL 在多個模態(tài)上的多樣化數(shù)據(jù)集上進行訓練——包括語言、圖像、視頻和網(wǎng)頁數(shù)據(jù)——使其能夠通過統(tǒng)一的多模態(tài)接口執(zhí)行多模態(tài)推理、上下文預測、物理動力學建模和未來幀預測。除了標準的視覺-語言(VLM)、文本到圖像(T2I)和大規(guī)模語言建模(LLM)數(shù)據(jù)集之外,我們還從網(wǎng)頁和視頻來源構(gòu)建了新的視覺-文本交錯數(shù)據(jù)集,以進一步增強模型的順序多模態(tài)推理能力。在下表 1 中,我們總結(jié)了不同模態(tài)下訓練數(shù)據(jù)的規(guī)模和組成。以下各節(jié)將詳細介紹我們數(shù)據(jù)集的來源、準備流程和數(shù)據(jù)混合策略。
僅文本數(shù)據(jù)
為了保持底層 LLM 的語言建模能力,我們用一組高質(zhì)量的僅文本數(shù)據(jù)補充訓練語料。這些數(shù)據(jù)經(jīng)過精心篩選,旨在支持廣泛的語言覆蓋能力,并實現(xiàn)強大的推理與生成能力,適用于通用文本任務。
視覺-文本配對數(shù)據(jù)
圖文配對數(shù)據(jù)在多模態(tài)學習中起著核心作用,為視覺-語言模型(VLM)和文本到圖像(T2I)生成提供大規(guī)模視覺監(jiān)督。在本文設(shè)置中,根據(jù)下游使用方式將圖文配對數(shù)據(jù)組織為兩個子集:一個用于 VLM 預訓練,一個用于 T2I 生成。
VLM 圖文對:使用大規(guī)模圖文對進行 VLM 訓練,涵蓋廣泛的視覺概念,主要來源于網(wǎng)頁的 alt 文本和圖像說明。這些數(shù)據(jù)經(jīng)過基于 CLIP 的相似度過濾、分辨率和寬高比限制、文本長度檢查以及去重處理,以確保質(zhì)量和多樣性。為了解決長尾分布問題,采用概念感知采樣策略,以提高對稀有類別的覆蓋。此外,還引入了來自 OCR 文檔、圖表和錨定標注的結(jié)構(gòu)化監(jiān)督,以增強模型的閱讀和空間理解能力。
T2I 圖文對:我們引入高質(zhì)量的圖文對,以及來自現(xiàn)有 T2I 模型的極少量合成數(shù)據(jù)。這些數(shù)據(jù)不僅具有多樣化的說明風格(如藝術(shù)性、描述性和超現(xiàn)實風格),還包含經(jīng)過清晰度、結(jié)構(gòu)完整性和語義多樣性篩選的高質(zhì)量圖像。這些樣本共同提升了我們 T2I 訓練語料的視覺質(zhì)量和風格多樣性。
視覺-文本交錯數(shù)據(jù)
盡管圖文配對數(shù)據(jù)提供了有用的監(jiān)督,但在支持涉及多張圖像和中間文本的復雜上下文推理方面仍顯不足。訓練于此類數(shù)據(jù)的模型往往難以捕捉跨模態(tài)的視覺與語義關(guān)系,導致生成結(jié)果缺乏連貫性。為了解決這些限制,在訓練中引入了大規(guī)模的視覺-文本交錯數(shù)據(jù)。
為了提升多模態(tài)理解能力,使用 VLM 交錯數(shù)據(jù)集。對于視覺生成,引入統(tǒng)一協(xié)議,通過結(jié)合多種來源構(gòu)建視覺-文本交錯數(shù)據(jù),以支持更豐富的多模態(tài)交互,具體如下所述。
數(shù)據(jù)來源
為了全面涵蓋多樣的現(xiàn)實場景并具備可擴展的數(shù)據(jù)供給能力,訓練語料整合了兩個主要來源,這些來源為多模態(tài)推理提供了充足的知識:視頻數(shù)據(jù) 和 網(wǎng)頁數(shù)據(jù)。
視頻數(shù)據(jù)通過直接捕捉來自現(xiàn)實世界的時間和空間動態(tài),提供了豐富的世界知識——這是最大且最自然的模擬器。它保留了細粒度的視覺細節(jié),維持幀間的一致性,并建模復雜運動,特別適合圖像編輯、導航和三維操作等任務。我們的視頻數(shù)據(jù)集由公開可用的在線視頻資源構(gòu)建,并結(jié)合兩個開源數(shù)據(jù)集:Koala36M,提供大規(guī)模的教學與交互豐富內(nèi)容,以及 MVImgNet2.0,包含從不同攝像機視角捕捉的物體,用于支持多視角空間理解。
網(wǎng)頁數(shù)據(jù)捕捉了復雜的真實世界多模態(tài)結(jié)構(gòu),并提供了涵蓋廣泛領(lǐng)域的多樣化知識。它包括自然交錯的資源,如插圖百科文章、分步視覺教程以及其他具有豐富視覺基礎(chǔ)的文檔。這種交錯格式為訓練模型執(zhí)行多模態(tài)推理提供了豐富的監(jiān)督信號。我們在 OmniCorpus [39] 的基礎(chǔ)上構(gòu)建了數(shù)據(jù)集,該數(shù)據(jù)集是從 Common Crawl預處理而來的大規(guī)模數(shù)據(jù)集,提供了大量交錯的文本和圖像網(wǎng)頁文檔。還引入了開源圖像編輯數(shù)據(jù)集作為結(jié)構(gòu)化交錯數(shù)據(jù),這些數(shù)據(jù)教授了細粒度的編輯行為,并增強了模型進行精確多模態(tài)推理和分步生成的能力。
數(shù)據(jù)過濾
視頻數(shù)據(jù)過濾
遵循 T2V 視頻處理流程[62]的協(xié)議,通過時間切分、空間裁剪和質(zhì)量過濾,將視頻預處理為高質(zhì)量訓練片段。視頻首先使用輕量級鏡頭檢測被分割為短而連貫的片段,并可根據(jù)視覺相似性選擇性地合并相關(guān)片段。隨后,我們通過裁剪檢測和幀級邊界框聚合,去除黑邊和覆蓋層(如標志或文本)。為確保質(zhì)量,我們根據(jù)長度、分辨率、清晰度和運動穩(wěn)定性過濾片段,并使用基于 CLIP 的相似性進行去重。該過程生成了一個干凈且多樣化的視頻數(shù)據(jù)集,適用于多模態(tài)訓練。
網(wǎng)頁數(shù)據(jù)過濾
為了從大規(guī)模語料中篩選高質(zhì)量交錯數(shù)據(jù),設(shè)計了一個兩階段過濾流程,目標是教程、百科條目和設(shè)計類內(nèi)容等文檔,其中文本與圖像具有強語義對齊。受 DeepSeekMath啟發(fā),我們首先執(zhí)行輕量級的主題選擇過程:通過提示 LLM 對一小部分文檔進行分類,然后使用所得標簽訓練 fastText分類器,以實現(xiàn)高效的大規(guī)模推理。選中的數(shù)據(jù)隨后再次通過 LLM 分類器進行細粒度過濾。采用 Qwen2.5 的 14B 模型,以在性能和效率之間取得平衡。為進一步提升數(shù)據(jù)質(zhì)量,我們還應用了一組基于規(guī)則的過濾器,針對圖像清晰度、相關(guān)性和文檔結(jié)構(gòu),具體如下表 2 所示。
數(shù)據(jù)構(gòu)建
來自視頻的交錯數(shù)據(jù)
為了從視頻中構(gòu)建圖文交錯序列,我們生成連續(xù)幀之間視覺變化的文本描述——捕捉物體運動、動作轉(zhuǎn)換和場景切換。這些幀間描述作為時間監(jiān)督信號,用于學習視覺動態(tài)。雖然大型 VLM 能夠生成高質(zhì)量的變化描述,但其推理成本限制了可擴展性。因此我們基于 Qwen2.5-VL-7B蒸餾出一個輕量級的描述模型,并在一小部分高質(zhì)量幀間示例上進行微調(diào)。為減少幻覺,我們將描述長度限制為 30 個 token。對于每個視頻片段,我們平均采樣四幀,并為每對幀生成描述,最終得到 4500 萬個具有時間基礎(chǔ)的交錯序列。下圖 4a 展示了數(shù)據(jù)流程及示例。
來自網(wǎng)頁的交錯數(shù)據(jù)
為了從網(wǎng)頁文檔中構(gòu)建高質(zhì)量的交錯序列,旨在減少因圖像與其配文及周圍視覺上下文對齊較弱而導致的圖像生成難度。為每張圖像提供更具局部性和相關(guān)性的線索,采用“先生成描述”的策略:對每張圖像使用 Qwen2.5-VL-7B生成簡潔描述,并將其直接插入圖像前,作為概念支架。這使模型在生成圖像前,能基于前文上下文和插入的描述形成概念草圖。
通過生成描述引導模型對圖像的預期,該方法緩解了由松散或模糊輸入引起的問題。此外,還對超過 300 個 token 的圖像間文本段落使用 LLM 摘要器進行改寫,以提升上下文密度。這些步驟生成了一個更干凈、更結(jié)構(gòu)化的數(shù)據(jù)集,包含 2000 萬個交錯網(wǎng)頁文檔。數(shù)據(jù)流程及示例見上圖 4b。
增強推理數(shù)據(jù)
受 O1和 DeepSeek-R1等近期模型啟發(fā),利用長上下文的 Chain-of-Thoughts 數(shù)據(jù)用于多模態(tài)理解。此外,假設(shè)在圖像生成前引入基于語言的推理步驟,有助于澄清視覺目標并改善規(guī)劃。為驗證該假設(shè),構(gòu)建了 50 萬個增強推理示例,涵蓋四類結(jié)構(gòu)關(guān)系:文本到圖像生成、自由形式圖像編輯和概念化編輯。
文本到圖像生成
首先手動編寫一組簡短而模糊的 T2I 查詢,每個查詢配有簡單的生成指導。通過 in-context learning,提示 Qwen2.5-72B生成更多查詢-指導對及相應詳細提示,隨后將其輸入 FLUX.1-dev生成目標圖像。該流程生成了由查詢、推理軌跡(指導 + 詳細提示)和圖像組成的訓練三元組,使模型能夠?qū)D像生成建立在語言推理基礎(chǔ)上。
自由形式圖像編輯
通過提示 VLM 輸入源圖像、目標圖像、用戶查詢和來自 DeepSeek-R1的推理軌跡示例來生成增強推理示例。R1 示例基于源圖像與目標圖像的描述、用戶查詢和推理指令生成。VLM 的推理軌跡生成提示見下表 9 和下表 10。我們主要從兩個來源采樣源-目標圖像對:開源編輯數(shù)據(jù)集(如 OmniEdit)和交錯視頻數(shù)據(jù),這些來源提供了大量自然發(fā)生的編輯場景,具有顯著運動、視角變化和人類交互,同時保持時空一致性。
概念化編輯
概念化編輯針對那些需要高層次概念推理而非局部像素修改的圖像編輯任務,例如將物體轉(zhuǎn)化為設(shè)計草圖。對于這些任務,使用網(wǎng)頁交錯數(shù)據(jù)集,從每個序列中采樣候選圖像對,并應用三階段 VLM 流程構(gòu)建高質(zhì)量問答示例。首先,給定圖像序列,提示 VLM 識別合理的輸入-輸出對。接著,提示模型基于所選圖像對生成相應文本問題。最后,使用 VLM 評估問題質(zhì)量及其與輸入輸出圖像的對齊程度,剔除低質(zhì)量示例。被接受的示例隨后輸入 VLM,并提示其生成來自 DeepSeek-R1的推理軌跡示例,以輸出所需變換的有根解釋,如下表 11 所示。該設(shè)置幫助模型學習從多樣化文本指令中理解復雜視覺目標。
訓練
如下表 3 所示,采用多階段訓練策略,使用上文所述的動態(tài)混合精選數(shù)據(jù)——具體包括用于初始化 VLM 連接器的對齊階段(Alignment)、用于大規(guī)模預訓練的預訓練階段(Pre-training)、用于提升分辨率和交錯數(shù)據(jù)比例的持續(xù)訓練階段(Continued Training),以及用于高質(zhì)量微調(diào)的有監(jiān)督微調(diào)階段(Supervised Fine-tuning):
- 階段:對齊(Alignment)在此階段,通過僅訓練 MLP 連接器(保持視覺編碼器和語言模型凍結(jié))來對齊 SigLIP2 ViT 編碼器與 Qwen2.5 LLM。此階段僅使用圖文對數(shù)據(jù)來執(zhí)行圖像描述任務,每張圖像被調(diào)整為固定分辨率 ,以匹配預訓練 SigLIP2 的輸入尺寸。
- 階段:預訓練(Pre-training, PT)在此階段,為 LLM 添加 QK-Norm,除 VAE 外的所有模型參數(shù)均可訓練。訓練語料包含 2.5 萬億 token,由文本、圖文對、多模態(tài)對話、網(wǎng)頁交錯和視頻交錯數(shù)據(jù)組成。在多模態(tài)理解與生成任務中采用原生分辨率策略,對圖像的長邊最大值和短邊最小值進行限制。
- 階段:持續(xù)訓練(Continued Training, CT)相較于 PT 階段,CT 階段提高了視覺輸入分辨率,這對多模態(tài)生成與理解性能至關(guān)重要。進一步策略性地提高交錯數(shù)據(jù)的采樣比例,以強化跨模態(tài)推理學習,因為此時模型的核心理解與生成能力已更加穩(wěn)定可靠。CT 階段共消耗約 2.6 萬億 token。
- 階段:有監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)在 SFT 階段,對于多模態(tài)生成,我們從圖文對數(shù)據(jù)集和交錯生成數(shù)據(jù)集中構(gòu)建高質(zhì)量子集;對于多模態(tài)理解,從 LLaVA-OV和 Mammoth-VL指令微調(diào)數(shù)據(jù)中篩選子集。該階段訓練 token 總數(shù)為 727 億。
與獨立 VLM 或 T2I 模型的預訓練不同,統(tǒng)一多模態(tài)預訓練需要仔細調(diào)整兩個關(guān)鍵超參數(shù)——數(shù)據(jù)采樣比例和學習率——以平衡理解與生成任務的訓練信號。下面描述指導這些選擇的經(jīng)驗洞察,這些洞察也構(gòu)成了上表3中總結(jié)的訓練協(xié)議的基礎(chǔ)。
數(shù)據(jù)采樣比例
為了在統(tǒng)一預訓練中選擇各數(shù)據(jù)源的采樣比例,在 Qwen2.5 的 15 億參數(shù)版本上進行了多組控制實驗,調(diào)整多模態(tài)生成數(shù)據(jù)與多模態(tài)理解數(shù)據(jù)的比例。如下圖 5 所示,將生成數(shù)據(jù)的采樣比例從 50%("1g1u")增加到 80%("4g1u")可穩(wěn)定降低 MSE 損失,帶來 0.4% 的絕對下降——在實際中對 rectified-flow 模型而言是顯著的改進。相比之下,交叉熵(CE)損失在不同采樣比例下沒有一致的變化趨勢;在第 14,000 步中,"4g1u" 與 "2g1u" 之間的最大差異為 0.07,但對下游基準測試影響可以忽略不計。這些發(fā)現(xiàn)表明,生成示例應比理解示例被更頻繁地采樣——這是在整個訓練協(xié)議(見上表3)中采用的啟發(fā)式策略。
學習率
接著進行了一個與前文設(shè)置相同的控制實驗,唯一不同的是學習率的設(shè)置。如下圖 6 所示,兩種損失呈現(xiàn)相反的行為:較大的學習率使 MSE 損失收斂更快,而較小的學習率有利于 CE 損失。為了調(diào)和這一權(quán)衡,為這兩個目標分配了不同的權(quán)重因子,如上表 3 所列。
評估
為了全面評估一個統(tǒng)一模型,依賴于一些已有的基準測試,這些測試針對諸如多模態(tài)理解、文本生成圖像(T2I)以及經(jīng)典圖像編輯等明確定義的能力。然而,對于需要強多模態(tài)推理和復雜任務組合的能力,目前仍缺乏有效的評估策略。下面首先介紹評估過程中使用的現(xiàn)有基準測試,然后引入一個新的用于自由形式圖像編輯(包括概念編輯)的評估套件,旨在揭示模型在多模態(tài)推理和復雜組合任務方面的能力。
多模態(tài)理解
采用六個廣泛使用的基準測試——MME、MMBench (1.0-EN)、MMVet、MMMU、MathVista和 MMVP。它們共同構(gòu)成了一個簡潔但全面的測試平臺,涵蓋感知、認知和多模態(tài)推理,同時在對比最先進模型方面具有很強的判別力。
文本生成圖像(Text-to-Image generation)
遵循 [11, 56] 的做法,在流行的 GenEval基準上報告結(jié)果。我們還采用了最近提出的 WISE 基準,它對文本生成圖像中的復雜語義理解和世界知識整合能力進行了全面評估。此外,還補充了與現(xiàn)有最先進模型的定性對比,以輔助這些自動評估指標。
圖像編輯
采用 GEdit-Bench作為主要評估套件,原因在于其與真實世界的相關(guān)性以及多樣的編輯任務集合。該基準由從網(wǎng)頁中抓取的真實用戶請求構(gòu)建,緊密貼合實際編輯需求。性能通過 GPT-4.1自動評分,也補充了定性示例,以提供更細致的評估。
智能圖像編輯(Intelligent Image Editing)
提出IntelligentBench作為自由形式圖像編輯能力的代理任務評估工具,該能力需要復雜的多模態(tài)推理和任務組合。IntelligentBench 的初始版本包含 350 個示例,每個示例由一個問題圖像、問題文本和參考答案圖像組成。評估使用 GPT-4o(版本:gpt-4o-2024-11-20)進行,它審閱一個完整的四元組——問題圖像、問題文本、參考答案圖像和模型生成圖像。評估標準包括請求實現(xiàn)度、視覺一致性和基于知識的創(chuàng)造性,反映該基準對任務正確性與推理深度的關(guān)注。每個答案按 0 到 2 的評分標準打分。模型的最終得分通過匯總所有單項得分并歸一化到 100 分制計算得出。借助 IntelligentBench,可以評估模型在圖像編輯中進行推理與整合世界知識的能力。部分IntelligentBench的展示與定性結(jié)果見下圖12。
涌現(xiàn)能力
涌現(xiàn)能力在大型視覺或語言模型的研究中已被廣泛探討。在本研究中,聚焦于統(tǒng)一多模態(tài)基礎(chǔ)模型的背景下,采用了一個更聚焦的涌現(xiàn)能力定義:
當某種能力在早期訓練階段尚未出現(xiàn),而在后續(xù)預訓練中出現(xiàn)時,稱其為涌現(xiàn)能力。
這種質(zhì)變,通常被稱為“相變”,表示模型行為的突然且劇烈的變化,無法通過訓練損失曲線的外推來預測。有趣的是,在統(tǒng)一多模態(tài)擴展中也觀察到了類似現(xiàn)象,即損失曲線并未明確顯示新能力的涌現(xiàn)。因此,通過在歷史檢查點上評估一系列任務的性能來研究模型能力的涌現(xiàn)。具體而言,報告標準 VLM 基準測試上的平均性能作為多模態(tài)理解的代理,GenEval 分數(shù)用于評估生成能力,GEdit 分數(shù)和 IntelligentBench 分數(shù)分別用于評估模型在簡單與復雜多模態(tài)推理中的能力。
有趣的是,不同任務呈現(xiàn)出不同的學習動態(tài)與飽和行為。如果以達到峰值性能 85% 所需的 token 數(shù)量作為指標,如圖 7 所示,發(fā)現(xiàn)傳統(tǒng)理解與生成基準測試相對較早飽和:分別在約 和 token 處。相比之下,編輯任務(需要理解與生成能力)收斂更慢,僅在 token 后才達到 85% 的性能。
在 Intelligent Editing 任務的定性可視化中也觀察到了涌現(xiàn)行為(見下圖9)。與上圖 8 中僅涉及輸入圖像部分修改的傳統(tǒng)編輯不同,Intelligent Editing 通常需要基于多模態(tài)推理生成全新概念。在3.5T token 之前,模型傾向于以最小變化重現(xiàn)輸入圖像——當任務未被充分理解時的回退策略。然而,在看到 3.5T token 后,模型開始展現(xiàn)出清晰的推理能力,生成連貫且語義合理的編輯結(jié)果,與下圖 7 中所示的涌現(xiàn)行為相一致。
主要結(jié)果
BAGEL 多模態(tài)能力定量與定性評估。首先在已有基準測試上評估其基本能力,包括圖像理解和圖像生成。隨后報告其在現(xiàn)有圖像編輯基準和 IntelligentBench 上的表現(xiàn)。然后,我們探索了帶有顯式推理的生成與編輯能力。在該設(shè)置中,允許 BAGEL 在生成最終輸出之前產(chǎn)生中間思考步驟。發(fā)現(xiàn)這種推理顯著提升了性能。最后,提供了展示 BAGEL 世界建模能力的定性可視化,包括世界導航與視頻生成。
對 BAGEL 與最先進的開源多模態(tài)模型進行了廣泛的基準對比,涵蓋專用視覺理解模型與通用統(tǒng)一模型。我們的評估涵蓋多種公開基準,以確保對模型能力的全面評估。
圖像理解結(jié)果總結(jié)于下表4。在激活參數(shù)規(guī)模相當(7B)的情況下,BAGEL 在理解任務上優(yōu)于現(xiàn)有的統(tǒng)一模型。例如,在 MMMU 和 MM-Vet 上分別比 Janus-Pro提高了 14.3 和 17.1 分。值得注意的是,MetaQuery-XL依賴于凍結(jié)的、預訓練的 Qwen2.5-VL主干網(wǎng)絡,這限制了其適應性。此外,與專用理解模型(如 Qwen2.5-VL 和 InternVL2.5)相比,BAGEL 在大多數(shù)基準測試上表現(xiàn)更優(yōu),表明我們的 MoT 設(shè)計在保持強大視覺理解能力的同時,有效緩解了任務沖突。
圖像生成
在兩個基準上評估圖像生成性能:GenEval 和 WISE。如下表 5 所示,在與 MetaQuery-XL 相同的評估設(shè)置下,BAGEL 實現(xiàn)了 88% 的整體得分,優(yōu)于專用生成模型(FLUX-1-dev:82%,SD3-Medium:74%)和統(tǒng)一模型(Janus-Pro:80%,MetaQuery-XL:80%)。即使不使用 LLM 重寫器,BAGEL 也能達到 82%,超過了此前最強的統(tǒng)一模型 Janus-Pro-7B。
在 WISE 基準上,BAGEL 超越了除領(lǐng)先私有模型GPT-4o外的所有模型。這表明 BAGEL 在結(jié)合世界知識進行推理方面具有較強能力。
我們對 BAGEL 與 Janus-Pro 7B、SD3-medium 和 GPT-4o 進行了定性比較。如下圖 10 所示,BAGEL 生成的圖像質(zhì)量明顯優(yōu)于 Janus-Pro 7B,同時也超越了廣泛使用的專用文本生成圖像模型 SD3-medium。此外,BAGEL 原生支持中英文提示詞,并允許以任意寬高比進行生成。
圖像編輯
使用 GEdit-Bench對 BAGEL 的經(jīng)典圖像編輯能力進行了進一步評估。如下表 7 所示,BAGEL 的表現(xiàn)可與當前領(lǐng)先的專用圖像編輯模型 Step1X-Edit相媲美,并且優(yōu)于 Gemini 2.0。此外,在新提出的 IntelligentBench 上報告了結(jié)果,如下表 8 所示,BAGEL 達到了 44.9 的性能,顯著超過現(xiàn)有開源 Step1X-Edit 模型 30 分。
還在下圖 11 和上圖 12 中提供了在多種圖像編輯場景下的定性比較,將 BAGEL 與 Gemini 2.0、GPT-4o、Step1X-Edit 和 IC-Edit進行了對比。如圖所示,BAGEL 始終表現(xiàn)出優(yōu)于 Step1X-Edit 和 IC-Edit 的性能,并且也超越了 Gemini 2.0 的能力。雖然 GPT-4o 能夠成功處理這些場景,但它往往會對源圖像進行非預期的修改,而 BAGEL 能有效避免這一問題。
帶思維的生成/編輯
從定量和定性兩個方面驗證了增強推理的生成在各種基準測試下的有效性。
帶思維的生成。 對于文本生成圖像任務,在 WISE 上評估了 BAGEL 在生成前使用顯式思維鏈(Chain-of-Thought, CoT)推理過程的效果。如下表 6 所示,帶 CoT 的 BAGEL 得分為0.70 ,比未使用 CoT 的版本高出 0.18,并顯著優(yōu)于所有現(xiàn)有開源模型(此前 SOTA:MetaQuery-XL,得分為 0.55)。除了定量評估,我們還在圖 13a 中提供了可視化結(jié)果,在僅給出簡短提示詞時,BAGEL 無法生成正確圖像,但在使用基于 CoT 的思維范式時則成功生成。
帶思維的編輯。 如上表 8 所示,將 CoT 融入 BAGEL 后,其 Intelligent Score 從44.9提升至55.3 。這一性能提升主要歸因于推理的引入,使模型能夠利用世界知識并提供詳細的編輯指導。我們進一步在圖 13b 中展示了 IntelligentBench 中的多個代表性案例,這些任務需要通用知識或多步推理。在這些場景中,當有思維內(nèi)容引導時,BAGEL 顯著提升了圖像編輯能力。
世界建模
為了提升 BAGEL 在長序列視覺生成中的世界建模能力,通過增加訓練配方中視頻與導航數(shù)據(jù)的比例對模型進行了微調(diào)。對于導航任務,我們從視頻交錯序列中構(gòu)建數(shù)據(jù)集,并使用 ParticleSfM標注攝像機軌跡。
在下圖 14 中,展示了 BAGEL 的世界建模能力,包括世界導航、旋轉(zhuǎn)以及多幀生成。
從圖中可以看出,BAGEL 展現(xiàn)出強大的世界理解與模擬能力。它能夠根據(jù)輸入指令生成動態(tài)數(shù)量的圖像,用于如導航與旋轉(zhuǎn)輸入圖像等任務,或根據(jù)給定提示生成多張圖像。此外,BAGEL 在世界理解方面表現(xiàn)出強泛化能力。例如,雖然僅在真實世界街景導航數(shù)據(jù)上訓練,但它能夠無縫擴展到水墨畫、卡通和電子游戲等多種領(lǐng)域。
更多定性結(jié)果
BAGEL-1.5B 的性能。 下圖 16 對比了參數(shù)激活量為 1.5B 的 BAGEL-1.5B 與 JanusPro-7B 和 Step1X-Edit(12B)在文本生成圖像(T2I)和圖像編輯任務上的表現(xiàn)。盡管 BAGEL-1.5B 明顯更小,但在兩個任務的定性比較中均超過了這兩個更大的模型。此外,BAGEL-1.5B 與 BAGEL-7B 之間的差距也突顯了模型擴展帶來的收益,表明更大規(guī)模的 BAGEL 版本具有更大潛力。
失敗案例。 在下圖 17 中,展示了BAGEL與其他最先進模型的代表性失敗案例。涉及特殊IP生成、復雜文本渲染、復雜人體姿態(tài)生成或多實例同時生成的任務依然對當前文本生成圖像系統(tǒng)構(gòu)成挑戰(zhàn)。對于圖像編輯,諸如交換物體位置或同時修改大量實例等操作同樣對大多數(shù)現(xiàn)有模型構(gòu)成挑戰(zhàn)。在某些復雜場景中,BAGEL 與 Gemini 2.0 都存在難以精確遵循指令的問題。相比之下,GPT-4o 在所有示例中都提供了最穩(wěn)定成功的結(jié)果。BAGEL 的性能可通過增加包含文本的圖像數(shù)據(jù)、擴大模型容量或在最終微調(diào)階段應用 RLHF來簡單提升。
結(jié)論
BAGEL,一個統(tǒng)一的多模態(tài)理解與生成模型,在擴展統(tǒng)一預訓練規(guī)模時展現(xiàn)出涌現(xiàn)能力。BAGEL 在標準多模態(tài)理解與生成基準上取得了頂尖性能,并通過強大的世界建模與推理能力進一步展現(xiàn)其優(yōu)勢。為了進一步推動多模態(tài)研究的發(fā)展,我們將 BAGEL 開源給研究社區(qū)。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/wNq9tZ1c5FpKzWs0uPLaLw??
