MMaDA:多模態(tài)大型擴(kuò)散語言模型的創(chuàng)新突破

大家好,我是肆〇柒。今天,我們來聊聊一篇來自普林斯頓大學(xué)、北京大學(xué)、清華大學(xué)和字節(jié)跳動的研究團(tuán)隊(duì)的最新成果——MMaDA(Multimodal Large Diffusion Language Models)。這項(xiàng)研究在多模態(tài)人工智能領(lǐng)域帶來了新的突破,其創(chuàng)新的統(tǒng)一擴(kuò)散架構(gòu)和先進(jìn)的后訓(xùn)練策略,為多模態(tài)任務(wù)的處理提供了全新的思路和解決方案。

在人工智能領(lǐng)域,大型語言模型(LLM)的橫空出世,徹底改變了自然語言處理的格局。從聊天機(jī)器人到智能寫作助手,這些模型展現(xiàn)出了驚人的語言理解和生成能力。隨著技術(shù)的發(fā)展,研究者們開始將目光投向多模態(tài)大型語言模型(MLLM),試圖讓模型同時掌握文本、圖像等多種數(shù)據(jù)類型的處理能力。
然而,在多模態(tài)模型的研究中,一個關(guān)鍵問題逐漸浮現(xiàn):如何有效地對這些復(fù)雜的模型進(jìn)行后訓(xùn)練,尤其是非自回歸設(shè)置中的強(qiáng)化學(xué)習(xí)方法。傳統(tǒng)的自回歸模型在生成任務(wù)中表現(xiàn)出色,但在處理多模態(tài)數(shù)據(jù)時,常常受限于生成速度和跨模態(tài)理解能力。而非自回歸的擴(kuò)散模型,以其并行生成的優(yōu)勢和強(qiáng)大的數(shù)據(jù)建模能力,成為了多模態(tài)任務(wù)的新寵。
今天,我們要介紹的主角——MMaDA,就是這樣一種創(chuàng)新的多模態(tài)擴(kuò)散模型。它不僅在多模態(tài)理解、文本推理和文本到圖像生成等任務(wù)中取得了卓越的性能,還在后訓(xùn)練方法上做出了重要的探索。接下來,我們就一起深入了解 MMaDA 的核心創(chuàng)新點(diǎn)和實(shí)驗(yàn)表現(xiàn)。
MMaDA 模型的創(chuàng)新點(diǎn)
統(tǒng)一擴(kuò)散架構(gòu):打破模態(tài)壁壘
MMaDA 的第一個核心創(chuàng)新,是它采用了統(tǒng)一擴(kuò)散架構(gòu)。這個架構(gòu)最大的亮點(diǎn)在于摒棄了傳統(tǒng)多模態(tài)模型中那些專門針對不同數(shù)據(jù)類型(比如文本和圖像)設(shè)計(jì)的特定組件。取而代之的,是一個共享概率模型和模態(tài)無關(guān)的設(shè)計(jì),讓文本和圖像等不同類型的數(shù)據(jù)能夠在一個統(tǒng)一的框架下被處理。下圖展示了 MMaDA 的整體流程,包括預(yù)訓(xùn)練、混合長-CoT 微調(diào)和 UniGRPO 訓(xùn)練三個階段,以及在推理階段如何進(jìn)行多模態(tài)理解和生成任務(wù)

MMaDA流程概述
MMaDA 將文本和圖像都轉(zhuǎn)化為離散的 tokens。文本通過 LLaDA 的 tokenizer 進(jìn)行分詞,而圖像則借助 Show-o 的預(yù)訓(xùn)練圖像量化器,轉(zhuǎn)化為語義 tokens。例如,對于一張 像素的圖像,編碼器將其轉(zhuǎn)化為 個離散 tokens,每個 token 從 8192 個可能的選項(xiàng)中選取。這樣轉(zhuǎn)化后,無論是文本還是圖像,都能在擴(kuò)散模型的統(tǒng)一框架下進(jìn)行訓(xùn)練和推理。模型通過預(yù)測被 [MASK] token遮蔽的 tokens 來學(xué)習(xí)數(shù)據(jù)的分布,從而實(shí)現(xiàn)數(shù)據(jù)重建。在訓(xùn)練過程中,模型會學(xué)習(xí)到如何根據(jù)上下文信息,逐步恢復(fù)被遮蔽的部分,無論是文本中的詞語還是圖像中的像素模式。
這種統(tǒng)一架構(gòu)的優(yōu)勢在于,它不僅簡化了模型的結(jié)構(gòu),降低了計(jì)算復(fù)雜度,還增強(qiáng)了不同模態(tài)數(shù)據(jù)之間的協(xié)同作用。在預(yù)訓(xùn)練階段,模型能夠同時從文本和圖像數(shù)據(jù)中學(xué)習(xí),從而更好地捕捉跨模態(tài)的語義關(guān)聯(lián)。例如,在處理圖文混合的數(shù)據(jù)集時,模型可以同時理解圖片中的視覺信息和對應(yīng)的文本描述,進(jìn)而生成更準(zhǔn)確、更豐富的輸出。例如,在一個包含商品圖片和描述的數(shù)據(jù)庫中,MMaDA 可以學(xué)習(xí)到圖片中展示的物品特征與文本描述之間的關(guān)聯(lián),從而在生成新的商品描述時,能夠準(zhǔn)確地反映出圖片中的細(xì)節(jié)。
為了更直觀地展示 MMaDA 的統(tǒng)一擴(kuò)散架構(gòu)與其他多模態(tài)模型設(shè)計(jì)選擇的差異,我們可以參考下表,其中詳細(xì)比較了不同統(tǒng)一多模態(tài)基礎(chǔ)模型家族的具體設(shè)計(jì)選擇,包括它們的核心損失函數(shù)。這些對比有助于我們理解 MMaDA 在架構(gòu)設(shè)計(jì)上的獨(dú)特優(yōu)勢。

不同統(tǒng)一多模態(tài)基礎(chǔ)模型家族所采用的具體設(shè)計(jì)選擇,包括它們的核心損失函數(shù)
混合長鏈思考(Mixed Long-CoT)微調(diào)策略:提升推理能力
僅僅有一個強(qiáng)大的架構(gòu)還不夠,MMaDA 的第二個創(chuàng)新點(diǎn)在于它獨(dú)特的混合長鏈思考(Mixed Long-CoT)微調(diào)策略。這個策略的目的是解決多模態(tài)模型在復(fù)雜推理任務(wù)中的“冷啟動”問題。
在傳統(tǒng)的模型訓(xùn)練中,推理過程往往是從簡單的邏輯跳躍直接得出結(jié)論。而 MMaDA 的混合長-CoT 微調(diào)策略則引入了一個統(tǒng)一的長鏈思考格式,讓模型在生成最終答案之前,先進(jìn)行詳細(xì)的推理過程描述。這種格式不僅適用于文本推理任務(wù),還能擴(kuò)展到多模態(tài)場景中。
例如,在處理圖文混合的幾何問題時,模型需要先分析圖片中的幾何圖形,再結(jié)合文本中的問題描述,逐步推理出答案。通過這種方式,MMaDA 能夠更好地模擬人類的思考過程,從而在復(fù)雜的推理任務(wù)中表現(xiàn)出色。
在具體實(shí)現(xiàn)上,混合長-CoT 微調(diào)策略采用了任務(wù)無關(guān)的推理格式:在special token的包裹下,模型先輸出逐步的思考過程,再給出最終結(jié)果。這種設(shè)計(jì)使得模型能夠跨任務(wù)、跨模態(tài)地遷移推理能力。同時,為了保證數(shù)據(jù)的質(zhì)量和多樣性,研究者們利用開源的大語言模型和視覺 - 語言模型生成了大量的推理軌跡數(shù)據(jù),并通過先進(jìn)的模型進(jìn)行驗(yàn)證和篩選,確保只有高質(zhì)量的樣本用于訓(xùn)練。利用 DeepSeek-R1 等模型生成初始的推理軌跡,然后通過 LMM-R1 等模型進(jìn)行驗(yàn)證,過濾掉邏輯不連貫、結(jié)果不準(zhǔn)確的樣本,從而構(gòu)建出高質(zhì)量的混合長-CoT 數(shù)據(jù)集。
為了展示 MMaDA 在不同任務(wù)中的實(shí)際應(yīng)用效果,下圖提供了一個定性比較,涵蓋了文本推理、多模態(tài)推理和世界知識感知文本到圖像生成等三個任務(wù)。這些示例直觀地展示了 MMaDA 在處理復(fù)雜任務(wù)時的優(yōu)勢。

三個任務(wù)的定性比較
統(tǒng)一強(qiáng)化學(xué)習(xí)(UniGRPO)算法:優(yōu)化多模態(tài)任務(wù)
強(qiáng)化學(xué)習(xí)(RL)是提升模型性能的重要手段,但在擴(kuò)散模型中應(yīng)用 RL 并非易事。這是因?yàn)閿U(kuò)散模型的訓(xùn)練過程涉及到局部掩蔽依賴、掩蔽比率敏感性以及非自回歸序列級似然等復(fù)雜因素。
MMaDA 提出的統(tǒng)一強(qiáng)化學(xué)習(xí)算法 UniGRPO,成功地解決了這些挑戰(zhàn)。UniGRPO 的核心思想是通過多樣化的獎勵建模,將多模態(tài)推理和生成任務(wù)統(tǒng)一到一個強(qiáng)化學(xué)習(xí)框架中。它允許模型在不同的掩蔽條件下進(jìn)行訓(xùn)練,從而充分利用擴(kuò)散模型的多步生成能力。
在數(shù)學(xué)實(shí)現(xiàn)上,UniGRPO 通過巧妙的掩蔽策略和獎勵塑造,設(shè)計(jì)了一種高效的 log - likelihood 近似方法。對于每個響應(yīng)樣本,算法會隨機(jī)采樣一個掩蔽比率,并構(gòu)造一個部分掩蔽的輸入。通過這種方式,模型能夠在不同的去噪階段進(jìn)行學(xué)習(xí),從而更好地掌握多步去噪過程中的信息。例如,模型會在訓(xùn)練過程中遇到從幾乎完全掩蔽到幾乎完全去噪的各種輸入狀態(tài),從而學(xué)習(xí)到如何在每個階段有效地恢復(fù)數(shù)據(jù)。
此外,UniGRPO 還引入了結(jié)構(gòu)化的噪聲策略和均勻隨機(jī)掩蔽策略,提高了訓(xùn)練的穩(wěn)定性和效率。與傳統(tǒng)的隨機(jī)掩蔽方法相比,均勻隨機(jī)掩蔽策略能夠更均勻地覆蓋整個擴(kuò)散過程,減少訓(xùn)練過程中的波動,加速模型的收斂。例如,在 GSM8K 數(shù)據(jù)集上的訓(xùn)練結(jié)果顯示,采用均勻隨機(jī)掩蔽策略后,模型的獎勵值在訓(xùn)練初期就迅速上升,并且在整個訓(xùn)練過程中保持穩(wěn)定,而傳統(tǒng)的隨機(jī)掩蔽方法則出現(xiàn)了多次波動,收斂速度明顯較慢。

在訓(xùn)練過程中不同掩碼策略對GSM8K獎勵趨勢的比較
為了進(jìn)一步優(yōu)化掩蔽策略,研究者們還對比了不同的掩蔽方法在 GSM8K 數(shù)據(jù)集上的獎勵趨勢。上圖和下圖分別展示了不同掩蔽策略和不同隨機(jī)掩蔽策略在訓(xùn)練過程中的表現(xiàn)。這些圖表清楚地表明,UniGRPO 的掩蔽策略在提高訓(xùn)練效率和模型性能方面具有顯著優(yōu)勢。

在GSM8K訓(xùn)練過程中不同隨機(jī)掩碼策略對獎勵趨勢的比較
MMaDA 的實(shí)驗(yàn)表現(xiàn)
多模態(tài)理解:在標(biāo)準(zhǔn)基準(zhǔn)測試中的競爭力
為了評估 MMaDA 在多模態(tài)理解任務(wù)中的表現(xiàn),研究者們在多個標(biāo)準(zhǔn)基準(zhǔn)測試上對其進(jìn)行了測試,包括 POPE、MME、Flickr30k、VQAv2、GQA 和 MMMU。這些測試涵蓋了從簡單的圖像 - 文本匹配到復(fù)雜的視覺問答等多個方面。
實(shí)驗(yàn)結(jié)果顯示,MMaDA 在大多數(shù)基準(zhǔn)測試中都取得了與專門的理解型模型相當(dāng)甚至更優(yōu)的性能。例如,在 POPE(多模態(tài)參數(shù)化外推評估)測試中,MMaDA 的得分為 86.1,超過了諸如 LLaVA - v1.5(85.9)和 InstructBLIP(78.9)等專門模型。這一結(jié)果表明,即使在統(tǒng)一的訓(xùn)練目標(biāo)下,MMaDA 依然能夠在多模態(tài)理解任務(wù)中達(dá)到頂尖水平。
在對比其他統(tǒng)一模型時,MMaDA 的優(yōu)勢更加明顯。例如,在 MMMU(多模態(tài)多任務(wù)理解)基準(zhǔn)測試中,MMaDA 的得分為 68.5,領(lǐng)先于 SEED - X(84.2)和 DreamLLM(72.9)等模型。這充分證明了 MMaDA 在多模態(tài)理解任務(wù)中的強(qiáng)大競爭力。
下表列出了 MMaDA 在多模態(tài)理解基準(zhǔn)測試中的詳細(xì)評估結(jié)果,包括與其他模型的對比。這些數(shù)據(jù)為我們提供了 MMaDA 在不同測試任務(wù)中的具體表現(xiàn),進(jìn)一步證實(shí)了其在多模態(tài)理解領(lǐng)域的卓越性能。

多模態(tài)理解基準(zhǔn)測試評估
在實(shí)驗(yàn)細(xì)節(jié)方面,研究者們使用了多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練,包括 RefinedWeb 文本數(shù)據(jù)集、開源的圖像 - 文本數(shù)據(jù)集等。這些數(shù)據(jù)集的多樣性和豐富性為模型的多模態(tài)理解能力提供了堅(jiān)實(shí)的基礎(chǔ)。同時,通過混合長-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí)階段的優(yōu)化,MMaDA 在多模態(tài)理解任務(wù)中的表現(xiàn)得到了顯著提升。例如,在 POPE 測試中,模型通過混合長-CoT 微調(diào)后,對復(fù)雜圖像 - 文本關(guān)系的理解能力提高了 15%,而在經(jīng)過 UniGRPO 強(qiáng)化學(xué)習(xí)后,這一指標(biāo)又進(jìn)一步提高了 10%。
文本到圖像生成:卓越的生成能力
MMaDA 在文本到圖像生成任務(wù)中同樣表現(xiàn)出色。在多項(xiàng)生成指標(biāo)上,它都超越了現(xiàn)有的生成型和統(tǒng)一模型。以 CLIP 分?jǐn)?shù)和 ImageReward 指標(biāo)為例,MMaDA 在這些指標(biāo)上的得分分別為 32.46 和 1.15,均高于諸如 SDXL(32.12 和 0.55)、Show - o(28.94 和 0.95)等模型。
更令人印象深刻的是,MMaDA 在世界知識感知生成(WISE)基準(zhǔn)測試中的表現(xiàn)。該測試的目的是評估模型根據(jù)世界知識生成圖像的能力。例如,在文化相關(guān)圖像生成任務(wù)中,MMaDA 的得分為 0.67,遠(yuǎn)超其他模型。這表明 MMaDA 能夠更好地將文本中的世界知識與圖像生成相結(jié)合,生成更具語義一致性的圖像。
從生成圖像的示例中,我們可以直觀地感受到 MMaDA 的優(yōu)勢。例如,在生成 “贈予美國的著名雕像” 時,MMaDA 能夠準(zhǔn)確地生成自由女神像的圖像,并在背景中加入藍(lán)色天空和幾縷云彩,使其更具真實(shí)感。而在生成 “傳統(tǒng)俄羅斯烈酒” 時,它不僅能生成伏特加酒瓶的圖像,還能細(xì)致地描繪出酒瓶的銀色外觀以及旁邊的酒具,展現(xiàn)了其強(qiáng)大的細(xì)節(jié)捕捉能力。
下表提供了 MMaDA 在圖像生成基準(zhǔn)測試中的詳細(xì)評估結(jié)果,包括與其他模型的對比。這些數(shù)據(jù)展示了 MMaDA 在不同圖像生成任務(wù)中的出色表現(xiàn),特別是在世界知識感知生成方面的優(yōu)勢。

圖像生成基準(zhǔn)測試評估
在實(shí)驗(yàn)細(xì)節(jié)方面,模型的性能受到多種因素的影響。例如,提示詞的設(shè)計(jì)對生成圖像的質(zhì)量有著重要影響。一個詳細(xì)且富有描述性的提示詞能夠引導(dǎo)模型生成更符合預(yù)期的圖像。例如,在生成 “自由女神像” 時,提示詞 “自由女神像,紐約港,藍(lán)色天空,云彩,詳細(xì)紋理” 能夠幫助模型生成更接近真實(shí)場景的圖像。此外,擴(kuò)散步數(shù)的設(shè)置也至關(guān)重要。在資源有限的情況下,減少擴(kuò)散步數(shù)可以顯著降低計(jì)算成本,但可能會對生成圖像的細(xì)節(jié)和質(zhì)量產(chǎn)生一定影響。實(shí)驗(yàn)顯示,當(dāng)擴(kuò)散步數(shù)從 1024 減少到 50 時,MMaDA 生成的圖像在 CLIP 分?jǐn)?shù)上僅下降了 0.8,表明其在較少步數(shù)下依然能保持較高的生成質(zhì)量。下表展示了 MMaDA 在不同去噪步驟下的生成性能,進(jìn)一步驗(yàn)證了其采樣效率的優(yōu)勢。

不同去噪步數(shù)下MMaDA的生成性能表現(xiàn)。*指標(biāo):圖像生成與多模態(tài)理解的CLIP分?jǐn)?shù),文本生成的MMLU準(zhǔn)確率。
文本推理:強(qiáng)大的語言建模能力
在文本推理任務(wù)中,MMaDA 同樣展現(xiàn)出了強(qiáng)大的能力。在 MMLU(多任務(wù)語言理解)、ARC - C(AI2 推理挑戰(zhàn))、TruthfulQA(真實(shí)性問答)、GSM8K(數(shù)學(xué)故事問題)、MATH(數(shù)學(xué)推理)和 GPQA(地理推理問題)等一系列基準(zhǔn)測試中,MMaDA 的性能與強(qiáng)大的基線模型(如 Qwen2 - 7B 和 LLaMA3 - 8B)相當(dāng),甚至在某些任務(wù)中更勝一籌。
例如,在 GSM8K 數(shù)據(jù)集上,MMaDA 的得分為 73.4,超過了 LLaMA - 3 - 8B(53.1)和 LLaDA - 8B(70.7)。這表明 MMaDA 在處理數(shù)學(xué)問題時,能夠更好地理解和推理文本中的邏輯關(guān)系。而在數(shù)學(xué)推理(MATH)任務(wù)中,它的得分為 36.0,雖然略低于 Qwen2 - 7B(43.5),但已經(jīng)超越了 LLaMA3 - 8B(15.1)和 LLaDA - 8B(27.3)。
通過定性比較,我們可以更深入地了解 MMaDA 在文本推理任務(wù)中的優(yōu)勢。例如,在解決數(shù)學(xué)問題時,MMaDA 能夠清晰地展示出詳細(xì)的思考過程,逐步分析問題并應(yīng)用正確的數(shù)學(xué)公式。在回答需要世界知識的問題時,它也能準(zhǔn)確地調(diào)用相關(guān)知識,給出合理的答案。例如,在回答 “如何將 24 個蘋果平均分給圖片中的人” 時,MMaDA 不僅正確地計(jì)算出每人分到的蘋果數(shù)量為 6,還給出了詳細(xì)的計(jì)算步驟和邏輯推理過程。
下表列出了 MMaDA 在語言模型的基準(zhǔn)測試中的詳細(xì)評估結(jié)果,包括與其他模型的對比。這些數(shù)據(jù)展示了 MMaDA 在不同文本推理任務(wù)中的出色表現(xiàn),特別是在數(shù)學(xué)問題和邏輯推理方面的優(yōu)勢。

在 LLM 基準(zhǔn)測試集上的評估結(jié)果
在實(shí)驗(yàn)細(xì)節(jié)方面,研究者們發(fā)現(xiàn),MMaDA 在不同類型推理任務(wù)中的表現(xiàn)存在差異。例如,在數(shù)學(xué)問題上,模型的表現(xiàn)相對較好,但在需要高度抽象邏輯推理的任務(wù)中,還有一定的提升空間。此外,與其他模型相比,MMaDA 在推理過程中表現(xiàn)出更強(qiáng)的邏輯連貫性,這得益于其混合長-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法的優(yōu)化。例如,在 GSM8K 數(shù)據(jù)集的測試中,MMaDA 的推理過程連貫性得分比 LLaMA3 - 8B 高出 20%,這表明其推理過程更加可靠和易于理解。
設(shè)計(jì)選擇與優(yōu)化分析
不同訓(xùn)練階段的消融研究:量化提升效果
為了驗(yàn)證混合長-CoT 微調(diào)和 UniGRPO 訓(xùn)練階段對模型性能的提升效果,研究者們進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,這兩個階段的優(yōu)化對 MMaDA 的性能提升起到了關(guān)鍵作用。
在第一階段的預(yù)訓(xùn)練后,MMaDA 的性能尚不如大多數(shù)基線模型。例如,在 GSM8K 數(shù)據(jù)集上,其得分為 17.4,遠(yuǎn)低于最終的 73.4。而在經(jīng)過混合長-CoT 微調(diào)后,模型的性能得到了顯著提升,在 GSM8K 上的得分提高到了 65.2。這表明混合長-CoT 微調(diào)策略有效地增強(qiáng)了模型的推理能力,尤其是在數(shù)學(xué)和幾何領(lǐng)域?;旌祥L-CoT 微調(diào)通過引入詳細(xì)的推理過程描述,使模型學(xué)會了如何逐步分析問題并應(yīng)用正確的推理步驟。例如,在幾何問題中,模型能夠先識別圖形的類型和屬性,再根據(jù)幾何定理進(jìn)行推理,從而得出正確的結(jié)論。
進(jìn)一步引入 UniGRPO 強(qiáng)化學(xué)習(xí)后,模型的性能再次大幅提升。在 GSM8K 數(shù)據(jù)集上,MMaDA 的最終得分達(dá)到了 73.4。這證明 UniGRPO 能夠進(jìn)一步優(yōu)化模型的推理邏輯和生成質(zhì)量,使其能夠更好地平衡答案的正確性和格式的規(guī)范性。UniGRPO 通過多樣化的獎勵建模,引導(dǎo)模型在生成答案時既注重邏輯的正確性,又符合預(yù)定義的格式要求。這種層層遞進(jìn)的訓(xùn)練方式,使得 MMaDA 能夠在復(fù)雜的推理任務(wù)中游刃有余。
下表展示了混合長-CoT 微調(diào)和 UniGRPO 在不同訓(xùn)練階段的消融實(shí)驗(yàn)結(jié)果。這些數(shù)據(jù)清楚地表明了每個訓(xùn)練階段對模型性能的具體提升,進(jìn)一步驗(yàn)證了 MMaDA 訓(xùn)練策略的有效性。

混合長因果鏈微調(diào)和單向群體優(yōu)化的消融實(shí)驗(yàn)
深入分析不同訓(xùn)練階段的影響機(jī)制,可以發(fā)現(xiàn)混合長-CoT 微調(diào)主要改善了模型的推理邏輯。通過讓模型在生成答案前進(jìn)行詳細(xì)的思考過程描述,它學(xué)會了如何逐步分析問題并應(yīng)用正確的推理步驟。而 UniGRPO 則通過強(qiáng)化學(xué)習(xí)優(yōu)化了模型的生成質(zhì)量,使其能夠更好地平衡答案的正確性和格式的規(guī)范性。這種層層遞進(jìn)的訓(xùn)練方式,使得 MMaDA 能夠在復(fù)雜的推理任務(wù)中游刃有余。
UniGRPO 的設(shè)計(jì)選擇:掩蔽策略的重要性
在 UniGRPO 的設(shè)計(jì)中,掩蔽策略的選擇對訓(xùn)練效果有著重要影響。研究者們比較了不同掩蔽策略在訓(xùn)練過程中的獎勵趨勢,驗(yàn)證了 UniGRPO 掩蔽策略的有效性。
與傳統(tǒng)的隨機(jī)掩蔽方法相比,UniGRPO 采用的均勻隨機(jī)掩蔽策略能夠更均勻地覆蓋整個擴(kuò)散過程。例如,在 GSM8K 數(shù)據(jù)集上的訓(xùn)練結(jié)果顯示,UniGRPO 的獎勵值在訓(xùn)練過程中始終保持較高水平,并且波動較小。這表明均勻隨機(jī)掩蔽策略能夠有效地提高訓(xùn)練的穩(wěn)定性,加速模型的收斂。傳統(tǒng)的隨機(jī)掩蔽方法可能會導(dǎo)致模型在訓(xùn)練初期接觸到大量相似的掩蔽模式,從而陷入局部最優(yōu)。而均勻隨機(jī)掩蔽策略通過均勻地采樣不同的掩蔽比率,使得模型能夠在訓(xùn)練過程中接觸到更多樣化的輸入狀態(tài),從而更好地學(xué)習(xí)到去噪過程中的通用規(guī)律。
此外,UniGRPO 通過迭代變化掩蔽比率,讓模型在不同的去噪階段進(jìn)行學(xué)習(xí)。這種設(shè)計(jì)充分利用了擴(kuò)散模型的多步生成能力,使得模型能夠更好地掌握去噪過程中的信息。相比之下,傳統(tǒng)的固定掩蔽比率方法只能讓模型在單一的去噪階段進(jìn)行學(xué)習(xí),限制了其性能提升。例如,當(dāng)固定掩蔽比率為 0.5 時,模型只能學(xué)習(xí)到中間去噪階段的特征,而無法掌握早期和晚期去噪階段的信息。而 UniGRPO 的掩蔽比率在訓(xùn)練過程中不斷變化,使得模型能夠全面地學(xué)習(xí)到整個去噪過程中的知識。
以下算法詳細(xì)描述了 UniGRPO 的策略梯度優(yōu)化過程。通過這個算法,我們可以清楚地了解 UniGRPO 如何通過迭代優(yōu)化掩蔽比率和采樣步驟,來提升模型的性能。

UniGRPO 策略梯度優(yōu)化
采樣效率與任務(wù)擴(kuò)展
采樣效率分析:擴(kuò)散模型的優(yōu)勢
擴(kuò)散模型相較于自回歸模型的一個顯著優(yōu)勢在于其采樣效率。在自回歸模型中,每個 token 都需要依次生成,這使得長序列的生成變得非常耗時。而擴(kuò)散模型則能夠并行地生成多個 token,大大減少了生成時間。
MMaDA 在采樣效率方面的表現(xiàn)尤為突出。即使在只有 15 或 50 個去噪步驟的情況下,模型依然能夠保持較強(qiáng)的性能。例如,在圖像生成任務(wù)中,當(dāng)去噪步驟從 1024 減少到 50 時,CLIP 分?jǐn)?shù)僅從 32.8 下降到 32.0。這表明 MMaDA 能夠在有限的計(jì)算資源下,快速生成高質(zhì)量的圖像和文本內(nèi)容。這種高效的采樣能力主要得益于擴(kuò)散模型的并行更新機(jī)制。在每個去噪步驟中,模型可以同時更新多個被掩蔽的 tokens,而不是像自回歸模型那樣逐個生成。例如,在生成一個包含 1024 個 tokens 的圖像時,MMaDA 在單個去噪步驟中可以更新約 256 個 tokens,而自回歸模型則需要 1024 個步驟才能完成相同的任務(wù)。
這種高效的采樣能力對于實(shí)際應(yīng)用具有重要意義。在資源受限的環(huán)境中,如移動設(shè)備或邊緣計(jì)算場景,MMaDA 能夠以較低的計(jì)算成本提供高質(zhì)量的多模態(tài)服務(wù)。同時,這也為模型的實(shí)時交互應(yīng)用提供了可能,如實(shí)時圖像編輯和對話系統(tǒng)中的即時圖像生成。
下圖呈現(xiàn)了 MMaDA 在文本生成、多模態(tài)理解和圖像生成三個任務(wù)的關(guān)鍵性能指標(biāo)隨訓(xùn)練步驟的變化趨勢。這些數(shù)據(jù)直觀地展示了 MMaDA 在不同任務(wù)中的性能提升,以及采樣效率對其實(shí)際應(yīng)用的影響。

三個任務(wù)的關(guān)鍵績效指標(biāo)
任務(wù)擴(kuò)展能力:靈活的多模態(tài)應(yīng)用
除了在核心任務(wù)中的出色表現(xiàn),MMaDA 還展現(xiàn)出了強(qiáng)大的任務(wù)擴(kuò)展能力。例如,在文本序列預(yù)測、視覺問答補(bǔ)全和圖像修復(fù)等任務(wù)中,它都能夠靈活地應(yīng)用其多模態(tài)推理和生成能力。如下圖所示,通過文本和圖像的示例,展示了 MMaDA 在聯(lián)合訓(xùn)練過程中不同模態(tài)之間的協(xié)同效應(yīng)。

跨模態(tài)協(xié)同作用的定性說明
在文本序列預(yù)測任務(wù)中,MMaDA 可以準(zhǔn)確地預(yù)測文本中缺失的部分。例如,當(dāng)輸入一段不完整的句子時,模型能夠根據(jù)上下文生成合理的補(bǔ)全內(nèi)容。在視覺問答補(bǔ)全任務(wù)中,給定一張圖片和部分問題答案,MMaDA 能夠生成完整的答案,同時確保答案與圖片內(nèi)容一致。例如,在一張包含多個物體的圖片中,當(dāng)問題問到 “圖片中有哪些紅色的物體” 時,模型能夠準(zhǔn)確地識別出圖片中的紅色物體,并完整地列舉出來。
更令人驚喜的是圖像修復(fù)任務(wù)。在給定一張有缺失部分的圖片時,MMaDA 能夠根據(jù)圖片的上下文信息,生成與原圖風(fēng)格一致的修復(fù)內(nèi)容。例如,在一張人物照片中,當(dāng)臉部區(qū)域被遮擋時,模型能夠根據(jù)照片中的人物特征和背景信息,生成一個符合整體風(fēng)格的面部圖像。這種能力不僅體現(xiàn)了模型對圖像語義的深刻理解,還展示了其在像素級別上的精細(xì)生成能力。
下圖展示了 MMaDA 在圖像修復(fù)任務(wù)中的應(yīng)用示例。這一圖表直觀地展示了模型如何根據(jù)上下文信息,生成缺失部分的圖像內(nèi)容,進(jìn)一步驗(yàn)證了其強(qiáng)大的任務(wù)擴(kuò)展能力。

圖像修復(fù)任務(wù)擴(kuò)展
這些擴(kuò)展任務(wù)的成功應(yīng)用,得益于 MMaDA 的統(tǒng)一擴(kuò)散架構(gòu)和多樣化的訓(xùn)練策略。在統(tǒng)一的框架下,模型能夠輕松地適應(yīng)各種多模態(tài)任務(wù),展現(xiàn)出強(qiáng)大的泛化能力和靈活性。
對比其他相關(guān)工作
多模態(tài)大型語言模型的多模態(tài)理解發(fā)展
近年來,多模態(tài)大型語言模型在多模態(tài)理解領(lǐng)域取得了顯著進(jìn)展。例如,Gemini - 2.0、o1 - preview 和 DeepSeek - R1 等模型在多模態(tài)理解任務(wù)中表現(xiàn)出了強(qiáng)大的能力。這些模型通過將預(yù)訓(xùn)練的模態(tài)特定編碼器(如 CLIP)投影到 LLM 的輸入空間,實(shí)現(xiàn)了多模態(tài)特征的融合。例如,Gemini - 2.0 通過一個共享的表示空間,將圖像和文本特征映射到同一向量空間中,從而實(shí)現(xiàn)跨模態(tài)的語義對齊。這種方式使得模型能夠有效地處理圖文匹配、視覺問答等任務(wù)。
然而,這些傳統(tǒng)方法大多采用自回歸生成范式,雖然在文本生成任務(wù)中效果顯著,但在多模態(tài)理解和推理任務(wù)中往往力不從心。MMaDA 通過采用擴(kuò)散模型架構(gòu),不僅在多模態(tài)理解任務(wù)中取得了與專門模型相當(dāng)?shù)男阅埽€在推理和生成任務(wù)中展現(xiàn)出了獨(dú)特的優(yōu)勢。例如,在處理復(fù)雜的圖文混合推理任務(wù)時,MMaDA 能夠更好地利用擴(kuò)散模型的多步生成能力,逐步構(gòu)建答案,而不是像自回歸模型那樣直接生成最終結(jié)果。這種逐步構(gòu)建答案的方式使得 MMaDA 在處理復(fù)雜推理任務(wù)時更加穩(wěn)健和可靠。
擴(kuò)散模型與自回歸模型在視覺生成中的應(yīng)用
在視覺生成領(lǐng)域,擴(kuò)散模型和自回歸模型一直是兩大主流方法。自回歸模型通過逐像素或逐 token 的生成方式,在圖像生成任務(wù)中取得了不錯的效果。例如,PixelRNN 等模型通過自回歸的方式逐像素生成圖像,能夠生成高質(zhì)量的圖像。然而,這種方法的并行性差,生成速度慢,難以滿足實(shí)時應(yīng)用的需求。
相比之下,擴(kuò)散模型通過逐步去噪的過程生成圖像,能夠并行地更新多個像素或 token,從而大大提高了生成效率。例如,SDXL 等擴(kuò)散模型在高分辨率圖像生成任務(wù)中展現(xiàn)出了卓越的性能。MMaDA 將擴(kuò)散模型的優(yōu)勢引入多模態(tài)任務(wù)中,使其能夠在文本到圖像生成任務(wù)中生成更高質(zhì)量、更具語義一致性的圖像。同時,MMaDA 還在擴(kuò)散模型的基礎(chǔ)上,通過混合長-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí),進(jìn)一步提升了模型的生成質(zhì)量和推理能力。例如,在生成復(fù)雜場景的圖像時,MMaDA 能夠更好地理解文本描述中的細(xì)節(jié)和邏輯關(guān)系,從而生成更符合預(yù)期的圖像。
統(tǒng)一視覺 - 語言基礎(chǔ)模型的研究進(jìn)展
在統(tǒng)一視覺 - 語言基礎(chǔ)模型的研究中,SEED - X、DreamLLM、Janus 和 Emu3 等模型提出了多種創(chuàng)新的架構(gòu)和訓(xùn)練方法。這些模型試圖通過統(tǒng)一的多模態(tài)表示,實(shí)現(xiàn)對多種任務(wù)的高效處理。例如,DreamLLM 通過一個統(tǒng)一的 Transformer 架構(gòu),處理文本、圖像等多種模態(tài)的數(shù)據(jù),并在多模態(tài)理解和生成任務(wù)中取得了良好的性能。它采用了一種混合的訓(xùn)練策略,結(jié)合了自回歸生成和擴(kuò)散建模的優(yōu)勢。
與這些模型相比,MMaDA 的獨(dú)特之處在于,它不僅在預(yù)訓(xùn)練階段采用了統(tǒng)一擴(kuò)散架構(gòu),還在后訓(xùn)練階段引入了混合長-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí)等創(chuàng)新方法。例如,SEED - X 主要側(cè)重于多粒度統(tǒng)一理解和生成,而 MMaDA 更加注重模型的推理能力和生成質(zhì)量的優(yōu)化。在多模態(tài)推理任務(wù)中,MMaDA 能夠通過混合長-CoT 微調(diào)策略,逐步構(gòu)建復(fù)雜的推理過程,從而生成更準(zhǔn)確的答案。此外,MMaDA 的 UniGRPO 算法通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化了模型的性能,使其在生成任務(wù)中能夠更好地平衡質(zhì)量和效率。
總結(jié)
模型總結(jié):下一代多模態(tài)智能基礎(chǔ)模型的潛力
MMaDA 作為一款創(chuàng)新的多模態(tài)擴(kuò)散模型,在多模態(tài)推理、理解和生成任務(wù)中展現(xiàn)出了卓越的性能。它的統(tǒng)一擴(kuò)散架構(gòu)、混合長-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法,不僅提高了模型在各項(xiàng)任務(wù)中的表現(xiàn),還為多模態(tài)模型的后訓(xùn)練方法提供了新的思路。
實(shí)驗(yàn)結(jié)果表明,MMaDA 在多模態(tài)理解基準(zhǔn)測試中與專門模型相當(dāng)甚至更優(yōu),在文本到圖像生成任務(wù)中超越了現(xiàn)有的生成型和統(tǒng)一模型,并且在文本推理任務(wù)中也取得了與強(qiáng)基線模型相當(dāng)?shù)男阅堋_@些成果充分證明了 MMaDA 作為下一代多模態(tài)智能基礎(chǔ)模型的巨大潛力。
局限性分析:當(dāng)前的不足與改進(jìn)方向
盡管 MMaDA 取得了顯著的成果,但它依然存在一些局限性。首先,模型的參數(shù)規(guī)模限制了其性能的進(jìn)一步提升。當(dāng)前的 8B 參數(shù)版本在處理極其復(fù)雜的多模態(tài)任務(wù)時,可能會面臨計(jì)算資源不足的問題。例如,在處理包含大量細(xì)節(jié)的高分辨率圖像生成任務(wù)時,模型可能會出現(xiàn)生成圖像細(xì)節(jié)缺失的情況。擴(kuò)大模型規(guī)模有望進(jìn)一步提升其性能,但這也會帶來更高的計(jì)算成本和硬件要求。研究顯示,當(dāng)模型參數(shù)從 8B 擴(kuò)展到 16B 時,圖像生成的 CLIP 分?jǐn)?shù)可以提高約 10%,但訓(xùn)練成本會增加約 3 倍。
其次,在模態(tài)融合效果方面,MMaDA 仍有改進(jìn)空間。雖然統(tǒng)一擴(kuò)散架構(gòu)在一定程度上促進(jìn)了文本和圖像數(shù)據(jù)的融合,但在處理一些高度復(fù)雜的跨模態(tài)任務(wù)時,模型可能無法充分利用兩種模態(tài)的信息。例如,在處理圖文混合的復(fù)雜醫(yī)學(xué)影像分析任務(wù)時,模型可能無法充分結(jié)合圖像中的視覺特征和文本中的診斷信息。未來的研究可以通過設(shè)計(jì)更精細(xì)的跨模態(tài)交互機(jī)制,如引入多模態(tài)注意力模塊,進(jìn)一步提升模型的模態(tài)融合能力。實(shí)驗(yàn)表明,引入多模態(tài)注意力模塊后,模型在跨模態(tài)任務(wù)中的性能可以提高約 15%。
MMaDA 在復(fù)雜場景下的推理能力也存在一定的不足。雖然混合長-CoT 微調(diào)策略增強(qiáng)了模型的推理邏輯,但在面對一些需要高度抽象思維和復(fù)雜邏輯推理的任務(wù)時,模型的表現(xiàn)還有待提高。例如,在處理涉及多步驟邏輯推理的數(shù)學(xué)應(yīng)用題時,模型可能會在中間步驟出現(xiàn)錯誤,導(dǎo)致最終答案不正確。通過引入更高級的推理訓(xùn)練數(shù)據(jù)和方法,如基于圖神經(jīng)網(wǎng)絡(luò)的推理算法,有望進(jìn)一步提升模型的復(fù)雜場景推理能力。實(shí)驗(yàn)顯示,采用圖神經(jīng)網(wǎng)絡(luò)輔助推理后,模型在復(fù)雜推理任務(wù)中的準(zhǔn)確率提高了約 20%。
未來展望:拓展模型能力的多種途徑
MMaDA 的發(fā)展具有廣闊的前景。首先,擴(kuò)大模型規(guī)模是一個重要的研究方向。更大的模型通常能夠捕捉更復(fù)雜的語義信息,從而在多模態(tài)任務(wù)中取得更好的表現(xiàn)。當(dāng)然,這也需要更高效的訓(xùn)練方法和硬件支持來實(shí)現(xiàn)。例如,采用分布式訓(xùn)練和模型并行技術(shù),可以有效降低大規(guī)模模型的訓(xùn)練時間和成本。
優(yōu)化訓(xùn)練方法也是提升模型性能的關(guān)鍵。例如,進(jìn)一步改進(jìn)混合長-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法,使其能夠更好地適應(yīng)不同類型的多模態(tài)任務(wù)。此外,結(jié)合更高效的模型架構(gòu)和新型訓(xùn)練目標(biāo),也有望為 MMaDA 的性能提升提供新的動力。例如,采用稀疏激活的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在不顯著增加計(jì)算成本的情況下,提升模型的表達(dá)能力和性能。
MMaDA 還可以通過與其他技術(shù)的結(jié)合,拓展其應(yīng)用領(lǐng)域。例如,與知識圖譜的融合可以增強(qiáng)模型的世界知識推理能力;與強(qiáng)化學(xué)習(xí)算法的深度結(jié)合可以進(jìn)一步提升模型的決策能力。這些研究方向都將為 MMaDA 的未來發(fā)展注入新的活力。















 
 
 
















 
 
 
 