MMaDA:多模態(tài)大型擴(kuò)散語(yǔ)言模型的創(chuàng)新突破

大家好,我是肆〇柒。今天,我們來(lái)聊聊一篇來(lái)自普林斯頓大學(xué)、北京大學(xué)、清華大學(xué)和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)的最新成果——MMaDA(Multimodal Large Diffusion Language Models)。這項(xiàng)研究在多模態(tài)人工智能領(lǐng)域帶來(lái)了新的突破,其創(chuàng)新的統(tǒng)一擴(kuò)散架構(gòu)和先進(jìn)的后訓(xùn)練策略,為多模態(tài)任務(wù)的處理提供了全新的思路和解決方案。

在人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的橫空出世,徹底改變了自然語(yǔ)言處理的格局。從聊天機(jī)器人到智能寫(xiě)作助手,這些模型展現(xiàn)出了驚人的語(yǔ)言理解和生成能力。隨著技術(shù)的發(fā)展,研究者們開(kāi)始將目光投向多模態(tài)大型語(yǔ)言模型(MLLM),試圖讓模型同時(shí)掌握文本、圖像等多種數(shù)據(jù)類(lèi)型的處理能力。
然而,在多模態(tài)模型的研究中,一個(gè)關(guān)鍵問(wèn)題逐漸浮現(xiàn):如何有效地對(duì)這些復(fù)雜的模型進(jìn)行后訓(xùn)練,尤其是非自回歸設(shè)置中的強(qiáng)化學(xué)習(xí)方法。傳統(tǒng)的自回歸模型在生成任務(wù)中表現(xiàn)出色,但在處理多模態(tài)數(shù)據(jù)時(shí),常常受限于生成速度和跨模態(tài)理解能力。而非自回歸的擴(kuò)散模型,以其并行生成的優(yōu)勢(shì)和強(qiáng)大的數(shù)據(jù)建模能力,成為了多模態(tài)任務(wù)的新寵。
今天,我們要介紹的主角——MMaDA,就是這樣一種創(chuàng)新的多模態(tài)擴(kuò)散模型。它不僅在多模態(tài)理解、文本推理和文本到圖像生成等任務(wù)中取得了卓越的性能,還在后訓(xùn)練方法上做出了重要的探索。接下來(lái),我們就一起深入了解 MMaDA 的核心創(chuàng)新點(diǎn)和實(shí)驗(yàn)表現(xiàn)。
MMaDA 模型的創(chuàng)新點(diǎn)
統(tǒng)一擴(kuò)散架構(gòu):打破模態(tài)壁壘
MMaDA 的第一個(gè)核心創(chuàng)新,是它采用了統(tǒng)一擴(kuò)散架構(gòu)。這個(gè)架構(gòu)最大的亮點(diǎn)在于摒棄了傳統(tǒng)多模態(tài)模型中那些專(zhuān)門(mén)針對(duì)不同數(shù)據(jù)類(lèi)型(比如文本和圖像)設(shè)計(jì)的特定組件。取而代之的,是一個(gè)共享概率模型和模態(tài)無(wú)關(guān)的設(shè)計(jì),讓文本和圖像等不同類(lèi)型的數(shù)據(jù)能夠在一個(gè)統(tǒng)一的框架下被處理。下圖展示了 MMaDA 的整體流程,包括預(yù)訓(xùn)練、混合長(zhǎng)-CoT 微調(diào)和 UniGRPO 訓(xùn)練三個(gè)階段,以及在推理階段如何進(jìn)行多模態(tài)理解和生成任務(wù)

MMaDA流程概述
MMaDA 將文本和圖像都轉(zhuǎn)化為離散的 tokens。文本通過(guò) LLaDA 的 tokenizer 進(jìn)行分詞,而圖像則借助 Show-o 的預(yù)訓(xùn)練圖像量化器,轉(zhuǎn)化為語(yǔ)義 tokens。例如,對(duì)于一張 像素的圖像,編碼器將其轉(zhuǎn)化為 個(gè)離散 tokens,每個(gè) token 從 8192 個(gè)可能的選項(xiàng)中選取。這樣轉(zhuǎn)化后,無(wú)論是文本還是圖像,都能在擴(kuò)散模型的統(tǒng)一框架下進(jìn)行訓(xùn)練和推理。模型通過(guò)預(yù)測(cè)被 [MASK] token遮蔽的 tokens 來(lái)學(xué)習(xí)數(shù)據(jù)的分布,從而實(shí)現(xiàn)數(shù)據(jù)重建。在訓(xùn)練過(guò)程中,模型會(huì)學(xué)習(xí)到如何根據(jù)上下文信息,逐步恢復(fù)被遮蔽的部分,無(wú)論是文本中的詞語(yǔ)還是圖像中的像素模式。
這種統(tǒng)一架構(gòu)的優(yōu)勢(shì)在于,它不僅簡(jiǎn)化了模型的結(jié)構(gòu),降低了計(jì)算復(fù)雜度,還增強(qiáng)了不同模態(tài)數(shù)據(jù)之間的協(xié)同作用。在預(yù)訓(xùn)練階段,模型能夠同時(shí)從文本和圖像數(shù)據(jù)中學(xué)習(xí),從而更好地捕捉跨模態(tài)的語(yǔ)義關(guān)聯(lián)。例如,在處理圖文混合的數(shù)據(jù)集時(shí),模型可以同時(shí)理解圖片中的視覺(jué)信息和對(duì)應(yīng)的文本描述,進(jìn)而生成更準(zhǔn)確、更豐富的輸出。例如,在一個(gè)包含商品圖片和描述的數(shù)據(jù)庫(kù)中,MMaDA 可以學(xué)習(xí)到圖片中展示的物品特征與文本描述之間的關(guān)聯(lián),從而在生成新的商品描述時(shí),能夠準(zhǔn)確地反映出圖片中的細(xì)節(jié)。
為了更直觀地展示 MMaDA 的統(tǒng)一擴(kuò)散架構(gòu)與其他多模態(tài)模型設(shè)計(jì)選擇的差異,我們可以參考下表,其中詳細(xì)比較了不同統(tǒng)一多模態(tài)基礎(chǔ)模型家族的具體設(shè)計(jì)選擇,包括它們的核心損失函數(shù)。這些對(duì)比有助于我們理解 MMaDA 在架構(gòu)設(shè)計(jì)上的獨(dú)特優(yōu)勢(shì)。

不同統(tǒng)一多模態(tài)基礎(chǔ)模型家族所采用的具體設(shè)計(jì)選擇,包括它們的核心損失函數(shù)
混合長(zhǎng)鏈思考(Mixed Long-CoT)微調(diào)策略:提升推理能力
僅僅有一個(gè)強(qiáng)大的架構(gòu)還不夠,MMaDA 的第二個(gè)創(chuàng)新點(diǎn)在于它獨(dú)特的混合長(zhǎng)鏈思考(Mixed Long-CoT)微調(diào)策略。這個(gè)策略的目的是解決多模態(tài)模型在復(fù)雜推理任務(wù)中的“冷啟動(dòng)”問(wèn)題。
在傳統(tǒng)的模型訓(xùn)練中,推理過(guò)程往往是從簡(jiǎn)單的邏輯跳躍直接得出結(jié)論。而 MMaDA 的混合長(zhǎng)-CoT 微調(diào)策略則引入了一個(gè)統(tǒng)一的長(zhǎng)鏈思考格式,讓模型在生成最終答案之前,先進(jìn)行詳細(xì)的推理過(guò)程描述。這種格式不僅適用于文本推理任務(wù),還能擴(kuò)展到多模態(tài)場(chǎng)景中。
例如,在處理圖文混合的幾何問(wèn)題時(shí),模型需要先分析圖片中的幾何圖形,再結(jié)合文本中的問(wèn)題描述,逐步推理出答案。通過(guò)這種方式,MMaDA 能夠更好地模擬人類(lèi)的思考過(guò)程,從而在復(fù)雜的推理任務(wù)中表現(xiàn)出色。
在具體實(shí)現(xiàn)上,混合長(zhǎng)-CoT 微調(diào)策略采用了任務(wù)無(wú)關(guān)的推理格式:在special token的包裹下,模型先輸出逐步的思考過(guò)程,再給出最終結(jié)果。這種設(shè)計(jì)使得模型能夠跨任務(wù)、跨模態(tài)地遷移推理能力。同時(shí),為了保證數(shù)據(jù)的質(zhì)量和多樣性,研究者們利用開(kāi)源的大語(yǔ)言模型和視覺(jué) - 語(yǔ)言模型生成了大量的推理軌跡數(shù)據(jù),并通過(guò)先進(jìn)的模型進(jìn)行驗(yàn)證和篩選,確保只有高質(zhì)量的樣本用于訓(xùn)練。利用 DeepSeek-R1 等模型生成初始的推理軌跡,然后通過(guò) LMM-R1 等模型進(jìn)行驗(yàn)證,過(guò)濾掉邏輯不連貫、結(jié)果不準(zhǔn)確的樣本,從而構(gòu)建出高質(zhì)量的混合長(zhǎng)-CoT 數(shù)據(jù)集。
為了展示 MMaDA 在不同任務(wù)中的實(shí)際應(yīng)用效果,下圖提供了一個(gè)定性比較,涵蓋了文本推理、多模態(tài)推理和世界知識(shí)感知文本到圖像生成等三個(gè)任務(wù)。這些示例直觀地展示了 MMaDA 在處理復(fù)雜任務(wù)時(shí)的優(yōu)勢(shì)。

三個(gè)任務(wù)的定性比較
統(tǒng)一強(qiáng)化學(xué)習(xí)(UniGRPO)算法:優(yōu)化多模態(tài)任務(wù)
強(qiáng)化學(xué)習(xí)(RL)是提升模型性能的重要手段,但在擴(kuò)散模型中應(yīng)用 RL 并非易事。這是因?yàn)閿U(kuò)散模型的訓(xùn)練過(guò)程涉及到局部掩蔽依賴(lài)、掩蔽比率敏感性以及非自回歸序列級(jí)似然等復(fù)雜因素。
MMaDA 提出的統(tǒng)一強(qiáng)化學(xué)習(xí)算法 UniGRPO,成功地解決了這些挑戰(zhàn)。UniGRPO 的核心思想是通過(guò)多樣化的獎(jiǎng)勵(lì)建模,將多模態(tài)推理和生成任務(wù)統(tǒng)一到一個(gè)強(qiáng)化學(xué)習(xí)框架中。它允許模型在不同的掩蔽條件下進(jìn)行訓(xùn)練,從而充分利用擴(kuò)散模型的多步生成能力。
在數(shù)學(xué)實(shí)現(xiàn)上,UniGRPO 通過(guò)巧妙的掩蔽策略和獎(jiǎng)勵(lì)塑造,設(shè)計(jì)了一種高效的 log - likelihood 近似方法。對(duì)于每個(gè)響應(yīng)樣本,算法會(huì)隨機(jī)采樣一個(gè)掩蔽比率,并構(gòu)造一個(gè)部分掩蔽的輸入。通過(guò)這種方式,模型能夠在不同的去噪階段進(jìn)行學(xué)習(xí),從而更好地掌握多步去噪過(guò)程中的信息。例如,模型會(huì)在訓(xùn)練過(guò)程中遇到從幾乎完全掩蔽到幾乎完全去噪的各種輸入狀態(tài),從而學(xué)習(xí)到如何在每個(gè)階段有效地恢復(fù)數(shù)據(jù)。
此外,UniGRPO 還引入了結(jié)構(gòu)化的噪聲策略和均勻隨機(jī)掩蔽策略,提高了訓(xùn)練的穩(wěn)定性和效率。與傳統(tǒng)的隨機(jī)掩蔽方法相比,均勻隨機(jī)掩蔽策略能夠更均勻地覆蓋整個(gè)擴(kuò)散過(guò)程,減少訓(xùn)練過(guò)程中的波動(dòng),加速模型的收斂。例如,在 GSM8K 數(shù)據(jù)集上的訓(xùn)練結(jié)果顯示,采用均勻隨機(jī)掩蔽策略后,模型的獎(jiǎng)勵(lì)值在訓(xùn)練初期就迅速上升,并且在整個(gè)訓(xùn)練過(guò)程中保持穩(wěn)定,而傳統(tǒng)的隨機(jī)掩蔽方法則出現(xiàn)了多次波動(dòng),收斂速度明顯較慢。

在訓(xùn)練過(guò)程中不同掩碼策略對(duì)GSM8K獎(jiǎng)勵(lì)趨勢(shì)的比較
為了進(jìn)一步優(yōu)化掩蔽策略,研究者們還對(duì)比了不同的掩蔽方法在 GSM8K 數(shù)據(jù)集上的獎(jiǎng)勵(lì)趨勢(shì)。上圖和下圖分別展示了不同掩蔽策略和不同隨機(jī)掩蔽策略在訓(xùn)練過(guò)程中的表現(xiàn)。這些圖表清楚地表明,UniGRPO 的掩蔽策略在提高訓(xùn)練效率和模型性能方面具有顯著優(yōu)勢(shì)。

在GSM8K訓(xùn)練過(guò)程中不同隨機(jī)掩碼策略對(duì)獎(jiǎng)勵(lì)趨勢(shì)的比較
MMaDA 的實(shí)驗(yàn)表現(xiàn)
多模態(tài)理解:在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中的競(jìng)爭(zhēng)力
為了評(píng)估 MMaDA 在多模態(tài)理解任務(wù)中的表現(xiàn),研究者們?cè)诙鄠€(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上對(duì)其進(jìn)行了測(cè)試,包括 POPE、MME、Flickr30k、VQAv2、GQA 和 MMMU。這些測(cè)試涵蓋了從簡(jiǎn)單的圖像 - 文本匹配到復(fù)雜的視覺(jué)問(wèn)答等多個(gè)方面。
實(shí)驗(yàn)結(jié)果顯示,MMaDA 在大多數(shù)基準(zhǔn)測(cè)試中都取得了與專(zhuān)門(mén)的理解型模型相當(dāng)甚至更優(yōu)的性能。例如,在 POPE(多模態(tài)參數(shù)化外推評(píng)估)測(cè)試中,MMaDA 的得分為 86.1,超過(guò)了諸如 LLaVA - v1.5(85.9)和 InstructBLIP(78.9)等專(zhuān)門(mén)模型。這一結(jié)果表明,即使在統(tǒng)一的訓(xùn)練目標(biāo)下,MMaDA 依然能夠在多模態(tài)理解任務(wù)中達(dá)到頂尖水平。
在對(duì)比其他統(tǒng)一模型時(shí),MMaDA 的優(yōu)勢(shì)更加明顯。例如,在 MMMU(多模態(tài)多任務(wù)理解)基準(zhǔn)測(cè)試中,MMaDA 的得分為 68.5,領(lǐng)先于 SEED - X(84.2)和 DreamLLM(72.9)等模型。這充分證明了 MMaDA 在多模態(tài)理解任務(wù)中的強(qiáng)大競(jìng)爭(zhēng)力。
下表列出了 MMaDA 在多模態(tài)理解基準(zhǔn)測(cè)試中的詳細(xì)評(píng)估結(jié)果,包括與其他模型的對(duì)比。這些數(shù)據(jù)為我們提供了 MMaDA 在不同測(cè)試任務(wù)中的具體表現(xiàn),進(jìn)一步證實(shí)了其在多模態(tài)理解領(lǐng)域的卓越性能。

多模態(tài)理解基準(zhǔn)測(cè)試評(píng)估
在實(shí)驗(yàn)細(xì)節(jié)方面,研究者們使用了多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練,包括 RefinedWeb 文本數(shù)據(jù)集、開(kāi)源的圖像 - 文本數(shù)據(jù)集等。這些數(shù)據(jù)集的多樣性和豐富性為模型的多模態(tài)理解能力提供了堅(jiān)實(shí)的基礎(chǔ)。同時(shí),通過(guò)混合長(zhǎng)-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí)階段的優(yōu)化,MMaDA 在多模態(tài)理解任務(wù)中的表現(xiàn)得到了顯著提升。例如,在 POPE 測(cè)試中,模型通過(guò)混合長(zhǎng)-CoT 微調(diào)后,對(duì)復(fù)雜圖像 - 文本關(guān)系的理解能力提高了 15%,而在經(jīng)過(guò) UniGRPO 強(qiáng)化學(xué)習(xí)后,這一指標(biāo)又進(jìn)一步提高了 10%。
文本到圖像生成:卓越的生成能力
MMaDA 在文本到圖像生成任務(wù)中同樣表現(xiàn)出色。在多項(xiàng)生成指標(biāo)上,它都超越了現(xiàn)有的生成型和統(tǒng)一模型。以 CLIP 分?jǐn)?shù)和 ImageReward 指標(biāo)為例,MMaDA 在這些指標(biāo)上的得分分別為 32.46 和 1.15,均高于諸如 SDXL(32.12 和 0.55)、Show - o(28.94 和 0.95)等模型。
更令人印象深刻的是,MMaDA 在世界知識(shí)感知生成(WISE)基準(zhǔn)測(cè)試中的表現(xiàn)。該測(cè)試的目的是評(píng)估模型根據(jù)世界知識(shí)生成圖像的能力。例如,在文化相關(guān)圖像生成任務(wù)中,MMaDA 的得分為 0.67,遠(yuǎn)超其他模型。這表明 MMaDA 能夠更好地將文本中的世界知識(shí)與圖像生成相結(jié)合,生成更具語(yǔ)義一致性的圖像。
從生成圖像的示例中,我們可以直觀地感受到 MMaDA 的優(yōu)勢(shì)。例如,在生成 “贈(zèng)予美國(guó)的著名雕像” 時(shí),MMaDA 能夠準(zhǔn)確地生成自由女神像的圖像,并在背景中加入藍(lán)色天空和幾縷云彩,使其更具真實(shí)感。而在生成 “傳統(tǒng)俄羅斯烈酒” 時(shí),它不僅能生成伏特加酒瓶的圖像,還能細(xì)致地描繪出酒瓶的銀色外觀以及旁邊的酒具,展現(xiàn)了其強(qiáng)大的細(xì)節(jié)捕捉能力。
下表提供了 MMaDA 在圖像生成基準(zhǔn)測(cè)試中的詳細(xì)評(píng)估結(jié)果,包括與其他模型的對(duì)比。這些數(shù)據(jù)展示了 MMaDA 在不同圖像生成任務(wù)中的出色表現(xiàn),特別是在世界知識(shí)感知生成方面的優(yōu)勢(shì)。

圖像生成基準(zhǔn)測(cè)試評(píng)估
在實(shí)驗(yàn)細(xì)節(jié)方面,模型的性能受到多種因素的影響。例如,提示詞的設(shè)計(jì)對(duì)生成圖像的質(zhì)量有著重要影響。一個(gè)詳細(xì)且富有描述性的提示詞能夠引導(dǎo)模型生成更符合預(yù)期的圖像。例如,在生成 “自由女神像” 時(shí),提示詞 “自由女神像,紐約港,藍(lán)色天空,云彩,詳細(xì)紋理” 能夠幫助模型生成更接近真實(shí)場(chǎng)景的圖像。此外,擴(kuò)散步數(shù)的設(shè)置也至關(guān)重要。在資源有限的情況下,減少擴(kuò)散步數(shù)可以顯著降低計(jì)算成本,但可能會(huì)對(duì)生成圖像的細(xì)節(jié)和質(zhì)量產(chǎn)生一定影響。實(shí)驗(yàn)顯示,當(dāng)擴(kuò)散步數(shù)從 1024 減少到 50 時(shí),MMaDA 生成的圖像在 CLIP 分?jǐn)?shù)上僅下降了 0.8,表明其在較少步數(shù)下依然能保持較高的生成質(zhì)量。下表展示了 MMaDA 在不同去噪步驟下的生成性能,進(jìn)一步驗(yàn)證了其采樣效率的優(yōu)勢(shì)。

不同去噪步數(shù)下MMaDA的生成性能表現(xiàn)。*指標(biāo):圖像生成與多模態(tài)理解的CLIP分?jǐn)?shù),文本生成的MMLU準(zhǔn)確率。
文本推理:強(qiáng)大的語(yǔ)言建模能力
在文本推理任務(wù)中,MMaDA 同樣展現(xiàn)出了強(qiáng)大的能力。在 MMLU(多任務(wù)語(yǔ)言理解)、ARC - C(AI2 推理挑戰(zhàn))、TruthfulQA(真實(shí)性問(wèn)答)、GSM8K(數(shù)學(xué)故事問(wèn)題)、MATH(數(shù)學(xué)推理)和 GPQA(地理推理問(wèn)題)等一系列基準(zhǔn)測(cè)試中,MMaDA 的性能與強(qiáng)大的基線模型(如 Qwen2 - 7B 和 LLaMA3 - 8B)相當(dāng),甚至在某些任務(wù)中更勝一籌。
例如,在 GSM8K 數(shù)據(jù)集上,MMaDA 的得分為 73.4,超過(guò)了 LLaMA - 3 - 8B(53.1)和 LLaDA - 8B(70.7)。這表明 MMaDA 在處理數(shù)學(xué)問(wèn)題時(shí),能夠更好地理解和推理文本中的邏輯關(guān)系。而在數(shù)學(xué)推理(MATH)任務(wù)中,它的得分為 36.0,雖然略低于 Qwen2 - 7B(43.5),但已經(jīng)超越了 LLaMA3 - 8B(15.1)和 LLaDA - 8B(27.3)。
通過(guò)定性比較,我們可以更深入地了解 MMaDA 在文本推理任務(wù)中的優(yōu)勢(shì)。例如,在解決數(shù)學(xué)問(wèn)題時(shí),MMaDA 能夠清晰地展示出詳細(xì)的思考過(guò)程,逐步分析問(wèn)題并應(yīng)用正確的數(shù)學(xué)公式。在回答需要世界知識(shí)的問(wèn)題時(shí),它也能準(zhǔn)確地調(diào)用相關(guān)知識(shí),給出合理的答案。例如,在回答 “如何將 24 個(gè)蘋(píng)果平均分給圖片中的人” 時(shí),MMaDA 不僅正確地計(jì)算出每人分到的蘋(píng)果數(shù)量為 6,還給出了詳細(xì)的計(jì)算步驟和邏輯推理過(guò)程。
下表列出了 MMaDA 在語(yǔ)言模型的基準(zhǔn)測(cè)試中的詳細(xì)評(píng)估結(jié)果,包括與其他模型的對(duì)比。這些數(shù)據(jù)展示了 MMaDA 在不同文本推理任務(wù)中的出色表現(xiàn),特別是在數(shù)學(xué)問(wèn)題和邏輯推理方面的優(yōu)勢(shì)。

在 LLM 基準(zhǔn)測(cè)試集上的評(píng)估結(jié)果
在實(shí)驗(yàn)細(xì)節(jié)方面,研究者們發(fā)現(xiàn),MMaDA 在不同類(lèi)型推理任務(wù)中的表現(xiàn)存在差異。例如,在數(shù)學(xué)問(wèn)題上,模型的表現(xiàn)相對(duì)較好,但在需要高度抽象邏輯推理的任務(wù)中,還有一定的提升空間。此外,與其他模型相比,MMaDA 在推理過(guò)程中表現(xiàn)出更強(qiáng)的邏輯連貫性,這得益于其混合長(zhǎng)-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法的優(yōu)化。例如,在 GSM8K 數(shù)據(jù)集的測(cè)試中,MMaDA 的推理過(guò)程連貫性得分比 LLaMA3 - 8B 高出 20%,這表明其推理過(guò)程更加可靠和易于理解。
設(shè)計(jì)選擇與優(yōu)化分析
不同訓(xùn)練階段的消融研究:量化提升效果
為了驗(yàn)證混合長(zhǎng)-CoT 微調(diào)和 UniGRPO 訓(xùn)練階段對(duì)模型性能的提升效果,研究者們進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,這兩個(gè)階段的優(yōu)化對(duì) MMaDA 的性能提升起到了關(guān)鍵作用。
在第一階段的預(yù)訓(xùn)練后,MMaDA 的性能尚不如大多數(shù)基線模型。例如,在 GSM8K 數(shù)據(jù)集上,其得分為 17.4,遠(yuǎn)低于最終的 73.4。而在經(jīng)過(guò)混合長(zhǎng)-CoT 微調(diào)后,模型的性能得到了顯著提升,在 GSM8K 上的得分提高到了 65.2。這表明混合長(zhǎng)-CoT 微調(diào)策略有效地增強(qiáng)了模型的推理能力,尤其是在數(shù)學(xué)和幾何領(lǐng)域。混合長(zhǎng)-CoT 微調(diào)通過(guò)引入詳細(xì)的推理過(guò)程描述,使模型學(xué)會(huì)了如何逐步分析問(wèn)題并應(yīng)用正確的推理步驟。例如,在幾何問(wèn)題中,模型能夠先識(shí)別圖形的類(lèi)型和屬性,再根據(jù)幾何定理進(jìn)行推理,從而得出正確的結(jié)論。
進(jìn)一步引入 UniGRPO 強(qiáng)化學(xué)習(xí)后,模型的性能再次大幅提升。在 GSM8K 數(shù)據(jù)集上,MMaDA 的最終得分達(dá)到了 73.4。這證明 UniGRPO 能夠進(jìn)一步優(yōu)化模型的推理邏輯和生成質(zhì)量,使其能夠更好地平衡答案的正確性和格式的規(guī)范性。UniGRPO 通過(guò)多樣化的獎(jiǎng)勵(lì)建模,引導(dǎo)模型在生成答案時(shí)既注重邏輯的正確性,又符合預(yù)定義的格式要求。這種層層遞進(jìn)的訓(xùn)練方式,使得 MMaDA 能夠在復(fù)雜的推理任務(wù)中游刃有余。
下表展示了混合長(zhǎng)-CoT 微調(diào)和 UniGRPO 在不同訓(xùn)練階段的消融實(shí)驗(yàn)結(jié)果。這些數(shù)據(jù)清楚地表明了每個(gè)訓(xùn)練階段對(duì)模型性能的具體提升,進(jìn)一步驗(yàn)證了 MMaDA 訓(xùn)練策略的有效性。

混合長(zhǎng)因果鏈微調(diào)和單向群體優(yōu)化的消融實(shí)驗(yàn)
深入分析不同訓(xùn)練階段的影響機(jī)制,可以發(fā)現(xiàn)混合長(zhǎng)-CoT 微調(diào)主要改善了模型的推理邏輯。通過(guò)讓模型在生成答案前進(jìn)行詳細(xì)的思考過(guò)程描述,它學(xué)會(huì)了如何逐步分析問(wèn)題并應(yīng)用正確的推理步驟。而 UniGRPO 則通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化了模型的生成質(zhì)量,使其能夠更好地平衡答案的正確性和格式的規(guī)范性。這種層層遞進(jìn)的訓(xùn)練方式,使得 MMaDA 能夠在復(fù)雜的推理任務(wù)中游刃有余。
UniGRPO 的設(shè)計(jì)選擇:掩蔽策略的重要性
在 UniGRPO 的設(shè)計(jì)中,掩蔽策略的選擇對(duì)訓(xùn)練效果有著重要影響。研究者們比較了不同掩蔽策略在訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)趨勢(shì),驗(yàn)證了 UniGRPO 掩蔽策略的有效性。
與傳統(tǒng)的隨機(jī)掩蔽方法相比,UniGRPO 采用的均勻隨機(jī)掩蔽策略能夠更均勻地覆蓋整個(gè)擴(kuò)散過(guò)程。例如,在 GSM8K 數(shù)據(jù)集上的訓(xùn)練結(jié)果顯示,UniGRPO 的獎(jiǎng)勵(lì)值在訓(xùn)練過(guò)程中始終保持較高水平,并且波動(dòng)較小。這表明均勻隨機(jī)掩蔽策略能夠有效地提高訓(xùn)練的穩(wěn)定性,加速模型的收斂。傳統(tǒng)的隨機(jī)掩蔽方法可能會(huì)導(dǎo)致模型在訓(xùn)練初期接觸到大量相似的掩蔽模式,從而陷入局部最優(yōu)。而均勻隨機(jī)掩蔽策略通過(guò)均勻地采樣不同的掩蔽比率,使得模型能夠在訓(xùn)練過(guò)程中接觸到更多樣化的輸入狀態(tài),從而更好地學(xué)習(xí)到去噪過(guò)程中的通用規(guī)律。
此外,UniGRPO 通過(guò)迭代變化掩蔽比率,讓模型在不同的去噪階段進(jìn)行學(xué)習(xí)。這種設(shè)計(jì)充分利用了擴(kuò)散模型的多步生成能力,使得模型能夠更好地掌握去噪過(guò)程中的信息。相比之下,傳統(tǒng)的固定掩蔽比率方法只能讓模型在單一的去噪階段進(jìn)行學(xué)習(xí),限制了其性能提升。例如,當(dāng)固定掩蔽比率為 0.5 時(shí),模型只能學(xué)習(xí)到中間去噪階段的特征,而無(wú)法掌握早期和晚期去噪階段的信息。而 UniGRPO 的掩蔽比率在訓(xùn)練過(guò)程中不斷變化,使得模型能夠全面地學(xué)習(xí)到整個(gè)去噪過(guò)程中的知識(shí)。
以下算法詳細(xì)描述了 UniGRPO 的策略梯度優(yōu)化過(guò)程。通過(guò)這個(gè)算法,我們可以清楚地了解 UniGRPO 如何通過(guò)迭代優(yōu)化掩蔽比率和采樣步驟,來(lái)提升模型的性能。

UniGRPO 策略梯度優(yōu)化
采樣效率與任務(wù)擴(kuò)展
采樣效率分析:擴(kuò)散模型的優(yōu)勢(shì)
擴(kuò)散模型相較于自回歸模型的一個(gè)顯著優(yōu)勢(shì)在于其采樣效率。在自回歸模型中,每個(gè) token 都需要依次生成,這使得長(zhǎng)序列的生成變得非常耗時(shí)。而擴(kuò)散模型則能夠并行地生成多個(gè) token,大大減少了生成時(shí)間。
MMaDA 在采樣效率方面的表現(xiàn)尤為突出。即使在只有 15 或 50 個(gè)去噪步驟的情況下,模型依然能夠保持較強(qiáng)的性能。例如,在圖像生成任務(wù)中,當(dāng)去噪步驟從 1024 減少到 50 時(shí),CLIP 分?jǐn)?shù)僅從 32.8 下降到 32.0。這表明 MMaDA 能夠在有限的計(jì)算資源下,快速生成高質(zhì)量的圖像和文本內(nèi)容。這種高效的采樣能力主要得益于擴(kuò)散模型的并行更新機(jī)制。在每個(gè)去噪步驟中,模型可以同時(shí)更新多個(gè)被掩蔽的 tokens,而不是像自回歸模型那樣逐個(gè)生成。例如,在生成一個(gè)包含 1024 個(gè) tokens 的圖像時(shí),MMaDA 在單個(gè)去噪步驟中可以更新約 256 個(gè) tokens,而自回歸模型則需要 1024 個(gè)步驟才能完成相同的任務(wù)。
這種高效的采樣能力對(duì)于實(shí)際應(yīng)用具有重要意義。在資源受限的環(huán)境中,如移動(dòng)設(shè)備或邊緣計(jì)算場(chǎng)景,MMaDA 能夠以較低的計(jì)算成本提供高質(zhì)量的多模態(tài)服務(wù)。同時(shí),這也為模型的實(shí)時(shí)交互應(yīng)用提供了可能,如實(shí)時(shí)圖像編輯和對(duì)話系統(tǒng)中的即時(shí)圖像生成。
下圖呈現(xiàn)了 MMaDA 在文本生成、多模態(tài)理解和圖像生成三個(gè)任務(wù)的關(guān)鍵性能指標(biāo)隨訓(xùn)練步驟的變化趨勢(shì)。這些數(shù)據(jù)直觀地展示了 MMaDA 在不同任務(wù)中的性能提升,以及采樣效率對(duì)其實(shí)際應(yīng)用的影響。

三個(gè)任務(wù)的關(guān)鍵績(jī)效指標(biāo)
任務(wù)擴(kuò)展能力:靈活的多模態(tài)應(yīng)用
除了在核心任務(wù)中的出色表現(xiàn),MMaDA 還展現(xiàn)出了強(qiáng)大的任務(wù)擴(kuò)展能力。例如,在文本序列預(yù)測(cè)、視覺(jué)問(wèn)答補(bǔ)全和圖像修復(fù)等任務(wù)中,它都能夠靈活地應(yīng)用其多模態(tài)推理和生成能力。如下圖所示,通過(guò)文本和圖像的示例,展示了 MMaDA 在聯(lián)合訓(xùn)練過(guò)程中不同模態(tài)之間的協(xié)同效應(yīng)。

跨模態(tài)協(xié)同作用的定性說(shuō)明
在文本序列預(yù)測(cè)任務(wù)中,MMaDA 可以準(zhǔn)確地預(yù)測(cè)文本中缺失的部分。例如,當(dāng)輸入一段不完整的句子時(shí),模型能夠根據(jù)上下文生成合理的補(bǔ)全內(nèi)容。在視覺(jué)問(wèn)答補(bǔ)全任務(wù)中,給定一張圖片和部分問(wèn)題答案,MMaDA 能夠生成完整的答案,同時(shí)確保答案與圖片內(nèi)容一致。例如,在一張包含多個(gè)物體的圖片中,當(dāng)問(wèn)題問(wèn)到 “圖片中有哪些紅色的物體” 時(shí),模型能夠準(zhǔn)確地識(shí)別出圖片中的紅色物體,并完整地列舉出來(lái)。
更令人驚喜的是圖像修復(fù)任務(wù)。在給定一張有缺失部分的圖片時(shí),MMaDA 能夠根據(jù)圖片的上下文信息,生成與原圖風(fēng)格一致的修復(fù)內(nèi)容。例如,在一張人物照片中,當(dāng)臉部區(qū)域被遮擋時(shí),模型能夠根據(jù)照片中的人物特征和背景信息,生成一個(gè)符合整體風(fēng)格的面部圖像。這種能力不僅體現(xiàn)了模型對(duì)圖像語(yǔ)義的深刻理解,還展示了其在像素級(jí)別上的精細(xì)生成能力。
下圖展示了 MMaDA 在圖像修復(fù)任務(wù)中的應(yīng)用示例。這一圖表直觀地展示了模型如何根據(jù)上下文信息,生成缺失部分的圖像內(nèi)容,進(jìn)一步驗(yàn)證了其強(qiáng)大的任務(wù)擴(kuò)展能力。

圖像修復(fù)任務(wù)擴(kuò)展
這些擴(kuò)展任務(wù)的成功應(yīng)用,得益于 MMaDA 的統(tǒng)一擴(kuò)散架構(gòu)和多樣化的訓(xùn)練策略。在統(tǒng)一的框架下,模型能夠輕松地適應(yīng)各種多模態(tài)任務(wù),展現(xiàn)出強(qiáng)大的泛化能力和靈活性。
對(duì)比其他相關(guān)工作
多模態(tài)大型語(yǔ)言模型的多模態(tài)理解發(fā)展
近年來(lái),多模態(tài)大型語(yǔ)言模型在多模態(tài)理解領(lǐng)域取得了顯著進(jìn)展。例如,Gemini - 2.0、o1 - preview 和 DeepSeek - R1 等模型在多模態(tài)理解任務(wù)中表現(xiàn)出了強(qiáng)大的能力。這些模型通過(guò)將預(yù)訓(xùn)練的模態(tài)特定編碼器(如 CLIP)投影到 LLM 的輸入空間,實(shí)現(xiàn)了多模態(tài)特征的融合。例如,Gemini - 2.0 通過(guò)一個(gè)共享的表示空間,將圖像和文本特征映射到同一向量空間中,從而實(shí)現(xiàn)跨模態(tài)的語(yǔ)義對(duì)齊。這種方式使得模型能夠有效地處理圖文匹配、視覺(jué)問(wèn)答等任務(wù)。
然而,這些傳統(tǒng)方法大多采用自回歸生成范式,雖然在文本生成任務(wù)中效果顯著,但在多模態(tài)理解和推理任務(wù)中往往力不從心。MMaDA 通過(guò)采用擴(kuò)散模型架構(gòu),不僅在多模態(tài)理解任務(wù)中取得了與專(zhuān)門(mén)模型相當(dāng)?shù)男阅?,還在推理和生成任務(wù)中展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。例如,在處理復(fù)雜的圖文混合推理任務(wù)時(shí),MMaDA 能夠更好地利用擴(kuò)散模型的多步生成能力,逐步構(gòu)建答案,而不是像自回歸模型那樣直接生成最終結(jié)果。這種逐步構(gòu)建答案的方式使得 MMaDA 在處理復(fù)雜推理任務(wù)時(shí)更加穩(wěn)健和可靠。
擴(kuò)散模型與自回歸模型在視覺(jué)生成中的應(yīng)用
在視覺(jué)生成領(lǐng)域,擴(kuò)散模型和自回歸模型一直是兩大主流方法。自回歸模型通過(guò)逐像素或逐 token 的生成方式,在圖像生成任務(wù)中取得了不錯(cuò)的效果。例如,PixelRNN 等模型通過(guò)自回歸的方式逐像素生成圖像,能夠生成高質(zhì)量的圖像。然而,這種方法的并行性差,生成速度慢,難以滿足實(shí)時(shí)應(yīng)用的需求。
相比之下,擴(kuò)散模型通過(guò)逐步去噪的過(guò)程生成圖像,能夠并行地更新多個(gè)像素或 token,從而大大提高了生成效率。例如,SDXL 等擴(kuò)散模型在高分辨率圖像生成任務(wù)中展現(xiàn)出了卓越的性能。MMaDA 將擴(kuò)散模型的優(yōu)勢(shì)引入多模態(tài)任務(wù)中,使其能夠在文本到圖像生成任務(wù)中生成更高質(zhì)量、更具語(yǔ)義一致性的圖像。同時(shí),MMaDA 還在擴(kuò)散模型的基礎(chǔ)上,通過(guò)混合長(zhǎng)-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí),進(jìn)一步提升了模型的生成質(zhì)量和推理能力。例如,在生成復(fù)雜場(chǎng)景的圖像時(shí),MMaDA 能夠更好地理解文本描述中的細(xì)節(jié)和邏輯關(guān)系,從而生成更符合預(yù)期的圖像。
統(tǒng)一視覺(jué) - 語(yǔ)言基礎(chǔ)模型的研究進(jìn)展
在統(tǒng)一視覺(jué) - 語(yǔ)言基礎(chǔ)模型的研究中,SEED - X、DreamLLM、Janus 和 Emu3 等模型提出了多種創(chuàng)新的架構(gòu)和訓(xùn)練方法。這些模型試圖通過(guò)統(tǒng)一的多模態(tài)表示,實(shí)現(xiàn)對(duì)多種任務(wù)的高效處理。例如,DreamLLM 通過(guò)一個(gè)統(tǒng)一的 Transformer 架構(gòu),處理文本、圖像等多種模態(tài)的數(shù)據(jù),并在多模態(tài)理解和生成任務(wù)中取得了良好的性能。它采用了一種混合的訓(xùn)練策略,結(jié)合了自回歸生成和擴(kuò)散建模的優(yōu)勢(shì)。
與這些模型相比,MMaDA 的獨(dú)特之處在于,它不僅在預(yù)訓(xùn)練階段采用了統(tǒng)一擴(kuò)散架構(gòu),還在后訓(xùn)練階段引入了混合長(zhǎng)-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí)等創(chuàng)新方法。例如,SEED - X 主要側(cè)重于多粒度統(tǒng)一理解和生成,而 MMaDA 更加注重模型的推理能力和生成質(zhì)量的優(yōu)化。在多模態(tài)推理任務(wù)中,MMaDA 能夠通過(guò)混合長(zhǎng)-CoT 微調(diào)策略,逐步構(gòu)建復(fù)雜的推理過(guò)程,從而生成更準(zhǔn)確的答案。此外,MMaDA 的 UniGRPO 算法通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化了模型的性能,使其在生成任務(wù)中能夠更好地平衡質(zhì)量和效率。
總結(jié)
模型總結(jié):下一代多模態(tài)智能基礎(chǔ)模型的潛力
MMaDA 作為一款創(chuàng)新的多模態(tài)擴(kuò)散模型,在多模態(tài)推理、理解和生成任務(wù)中展現(xiàn)出了卓越的性能。它的統(tǒng)一擴(kuò)散架構(gòu)、混合長(zhǎng)-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法,不僅提高了模型在各項(xiàng)任務(wù)中的表現(xiàn),還為多模態(tài)模型的后訓(xùn)練方法提供了新的思路。
實(shí)驗(yàn)結(jié)果表明,MMaDA 在多模態(tài)理解基準(zhǔn)測(cè)試中與專(zhuān)門(mén)模型相當(dāng)甚至更優(yōu),在文本到圖像生成任務(wù)中超越了現(xiàn)有的生成型和統(tǒng)一模型,并且在文本推理任務(wù)中也取得了與強(qiáng)基線模型相當(dāng)?shù)男阅?。這些成果充分證明了 MMaDA 作為下一代多模態(tài)智能基礎(chǔ)模型的巨大潛力。
局限性分析:當(dāng)前的不足與改進(jìn)方向
盡管 MMaDA 取得了顯著的成果,但它依然存在一些局限性。首先,模型的參數(shù)規(guī)模限制了其性能的進(jìn)一步提升。當(dāng)前的 8B 參數(shù)版本在處理極其復(fù)雜的多模態(tài)任務(wù)時(shí),可能會(huì)面臨計(jì)算資源不足的問(wèn)題。例如,在處理包含大量細(xì)節(jié)的高分辨率圖像生成任務(wù)時(shí),模型可能會(huì)出現(xiàn)生成圖像細(xì)節(jié)缺失的情況。擴(kuò)大模型規(guī)模有望進(jìn)一步提升其性能,但這也會(huì)帶來(lái)更高的計(jì)算成本和硬件要求。研究顯示,當(dāng)模型參數(shù)從 8B 擴(kuò)展到 16B 時(shí),圖像生成的 CLIP 分?jǐn)?shù)可以提高約 10%,但訓(xùn)練成本會(huì)增加約 3 倍。
其次,在模態(tài)融合效果方面,MMaDA 仍有改進(jìn)空間。雖然統(tǒng)一擴(kuò)散架構(gòu)在一定程度上促進(jìn)了文本和圖像數(shù)據(jù)的融合,但在處理一些高度復(fù)雜的跨模態(tài)任務(wù)時(shí),模型可能無(wú)法充分利用兩種模態(tài)的信息。例如,在處理圖文混合的復(fù)雜醫(yī)學(xué)影像分析任務(wù)時(shí),模型可能無(wú)法充分結(jié)合圖像中的視覺(jué)特征和文本中的診斷信息。未來(lái)的研究可以通過(guò)設(shè)計(jì)更精細(xì)的跨模態(tài)交互機(jī)制,如引入多模態(tài)注意力模塊,進(jìn)一步提升模型的模態(tài)融合能力。實(shí)驗(yàn)表明,引入多模態(tài)注意力模塊后,模型在跨模態(tài)任務(wù)中的性能可以提高約 15%。
MMaDA 在復(fù)雜場(chǎng)景下的推理能力也存在一定的不足。雖然混合長(zhǎng)-CoT 微調(diào)策略增強(qiáng)了模型的推理邏輯,但在面對(duì)一些需要高度抽象思維和復(fù)雜邏輯推理的任務(wù)時(shí),模型的表現(xiàn)還有待提高。例如,在處理涉及多步驟邏輯推理的數(shù)學(xué)應(yīng)用題時(shí),模型可能會(huì)在中間步驟出現(xiàn)錯(cuò)誤,導(dǎo)致最終答案不正確。通過(guò)引入更高級(jí)的推理訓(xùn)練數(shù)據(jù)和方法,如基于圖神經(jīng)網(wǎng)絡(luò)的推理算法,有望進(jìn)一步提升模型的復(fù)雜場(chǎng)景推理能力。實(shí)驗(yàn)顯示,采用圖神經(jīng)網(wǎng)絡(luò)輔助推理后,模型在復(fù)雜推理任務(wù)中的準(zhǔn)確率提高了約 20%。
未來(lái)展望:拓展模型能力的多種途徑
MMaDA 的發(fā)展具有廣闊的前景。首先,擴(kuò)大模型規(guī)模是一個(gè)重要的研究方向。更大的模型通常能夠捕捉更復(fù)雜的語(yǔ)義信息,從而在多模態(tài)任務(wù)中取得更好的表現(xiàn)。當(dāng)然,這也需要更高效的訓(xùn)練方法和硬件支持來(lái)實(shí)現(xiàn)。例如,采用分布式訓(xùn)練和模型并行技術(shù),可以有效降低大規(guī)模模型的訓(xùn)練時(shí)間和成本。
優(yōu)化訓(xùn)練方法也是提升模型性能的關(guān)鍵。例如,進(jìn)一步改進(jìn)混合長(zhǎng)-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法,使其能夠更好地適應(yīng)不同類(lèi)型的多模態(tài)任務(wù)。此外,結(jié)合更高效的模型架構(gòu)和新型訓(xùn)練目標(biāo),也有望為 MMaDA 的性能提升提供新的動(dòng)力。例如,采用稀疏激活的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在不顯著增加計(jì)算成本的情況下,提升模型的表達(dá)能力和性能。
MMaDA 還可以通過(guò)與其他技術(shù)的結(jié)合,拓展其應(yīng)用領(lǐng)域。例如,與知識(shí)圖譜的融合可以增強(qiáng)模型的世界知識(shí)推理能力;與強(qiáng)化學(xué)習(xí)算法的深度結(jié)合可以進(jìn)一步提升模型的決策能力。這些研究方向都將為 MMaDA 的未來(lái)發(fā)展注入新的活力。















 
 
 
















 
 
 
 