偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<s id="pe443"><var id="pe443"></var></s>

<menuitem id="pe443"></menuitem>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

MMaDA：多模態(tài)大型擴(kuò)散語言模型的創(chuàng)新突破

作者：肆零柒 2025-05-28 03:30:00

MMaDA（Multimodal Large Diffusion Language Models）正以其創(chuàng)新的統(tǒng)一擴(kuò)散架構(gòu)和先進(jìn)的后訓(xùn)練策略，引起研究者和 AI 工程師的注意。它不僅在文本推理、多模態(tài)理解和文本到圖像生成等任務(wù)中取得了卓越的性能，還為未來多模態(tài)智能基礎(chǔ)模型的發(fā)展提供了新的思路和解決方案。

大家好，我是肆〇柒。今天，我們來聊聊一篇來自普林斯頓大學(xué)、北京大學(xué)、清華大學(xué)和字節(jié)跳動的研究團(tuán)隊(duì)的最新成果——MMaDA（Multimodal Large Diffusion Language Models）。這項(xiàng)研究在多模態(tài)人工智能領(lǐng)域帶來了新的突破，其創(chuàng)新的統(tǒng)一擴(kuò)散架構(gòu)和先進(jìn)的后訓(xùn)練策略，為多模態(tài)任務(wù)的處理提供了全新的思路和解決方案。

在人工智能領(lǐng)域，大型語言模型（LLM）的橫空出世，徹底改變了自然語言處理的格局。從聊天機(jī)器人到智能寫作助手，這些模型展現(xiàn)出了驚人的語言理解和生成能力。隨著技術(shù)的發(fā)展，研究者們開始將目光投向多模態(tài)大型語言模型（MLLM），試圖讓模型同時掌握文本、圖像等多種數(shù)據(jù)類型的處理能力。

然而，在多模態(tài)模型的研究中，一個關(guān)鍵問題逐漸浮現(xiàn)：如何有效地對這些復(fù)雜的模型進(jìn)行后訓(xùn)練，尤其是非自回歸設(shè)置中的強(qiáng)化學(xué)習(xí)方法。傳統(tǒng)的自回歸模型在生成任務(wù)中表現(xiàn)出色，但在處理多模態(tài)數(shù)據(jù)時，常常受限于生成速度和跨模態(tài)理解能力。而非自回歸的擴(kuò)散模型，以其并行生成的優(yōu)勢和強(qiáng)大的數(shù)據(jù)建模能力，成為了多模態(tài)任務(wù)的新寵。

今天，我們要介紹的主角——MMaDA，就是這樣一種創(chuàng)新的多模態(tài)擴(kuò)散模型。它不僅在多模態(tài)理解、文本推理和文本到圖像生成等任務(wù)中取得了卓越的性能，還在后訓(xùn)練方法上做出了重要的探索。接下來，我們就一起深入了解 MMaDA 的核心創(chuàng)新點(diǎn)和實(shí)驗(yàn)表現(xiàn)。

MMaDA 模型的創(chuàng)新點(diǎn)

統(tǒng)一擴(kuò)散架構(gòu)：打破模態(tài)壁壘

MMaDA 的第一個核心創(chuàng)新，是它采用了統(tǒng)一擴(kuò)散架構(gòu)。這個架構(gòu)最大的亮點(diǎn)在于摒棄了傳統(tǒng)多模態(tài)模型中那些專門針對不同數(shù)據(jù)類型（比如文本和圖像）設(shè)計(jì)的特定組件。取而代之的，是一個共享概率模型和模態(tài)無關(guān)的設(shè)計(jì)，讓文本和圖像等不同類型的數(shù)據(jù)能夠在一個統(tǒng)一的框架下被處理。下圖展示了 MMaDA 的整體流程，包括預(yù)訓(xùn)練、混合長-CoT 微調(diào)和 UniGRPO 訓(xùn)練三個階段，以及在推理階段如何進(jìn)行多模態(tài)理解和生成任務(wù)

MMaDA流程概述

MMaDA 將文本和圖像都轉(zhuǎn)化為離散的 tokens。文本通過 LLaDA 的 tokenizer 進(jìn)行分詞，而圖像則借助 Show-o 的預(yù)訓(xùn)練圖像量化器，轉(zhuǎn)化為語義 tokens。例如，對于一張像素的圖像，編碼器將其轉(zhuǎn)化為個離散 tokens，每個 token 從 8192 個可能的選項(xiàng)中選取。這樣轉(zhuǎn)化后，無論是文本還是圖像，都能在擴(kuò)散模型的統(tǒng)一框架下進(jìn)行訓(xùn)練和推理。模型通過預(yù)測被 [MASK] token遮蔽的 tokens 來學(xué)習(xí)數(shù)據(jù)的分布，從而實(shí)現(xiàn)數(shù)據(jù)重建。在訓(xùn)練過程中，模型會學(xué)習(xí)到如何根據(jù)上下文信息，逐步恢復(fù)被遮蔽的部分，無論是文本中的詞語還是圖像中的像素模式。

這種統(tǒng)一架構(gòu)的優(yōu)勢在于，它不僅簡化了模型的結(jié)構(gòu)，降低了計(jì)算復(fù)雜度，還增強(qiáng)了不同模態(tài)數(shù)據(jù)之間的協(xié)同作用。在預(yù)訓(xùn)練階段，模型能夠同時從文本和圖像數(shù)據(jù)中學(xué)習(xí)，從而更好地捕捉跨模態(tài)的語義關(guān)聯(lián)。例如，在處理圖文混合的數(shù)據(jù)集時，模型可以同時理解圖片中的視覺信息和對應(yīng)的文本描述，進(jìn)而生成更準(zhǔn)確、更豐富的輸出。例如，在一個包含商品圖片和描述的數(shù)據(jù)庫中，MMaDA 可以學(xué)習(xí)到圖片中展示的物品特征與文本描述之間的關(guān)聯(lián)，從而在生成新的商品描述時，能夠準(zhǔn)確地反映出圖片中的細(xì)節(jié)。

為了更直觀地展示 MMaDA 的統(tǒng)一擴(kuò)散架構(gòu)與其他多模態(tài)模型設(shè)計(jì)選擇的差異，我們可以參考下表，其中詳細(xì)比較了不同統(tǒng)一多模態(tài)基礎(chǔ)模型家族的具體設(shè)計(jì)選擇，包括它們的核心損失函數(shù)。這些對比有助于我們理解 MMaDA 在架構(gòu)設(shè)計(jì)上的獨(dú)特優(yōu)勢。

不同統(tǒng)一多模態(tài)基礎(chǔ)模型家族所采用的具體設(shè)計(jì)選擇，包括它們的核心損失函數(shù)

混合長鏈思考（Mixed Long-CoT）微調(diào)策略：提升推理能力

僅僅有一個強(qiáng)大的架構(gòu)還不夠，MMaDA 的第二個創(chuàng)新點(diǎn)在于它獨(dú)特的混合長鏈思考（Mixed Long-CoT）微調(diào)策略。這個策略的目的是解決多模態(tài)模型在復(fù)雜推理任務(wù)中的“冷啟動”問題。

在傳統(tǒng)的模型訓(xùn)練中，推理過程往往是從簡單的邏輯跳躍直接得出結(jié)論。而 MMaDA 的混合長-CoT 微調(diào)策略則引入了一個統(tǒng)一的長鏈思考格式，讓模型在生成最終答案之前，先進(jìn)行詳細(xì)的推理過程描述。這種格式不僅適用于文本推理任務(wù)，還能擴(kuò)展到多模態(tài)場景中。

例如，在處理圖文混合的幾何問題時，模型需要先分析圖片中的幾何圖形，再結(jié)合文本中的問題描述，逐步推理出答案。通過這種方式，MMaDA 能夠更好地模擬人類的思考過程，從而在復(fù)雜的推理任務(wù)中表現(xiàn)出色。

在具體實(shí)現(xiàn)上，混合長-CoT 微調(diào)策略采用了任務(wù)無關(guān)的推理格式：在special token的包裹下，模型先輸出逐步的思考過程，再給出最終結(jié)果。這種設(shè)計(jì)使得模型能夠跨任務(wù)、跨模態(tài)地遷移推理能力。同時，為了保證數(shù)據(jù)的質(zhì)量和多樣性，研究者們利用開源的大語言模型和視覺 - 語言模型生成了大量的推理軌跡數(shù)據(jù)，并通過先進(jìn)的模型進(jìn)行驗(yàn)證和篩選，確保只有高質(zhì)量的樣本用于訓(xùn)練。利用 DeepSeek-R1 等模型生成初始的推理軌跡，然后通過 LMM-R1 等模型進(jìn)行驗(yàn)證，過濾掉邏輯不連貫、結(jié)果不準(zhǔn)確的樣本，從而構(gòu)建出高質(zhì)量的混合長-CoT 數(shù)據(jù)集。

為了展示 MMaDA 在不同任務(wù)中的實(shí)際應(yīng)用效果，下圖提供了一個定性比較，涵蓋了文本推理、多模態(tài)推理和世界知識感知文本到圖像生成等三個任務(wù)。這些示例直觀地展示了 MMaDA 在處理復(fù)雜任務(wù)時的優(yōu)勢。

三個任務(wù)的定性比較

統(tǒng)一強(qiáng)化學(xué)習(xí)（UniGRPO）算法：優(yōu)化多模態(tài)任務(wù)

強(qiáng)化學(xué)習(xí)（RL）是提升模型性能的重要手段，但在擴(kuò)散模型中應(yīng)用 RL 并非易事。這是因?yàn)閿U(kuò)散模型的訓(xùn)練過程涉及到局部掩蔽依賴、掩蔽比率敏感性以及非自回歸序列級似然等復(fù)雜因素。

MMaDA 提出的統(tǒng)一強(qiáng)化學(xué)習(xí)算法 UniGRPO，成功地解決了這些挑戰(zhàn)。UniGRPO 的核心思想是通過多樣化的獎勵建模，將多模態(tài)推理和生成任務(wù)統(tǒng)一到一個強(qiáng)化學(xué)習(xí)框架中。它允許模型在不同的掩蔽條件下進(jìn)行訓(xùn)練，從而充分利用擴(kuò)散模型的多步生成能力。

在數(shù)學(xué)實(shí)現(xiàn)上，UniGRPO 通過巧妙的掩蔽策略和獎勵塑造，設(shè)計(jì)了一種高效的 log - likelihood 近似方法。對于每個響應(yīng)樣本，算法會隨機(jī)采樣一個掩蔽比率，并構(gòu)造一個部分掩蔽的輸入。通過這種方式，模型能夠在不同的去噪階段進(jìn)行學(xué)習(xí)，從而更好地掌握多步去噪過程中的信息。例如，模型會在訓(xùn)練過程中遇到從幾乎完全掩蔽到幾乎完全去噪的各種輸入狀態(tài)，從而學(xué)習(xí)到如何在每個階段有效地恢復(fù)數(shù)據(jù)。

此外，UniGRPO 還引入了結(jié)構(gòu)化的噪聲策略和均勻隨機(jī)掩蔽策略，提高了訓(xùn)練的穩(wěn)定性和效率。與傳統(tǒng)的隨機(jī)掩蔽方法相比，均勻隨機(jī)掩蔽策略能夠更均勻地覆蓋整個擴(kuò)散過程，減少訓(xùn)練過程中的波動，加速模型的收斂。例如，在 GSM8K 數(shù)據(jù)集上的訓(xùn)練結(jié)果顯示，采用均勻隨機(jī)掩蔽策略后，模型的獎勵值在訓(xùn)練初期就迅速上升，并且在整個訓(xùn)練過程中保持穩(wěn)定，而傳統(tǒng)的隨機(jī)掩蔽方法則出現(xiàn)了多次波動，收斂速度明顯較慢。

在訓(xùn)練過程中不同掩碼策略對GSM8K獎勵趨勢的比較

為了進(jìn)一步優(yōu)化掩蔽策略，研究者們還對比了不同的掩蔽方法在 GSM8K 數(shù)據(jù)集上的獎勵趨勢。上圖和下圖分別展示了不同掩蔽策略和不同隨機(jī)掩蔽策略在訓(xùn)練過程中的表現(xiàn)。這些圖表清楚地表明，UniGRPO 的掩蔽策略在提高訓(xùn)練效率和模型性能方面具有顯著優(yōu)勢。

在GSM8K訓(xùn)練過程中不同隨機(jī)掩碼策略對獎勵趨勢的比較

MMaDA 的實(shí)驗(yàn)表現(xiàn)

多模態(tài)理解：在標(biāo)準(zhǔn)基準(zhǔn)測試中的競爭力

為了評估 MMaDA 在多模態(tài)理解任務(wù)中的表現(xiàn)，研究者們在多個標(biāo)準(zhǔn)基準(zhǔn)測試上對其進(jìn)行了測試，包括 POPE、MME、Flickr30k、VQAv2、GQA 和 MMMU。這些測試涵蓋了從簡單的圖像 - 文本匹配到復(fù)雜的視覺問答等多個方面。

實(shí)驗(yàn)結(jié)果顯示，MMaDA 在大多數(shù)基準(zhǔn)測試中都取得了與專門的理解型模型相當(dāng)甚至更優(yōu)的性能。例如，在 POPE（多模態(tài)參數(shù)化外推評估）測試中，MMaDA 的得分為 86.1，超過了諸如 LLaVA - v1.5（85.9）和 InstructBLIP（78.9）等專門模型。這一結(jié)果表明，即使在統(tǒng)一的訓(xùn)練目標(biāo)下，MMaDA 依然能夠在多模態(tài)理解任務(wù)中達(dá)到頂尖水平。

在對比其他統(tǒng)一模型時，MMaDA 的優(yōu)勢更加明顯。例如，在 MMMU（多模態(tài)多任務(wù)理解）基準(zhǔn)測試中，MMaDA 的得分為 68.5，領(lǐng)先于 SEED - X（84.2）和 DreamLLM（72.9）等模型。這充分證明了 MMaDA 在多模態(tài)理解任務(wù)中的強(qiáng)大競爭力。

下表列出了 MMaDA 在多模態(tài)理解基準(zhǔn)測試中的詳細(xì)評估結(jié)果，包括與其他模型的對比。這些數(shù)據(jù)為我們提供了 MMaDA 在不同測試任務(wù)中的具體表現(xiàn)，進(jìn)一步證實(shí)了其在多模態(tài)理解領(lǐng)域的卓越性能。

多模態(tài)理解基準(zhǔn)測試評估

在實(shí)驗(yàn)細(xì)節(jié)方面，研究者們使用了多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練，包括 RefinedWeb 文本數(shù)據(jù)集、開源的圖像 - 文本數(shù)據(jù)集等。這些數(shù)據(jù)集的多樣性和豐富性為模型的多模態(tài)理解能力提供了堅(jiān)實(shí)的基礎(chǔ)。同時，通過混合長-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí)階段的優(yōu)化，MMaDA 在多模態(tài)理解任務(wù)中的表現(xiàn)得到了顯著提升。例如，在 POPE 測試中，模型通過混合長-CoT 微調(diào)后，對復(fù)雜圖像 - 文本關(guān)系的理解能力提高了 15%，而在經(jīng)過 UniGRPO 強(qiáng)化學(xué)習(xí)后，這一指標(biāo)又進(jìn)一步提高了 10%。

文本到圖像生成：卓越的生成能力

MMaDA 在文本到圖像生成任務(wù)中同樣表現(xiàn)出色。在多項(xiàng)生成指標(biāo)上，它都超越了現(xiàn)有的生成型和統(tǒng)一模型。以 CLIP 分?jǐn)?shù)和 ImageReward 指標(biāo)為例，MMaDA 在這些指標(biāo)上的得分分別為 32.46 和 1.15，均高于諸如 SDXL（32.12 和 0.55）、Show - o（28.94 和 0.95）等模型。

更令人印象深刻的是，MMaDA 在世界知識感知生成（WISE）基準(zhǔn)測試中的表現(xiàn)。該測試的目的是評估模型根據(jù)世界知識生成圖像的能力。例如，在文化相關(guān)圖像生成任務(wù)中，MMaDA 的得分為 0.67，遠(yuǎn)超其他模型。這表明 MMaDA 能夠更好地將文本中的世界知識與圖像生成相結(jié)合，生成更具語義一致性的圖像。

從生成圖像的示例中，我們可以直觀地感受到 MMaDA 的優(yōu)勢。例如，在生成 “贈予美國的著名雕像” 時，MMaDA 能夠準(zhǔn)確地生成自由女神像的圖像，并在背景中加入藍(lán)色天空和幾縷云彩，使其更具真實(shí)感。而在生成 “傳統(tǒng)俄羅斯烈酒” 時，它不僅能生成伏特加酒瓶的圖像，還能細(xì)致地描繪出酒瓶的銀色外觀以及旁邊的酒具，展現(xiàn)了其強(qiáng)大的細(xì)節(jié)捕捉能力。

下表提供了 MMaDA 在圖像生成基準(zhǔn)測試中的詳細(xì)評估結(jié)果，包括與其他模型的對比。這些數(shù)據(jù)展示了 MMaDA 在不同圖像生成任務(wù)中的出色表現(xiàn)，特別是在世界知識感知生成方面的優(yōu)勢。

圖像生成基準(zhǔn)測試評估

在實(shí)驗(yàn)細(xì)節(jié)方面，模型的性能受到多種因素的影響。例如，提示詞的設(shè)計(jì)對生成圖像的質(zhì)量有著重要影響。一個詳細(xì)且富有描述性的提示詞能夠引導(dǎo)模型生成更符合預(yù)期的圖像。例如，在生成 “自由女神像” 時，提示詞 “自由女神像，紐約港，藍(lán)色天空，云彩，詳細(xì)紋理” 能夠幫助模型生成更接近真實(shí)場景的圖像。此外，擴(kuò)散步數(shù)的設(shè)置也至關(guān)重要。在資源有限的情況下，減少擴(kuò)散步數(shù)可以顯著降低計(jì)算成本，但可能會對生成圖像的細(xì)節(jié)和質(zhì)量產(chǎn)生一定影響。實(shí)驗(yàn)顯示，當(dāng)擴(kuò)散步數(shù)從 1024 減少到 50 時，MMaDA 生成的圖像在 CLIP 分?jǐn)?shù)上僅下降了 0.8，表明其在較少步數(shù)下依然能保持較高的生成質(zhì)量。下表展示了 MMaDA 在不同去噪步驟下的生成性能，進(jìn)一步驗(yàn)證了其采樣效率的優(yōu)勢。

不同去噪步數(shù)下MMaDA的生成性能表現(xiàn)。*指標(biāo)：圖像生成與多模態(tài)理解的CLIP分?jǐn)?shù)，文本生成的MMLU準(zhǔn)確率。

文本推理：強(qiáng)大的語言建模能力

在文本推理任務(wù)中，MMaDA 同樣展現(xiàn)出了強(qiáng)大的能力。在 MMLU（多任務(wù)語言理解）、ARC - C（AI2 推理挑戰(zhàn)）、TruthfulQA（真實(shí)性問答）、GSM8K（數(shù)學(xué)故事問題）、MATH（數(shù)學(xué)推理）和 GPQA（地理推理問題）等一系列基準(zhǔn)測試中，MMaDA 的性能與強(qiáng)大的基線模型（如 Qwen2 - 7B 和 LLaMA3 - 8B）相當(dāng)，甚至在某些任務(wù)中更勝一籌。

例如，在 GSM8K 數(shù)據(jù)集上，MMaDA 的得分為 73.4，超過了 LLaMA - 3 - 8B（53.1）和 LLaDA - 8B（70.7）。這表明 MMaDA 在處理數(shù)學(xué)問題時，能夠更好地理解和推理文本中的邏輯關(guān)系。而在數(shù)學(xué)推理（MATH）任務(wù)中，它的得分為 36.0，雖然略低于 Qwen2 - 7B（43.5），但已經(jīng)超越了 LLaMA3 - 8B（15.1）和 LLaDA - 8B（27.3）。

通過定性比較，我們可以更深入地了解 MMaDA 在文本推理任務(wù)中的優(yōu)勢。例如，在解決數(shù)學(xué)問題時，MMaDA 能夠清晰地展示出詳細(xì)的思考過程，逐步分析問題并應(yīng)用正確的數(shù)學(xué)公式。在回答需要世界知識的問題時，它也能準(zhǔn)確地調(diào)用相關(guān)知識，給出合理的答案。例如，在回答 “如何將 24 個蘋果平均分給圖片中的人” 時，MMaDA 不僅正確地計(jì)算出每人分到的蘋果數(shù)量為 6，還給出了詳細(xì)的計(jì)算步驟和邏輯推理過程。

下表列出了 MMaDA 在語言模型的基準(zhǔn)測試中的詳細(xì)評估結(jié)果，包括與其他模型的對比。這些數(shù)據(jù)展示了 MMaDA 在不同文本推理任務(wù)中的出色表現(xiàn)，特別是在數(shù)學(xué)問題和邏輯推理方面的優(yōu)勢。

在 LLM 基準(zhǔn)測試集上的評估結(jié)果

在實(shí)驗(yàn)細(xì)節(jié)方面，研究者們發(fā)現(xiàn)，MMaDA 在不同類型推理任務(wù)中的表現(xiàn)存在差異。例如，在數(shù)學(xué)問題上，模型的表現(xiàn)相對較好，但在需要高度抽象邏輯推理的任務(wù)中，還有一定的提升空間。此外，與其他模型相比，MMaDA 在推理過程中表現(xiàn)出更強(qiáng)的邏輯連貫性，這得益于其混合長-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法的優(yōu)化。例如，在 GSM8K 數(shù)據(jù)集的測試中，MMaDA 的推理過程連貫性得分比 LLaMA3 - 8B 高出 20%，這表明其推理過程更加可靠和易于理解。

設(shè)計(jì)選擇與優(yōu)化分析

不同訓(xùn)練階段的消融研究：量化提升效果

為了驗(yàn)證混合長-CoT 微調(diào)和 UniGRPO 訓(xùn)練階段對模型性能的提升效果，研究者們進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，這兩個階段的優(yōu)化對 MMaDA 的性能提升起到了關(guān)鍵作用。

在第一階段的預(yù)訓(xùn)練后，MMaDA 的性能尚不如大多數(shù)基線模型。例如，在 GSM8K 數(shù)據(jù)集上，其得分為 17.4，遠(yuǎn)低于最終的 73.4。而在經(jīng)過混合長-CoT 微調(diào)后，模型的性能得到了顯著提升，在 GSM8K 上的得分提高到了 65.2。這表明混合長-CoT 微調(diào)策略有效地增強(qiáng)了模型的推理能力，尤其是在數(shù)學(xué)和幾何領(lǐng)域?；旌祥L-CoT 微調(diào)通過引入詳細(xì)的推理過程描述，使模型學(xué)會了如何逐步分析問題并應(yīng)用正確的推理步驟。例如，在幾何問題中，模型能夠先識別圖形的類型和屬性，再根據(jù)幾何定理進(jìn)行推理，從而得出正確的結(jié)論。

進(jìn)一步引入 UniGRPO 強(qiáng)化學(xué)習(xí)后，模型的性能再次大幅提升。在 GSM8K 數(shù)據(jù)集上，MMaDA 的最終得分達(dá)到了 73.4。這證明 UniGRPO 能夠進(jìn)一步優(yōu)化模型的推理邏輯和生成質(zhì)量，使其能夠更好地平衡答案的正確性和格式的規(guī)范性。UniGRPO 通過多樣化的獎勵建模，引導(dǎo)模型在生成答案時既注重邏輯的正確性，又符合預(yù)定義的格式要求。這種層層遞進(jìn)的訓(xùn)練方式，使得 MMaDA 能夠在復(fù)雜的推理任務(wù)中游刃有余。

下表展示了混合長-CoT 微調(diào)和 UniGRPO 在不同訓(xùn)練階段的消融實(shí)驗(yàn)結(jié)果。這些數(shù)據(jù)清楚地表明了每個訓(xùn)練階段對模型性能的具體提升，進(jìn)一步驗(yàn)證了 MMaDA 訓(xùn)練策略的有效性。

混合長因果鏈微調(diào)和單向群體優(yōu)化的消融實(shí)驗(yàn)

深入分析不同訓(xùn)練階段的影響機(jī)制，可以發(fā)現(xiàn)混合長-CoT 微調(diào)主要改善了模型的推理邏輯。通過讓模型在生成答案前進(jìn)行詳細(xì)的思考過程描述，它學(xué)會了如何逐步分析問題并應(yīng)用正確的推理步驟。而 UniGRPO 則通過強(qiáng)化學(xué)習(xí)優(yōu)化了模型的生成質(zhì)量，使其能夠更好地平衡答案的正確性和格式的規(guī)范性。這種層層遞進(jìn)的訓(xùn)練方式，使得 MMaDA 能夠在復(fù)雜的推理任務(wù)中游刃有余。

UniGRPO 的設(shè)計(jì)選擇：掩蔽策略的重要性

在 UniGRPO 的設(shè)計(jì)中，掩蔽策略的選擇對訓(xùn)練效果有著重要影響。研究者們比較了不同掩蔽策略在訓(xùn)練過程中的獎勵趨勢，驗(yàn)證了 UniGRPO 掩蔽策略的有效性。

與傳統(tǒng)的隨機(jī)掩蔽方法相比，UniGRPO 采用的均勻隨機(jī)掩蔽策略能夠更均勻地覆蓋整個擴(kuò)散過程。例如，在 GSM8K 數(shù)據(jù)集上的訓(xùn)練結(jié)果顯示，UniGRPO 的獎勵值在訓(xùn)練過程中始終保持較高水平，并且波動較小。這表明均勻隨機(jī)掩蔽策略能夠有效地提高訓(xùn)練的穩(wěn)定性，加速模型的收斂。傳統(tǒng)的隨機(jī)掩蔽方法可能會導(dǎo)致模型在訓(xùn)練初期接觸到大量相似的掩蔽模式，從而陷入局部最優(yōu)。而均勻隨機(jī)掩蔽策略通過均勻地采樣不同的掩蔽比率，使得模型能夠在訓(xùn)練過程中接觸到更多樣化的輸入狀態(tài)，從而更好地學(xué)習(xí)到去噪過程中的通用規(guī)律。

此外，UniGRPO 通過迭代變化掩蔽比率，讓模型在不同的去噪階段進(jìn)行學(xué)習(xí)。這種設(shè)計(jì)充分利用了擴(kuò)散模型的多步生成能力，使得模型能夠更好地掌握去噪過程中的信息。相比之下，傳統(tǒng)的固定掩蔽比率方法只能讓模型在單一的去噪階段進(jìn)行學(xué)習(xí)，限制了其性能提升。例如，當(dāng)固定掩蔽比率為 0.5 時，模型只能學(xué)習(xí)到中間去噪階段的特征，而無法掌握早期和晚期去噪階段的信息。而 UniGRPO 的掩蔽比率在訓(xùn)練過程中不斷變化，使得模型能夠全面地學(xué)習(xí)到整個去噪過程中的知識。

以下算法詳細(xì)描述了 UniGRPO 的策略梯度優(yōu)化過程。通過這個算法，我們可以清楚地了解 UniGRPO 如何通過迭代優(yōu)化掩蔽比率和采樣步驟，來提升模型的性能。

UniGRPO 策略梯度優(yōu)化

采樣效率與任務(wù)擴(kuò)展

采樣效率分析：擴(kuò)散模型的優(yōu)勢

擴(kuò)散模型相較于自回歸模型的一個顯著優(yōu)勢在于其采樣效率。在自回歸模型中，每個 token 都需要依次生成，這使得長序列的生成變得非常耗時。而擴(kuò)散模型則能夠并行地生成多個 token，大大減少了生成時間。

MMaDA 在采樣效率方面的表現(xiàn)尤為突出。即使在只有 15 或 50 個去噪步驟的情況下，模型依然能夠保持較強(qiáng)的性能。例如，在圖像生成任務(wù)中，當(dāng)去噪步驟從 1024 減少到 50 時，CLIP 分?jǐn)?shù)僅從 32.8 下降到 32.0。這表明 MMaDA 能夠在有限的計(jì)算資源下，快速生成高質(zhì)量的圖像和文本內(nèi)容。這種高效的采樣能力主要得益于擴(kuò)散模型的并行更新機(jī)制。在每個去噪步驟中，模型可以同時更新多個被掩蔽的 tokens，而不是像自回歸模型那樣逐個生成。例如，在生成一個包含 1024 個 tokens 的圖像時，MMaDA 在單個去噪步驟中可以更新約 256 個 tokens，而自回歸模型則需要 1024 個步驟才能完成相同的任務(wù)。

這種高效的采樣能力對于實(shí)際應(yīng)用具有重要意義。在資源受限的環(huán)境中，如移動設(shè)備或邊緣計(jì)算場景，MMaDA 能夠以較低的計(jì)算成本提供高質(zhì)量的多模態(tài)服務(wù)。同時，這也為模型的實(shí)時交互應(yīng)用提供了可能，如實(shí)時圖像編輯和對話系統(tǒng)中的即時圖像生成。

下圖呈現(xiàn)了 MMaDA 在文本生成、多模態(tài)理解和圖像生成三個任務(wù)的關(guān)鍵性能指標(biāo)隨訓(xùn)練步驟的變化趨勢。這些數(shù)據(jù)直觀地展示了 MMaDA 在不同任務(wù)中的性能提升，以及采樣效率對其實(shí)際應(yīng)用的影響。

三個任務(wù)的關(guān)鍵績效指標(biāo)

任務(wù)擴(kuò)展能力：靈活的多模態(tài)應(yīng)用

除了在核心任務(wù)中的出色表現(xiàn)，MMaDA 還展現(xiàn)出了強(qiáng)大的任務(wù)擴(kuò)展能力。例如，在文本序列預(yù)測、視覺問答補(bǔ)全和圖像修復(fù)等任務(wù)中，它都能夠靈活地應(yīng)用其多模態(tài)推理和生成能力。如下圖所示，通過文本和圖像的示例，展示了 MMaDA 在聯(lián)合訓(xùn)練過程中不同模態(tài)之間的協(xié)同效應(yīng)。

跨模態(tài)協(xié)同作用的定性說明

在文本序列預(yù)測任務(wù)中，MMaDA 可以準(zhǔn)確地預(yù)測文本中缺失的部分。例如，當(dāng)輸入一段不完整的句子時，模型能夠根據(jù)上下文生成合理的補(bǔ)全內(nèi)容。在視覺問答補(bǔ)全任務(wù)中，給定一張圖片和部分問題答案，MMaDA 能夠生成完整的答案，同時確保答案與圖片內(nèi)容一致。例如，在一張包含多個物體的圖片中，當(dāng)問題問到 “圖片中有哪些紅色的物體” 時，模型能夠準(zhǔn)確地識別出圖片中的紅色物體，并完整地列舉出來。

更令人驚喜的是圖像修復(fù)任務(wù)。在給定一張有缺失部分的圖片時，MMaDA 能夠根據(jù)圖片的上下文信息，生成與原圖風(fēng)格一致的修復(fù)內(nèi)容。例如，在一張人物照片中，當(dāng)臉部區(qū)域被遮擋時，模型能夠根據(jù)照片中的人物特征和背景信息，生成一個符合整體風(fēng)格的面部圖像。這種能力不僅體現(xiàn)了模型對圖像語義的深刻理解，還展示了其在像素級別上的精細(xì)生成能力。

下圖展示了 MMaDA 在圖像修復(fù)任務(wù)中的應(yīng)用示例。這一圖表直觀地展示了模型如何根據(jù)上下文信息，生成缺失部分的圖像內(nèi)容，進(jìn)一步驗(yàn)證了其強(qiáng)大的任務(wù)擴(kuò)展能力。

圖像修復(fù)任務(wù)擴(kuò)展

這些擴(kuò)展任務(wù)的成功應(yīng)用，得益于 MMaDA 的統(tǒng)一擴(kuò)散架構(gòu)和多樣化的訓(xùn)練策略。在統(tǒng)一的框架下，模型能夠輕松地適應(yīng)各種多模態(tài)任務(wù)，展現(xiàn)出強(qiáng)大的泛化能力和靈活性。

對比其他相關(guān)工作

多模態(tài)大型語言模型的多模態(tài)理解發(fā)展

近年來，多模態(tài)大型語言模型在多模態(tài)理解領(lǐng)域取得了顯著進(jìn)展。例如，Gemini - 2.0、o1 - preview 和 DeepSeek - R1 等模型在多模態(tài)理解任務(wù)中表現(xiàn)出了強(qiáng)大的能力。這些模型通過將預(yù)訓(xùn)練的模態(tài)特定編碼器（如 CLIP）投影到 LLM 的輸入空間，實(shí)現(xiàn)了多模態(tài)特征的融合。例如，Gemini - 2.0 通過一個共享的表示空間，將圖像和文本特征映射到同一向量空間中，從而實(shí)現(xiàn)跨模態(tài)的語義對齊。這種方式使得模型能夠有效地處理圖文匹配、視覺問答等任務(wù)。

然而，這些傳統(tǒng)方法大多采用自回歸生成范式，雖然在文本生成任務(wù)中效果顯著，但在多模態(tài)理解和推理任務(wù)中往往力不從心。MMaDA 通過采用擴(kuò)散模型架構(gòu)，不僅在多模態(tài)理解任務(wù)中取得了與專門模型相當(dāng)?shù)男阅埽€在推理和生成任務(wù)中展現(xiàn)出了獨(dú)特的優(yōu)勢。例如，在處理復(fù)雜的圖文混合推理任務(wù)時，MMaDA 能夠更好地利用擴(kuò)散模型的多步生成能力，逐步構(gòu)建答案，而不是像自回歸模型那樣直接生成最終結(jié)果。這種逐步構(gòu)建答案的方式使得 MMaDA 在處理復(fù)雜推理任務(wù)時更加穩(wěn)健和可靠。

擴(kuò)散模型與自回歸模型在視覺生成中的應(yīng)用

在視覺生成領(lǐng)域，擴(kuò)散模型和自回歸模型一直是兩大主流方法。自回歸模型通過逐像素或逐 token 的生成方式，在圖像生成任務(wù)中取得了不錯的效果。例如，PixelRNN 等模型通過自回歸的方式逐像素生成圖像，能夠生成高質(zhì)量的圖像。然而，這種方法的并行性差，生成速度慢，難以滿足實(shí)時應(yīng)用的需求。

相比之下，擴(kuò)散模型通過逐步去噪的過程生成圖像，能夠并行地更新多個像素或 token，從而大大提高了生成效率。例如，SDXL 等擴(kuò)散模型在高分辨率圖像生成任務(wù)中展現(xiàn)出了卓越的性能。MMaDA 將擴(kuò)散模型的優(yōu)勢引入多模態(tài)任務(wù)中，使其能夠在文本到圖像生成任務(wù)中生成更高質(zhì)量、更具語義一致性的圖像。同時，MMaDA 還在擴(kuò)散模型的基礎(chǔ)上，通過混合長-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí)，進(jìn)一步提升了模型的生成質(zhì)量和推理能力。例如，在生成復(fù)雜場景的圖像時，MMaDA 能夠更好地理解文本描述中的細(xì)節(jié)和邏輯關(guān)系，從而生成更符合預(yù)期的圖像。

統(tǒng)一視覺 - 語言基礎(chǔ)模型的研究進(jìn)展

在統(tǒng)一視覺 - 語言基礎(chǔ)模型的研究中，SEED - X、DreamLLM、Janus 和 Emu3 等模型提出了多種創(chuàng)新的架構(gòu)和訓(xùn)練方法。這些模型試圖通過統(tǒng)一的多模態(tài)表示，實(shí)現(xiàn)對多種任務(wù)的高效處理。例如，DreamLLM 通過一個統(tǒng)一的 Transformer 架構(gòu)，處理文本、圖像等多種模態(tài)的數(shù)據(jù)，并在多模態(tài)理解和生成任務(wù)中取得了良好的性能。它采用了一種混合的訓(xùn)練策略，結(jié)合了自回歸生成和擴(kuò)散建模的優(yōu)勢。

與這些模型相比，MMaDA 的獨(dú)特之處在于，它不僅在預(yù)訓(xùn)練階段采用了統(tǒng)一擴(kuò)散架構(gòu)，還在后訓(xùn)練階段引入了混合長-CoT 微調(diào)和 UniGRPO 強(qiáng)化學(xué)習(xí)等創(chuàng)新方法。例如，SEED - X 主要側(cè)重于多粒度統(tǒng)一理解和生成，而 MMaDA 更加注重模型的推理能力和生成質(zhì)量的優(yōu)化。在多模態(tài)推理任務(wù)中，MMaDA 能夠通過混合長-CoT 微調(diào)策略，逐步構(gòu)建復(fù)雜的推理過程，從而生成更準(zhǔn)確的答案。此外，MMaDA 的 UniGRPO 算法通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化了模型的性能，使其在生成任務(wù)中能夠更好地平衡質(zhì)量和效率。

總結(jié)

模型總結(jié)：下一代多模態(tài)智能基礎(chǔ)模型的潛力

MMaDA 作為一款創(chuàng)新的多模態(tài)擴(kuò)散模型，在多模態(tài)推理、理解和生成任務(wù)中展現(xiàn)出了卓越的性能。它的統(tǒng)一擴(kuò)散架構(gòu)、混合長-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法，不僅提高了模型在各項(xiàng)任務(wù)中的表現(xiàn)，還為多模態(tài)模型的后訓(xùn)練方法提供了新的思路。

實(shí)驗(yàn)結(jié)果表明，MMaDA 在多模態(tài)理解基準(zhǔn)測試中與專門模型相當(dāng)甚至更優(yōu)，在文本到圖像生成任務(wù)中超越了現(xiàn)有的生成型和統(tǒng)一模型，并且在文本推理任務(wù)中也取得了與強(qiáng)基線模型相當(dāng)?shù)男阅堋＿@些成果充分證明了 MMaDA 作為下一代多模態(tài)智能基礎(chǔ)模型的巨大潛力。

局限性分析：當(dāng)前的不足與改進(jìn)方向

盡管 MMaDA 取得了顯著的成果，但它依然存在一些局限性。首先，模型的參數(shù)規(guī)模限制了其性能的進(jìn)一步提升。當(dāng)前的 8B 參數(shù)版本在處理極其復(fù)雜的多模態(tài)任務(wù)時，可能會面臨計(jì)算資源不足的問題。例如，在處理包含大量細(xì)節(jié)的高分辨率圖像生成任務(wù)時，模型可能會出現(xiàn)生成圖像細(xì)節(jié)缺失的情況。擴(kuò)大模型規(guī)模有望進(jìn)一步提升其性能，但這也會帶來更高的計(jì)算成本和硬件要求。研究顯示，當(dāng)模型參數(shù)從 8B 擴(kuò)展到 16B 時，圖像生成的 CLIP 分?jǐn)?shù)可以提高約 10%，但訓(xùn)練成本會增加約 3 倍。

其次，在模態(tài)融合效果方面，MMaDA 仍有改進(jìn)空間。雖然統(tǒng)一擴(kuò)散架構(gòu)在一定程度上促進(jìn)了文本和圖像數(shù)據(jù)的融合，但在處理一些高度復(fù)雜的跨模態(tài)任務(wù)時，模型可能無法充分利用兩種模態(tài)的信息。例如，在處理圖文混合的復(fù)雜醫(yī)學(xué)影像分析任務(wù)時，模型可能無法充分結(jié)合圖像中的視覺特征和文本中的診斷信息。未來的研究可以通過設(shè)計(jì)更精細(xì)的跨模態(tài)交互機(jī)制，如引入多模態(tài)注意力模塊，進(jìn)一步提升模型的模態(tài)融合能力。實(shí)驗(yàn)表明，引入多模態(tài)注意力模塊后，模型在跨模態(tài)任務(wù)中的性能可以提高約 15%。

MMaDA 在復(fù)雜場景下的推理能力也存在一定的不足。雖然混合長-CoT 微調(diào)策略增強(qiáng)了模型的推理邏輯，但在面對一些需要高度抽象思維和復(fù)雜邏輯推理的任務(wù)時，模型的表現(xiàn)還有待提高。例如，在處理涉及多步驟邏輯推理的數(shù)學(xué)應(yīng)用題時，模型可能會在中間步驟出現(xiàn)錯誤，導(dǎo)致最終答案不正確。通過引入更高級的推理訓(xùn)練數(shù)據(jù)和方法，如基于圖神經(jīng)網(wǎng)絡(luò)的推理算法，有望進(jìn)一步提升模型的復(fù)雜場景推理能力。實(shí)驗(yàn)顯示，采用圖神經(jīng)網(wǎng)絡(luò)輔助推理后，模型在復(fù)雜推理任務(wù)中的準(zhǔn)確率提高了約 20%。

未來展望：拓展模型能力的多種途徑

MMaDA 的發(fā)展具有廣闊的前景。首先，擴(kuò)大模型規(guī)模是一個重要的研究方向。更大的模型通常能夠捕捉更復(fù)雜的語義信息，從而在多模態(tài)任務(wù)中取得更好的表現(xiàn)。當(dāng)然，這也需要更高效的訓(xùn)練方法和硬件支持來實(shí)現(xiàn)。例如，采用分布式訓(xùn)練和模型并行技術(shù)，可以有效降低大規(guī)模模型的訓(xùn)練時間和成本。

優(yōu)化訓(xùn)練方法也是提升模型性能的關(guān)鍵。例如，進(jìn)一步改進(jìn)混合長-CoT 微調(diào)策略和 UniGRPO 強(qiáng)化學(xué)習(xí)算法，使其能夠更好地適應(yīng)不同類型的多模態(tài)任務(wù)。此外，結(jié)合更高效的模型架構(gòu)和新型訓(xùn)練目標(biāo)，也有望為 MMaDA 的性能提升提供新的動力。例如，采用稀疏激活的神經(jīng)網(wǎng)絡(luò)架構(gòu)，可以在不顯著增加計(jì)算成本的情況下，提升模型的表達(dá)能力和性能。

MMaDA 還可以通過與其他技術(shù)的結(jié)合，拓展其應(yīng)用領(lǐng)域。例如，與知識圖譜的融合可以增強(qiáng)模型的世界知識推理能力；與強(qiáng)化學(xué)習(xí)算法的深度結(jié)合可以進(jìn)一步提升模型的決策能力。這些研究方向都將為 MMaDA 的未來發(fā)展注入新的活力。

責(zé)任編輯：龐桂玉來源：覺察流

AI 人工智能大數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營