國產SOTA新模型精準get“畫(3+6)條命的動物” | 開源
生成圖像這件事,會推理的AI才是好AI。
舉個例子,以往要是給AI一句這樣的Prompt:
(3+6)條命的動物。
我們人類肯定一眼就知道是貓咪,但AI的思考過程卻是這樣的:
△雖然生成了貓,但思考過程不對
思考的過程還是把“(3+6)”里的數(shù)字分開來處理,并沒有真正get到其背后“九條命的動物=貓”的本意。
以及像ChatGPT,還是執(zhí)著于在圖片里面展示數(shù)字:

究其原因,是因為當前主流的基于文本進行圖像生成的方法往往依賴固定的文本編碼器,僅能處理“純文本”輸入,難以自然接入圖像、音頻等模態(tài)的信息。
同時,這類系統(tǒng)在應對“復雜世界知識”和“多步驟邏輯推理”方面表現(xiàn)乏力。
但就在最近,清華大學、騰訊ARC Lab、香港中文大學和香港大學聯(lián)手提出了一個新大模型——MindOmni,顯著增強了AI的“推理生成能力”。

它不僅能理解復雜指令,還能基于圖文內容展開連貫而可信的“思維鏈”(Chain-of-Thought, CoT),生成具備邏輯性與語義一致性的圖像或文本輸出:
△推理圖像生成可視化結果對比
△對基于多模態(tài)用戶輸入的推理感知圖像生成可視化結果對比
那么MindOmni又是如何做到的呢?
深挖MindOmni模型架構
MindOmni的架構設計的目的比較清晰,就是為了高效融合視覺理解和生成能力。
其大模型部分基于Qwen2.5-VL構建,這是一個先進的視覺語言模型,能夠處理圖像和文本輸入。
它通過預訓練的ViT(Vision Transformer)提取圖像特征,并將文本編碼為離散的標記序列。這種設計使得模型能夠理解圖像內容并生成與之相關的文本描述。
擴散解碼器是MindOmni生成圖像的核心模塊。
它基于OmniGen構建,通過去噪過程將潛在的噪聲信號逐步轉化為真實的圖像。與傳統(tǒng)的生成模型相比,OmniGen具有更高的靈活性和生成質量。
在生成過程中,模型會將視覺和文本特征與噪聲標記在序列維度進行合并,并通過多次去噪循環(huán)生成最終的圖像。
為了將視覺語言模型與生成模塊有效連接,MindOmni使用一個包含兩個標準Transformer層的連接器來連接兩個模塊,并用于對齊VLM輸出的特征與生成模塊的輸入維度。
△推理框架概述:MindOmni在統(tǒng)一的大型模型中完成視覺理解、多模態(tài)推理生成和視覺編輯任務
三階段訓練流程:從理解到生成的飛躍
MindOmni采用了三階段訓練策略,以逐步提升模型的性能和推理生成能力。
第一階段:基礎預訓練
在預訓練階段,MindOmni主要利用開源圖像-文本對和X2I數(shù)據對來訓練連接器。這一階段的目標是讓模型初步具備基本的文本到圖像生成能力。
通過擴散損失和基于KL散度的蒸餾損失作為優(yōu)化目標,模型能夠學習到圖像和文本之間的語義對齊關系。
具體來說,模型會通過采樣噪聲數(shù)據并計算擴散損失來優(yōu)化生成過程,同時利用KL散度來保持與教師模型的一致性。


第二階段:CoT監(jiān)督微調
在第二階段,研究人員收集了不同粒度的描述性文本,構建了推理生成指令數(shù)據。
這些數(shù)據包括粗粒度的描述作為答案內容,以及細粒度的描述作為推理內容。
通過監(jiān)督微調,模型能夠學習到如何根據指令生成具有邏輯推理的文本內容。
這一階段的訓練數(shù)據還包括通過高性能文生圖模型生成的高質量圖像,以提升模型的生成質量。
第三階段:推理生成策略優(yōu)化(RGPO)
在第三階段,MindOmni引入了推理生成策略優(yōu)化(RGPO)算法。
這一算法的核心思想是通過強化學習,讓模型能夠顯式地生成邏輯推理鏈。研究人員構建了一個包含用戶指令、目標提示和對應解釋的純文本訓練數(shù)據集,并設計了一個推理生成導向的系統(tǒng)提示,引導模型生成推理內容。
RGPO強化學習算法
受DeepSeek-R1啟發(fā),研究人員提出了RGPO強化學習算法,通過明確生成邏輯思路鏈來增強模型的推理生成能力。
在部署過程中,策略模型 πΘ首先為每個請求q采樣G組結果{oi}Gi=1 ,每組結果包含一個推理鏈oiT和一個對應的圖像oiI。
為了提高生成推理過程的質量,研究者引入了兩種獎勵函數(shù)來引導策略模型生成連貫有效的輸出:
- 格式獎勵評估思路鏈是否符合預期結構,如果內容包含在對應標簽中,則返回1,否則返回0。
- 一致性獎勵使用來自CLIP圖像和文本編碼器的余弦相似度來衡量生成圖像與參考真實提示之間的語義對齊情況。然后,通過所有獎勵值計算第i個輸出的優(yōu)勢Ai,公式如下:


△訓練流程概述:研究者提出了一個三階段訓練框架,包括預訓練、基于指令的監(jiān)督微調和基于RGPO的強化學習
在強化學習過程中,研究者引入了兩種基于KL散度的蒸餾策略:DTKL用于文本生成,DIKL用于圖像生成,以懲罰參考模型 πref與先前策略之間的較大偏差,從而促進更平滑的策略過渡,并降低遺忘先前學習知識的風險。
研究人員計算了oi的兩個蒸餾函數(shù),如下所示:

最后,通過最小化目標函數(shù) 來優(yōu)化策略模型,如下所示:

△RGPO中不同Metric的曲線:“Completion Length”表示策略模型在部署過程中的輸出長度;研究人員發(fā)現(xiàn)CoT長度和最終性能并不呈現(xiàn)正相關性
實驗結果: 各大基準測試全面領先
視覺理解和生成任務
通過廣泛的實驗,MindOmni在多個多模態(tài)理解和生成基準測試中表現(xiàn)出色。
在圖像理解方面,MindOmni在MMMU、MMBench和RealworldQA等基準測試中取得了優(yōu)異成績。
與之前的統(tǒng)一模型相比,MindOmni在MMMU上比Janus-Pro提升了10.6%,在MMBench上比MetaMorph提升了9.8%。
這些結果表明,MindOmni在理解圖像內容方面具有顯著優(yōu)勢。
在文本到圖像生成方面,MindOmni在GenEval基準測試中取得了83%的總體分數(shù),超越了其他統(tǒng)一模型。
此外,在DPG-Bench測試中,MindOmni也表現(xiàn)出色,證明了其在生成任務中的強大能力。

△視覺理解基準測試的性能比較:“Und.”和“Gen.”分別表示“理解”和“生成”

△在 GenEval 和 DPG-Bench 上的性能比較
推理生成能力
MindOmni在推理生成任務中的表現(xiàn)尤為突出。
在WISE基準測試中,MindOmni在文化知識、時空推理和自然科學等多個子類別中均超越了現(xiàn)有方法,取得了0.71的總體分數(shù)。
與生成型模型(如FLUX和PixArt)以及統(tǒng)一模型(如MetaQuery-XL)相比,MindOmni在推理生成任務中展現(xiàn)了顯著的優(yōu)勢。這主要得益于其聯(lián)合理解-生成訓練和基于CoT引導的強化學習。

△與WISE基準上的最新模型進行比較
定性結果
研究人員通過可視化不同模型的結果來展現(xiàn)MindOmni在推理生成方面的性能。
例如,在生成“具有(3 + 6)條命的動物”圖像時,MindOmni能夠正確理解數(shù)學表達式,并生成與之相關的貓的圖像,體現(xiàn)了其推理生成能力。
此外,在生成“悉尼歌劇院在紐約中午時的場景”圖像時,MindOmni能夠考慮到悉尼和紐約的時差,并生成符合場景描述的圖像。
同時MindOmni在圖文多模態(tài)輸入場景下也表現(xiàn)出色。更多可視化結果請參考論文及附錄。
消融研究
為了驗證訓練策略的有效性,研究人員進行了廣泛的消融實驗。
實驗結果表明,每個訓練階段對模型的性能有重要貢獻。
例如,第一階段的預訓練為模型提供了基本的生成能力;第二階段的監(jiān)督微調顯著提升了模型在WISE基準測試中的表現(xiàn);而第三階段的RGPO算法則進一步優(yōu)化了模型的推理生成能力。
此外,消融實驗還驗證了不同連接器、KL系數(shù)、組數(shù)和獎勵策略對模型性能的影響。詳細結果請參考研究論文。
論文鏈接:









































