國(guó)產(chǎn)SOTA新模型精準(zhǔn)get“畫(3+6)條命的動(dòng)物” | 開源
生成圖像這件事,會(huì)推理的AI才是好AI。
舉個(gè)例子,以往要是給AI一句這樣的Prompt:
(3+6)條命的動(dòng)物。
我們?nèi)祟惪隙ㄒ谎劬椭朗秦堖?,但AI的思考過程卻是這樣的:
△雖然生成了貓,但思考過程不對(duì)
思考的過程還是把“(3+6)”里的數(shù)字分開來處理,并沒有真正get到其背后“九條命的動(dòng)物=貓”的本意。
以及像ChatGPT,還是執(zhí)著于在圖片里面展示數(shù)字:
究其原因,是因?yàn)楫?dāng)前主流的基于文本進(jìn)行圖像生成的方法往往依賴固定的文本編碼器,僅能處理“純文本”輸入,難以自然接入圖像、音頻等模態(tài)的信息。
同時(shí),這類系統(tǒng)在應(yīng)對(duì)“復(fù)雜世界知識(shí)”和“多步驟邏輯推理”方面表現(xiàn)乏力。
但就在最近,清華大學(xué)、騰訊ARC Lab、香港中文大學(xué)和香港大學(xué)聯(lián)手提出了一個(gè)新大模型——MindOmni,顯著增強(qiáng)了AI的“推理生成能力”。
它不僅能理解復(fù)雜指令,還能基于圖文內(nèi)容展開連貫而可信的“思維鏈”(Chain-of-Thought, CoT),生成具備邏輯性與語義一致性的圖像或文本輸出:
△推理圖像生成可視化結(jié)果對(duì)比
△對(duì)基于多模態(tài)用戶輸入的推理感知圖像生成可視化結(jié)果對(duì)比
那么MindOmni又是如何做到的呢?
深挖MindOmni模型架構(gòu)
MindOmni的架構(gòu)設(shè)計(jì)的目的比較清晰,就是為了高效融合視覺理解和生成能力。
其大模型部分基于Qwen2.5-VL構(gòu)建,這是一個(gè)先進(jìn)的視覺語言模型,能夠處理圖像和文本輸入。
它通過預(yù)訓(xùn)練的ViT(Vision Transformer)提取圖像特征,并將文本編碼為離散的標(biāo)記序列。這種設(shè)計(jì)使得模型能夠理解圖像內(nèi)容并生成與之相關(guān)的文本描述。
擴(kuò)散解碼器是MindOmni生成圖像的核心模塊。
它基于OmniGen構(gòu)建,通過去噪過程將潛在的噪聲信號(hào)逐步轉(zhuǎn)化為真實(shí)的圖像。與傳統(tǒng)的生成模型相比,OmniGen具有更高的靈活性和生成質(zhì)量。
在生成過程中,模型會(huì)將視覺和文本特征與噪聲標(biāo)記在序列維度進(jìn)行合并,并通過多次去噪循環(huán)生成最終的圖像。
為了將視覺語言模型與生成模塊有效連接,MindOmni使用一個(gè)包含兩個(gè)標(biāo)準(zhǔn)Transformer層的連接器來連接兩個(gè)模塊,并用于對(duì)齊VLM輸出的特征與生成模塊的輸入維度。
△推理框架概述:MindOmni在統(tǒng)一的大型模型中完成視覺理解、多模態(tài)推理生成和視覺編輯任務(wù)
三階段訓(xùn)練流程:從理解到生成的飛躍
MindOmni采用了三階段訓(xùn)練策略,以逐步提升模型的性能和推理生成能力。
第一階段:基礎(chǔ)預(yù)訓(xùn)練
在預(yù)訓(xùn)練階段,MindOmni主要利用開源圖像-文本對(duì)和X2I數(shù)據(jù)對(duì)來訓(xùn)練連接器。這一階段的目標(biāo)是讓模型初步具備基本的文本到圖像生成能力。
通過擴(kuò)散損失和基于KL散度的蒸餾損失作為優(yōu)化目標(biāo),模型能夠?qū)W習(xí)到圖像和文本之間的語義對(duì)齊關(guān)系。
具體來說,模型會(huì)通過采樣噪聲數(shù)據(jù)并計(jì)算擴(kuò)散損失來優(yōu)化生成過程,同時(shí)利用KL散度來保持與教師模型的一致性。
第二階段:CoT監(jiān)督微調(diào)
在第二階段,研究人員收集了不同粒度的描述性文本,構(gòu)建了推理生成指令數(shù)據(jù)。
這些數(shù)據(jù)包括粗粒度的描述作為答案內(nèi)容,以及細(xì)粒度的描述作為推理內(nèi)容。
通過監(jiān)督微調(diào),模型能夠?qū)W習(xí)到如何根據(jù)指令生成具有邏輯推理的文本內(nèi)容。
這一階段的訓(xùn)練數(shù)據(jù)還包括通過高性能文生圖模型生成的高質(zhì)量圖像,以提升模型的生成質(zhì)量。
第三階段:推理生成策略優(yōu)化(RGPO)
在第三階段,MindOmni引入了推理生成策略優(yōu)化(RGPO)算法。
這一算法的核心思想是通過強(qiáng)化學(xué)習(xí),讓模型能夠顯式地生成邏輯推理鏈。研究人員構(gòu)建了一個(gè)包含用戶指令、目標(biāo)提示和對(duì)應(yīng)解釋的純文本訓(xùn)練數(shù)據(jù)集,并設(shè)計(jì)了一個(gè)推理生成導(dǎo)向的系統(tǒng)提示,引導(dǎo)模型生成推理內(nèi)容。
RGPO強(qiáng)化學(xué)習(xí)算法
受DeepSeek-R1啟發(fā),研究人員提出了RGPO強(qiáng)化學(xué)習(xí)算法,通過明確生成邏輯思路鏈來增強(qiáng)模型的推理生成能力。
在部署過程中,策略模型 πΘ首先為每個(gè)請(qǐng)求q采樣G組結(jié)果{oi}Gi=1 ,每組結(jié)果包含一個(gè)推理鏈oiT和一個(gè)對(duì)應(yīng)的圖像oiI。
為了提高生成推理過程的質(zhì)量,研究者引入了兩種獎(jiǎng)勵(lì)函數(shù)來引導(dǎo)策略模型生成連貫有效的輸出:
- 格式獎(jiǎng)勵(lì)評(píng)估思路鏈?zhǔn)欠穹项A(yù)期結(jié)構(gòu),如果內(nèi)容包含在對(duì)應(yīng)標(biāo)簽中,則返回1,否則返回0。
- 一致性獎(jiǎng)勵(lì)使用來自CLIP圖像和文本編碼器的余弦相似度來衡量生成圖像與參考真實(shí)提示之間的語義對(duì)齊情況。然后,通過所有獎(jiǎng)勵(lì)值計(jì)算第i個(gè)輸出的優(yōu)勢(shì)Ai,公式如下:
△訓(xùn)練流程概述:研究者提出了一個(gè)三階段訓(xùn)練框架,包括預(yù)訓(xùn)練、基于指令的監(jiān)督微調(diào)和基于RGPO的強(qiáng)化學(xué)習(xí)
在強(qiáng)化學(xué)習(xí)過程中,研究者引入了兩種基于KL散度的蒸餾策略:DTKL用于文本生成,DIKL用于圖像生成,以懲罰參考模型 πref與先前策略之間的較大偏差,從而促進(jìn)更平滑的策略過渡,并降低遺忘先前學(xué)習(xí)知識(shí)的風(fēng)險(xiǎn)。
研究人員計(jì)算了oi的兩個(gè)蒸餾函數(shù),如下所示:
最后,通過最小化目標(biāo)函數(shù) 來優(yōu)化策略模型,如下所示:
△RGPO中不同Metric的曲線:“Completion Length”表示策略模型在部署過程中的輸出長(zhǎng)度;研究人員發(fā)現(xiàn)CoT長(zhǎng)度和最終性能并不呈現(xiàn)正相關(guān)性
實(shí)驗(yàn)結(jié)果: 各大基準(zhǔn)測(cè)試全面領(lǐng)先
視覺理解和生成任務(wù)
通過廣泛的實(shí)驗(yàn),MindOmni在多個(gè)多模態(tài)理解和生成基準(zhǔn)測(cè)試中表現(xiàn)出色。
在圖像理解方面,MindOmni在MMMU、MMBench和RealworldQA等基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī)。
與之前的統(tǒng)一模型相比,MindOmni在MMMU上比Janus-Pro提升了10.6%,在MMBench上比MetaMorph提升了9.8%。
這些結(jié)果表明,MindOmni在理解圖像內(nèi)容方面具有顯著優(yōu)勢(shì)。
在文本到圖像生成方面,MindOmni在GenEval基準(zhǔn)測(cè)試中取得了83%的總體分?jǐn)?shù),超越了其他統(tǒng)一模型。
此外,在DPG-Bench測(cè)試中,MindOmni也表現(xiàn)出色,證明了其在生成任務(wù)中的強(qiáng)大能力。
△視覺理解基準(zhǔn)測(cè)試的性能比較:“Und.”和“Gen.”分別表示“理解”和“生成”
△在 GenEval 和 DPG-Bench 上的性能比較
推理生成能力
MindOmni在推理生成任務(wù)中的表現(xiàn)尤為突出。
在WISE基準(zhǔn)測(cè)試中,MindOmni在文化知識(shí)、時(shí)空推理和自然科學(xué)等多個(gè)子類別中均超越了現(xiàn)有方法,取得了0.71的總體分?jǐn)?shù)。
與生成型模型(如FLUX和PixArt)以及統(tǒng)一模型(如MetaQuery-XL)相比,MindOmni在推理生成任務(wù)中展現(xiàn)了顯著的優(yōu)勢(shì)。這主要得益于其聯(lián)合理解-生成訓(xùn)練和基于CoT引導(dǎo)的強(qiáng)化學(xué)習(xí)。
△與WISE基準(zhǔn)上的最新模型進(jìn)行比較
定性結(jié)果
研究人員通過可視化不同模型的結(jié)果來展現(xiàn)MindOmni在推理生成方面的性能。
例如,在生成“具有(3 + 6)條命的動(dòng)物”圖像時(shí),MindOmni能夠正確理解數(shù)學(xué)表達(dá)式,并生成與之相關(guān)的貓的圖像,體現(xiàn)了其推理生成能力。
此外,在生成“悉尼歌劇院在紐約中午時(shí)的場(chǎng)景”圖像時(shí),MindOmni能夠考慮到悉尼和紐約的時(shí)差,并生成符合場(chǎng)景描述的圖像。
同時(shí)MindOmni在圖文多模態(tài)輸入場(chǎng)景下也表現(xiàn)出色。更多可視化結(jié)果請(qǐng)參考論文及附錄。
消融研究
為了驗(yàn)證訓(xùn)練策略的有效性,研究人員進(jìn)行了廣泛的消融實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果表明,每個(gè)訓(xùn)練階段對(duì)模型的性能有重要貢獻(xiàn)。
例如,第一階段的預(yù)訓(xùn)練為模型提供了基本的生成能力;第二階段的監(jiān)督微調(diào)顯著提升了模型在WISE基準(zhǔn)測(cè)試中的表現(xiàn);而第三階段的RGPO算法則進(jìn)一步優(yōu)化了模型的推理生成能力。
此外,消融實(shí)驗(yàn)還驗(yàn)證了不同連接器、KL系數(shù)、組數(shù)和獎(jiǎng)勵(lì)策略對(duì)模型性能的影響。詳細(xì)結(jié)果請(qǐng)參考研究論文。
論文鏈接: