偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

國(guó)產(chǎn)SOTA新模型精準(zhǔn)get“畫(3+6)條命的動(dòng)物” | 開源

人工智能 新聞
清華大學(xué)、騰訊ARC Lab、香港中文大學(xué)和香港大學(xué)聯(lián)手提出了一個(gè)新大模型——MindOmni,顯著增強(qiáng)了AI的“推理生成能力”。

生成圖像這件事,會(huì)推理的AI才是好AI。

舉個(gè)例子,以往要是給AI一句這樣的Prompt:

(3+6)條命的動(dòng)物。

我們?nèi)祟惪隙ㄒ谎劬椭朗秦堖?,但AI的思考過程卻是這樣的:

圖片

△雖然生成了貓,但思考過程不對(duì)

思考的過程還是把“(3+6)”里的數(shù)字分開來處理,并沒有真正get到其背后“九條命的動(dòng)物=貓”的本意。

以及像ChatGPT,還是執(zhí)著于在圖片里面展示數(shù)字:

圖片

究其原因,是因?yàn)楫?dāng)前主流的基于文本進(jìn)行圖像生成的方法往往依賴固定的文本編碼器,僅能處理“純文本”輸入,難以自然接入圖像、音頻等模態(tài)的信息。

同時(shí),這類系統(tǒng)在應(yīng)對(duì)“復(fù)雜世界知識(shí)”和“多步驟邏輯推理”方面表現(xiàn)乏力。

但就在最近,清華大學(xué)、騰訊ARC Lab、香港中文大學(xué)和香港大學(xué)聯(lián)手提出了一個(gè)新大模型——MindOmni,顯著增強(qiáng)了AI的“推理生成能力”

圖片

它不僅能理解復(fù)雜指令,還能基于圖文內(nèi)容展開連貫而可信的“思維鏈”(Chain-of-Thought, CoT),生成具備邏輯性與語義一致性的圖像或文本輸出:

圖片
△推理圖像生成可視化結(jié)果對(duì)比
圖片

△對(duì)基于多模態(tài)用戶輸入的推理感知圖像生成可視化結(jié)果對(duì)比

那么MindOmni又是如何做到的呢?

深挖MindOmni模型架構(gòu)

MindOmni的架構(gòu)設(shè)計(jì)的目的比較清晰,就是為了高效融合視覺理解和生成能力。

其大模型部分基于Qwen2.5-VL構(gòu)建,這是一個(gè)先進(jìn)的視覺語言模型,能夠處理圖像和文本輸入。

它通過預(yù)訓(xùn)練的ViT(Vision Transformer)提取圖像特征,并將文本編碼為離散的標(biāo)記序列。這種設(shè)計(jì)使得模型能夠理解圖像內(nèi)容并生成與之相關(guān)的文本描述。

擴(kuò)散解碼器是MindOmni生成圖像的核心模塊。

它基于OmniGen構(gòu)建,通過去噪過程將潛在的噪聲信號(hào)逐步轉(zhuǎn)化為真實(shí)的圖像。與傳統(tǒng)的生成模型相比,OmniGen具有更高的靈活性和生成質(zhì)量。

在生成過程中,模型會(huì)將視覺和文本特征與噪聲標(biāo)記在序列維度進(jìn)行合并,并通過多次去噪循環(huán)生成最終的圖像。

為了將視覺語言模型與生成模塊有效連接,MindOmni使用一個(gè)包含兩個(gè)標(biāo)準(zhǔn)Transformer層的連接器來連接兩個(gè)模塊,并用于對(duì)齊VLM輸出的特征與生成模塊的輸入維度。

圖片

△推理框架概述:MindOmni在統(tǒng)一的大型模型中完成視覺理解、多模態(tài)推理生成和視覺編輯任務(wù)

三階段訓(xùn)練流程:從理解到生成的飛躍

MindOmni采用了三階段訓(xùn)練策略,以逐步提升模型的性能和推理生成能力。

第一階段:基礎(chǔ)預(yù)訓(xùn)練

在預(yù)訓(xùn)練階段,MindOmni主要利用開源圖像-文本對(duì)和X2I數(shù)據(jù)對(duì)來訓(xùn)練連接器。這一階段的目標(biāo)是讓模型初步具備基本的文本到圖像生成能力。

通過擴(kuò)散損失和基于KL散度的蒸餾損失作為優(yōu)化目標(biāo),模型能夠?qū)W習(xí)到圖像和文本之間的語義對(duì)齊關(guān)系。

具體來說,模型會(huì)通過采樣噪聲數(shù)據(jù)并計(jì)算擴(kuò)散損失來優(yōu)化生成過程,同時(shí)利用KL散度來保持與教師模型的一致性。

圖片圖片

第二階段:CoT監(jiān)督微調(diào)

在第二階段,研究人員收集了不同粒度的描述性文本,構(gòu)建了推理生成指令數(shù)據(jù)。

這些數(shù)據(jù)包括粗粒度的描述作為答案內(nèi)容,以及細(xì)粒度的描述作為推理內(nèi)容。

通過監(jiān)督微調(diào),模型能夠?qū)W習(xí)到如何根據(jù)指令生成具有邏輯推理的文本內(nèi)容。

這一階段的訓(xùn)練數(shù)據(jù)還包括通過高性能文生圖模型生成的高質(zhì)量圖像,以提升模型的生成質(zhì)量。

第三階段:推理生成策略優(yōu)化(RGPO)

在第三階段,MindOmni引入了推理生成策略優(yōu)化(RGPO)算法。

這一算法的核心思想是通過強(qiáng)化學(xué)習(xí),讓模型能夠顯式地生成邏輯推理鏈。研究人員構(gòu)建了一個(gè)包含用戶指令、目標(biāo)提示和對(duì)應(yīng)解釋的純文本訓(xùn)練數(shù)據(jù)集,并設(shè)計(jì)了一個(gè)推理生成導(dǎo)向的系統(tǒng)提示,引導(dǎo)模型生成推理內(nèi)容。

RGPO強(qiáng)化學(xué)習(xí)算法

受DeepSeek-R1啟發(fā),研究人員提出了RGPO強(qiáng)化學(xué)習(xí)算法,通過明確生成邏輯思路鏈來增強(qiáng)模型的推理生成能力。

在部署過程中,策略模型 πΘ首先為每個(gè)請(qǐng)求q采樣G組結(jié)果{oi}Gi=1 ,每組結(jié)果包含一個(gè)推理鏈oiT和一個(gè)對(duì)應(yīng)的圖像oiI。

為了提高生成推理過程的質(zhì)量,研究者引入了兩種獎(jiǎng)勵(lì)函數(shù)來引導(dǎo)策略模型生成連貫有效的輸出:

  1. 格式獎(jiǎng)勵(lì)評(píng)估思路鏈?zhǔn)欠穹项A(yù)期結(jié)構(gòu),如果內(nèi)容包含在對(duì)應(yīng)標(biāo)簽中,則返回1,否則返回0。
  2. 一致性獎(jiǎng)勵(lì)使用來自CLIP圖像和文本編碼器的余弦相似度來衡量生成圖像與參考真實(shí)提示之間的語義對(duì)齊情況。然后,通過所有獎(jiǎng)勵(lì)值計(jì)算第i個(gè)輸出的優(yōu)勢(shì)Ai,公式如下:

△訓(xùn)練流程概述:研究者提出了一個(gè)三階段訓(xùn)練框架,包括預(yù)訓(xùn)練、基于指令的監(jiān)督微調(diào)和基于RGPO的強(qiáng)化學(xué)習(xí)

在強(qiáng)化學(xué)習(xí)過程中,研究者引入了兩種基于KL散度的蒸餾策略:DTKL用于文本生成,DIKL用于圖像生成,以懲罰參考模型 πref與先前策略之間的較大偏差,從而促進(jìn)更平滑的策略過渡,并降低遺忘先前學(xué)習(xí)知識(shí)的風(fēng)險(xiǎn)。

研究人員計(jì)算了oi的兩個(gè)蒸餾函數(shù),如下所示:

最后,通過最小化目標(biāo)函數(shù) 來優(yōu)化策略模型,如下所示:

△RGPO中不同Metric的曲線:“Completion Length”表示策略模型在部署過程中的輸出長(zhǎng)度;研究人員發(fā)現(xiàn)CoT長(zhǎng)度和最終性能并不呈現(xiàn)正相關(guān)性

實(shí)驗(yàn)結(jié)果: 各大基準(zhǔn)測(cè)試全面領(lǐng)先

視覺理解和生成任務(wù)

通過廣泛的實(shí)驗(yàn),MindOmni在多個(gè)多模態(tài)理解和生成基準(zhǔn)測(cè)試中表現(xiàn)出色。

在圖像理解方面,MindOmni在MMMU、MMBench和RealworldQA等基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī)。

與之前的統(tǒng)一模型相比,MindOmni在MMMU上比Janus-Pro提升了10.6%,在MMBench上比MetaMorph提升了9.8%。

這些結(jié)果表明,MindOmni在理解圖像內(nèi)容方面具有顯著優(yōu)勢(shì)。

在文本到圖像生成方面,MindOmni在GenEval基準(zhǔn)測(cè)試中取得了83%的總體分?jǐn)?shù),超越了其他統(tǒng)一模型。

此外,在DPG-Bench測(cè)試中,MindOmni也表現(xiàn)出色,證明了其在生成任務(wù)中的強(qiáng)大能力。

△視覺理解基準(zhǔn)測(cè)試的性能比較:“Und.”和“Gen.”分別表示“理解”和“生成”

△在 GenEval 和 DPG-Bench 上的性能比較

推理生成能力

MindOmni在推理生成任務(wù)中的表現(xiàn)尤為突出。

在WISE基準(zhǔn)測(cè)試中,MindOmni在文化知識(shí)、時(shí)空推理和自然科學(xué)等多個(gè)子類別中均超越了現(xiàn)有方法,取得了0.71的總體分?jǐn)?shù)。

與生成型模型(如FLUX和PixArt)以及統(tǒng)一模型(如MetaQuery-XL)相比,MindOmni在推理生成任務(wù)中展現(xiàn)了顯著的優(yōu)勢(shì)。這主要得益于其聯(lián)合理解-生成訓(xùn)練和基于CoT引導(dǎo)的強(qiáng)化學(xué)習(xí)。

△與WISE基準(zhǔn)上的最新模型進(jìn)行比較

定性結(jié)果

研究人員通過可視化不同模型的結(jié)果來展現(xiàn)MindOmni在推理生成方面的性能。

例如,在生成“具有(3 + 6)條命的動(dòng)物”圖像時(shí),MindOmni能夠正確理解數(shù)學(xué)表達(dá)式,并生成與之相關(guān)的貓的圖像,體現(xiàn)了其推理生成能力。

此外,在生成“悉尼歌劇院在紐約中午時(shí)的場(chǎng)景”圖像時(shí),MindOmni能夠考慮到悉尼和紐約的時(shí)差,并生成符合場(chǎng)景描述的圖像。

同時(shí)MindOmni在圖文多模態(tài)輸入場(chǎng)景下也表現(xiàn)出色。更多可視化結(jié)果請(qǐng)參考論文及附錄。

消融研究

為了驗(yàn)證訓(xùn)練策略的有效性,研究人員進(jìn)行了廣泛的消融實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果表明,每個(gè)訓(xùn)練階段對(duì)模型的性能有重要貢獻(xiàn)。

例如,第一階段的預(yù)訓(xùn)練為模型提供了基本的生成能力;第二階段的監(jiān)督微調(diào)顯著提升了模型在WISE基準(zhǔn)測(cè)試中的表現(xiàn);而第三階段的RGPO算法則進(jìn)一步優(yōu)化了模型的推理生成能力。

此外,消融實(shí)驗(yàn)還驗(yàn)證了不同連接器、KL系數(shù)、組數(shù)和獎(jiǎng)勵(lì)策略對(duì)模型性能的影響。詳細(xì)結(jié)果請(qǐng)參考研究論文。

論文鏈接:

https://arxiv.org/pdf/2505.13031

代碼鏈接:
https://github.com/TencentARC/MindOmni

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-04 14:09:00

2024-08-19 08:45:00

開源模型

2025-06-17 09:07:24

2025-03-04 09:00:00

2025-02-10 08:30:00

2024-03-27 10:20:31

模型場(chǎng)景

2025-01-26 11:00:00

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2024-03-25 12:40:19

訓(xùn)練模型

2022-12-06 14:11:32

開源模型

2023-12-29 13:18:23

模型NeRFTICD

2024-10-15 13:07:38

2023-05-17 10:05:56

2025-03-31 08:25:00

AI模型數(shù)據(jù)

2025-06-17 17:14:01

DeepSeekSOTA開源

2023-06-09 16:50:21

Tigerbo

2025-04-28 14:13:43

開源SOTA多模態(tài)

2023-05-29 13:53:46

開源模型

2025-04-27 08:30:00

2024-12-26 11:48:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)