偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

國(guó)產(chǎn)SOTA新模型精準(zhǔn)get“畫(3+6)條命的動(dòng)物” | 開源

2025-06-20 14:37:59

人工智能新聞

清華大學(xué)、騰訊ARC Lab、香港中文大學(xué)和香港大學(xué)聯(lián)手提出了一個(gè)新大模型——MindOmni，顯著增強(qiáng)了AI的“推理生成能力”。

生成圖像這件事，會(huì)推理的AI才是好AI。

舉個(gè)例子，以往要是給AI一句這樣的Prompt：

（3+6）條命的動(dòng)物。

我們?nèi)祟惪隙ㄒ谎劬椭朗秦堖?，但AI的思考過程卻是這樣的：

△雖然生成了貓，但思考過程不對(duì)

思考的過程還是把“（3+6）”里的數(shù)字分開來處理，并沒有真正get到其背后“九條命的動(dòng)物=貓”的本意。

以及像ChatGPT，還是執(zhí)著于在圖片里面展示數(shù)字：

究其原因，是因?yàn)楫?dāng)前主流的基于文本進(jìn)行圖像生成的方法往往依賴固定的文本編碼器，僅能處理“純文本”輸入，難以自然接入圖像、音頻等模態(tài)的信息。

同時(shí)，這類系統(tǒng)在應(yīng)對(duì)“復(fù)雜世界知識(shí)”和“多步驟邏輯推理”方面表現(xiàn)乏力。

但就在最近，清華大學(xué)、騰訊ARC Lab、香港中文大學(xué)和香港大學(xué)聯(lián)手提出了一個(gè)新大模型——MindOmni，顯著增強(qiáng)了AI的“推理生成能力”。

它不僅能理解復(fù)雜指令，還能基于圖文內(nèi)容展開連貫而可信的“思維鏈”（Chain-of-Thought, CoT），生成具備邏輯性與語義一致性的圖像或文本輸出：

△推理圖像生成可視化結(jié)果對(duì)比

△對(duì)基于多模態(tài)用戶輸入的推理感知圖像生成可視化結(jié)果對(duì)比

那么MindOmni又是如何做到的呢？

深挖MindOmni模型架構(gòu)

MindOmni的架構(gòu)設(shè)計(jì)的目的比較清晰，就是為了高效融合視覺理解和生成能力。

其大模型部分基于Qwen2.5-VL構(gòu)建，這是一個(gè)先進(jìn)的視覺語言模型，能夠處理圖像和文本輸入。

它通過預(yù)訓(xùn)練的ViT（Vision Transformer）提取圖像特征，并將文本編碼為離散的標(biāo)記序列。這種設(shè)計(jì)使得模型能夠理解圖像內(nèi)容并生成與之相關(guān)的文本描述。

擴(kuò)散解碼器是MindOmni生成圖像的核心模塊。

它基于OmniGen構(gòu)建，通過去噪過程將潛在的噪聲信號(hào)逐步轉(zhuǎn)化為真實(shí)的圖像。與傳統(tǒng)的生成模型相比，OmniGen具有更高的靈活性和生成質(zhì)量。

在生成過程中，模型會(huì)將視覺和文本特征與噪聲標(biāo)記在序列維度進(jìn)行合并，并通過多次去噪循環(huán)生成最終的圖像。

為了將視覺語言模型與生成模塊有效連接，MindOmni使用一個(gè)包含兩個(gè)標(biāo)準(zhǔn)Transformer層的連接器來連接兩個(gè)模塊，并用于對(duì)齊VLM輸出的特征與生成模塊的輸入維度。

△推理框架概述：MindOmni在統(tǒng)一的大型模型中完成視覺理解、多模態(tài)推理生成和視覺編輯任務(wù)

三階段訓(xùn)練流程：從理解到生成的飛躍

MindOmni采用了三階段訓(xùn)練策略，以逐步提升模型的性能和推理生成能力。

第一階段：基礎(chǔ)預(yù)訓(xùn)練

在預(yù)訓(xùn)練階段，MindOmni主要利用開源圖像-文本對(duì)和X2I數(shù)據(jù)對(duì)來訓(xùn)練連接器。這一階段的目標(biāo)是讓模型初步具備基本的文本到圖像生成能力。

通過擴(kuò)散損失和基于KL散度的蒸餾損失作為優(yōu)化目標(biāo)，模型能夠?qū)W習(xí)到圖像和文本之間的語義對(duì)齊關(guān)系。

具體來說，模型會(huì)通過采樣噪聲數(shù)據(jù)并計(jì)算擴(kuò)散損失來優(yōu)化生成過程，同時(shí)利用KL散度來保持與教師模型的一致性。

第二階段：CoT監(jiān)督微調(diào)

在第二階段，研究人員收集了不同粒度的描述性文本，構(gòu)建了推理生成指令數(shù)據(jù)。

這些數(shù)據(jù)包括粗粒度的描述作為答案內(nèi)容，以及細(xì)粒度的描述作為推理內(nèi)容。

通過監(jiān)督微調(diào)，模型能夠?qū)W習(xí)到如何根據(jù)指令生成具有邏輯推理的文本內(nèi)容。

這一階段的訓(xùn)練數(shù)據(jù)還包括通過高性能文生圖模型生成的高質(zhì)量圖像，以提升模型的生成質(zhì)量。

第三階段：推理生成策略優(yōu)化（RGPO）

在第三階段，MindOmni引入了推理生成策略優(yōu)化（RGPO）算法。

這一算法的核心思想是通過強(qiáng)化學(xué)習(xí)，讓模型能夠顯式地生成邏輯推理鏈。研究人員構(gòu)建了一個(gè)包含用戶指令、目標(biāo)提示和對(duì)應(yīng)解釋的純文本訓(xùn)練數(shù)據(jù)集，并設(shè)計(jì)了一個(gè)推理生成導(dǎo)向的系統(tǒng)提示，引導(dǎo)模型生成推理內(nèi)容。

RGPO強(qiáng)化學(xué)習(xí)算法

受DeepSeek-R1啟發(fā)，研究人員提出了RGPO強(qiáng)化學(xué)習(xí)算法，通過明確生成邏輯思路鏈來增強(qiáng)模型的推理生成能力。

在部署過程中，策略模型 π_Θ首先為每個(gè)請(qǐng)求q采樣G組結(jié)果{o_i}^G_i=1 ，每組結(jié)果包含一個(gè)推理鏈o_i^T和一個(gè)對(duì)應(yīng)的圖像o_i^I。

為了提高生成推理過程的質(zhì)量，研究者引入了兩種獎(jiǎng)勵(lì)函數(shù)來引導(dǎo)策略模型生成連貫有效的輸出：

格式獎(jiǎng)勵(lì)評(píng)估思路鏈?zhǔn)欠穹项A(yù)期結(jié)構(gòu)，如果內(nèi)容包含在對(duì)應(yīng)標(biāo)簽中，則返回1，否則返回0。
一致性獎(jiǎng)勵(lì)使用來自CLIP圖像和文本編碼器的余弦相似度來衡量生成圖像與參考真實(shí)提示之間的語義對(duì)齊情況。然后，通過所有獎(jiǎng)勵(lì)值計(jì)算第i個(gè)輸出的優(yōu)勢(shì)A_i，公式如下：

△訓(xùn)練流程概述：研究者提出了一個(gè)三階段訓(xùn)練框架，包括預(yù)訓(xùn)練、基于指令的監(jiān)督微調(diào)和基于RGPO的強(qiáng)化學(xué)習(xí)

在強(qiáng)化學(xué)習(xí)過程中，研究者引入了兩種基于KL散度的蒸餾策略：D^T_KL用于文本生成，D^I_KL用于圖像生成，以懲罰參考模型 π_ref與先前策略之間的較大偏差，從而促進(jìn)更平滑的策略過渡，并降低遺忘先前學(xué)習(xí)知識(shí)的風(fēng)險(xiǎn)。

研究人員計(jì)算了o_i的兩個(gè)蒸餾函數(shù)，如下所示：

最后，通過最小化目標(biāo)函數(shù) 來優(yōu)化策略模型，如下所示：

△RGPO中不同Metric的曲線：“Completion Length”表示策略模型在部署過程中的輸出長(zhǎng)度；研究人員發(fā)現(xiàn)CoT長(zhǎng)度和最終性能并不呈現(xiàn)正相關(guān)性

實(shí)驗(yàn)結(jié)果: 各大基準(zhǔn)測(cè)試全面領(lǐng)先

視覺理解和生成任務(wù)

通過廣泛的實(shí)驗(yàn)，MindOmni在多個(gè)多模態(tài)理解和生成基準(zhǔn)測(cè)試中表現(xiàn)出色。

在圖像理解方面，MindOmni在MMMU、MMBench和RealworldQA等基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī)。

與之前的統(tǒng)一模型相比，MindOmni在MMMU上比Janus-Pro提升了10.6%，在MMBench上比MetaMorph提升了9.8%。

這些結(jié)果表明，MindOmni在理解圖像內(nèi)容方面具有顯著優(yōu)勢(shì)。

在文本到圖像生成方面，MindOmni在GenEval基準(zhǔn)測(cè)試中取得了83%的總體分?jǐn)?shù)，超越了其他統(tǒng)一模型。

此外，在DPG-Bench測(cè)試中，MindOmni也表現(xiàn)出色，證明了其在生成任務(wù)中的強(qiáng)大能力。

△視覺理解基準(zhǔn)測(cè)試的性能比較：“Und.”和“Gen.”分別表示“理解”和“生成”

△在 GenEval 和 DPG-Bench 上的性能比較

推理生成能力

MindOmni在推理生成任務(wù)中的表現(xiàn)尤為突出。

在WISE基準(zhǔn)測(cè)試中，MindOmni在文化知識(shí)、時(shí)空推理和自然科學(xué)等多個(gè)子類別中均超越了現(xiàn)有方法，取得了0.71的總體分?jǐn)?shù)。

與生成型模型（如FLUX和PixArt）以及統(tǒng)一模型（如MetaQuery-XL）相比，MindOmni在推理生成任務(wù)中展現(xiàn)了顯著的優(yōu)勢(shì)。這主要得益于其聯(lián)合理解-生成訓(xùn)練和基于CoT引導(dǎo)的強(qiáng)化學(xué)習(xí)。

△與WISE基準(zhǔn)上的最新模型進(jìn)行比較

定性結(jié)果

研究人員通過可視化不同模型的結(jié)果來展現(xiàn)MindOmni在推理生成方面的性能。

例如，在生成“具有（3 + 6）條命的動(dòng)物”圖像時(shí)，MindOmni能夠正確理解數(shù)學(xué)表達(dá)式，并生成與之相關(guān)的貓的圖像，體現(xiàn)了其推理生成能力。

此外，在生成“悉尼歌劇院在紐約中午時(shí)的場(chǎng)景”圖像時(shí)，MindOmni能夠考慮到悉尼和紐約的時(shí)差，并生成符合場(chǎng)景描述的圖像。

同時(shí)MindOmni在圖文多模態(tài)輸入場(chǎng)景下也表現(xiàn)出色。更多可視化結(jié)果請(qǐng)參考論文及附錄。

消融研究

為了驗(yàn)證訓(xùn)練策略的有效性，研究人員進(jìn)行了廣泛的消融實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果表明，每個(gè)訓(xùn)練階段對(duì)模型的性能有重要貢獻(xiàn)。

例如，第一階段的預(yù)訓(xùn)練為模型提供了基本的生成能力；第二階段的監(jiān)督微調(diào)顯著提升了模型在WISE基準(zhǔn)測(cè)試中的表現(xiàn)；而第三階段的RGPO算法則進(jìn)一步優(yōu)化了模型的推理生成能力。

此外，消融實(shí)驗(yàn)還驗(yàn)證了不同連接器、KL系數(shù)、組數(shù)和獎(jiǎng)勵(lì)策略對(duì)模型性能的影響。詳細(xì)結(jié)果請(qǐng)參考研究論文。

論文鏈接：

https://arxiv.org/pdf/2505.13031

代碼鏈接：
https://github.com/TencentARC/MindOmni

責(zé)任編輯：張燕妮來源：量子位

模型 AI 圖像生成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<big id="gffv9"><mark id="gffv9"></mark></big>

<big id="gffv9"></big>

<blockquote id="gffv9"><mark id="gffv9"></mark></blockquote>

<meter id="gffv9"><td id="gffv9"><dl id="gffv9"></dl></td></meter>

<u id="gffv9"></u>