突破全模態(tài)AI理解邊界:引入上下文強(qiáng)化學(xué)習(xí),賦能全模態(tài)模型“意圖”推理新高度
在多模態(tài)大語言模型(MLLMs)應(yīng)用日益多元化的今天,對模型深度理解和分析人類意圖的需求愈發(fā)迫切。盡管強(qiáng)化學(xué)習(xí)(RL)在增強(qiáng)大語言模型(LLMs)的推理能力方面已展現(xiàn)出巨大潛力,但將其有效應(yīng)用于復(fù)雜的多模態(tài)數(shù)據(jù)和格式仍面臨諸多挑戰(zhàn)。
在深入研究現(xiàn)有技術(shù)后,發(fā)現(xiàn)在當(dāng)前多模態(tài)推理模型中發(fā)現(xiàn)現(xiàn)有的推理路徑存在兩大核心問題:全局上下文理解不足和捷徑問題。

全局上下文理解不足: 當(dāng)模型無法準(zhǔn)確識別或錯誤解讀多模態(tài)證據(jù)和上下文信息時,便會出現(xiàn)此問題,導(dǎo)致給出不正確的答案。
捷徑問題: 指模型在處理多模態(tài)輸入時,忽視了關(guān)鍵線索,未充分考量多模態(tài)信息就直接給出答案,從而導(dǎo)致次優(yōu)或片面的結(jié)果
為徹底解決這些痛點(diǎn),阿里巴巴通義實驗室團(tuán)隊推出HumanOmniV2,強(qiáng)調(diào)模型必須在對多模態(tài)輸入全局上下文有清晰理解的基礎(chǔ)上進(jìn)行推理。這種全局性理解能夠有效避免模型遺漏關(guān)鍵多模態(tài)線索,確保推理過程的全面性和深入性。
相關(guān)代碼、模型、數(shù)據(jù)都開源,地址可在文末獲取。
效果展示
問題:這兩個人是什么關(guān)系?
A. 他們想引起人們對該產(chǎn)品的關(guān)注。
B. 這兩個人是商業(yè)伙伴,他們正試圖推銷他們的產(chǎn)品。
C. 他們在推銷另一種產(chǎn)品。
D. 看起來他們剛認(rèn)識,以便他能在她的節(jié)目中展示他的產(chǎn)品。

創(chuàng)新與優(yōu)勢
- 強(qiáng)制上下文總結(jié)與全模態(tài)推理
為實現(xiàn)這一目標(biāo),要求模型在推理之前,首先在一個標(biāo)簽內(nèi)輸出其對上下文信息的概括。這種強(qiáng)制性的上下文理解能夠有效避免模型跳過關(guān)鍵的多模態(tài)輸入信息,并在隨后的推理過程中提供全面的全局背景支持。
- 多維度獎勵機(jī)制引導(dǎo)
為了確保模型準(zhǔn)確理解多模態(tài)上下文信息,引入了上下文獎勵 (Context Reward),并與格式獎勵 (Format Reward) 和準(zhǔn)確性獎勵 (Accuracy Reward) 協(xié)同作用。上下文獎勵通過LLM進(jìn)行評估,對比模型輸出的上下文與參考上下文的一致性,從而引導(dǎo)模型提升上下文理解能力。
- 復(fù)雜邏輯推理能力激勵
此外,為激勵模型發(fā)展更復(fù)雜的推理能力,還利用LLM評估其推理過程是否成功融合了多模態(tài)信息,并應(yīng)用了反思、演繹、歸納等高級邏輯分析技術(shù)。其中,上下文獎勵的計算基于生成文本的上下文部分,而邏輯獎勵則關(guān)聯(lián)到生成文本的上下文和推理兩部分。
- 優(yōu)化的GRPO訓(xùn)練策略
基于Qwen2.5-Omni-Thinker,對GRPO訓(xùn)練方法進(jìn)行了關(guān)鍵改進(jìn),包括引入令牌級損失以克服長序列不平衡、移除問題級歸一化項以消除優(yōu)化偏差,并應(yīng)用動態(tài)KL散度以提升探索能力和訓(xùn)練穩(wěn)定性,從而全面提升了模型的訓(xùn)練效率、公平性與魯棒性。
核心方法

在模型設(shè)計方面,以Qwen2.5-Omni-Thinker為基礎(chǔ)模型,并在此基礎(chǔ)上,對GRPO (Group Relative Policy Optimization)的基于最新研究的改進(jìn),以實現(xiàn)更高效、更穩(wěn)定的訓(xùn)練
首先,為了有效應(yīng)對長序列訓(xùn)練中普遍存在的不平衡問題,引入令牌級損失(Token-level Loss),這種細(xì)粒度的損失計算能夠確保在處理長樣本數(shù)據(jù)時,模型對每個Token的學(xué)習(xí)都能得到充分且平衡的優(yōu)化,避免某些部分因序列過長而被忽視,從而顯著提升了訓(xùn)練的效率和質(zhì)量。
其次,移除了傳統(tǒng)的問題級歸一化項(Question-level Normalization Term)。經(jīng)驗表明,該歸一化項可能導(dǎo)致不同問題在目標(biāo)函數(shù)中擁有差異化的權(quán)重,進(jìn)而引入優(yōu)化上的難度偏差,影響模型對不同難度的學(xué)習(xí)效率。通過取消這一項,確保了優(yōu)化過程對所有問題的一致性,從而促進(jìn)模型更全面、更公平地學(xué)習(xí)和理解各類問題。
此外,為了進(jìn)一步提升模型探索能力并確保訓(xùn)練穩(wěn)定性,巧妙地引入了動態(tài)KL散度(Dynamic KL Divergence)策略。這一機(jī)制能夠有效避免在訓(xùn)練初期過度限制模型的自由探索空間,充分發(fā)揮其潛力;同時,也能防止在訓(xùn)練后期模型行為出現(xiàn)發(fā)散,確保訓(xùn)練過程的穩(wěn)健性。動態(tài)KL散度的應(yīng)用使得模型在整個訓(xùn)練周期內(nèi)能夠進(jìn)行更充分的策略探索,并顯著提升了訓(xùn)練的穩(wěn)健性。
構(gòu)建基于全局上下文的強(qiáng)化推理范式:針對現(xiàn)有模型全局上下文理解不足和推理捷徑問題,提出了一套創(chuàng)新的推理范式,包括:
強(qiáng)制性結(jié)構(gòu)化響應(yīng)格式(……),要求模型顯式地總結(jié)多模態(tài)上下文并進(jìn)行反思性邏輯推理;
LLM驅(qū)動的多維獎勵機(jī)制,為確保模型準(zhǔn)確解讀多模態(tài)上下文信息,引入了由大語言模型判斷的上下文獎勵(Context Reward),并輔以格式獎勵(Format Reward)和準(zhǔn)確性獎勵(Accuracy Reward)。這使得模型能在生成響應(yīng)時,更好地對齊人類的意圖和偏好。為了提升模型的復(fù)雜推理能力,進(jìn)一步利用LLM評估其推理過程是否成功融合了反思、演繹、歸納等高級邏輯方法與多模態(tài)信息,提供邏輯性獎勵(Logical Reward)。通過上下文獎勵和邏輯獎勵(結(jié)合因果掩碼精確應(yīng)用)來精確評估和激勵模型對多模態(tài)上下文的理解以及復(fù)雜的邏輯推理能力。
構(gòu)建高質(zhì)量數(shù)據(jù)集與基準(zhǔn)
訓(xùn)練MLLMs進(jìn)行推理極具挑戰(zhàn),主要原因在于缺乏大規(guī)模的人工標(biāo)注推理數(shù)據(jù)。為此,創(chuàng)新性地構(gòu)建了一個全模態(tài)推理訓(xùn)練數(shù)據(jù)集,其中包含了圖像、視頻和音頻的理解任務(wù),并融入了豐富的上下文信息,以支持模型在復(fù)雜場景下的推理學(xué)習(xí)。該數(shù)據(jù)集同時提供了多模態(tài)輸入的總結(jié)和推理路徑,適用于模型的冷啟動訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。
在開發(fā)全模態(tài)推理模型時面臨的另一個挑戰(zhàn)是缺乏有效的相關(guān)基準(zhǔn)來評估其性能。為此,隆重推出了IntentBench,一個創(chuàng)新性的全模態(tài)基準(zhǔn),旨在評估模型在復(fù)雜場景中理解人類行為和意圖的能力。該基準(zhǔn)包含633個視頻和2,689個相關(guān)問題,這些問題緊密關(guān)聯(lián)視頻中的聽覺和視覺線索,并要求模型對全局上下文、細(xì)致觀察和復(fù)雜社會關(guān)系有深刻的理解和推理。與主要側(cè)重于一般感知場景的Daily-Omni 和 WorldSense 相比,IntentBench更專注于評估全模態(tài)模型理解和推理復(fù)雜人類意圖和情感的能力。
實驗與結(jié)果
HumanOmniV2 在多個基準(zhǔn)數(shù)據(jù)集上取得了突破性成果,它在開源全模態(tài)模型中取得了最佳性能,在Daily-Omni上達(dá)到58.47%,在WorldSense上達(dá)到47.1%,在全新引入的IntentBench上更是高達(dá)69.33%。相比當(dāng)前其他開源全模態(tài)模型取得了顯著領(lǐng)先的成果。這標(biāo)志著多模態(tài)AI在理解人類復(fù)雜意圖方面邁出了堅實一步,為未來更智能、更人性化的人工智能應(yīng)用奠定了基礎(chǔ)。



核心貢獻(xiàn)總結(jié):
創(chuàng)新性的推理范式: 提出模型在推理之前應(yīng)先對多模態(tài)輸入進(jìn)行上下文總結(jié),旨在解決跳過關(guān)鍵多模態(tài)信息和上下文理解不足的問題。同時,通過上下文獎勵和邏輯獎勵激勵模型準(zhǔn)確總結(jié)上下文并促進(jìn)復(fù)雜推理。
高質(zhì)量數(shù)據(jù)集與評測基準(zhǔn): 提供了一個包含多模態(tài)輸入總結(jié)和推理路徑的全模態(tài)推理訓(xùn)練數(shù)據(jù)集,適用于冷啟動訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。此外,還精心策劃了一個以人為中心的全模態(tài)評估基準(zhǔn)IntentBench,它要求模型同時理解視頻和音頻、全局上下文、復(fù)雜的社會關(guān)系以及細(xì)致的觀察。
領(lǐng)先的模型性能: 提出的HumanOmniV2在包括全新IntentBench、Daily-Omni和WorldSense在內(nèi)的多個全模態(tài)基準(zhǔn)測試中,相比現(xiàn)有開源全模態(tài)方法取得了最佳性能。
github:https://github.com/HumanMLLM/HumanOmniV2
arxiv:https://arxiv.org/abs/2506.21277
modelscope:https://modelscope.cn/models/iic/humanomniv2
huggingface:https://huggingface.co/PhilipC/HumanOmniV2
intentbench:https://huggingface.co/datasets/PhilipC/IntentBench




































