偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

突破全模態(tài)AI理解邊界:引入上下文強(qiáng)化學(xué)習(xí),賦能全模態(tài)模型“意圖”推理新高度

人工智能 新聞
阿里巴巴通義實驗室團(tuán)隊推出HumanOmniV2,強(qiáng)調(diào)模型必須在對多模態(tài)輸入全局上下文有清晰理解的基礎(chǔ)上進(jìn)行推理。

在多模態(tài)大語言模型(MLLMs)應(yīng)用日益多元化的今天,對模型深度理解和分析人類意圖的需求愈發(fā)迫切。盡管強(qiáng)化學(xué)習(xí)(RL)在增強(qiáng)大語言模型(LLMs)的推理能力方面已展現(xiàn)出巨大潛力,但將其有效應(yīng)用于復(fù)雜的多模態(tài)數(shù)據(jù)和格式仍面臨諸多挑戰(zhàn)。

在深入研究現(xiàn)有技術(shù)后,發(fā)現(xiàn)在當(dāng)前多模態(tài)推理模型中發(fā)現(xiàn)現(xiàn)有的推理路徑存在兩大核心問題:全局上下文理解不足和捷徑問題。

圖片

全局上下文理解不足: 當(dāng)模型無法準(zhǔn)確識別或錯誤解讀多模態(tài)證據(jù)和上下文信息時,便會出現(xiàn)此問題,導(dǎo)致給出不正確的答案。

捷徑問題: 指模型在處理多模態(tài)輸入時,忽視了關(guān)鍵線索,未充分考量多模態(tài)信息就直接給出答案,從而導(dǎo)致次優(yōu)或片面的結(jié)果

為徹底解決這些痛點(diǎn),阿里巴巴通義實驗室團(tuán)隊推出HumanOmniV2,強(qiáng)調(diào)模型必須在對多模態(tài)輸入全局上下文有清晰理解的基礎(chǔ)上進(jìn)行推理。這種全局性理解能夠有效避免模型遺漏關(guān)鍵多模態(tài)線索,確保推理過程的全面性和深入性。

相關(guān)代碼、模型、數(shù)據(jù)都開源,地址可在文末獲取。

效果展示

問題:這兩個人是什么關(guān)系?

A. 他們想引起人們對該產(chǎn)品的關(guān)注。

B. 這兩個人是商業(yè)伙伴,他們正試圖推銷他們的產(chǎn)品。

C. 他們在推銷另一種產(chǎn)品。

D. 看起來他們剛認(rèn)識,以便他能在她的節(jié)目中展示他的產(chǎn)品。 

圖片

創(chuàng)新與優(yōu)勢

  • 強(qiáng)制上下文總結(jié)與全模態(tài)推理

為實現(xiàn)這一目標(biāo),要求模型在推理之前,首先在一個標(biāo)簽內(nèi)輸出其對上下文信息的概括。這種強(qiáng)制性的上下文理解能夠有效避免模型跳過關(guān)鍵的多模態(tài)輸入信息,并在隨后的推理過程中提供全面的全局背景支持。

  • 多維度獎勵機(jī)制引導(dǎo)

為了確保模型準(zhǔn)確理解多模態(tài)上下文信息,引入了上下文獎勵 (Context Reward),并與格式獎勵 (Format Reward) 和準(zhǔn)確性獎勵 (Accuracy Reward) 協(xié)同作用。上下文獎勵通過LLM進(jìn)行評估,對比模型輸出的上下文與參考上下文的一致性,從而引導(dǎo)模型提升上下文理解能力。

  • 復(fù)雜邏輯推理能力激勵

此外,為激勵模型發(fā)展更復(fù)雜的推理能力,還利用LLM評估其推理過程是否成功融合了多模態(tài)信息,并應(yīng)用了反思、演繹、歸納等高級邏輯分析技術(shù)。其中,上下文獎勵的計算基于生成文本的上下文部分,而邏輯獎勵則關(guān)聯(lián)到生成文本的上下文和推理兩部分。

  • 優(yōu)化的GRPO訓(xùn)練策略

基于Qwen2.5-Omni-Thinker,對GRPO訓(xùn)練方法進(jìn)行了關(guān)鍵改進(jìn),包括引入令牌級損失以克服長序列不平衡、移除問題級歸一化項以消除優(yōu)化偏差,并應(yīng)用動態(tài)KL散度以提升探索能力和訓(xùn)練穩(wěn)定性,從而全面提升了模型的訓(xùn)練效率、公平性與魯棒性。

核心方法

圖片

在模型設(shè)計方面,以Qwen2.5-Omni-Thinker為基礎(chǔ)模型,并在此基礎(chǔ)上,對GRPO (Group Relative Policy Optimization)的基于最新研究的改進(jìn),以實現(xiàn)更高效、更穩(wěn)定的訓(xùn)練

首先,為了有效應(yīng)對長序列訓(xùn)練中普遍存在的不平衡問題,引入令牌級損失(Token-level Loss),這種細(xì)粒度的損失計算能夠確保在處理長樣本數(shù)據(jù)時,模型對每個Token的學(xué)習(xí)都能得到充分且平衡的優(yōu)化,避免某些部分因序列過長而被忽視,從而顯著提升了訓(xùn)練的效率和質(zhì)量。

其次,移除了傳統(tǒng)的問題級歸一化項(Question-level Normalization Term)。經(jīng)驗表明,該歸一化項可能導(dǎo)致不同問題在目標(biāo)函數(shù)中擁有差異化的權(quán)重,進(jìn)而引入優(yōu)化上的難度偏差,影響模型對不同難度的學(xué)習(xí)效率。通過取消這一項,確保了優(yōu)化過程對所有問題的一致性,從而促進(jìn)模型更全面、更公平地學(xué)習(xí)和理解各類問題。

此外,為了進(jìn)一步提升模型探索能力并確保訓(xùn)練穩(wěn)定性,巧妙地引入了動態(tài)KL散度(Dynamic KL Divergence)策略。這一機(jī)制能夠有效避免在訓(xùn)練初期過度限制模型的自由探索空間,充分發(fā)揮其潛力;同時,也能防止在訓(xùn)練后期模型行為出現(xiàn)發(fā)散,確保訓(xùn)練過程的穩(wěn)健性。動態(tài)KL散度的應(yīng)用使得模型在整個訓(xùn)練周期內(nèi)能夠進(jìn)行更充分的策略探索,并顯著提升了訓(xùn)練的穩(wěn)健性。

構(gòu)建基于全局上下文的強(qiáng)化推理范式:針對現(xiàn)有模型全局上下文理解不足和推理捷徑問題,提出了一套創(chuàng)新的推理范式,包括:

強(qiáng)制性結(jié)構(gòu)化響應(yīng)格式(……),要求模型顯式地總結(jié)多模態(tài)上下文并進(jìn)行反思性邏輯推理;

LLM驅(qū)動的多維獎勵機(jī)制,為確保模型準(zhǔn)確解讀多模態(tài)上下文信息,引入了由大語言模型判斷的上下文獎勵(Context Reward),并輔以格式獎勵(Format Reward)和準(zhǔn)確性獎勵(Accuracy Reward)。這使得模型能在生成響應(yīng)時,更好地對齊人類的意圖和偏好。為了提升模型的復(fù)雜推理能力,進(jìn)一步利用LLM評估其推理過程是否成功融合了反思、演繹、歸納等高級邏輯方法與多模態(tài)信息,提供邏輯性獎勵(Logical Reward)。通過上下文獎勵和邏輯獎勵(結(jié)合因果掩碼精確應(yīng)用)來精確評估和激勵模型對多模態(tài)上下文的理解以及復(fù)雜的邏輯推理能力。

構(gòu)建高質(zhì)量數(shù)據(jù)集與基準(zhǔn)

訓(xùn)練MLLMs進(jìn)行推理極具挑戰(zhàn),主要原因在于缺乏大規(guī)模的人工標(biāo)注推理數(shù)據(jù)。為此,創(chuàng)新性地構(gòu)建了一個全模態(tài)推理訓(xùn)練數(shù)據(jù)集,其中包含了圖像、視頻和音頻的理解任務(wù),并融入了豐富的上下文信息,以支持模型在復(fù)雜場景下的推理學(xué)習(xí)。該數(shù)據(jù)集同時提供了多模態(tài)輸入的總結(jié)和推理路徑,適用于模型的冷啟動訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。

在開發(fā)全模態(tài)推理模型時面臨的另一個挑戰(zhàn)是缺乏有效的相關(guān)基準(zhǔn)來評估其性能。為此,隆重推出了IntentBench,一個創(chuàng)新性的全模態(tài)基準(zhǔn),旨在評估模型在復(fù)雜場景中理解人類行為和意圖的能力。該基準(zhǔn)包含633個視頻和2,689個相關(guān)問題,這些問題緊密關(guān)聯(lián)視頻中的聽覺和視覺線索,并要求模型對全局上下文、細(xì)致觀察和復(fù)雜社會關(guān)系有深刻的理解和推理。與主要側(cè)重于一般感知場景的Daily-Omni 和 WorldSense 相比,IntentBench更專注于評估全模態(tài)模型理解和推理復(fù)雜人類意圖和情感的能力。

實驗與結(jié)果

HumanOmniV2 在多個基準(zhǔn)數(shù)據(jù)集上取得了突破性成果,它在開源全模態(tài)模型中取得了最佳性能,在Daily-Omni上達(dá)到58.47%,在WorldSense上達(dá)到47.1%,在全新引入的IntentBench上更是高達(dá)69.33%。相比當(dāng)前其他開源全模態(tài)模型取得了顯著領(lǐng)先的成果。這標(biāo)志著多模態(tài)AI在理解人類復(fù)雜意圖方面邁出了堅實一步,為未來更智能、更人性化的人工智能應(yīng)用奠定了基礎(chǔ)。

圖片圖片圖片

核心貢獻(xiàn)總結(jié):

創(chuàng)新性的推理范式: 提出模型在推理之前應(yīng)先對多模態(tài)輸入進(jìn)行上下文總結(jié),旨在解決跳過關(guān)鍵多模態(tài)信息和上下文理解不足的問題。同時,通過上下文獎勵和邏輯獎勵激勵模型準(zhǔn)確總結(jié)上下文并促進(jìn)復(fù)雜推理。

高質(zhì)量數(shù)據(jù)集與評測基準(zhǔn): 提供了一個包含多模態(tài)輸入總結(jié)和推理路徑的全模態(tài)推理訓(xùn)練數(shù)據(jù)集,適用于冷啟動訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。此外,還精心策劃了一個以人為中心的全模態(tài)評估基準(zhǔn)IntentBench,它要求模型同時理解視頻和音頻、全局上下文、復(fù)雜的社會關(guān)系以及細(xì)致的觀察。

領(lǐng)先的模型性能: 提出的HumanOmniV2在包括全新IntentBench、Daily-Omni和WorldSense在內(nèi)的多個全模態(tài)基準(zhǔn)測試中,相比現(xiàn)有開源全模態(tài)方法取得了最佳性能。

github:https://github.com/HumanMLLM/HumanOmniV2
arxiv:https://arxiv.org/abs/2506.21277
modelscope:https://modelscope.cn/models/iic/humanomniv2
huggingface:https://huggingface.co/PhilipC/HumanOmniV2
intentbench:https://huggingface.co/datasets/PhilipC/IntentBench

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-10-23 09:17:30

2023-09-18 11:41:26

論文3D

2025-05-06 08:40:00

2017-12-17 17:01:23

限界上下文系統(tǒng)模型

2025-02-27 07:48:25

2025-05-28 11:46:52

強(qiáng)化學(xué)習(xí)模型AI

2025-07-16 13:05:15

2025-04-17 14:19:46

2024-06-17 00:00:00

MiCo模態(tài)人腦

2025-10-27 09:38:26

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2025-06-03 08:49:00

2025-08-07 09:16:41

2025-04-30 09:00:00

模型推理AI

2025-05-09 08:40:00

2025-05-09 09:15:00

2024-07-30 13:42:57

2025-06-26 15:11:41

AI模型自動化

2025-06-09 09:32:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號