偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

突破全模態(tài)AI理解邊界：引入上下文強(qiáng)化學(xué)習(xí)，賦能全模態(tài)模型“意圖”推理新高度

2025-07-09 08:55:39

人工智能新聞

阿里巴巴通義實驗室團(tuán)隊推出HumanOmniV2，強(qiáng)調(diào)模型必須在對多模態(tài)輸入全局上下文有清晰理解的基礎(chǔ)上進(jìn)行推理。

在多模態(tài)大語言模型（MLLMs）應(yīng)用日益多元化的今天，對模型深度理解和分析人類意圖的需求愈發(fā)迫切。盡管強(qiáng)化學(xué)習(xí)（RL）在增強(qiáng)大語言模型（LLMs）的推理能力方面已展現(xiàn)出巨大潛力，但將其有效應(yīng)用于復(fù)雜的多模態(tài)數(shù)據(jù)和格式仍面臨諸多挑戰(zhàn)。

在深入研究現(xiàn)有技術(shù)后，發(fā)現(xiàn)在當(dāng)前多模態(tài)推理模型中發(fā)現(xiàn)現(xiàn)有的推理路徑存在兩大核心問題：全局上下文理解不足和捷徑問題。

全局上下文理解不足：當(dāng)模型無法準(zhǔn)確識別或錯誤解讀多模態(tài)證據(jù)和上下文信息時，便會出現(xiàn)此問題，導(dǎo)致給出不正確的答案。

捷徑問題：指模型在處理多模態(tài)輸入時，忽視了關(guān)鍵線索，未充分考量多模態(tài)信息就直接給出答案，從而導(dǎo)致次優(yōu)或片面的結(jié)果

為徹底解決這些痛點(diǎn)，阿里巴巴通義實驗室團(tuán)隊推出HumanOmniV2，強(qiáng)調(diào)模型必須在對多模態(tài)輸入全局上下文有清晰理解的基礎(chǔ)上進(jìn)行推理。這種全局性理解能夠有效避免模型遺漏關(guān)鍵多模態(tài)線索，確保推理過程的全面性和深入性。

相關(guān)代碼、模型、數(shù)據(jù)都開源，地址可在文末獲取。

效果展示

問題：這兩個人是什么關(guān)系？

A. 他們想引起人們對該產(chǎn)品的關(guān)注。

B. 這兩個人是商業(yè)伙伴，他們正試圖推銷他們的產(chǎn)品。

C. 他們在推銷另一種產(chǎn)品。

D. 看起來他們剛認(rèn)識，以便他能在她的節(jié)目中展示他的產(chǎn)品。

創(chuàng)新與優(yōu)勢

強(qiáng)制上下文總結(jié)與全模態(tài)推理

為實現(xiàn)這一目標(biāo)，要求模型在推理之前，首先在一個標(biāo)簽內(nèi)輸出其對上下文信息的概括。這種強(qiáng)制性的上下文理解能夠有效避免模型跳過關(guān)鍵的多模態(tài)輸入信息，并在隨后的推理過程中提供全面的全局背景支持。

多維度獎勵機(jī)制引導(dǎo)

為了確保模型準(zhǔn)確理解多模態(tài)上下文信息，引入了上下文獎勵 (Context Reward)，并與格式獎勵 (Format Reward) 和準(zhǔn)確性獎勵 (Accuracy Reward) 協(xié)同作用。上下文獎勵通過LLM進(jìn)行評估，對比模型輸出的上下文與參考上下文的一致性，從而引導(dǎo)模型提升上下文理解能力。

復(fù)雜邏輯推理能力激勵

此外，為激勵模型發(fā)展更復(fù)雜的推理能力，還利用LLM評估其推理過程是否成功融合了多模態(tài)信息，并應(yīng)用了反思、演繹、歸納等高級邏輯分析技術(shù)。其中，上下文獎勵的計算基于生成文本的上下文部分，而邏輯獎勵則關(guān)聯(lián)到生成文本的上下文和推理兩部分。

優(yōu)化的GRPO訓(xùn)練策略

基于Qwen2.5-Omni-Thinker，對GRPO訓(xùn)練方法進(jìn)行了關(guān)鍵改進(jìn)，包括引入令牌級損失以克服長序列不平衡、移除問題級歸一化項以消除優(yōu)化偏差，并應(yīng)用動態(tài)KL散度以提升探索能力和訓(xùn)練穩(wěn)定性，從而全面提升了模型的訓(xùn)練效率、公平性與魯棒性。

核心方法

在模型設(shè)計方面，以Qwen2.5-Omni-Thinker為基礎(chǔ)模型，并在此基礎(chǔ)上，對GRPO (Group Relative Policy Optimization)的基于最新研究的改進(jìn)，以實現(xiàn)更高效、更穩(wěn)定的訓(xùn)練

首先，為了有效應(yīng)對長序列訓(xùn)練中普遍存在的不平衡問題，引入令牌級損失（Token-level Loss），這種細(xì)粒度的損失計算能夠確保在處理長樣本數(shù)據(jù)時，模型對每個Token的學(xué)習(xí)都能得到充分且平衡的優(yōu)化，避免某些部分因序列過長而被忽視，從而顯著提升了訓(xùn)練的效率和質(zhì)量。

其次，移除了傳統(tǒng)的問題級歸一化項（Question-level Normalization Term）。經(jīng)驗表明，該歸一化項可能導(dǎo)致不同問題在目標(biāo)函數(shù)中擁有差異化的權(quán)重，進(jìn)而引入優(yōu)化上的難度偏差，影響模型對不同難度的學(xué)習(xí)效率。通過取消這一項，確保了優(yōu)化過程對所有問題的一致性，從而促進(jìn)模型更全面、更公平地學(xué)習(xí)和理解各類問題。

此外，為了進(jìn)一步提升模型探索能力并確保訓(xùn)練穩(wěn)定性，巧妙地引入了動態(tài)KL散度（Dynamic KL Divergence）策略。這一機(jī)制能夠有效避免在訓(xùn)練初期過度限制模型的自由探索空間，充分發(fā)揮其潛力；同時，也能防止在訓(xùn)練后期模型行為出現(xiàn)發(fā)散，確保訓(xùn)練過程的穩(wěn)健性。動態(tài)KL散度的應(yīng)用使得模型在整個訓(xùn)練周期內(nèi)能夠進(jìn)行更充分的策略探索，并顯著提升了訓(xùn)練的穩(wěn)健性。

構(gòu)建基于全局上下文的強(qiáng)化推理范式：針對現(xiàn)有模型全局上下文理解不足和推理捷徑問題，提出了一套創(chuàng)新的推理范式，包括：

強(qiáng)制性結(jié)構(gòu)化響應(yīng)格式（……），要求模型顯式地總結(jié)多模態(tài)上下文并進(jìn)行反思性邏輯推理；

LLM驅(qū)動的多維獎勵機(jī)制，為確保模型準(zhǔn)確解讀多模態(tài)上下文信息，引入了由大語言模型判斷的上下文獎勵（Context Reward），并輔以格式獎勵（Format Reward）和準(zhǔn)確性獎勵（Accuracy Reward）。這使得模型能在生成響應(yīng)時，更好地對齊人類的意圖和偏好。為了提升模型的復(fù)雜推理能力，進(jìn)一步利用LLM評估其推理過程是否成功融合了反思、演繹、歸納等高級邏輯方法與多模態(tài)信息，提供邏輯性獎勵（Logical Reward）。通過上下文獎勵和邏輯獎勵（結(jié)合因果掩碼精確應(yīng)用）來精確評估和激勵模型對多模態(tài)上下文的理解以及復(fù)雜的邏輯推理能力。

構(gòu)建高質(zhì)量數(shù)據(jù)集與基準(zhǔn)

訓(xùn)練MLLMs進(jìn)行推理極具挑戰(zhàn)，主要原因在于缺乏大規(guī)模的人工標(biāo)注推理數(shù)據(jù)。為此，創(chuàng)新性地構(gòu)建了一個全模態(tài)推理訓(xùn)練數(shù)據(jù)集，其中包含了圖像、視頻和音頻的理解任務(wù)，并融入了豐富的上下文信息，以支持模型在復(fù)雜場景下的推理學(xué)習(xí)。該數(shù)據(jù)集同時提供了多模態(tài)輸入的總結(jié)和推理路徑，適用于模型的冷啟動訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。

在開發(fā)全模態(tài)推理模型時面臨的另一個挑戰(zhàn)是缺乏有效的相關(guān)基準(zhǔn)來評估其性能。為此，隆重推出了IntentBench，一個創(chuàng)新性的全模態(tài)基準(zhǔn)，旨在評估模型在復(fù)雜場景中理解人類行為和意圖的能力。該基準(zhǔn)包含633個視頻和2,689個相關(guān)問題，這些問題緊密關(guān)聯(lián)視頻中的聽覺和視覺線索，并要求模型對全局上下文、細(xì)致觀察和復(fù)雜社會關(guān)系有深刻的理解和推理。與主要側(cè)重于一般感知場景的Daily-Omni 和 WorldSense 相比，IntentBench更專注于評估全模態(tài)模型理解和推理復(fù)雜人類意圖和情感的能力。

實驗與結(jié)果

HumanOmniV2 在多個基準(zhǔn)數(shù)據(jù)集上取得了突破性成果，它在開源全模態(tài)模型中取得了最佳性能，在Daily-Omni上達(dá)到58.47%，在WorldSense上達(dá)到47.1%，在全新引入的IntentBench上更是高達(dá)69.33%。相比當(dāng)前其他開源全模態(tài)模型取得了顯著領(lǐng)先的成果。這標(biāo)志著多模態(tài)AI在理解人類復(fù)雜意圖方面邁出了堅實一步，為未來更智能、更人性化的人工智能應(yīng)用奠定了基礎(chǔ)。

核心貢獻(xiàn)總結(jié)：

創(chuàng)新性的推理范式： 提出模型在推理之前應(yīng)先對多模態(tài)輸入進(jìn)行上下文總結(jié)，旨在解決跳過關(guān)鍵多模態(tài)信息和上下文理解不足的問題。同時，通過上下文獎勵和邏輯獎勵激勵模型準(zhǔn)確總結(jié)上下文并促進(jìn)復(fù)雜推理。

高質(zhì)量數(shù)據(jù)集與評測基準(zhǔn)： 提供了一個包含多模態(tài)輸入總結(jié)和推理路徑的全模態(tài)推理訓(xùn)練數(shù)據(jù)集，適用于冷啟動訓(xùn)練和強(qiáng)化學(xué)習(xí)階段。此外，還精心策劃了一個以人為中心的全模態(tài)評估基準(zhǔn)IntentBench，它要求模型同時理解視頻和音頻、全局上下文、復(fù)雜的社會關(guān)系以及細(xì)致的觀察。

領(lǐng)先的模型性能： 提出的HumanOmniV2在包括全新IntentBench、Daily-Omni和WorldSense在內(nèi)的多個全模態(tài)基準(zhǔn)測試中，相比現(xiàn)有開源全模態(tài)方法取得了最佳性能。

github：https://github.com/HumanMLLM/HumanOmniV2
arxiv：https://arxiv.org/abs/2506.21277
modelscope：https://modelscope.cn/models/iic/humanomniv2
huggingface：https://huggingface.co/PhilipC/HumanOmniV2
intentbench：https://huggingface.co/datasets/PhilipC/IntentBench

責(zé)任編輯：張燕妮來源：量子位

模型開源數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="pbxym"><thead id="pbxym"></thead></abbr>

<nobr id="pbxym"><strong id="pbxym"></strong></nobr>