偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nav id="ovd6x"></nav><samp id="ovd6x"></samp>

<var id="ovd6x"></var>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

CVPR'25跨模態(tài)因果對(duì)齊，讓機(jī)器更懂視覺(jué)證據(jù)

2025-03-17 10:25:28

來(lái)自中山大學(xué)、新加坡南洋理工大學(xué)等團(tuán)隊(duì)提出跨模態(tài)因果對(duì)齊框架（CRA），通過(guò)因果干預(yù)和跨模態(tài)對(duì)齊，顯著提升時(shí)空定位的準(zhǔn)確性與可解釋性。

跨模態(tài)因果對(duì)齊，讓機(jī)器更懂視覺(jué)證據(jù)！

來(lái)自中山大學(xué)、新加坡南洋理工大學(xué)等團(tuán)隊(duì)提出跨模態(tài)因果對(duì)齊框架（CRA），通過(guò)因果干預(yù)和跨模態(tài)對(duì)齊，顯著提升時(shí)空定位的準(zhǔn)確性與可解釋性。

相關(guān)論文已被CVPR 2025接收，代碼已開(kāi)源。

圖片

事情是這樣的——

近年來(lái)隨著多模態(tài)大模型的發(fā)展，視頻問(wèn)答（VideoQA）任務(wù)——要求模型根據(jù)視頻內(nèi)容回答自然語(yǔ)言問(wèn)題——性能顯著提升。

然而，現(xiàn)有模型往往依賴訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)偏差（如語(yǔ)言關(guān)鍵詞與答案的虛假關(guān)聯(lián)），而非真正的因果視覺(jué)證據(jù)，導(dǎo)致回答缺乏可解釋性。

舉個(gè)栗子～

例如下圖中，當(dāng)視頻中出現(xiàn)“嬰兒”和“女性”時(shí)，模型可能僅因二者高頻共現(xiàn)而給出答案，卻忽略真實(shí)因果事件（如“女性抱起嬰兒”）。

也就是說(shuō)，雖然結(jié)果答對(duì)了，但過(guò)程中模型采納的是錯(cuò)誤的視覺(jué)依據(jù)。

圖片

針對(duì)類似情況，為提供可靠的視覺(jué)證據(jù)支持，視頻問(wèn)答定位（VideoQG）任務(wù)應(yīng)運(yùn)而生，要求模型同時(shí)輸出答案及其對(duì)應(yīng)視頻片段的時(shí)間區(qū)間。

但現(xiàn)有方法面臨兩大挑戰(zhàn)：

多模態(tài)偏差：視頻與語(yǔ)言中的混淆因素（如高頻關(guān)鍵詞、短時(shí)視覺(jué)特征）導(dǎo)致模型學(xué)習(xí)虛假關(guān)聯(lián)；
弱監(jiān)督限制：標(biāo)注視頻片段成本高昂，現(xiàn)有模型依賴視頻問(wèn)答（VideoQA）的弱監(jiān)督信號(hào)，難以精準(zhǔn)定位。

以上就是CRA框架誕生的背景。

此外，中山大學(xué)HCP-Lab團(tuán)隊(duì)已將關(guān)鍵的因果模塊集成到開(kāi)源因果框架CausalVLR中。

該框架是一個(gè)基于PyTorch的python開(kāi)源工具包，用于因果關(guān)系發(fā)現(xiàn)，因果推理，為各種視覺(jué)語(yǔ)言推理任務(wù)實(shí)現(xiàn)最先進(jìn)的因果學(xué)習(xí)算法。

三模塊驅(qū)動(dòng)因果推理

現(xiàn)有方法常因依賴于訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)偏差，導(dǎo)致模型無(wú)法準(zhǔn)確識(shí)別與問(wèn)題相關(guān)的因果視覺(jué)場(chǎng)景，進(jìn)而產(chǎn)生不準(zhǔn)確的時(shí)空定位結(jié)果。

為克服這一問(wèn)題，CRA框架通過(guò)三個(gè)核心模塊實(shí)現(xiàn)了從噪聲抑制、特征對(duì)齊到因果關(guān)系建模的全流程優(yōu)化。

該框架在NextGQA和STAR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，CRA能夠顯著提升模型的時(shí)空定位能力和因果推理的準(zhǔn)確性，為視頻問(wèn)答定位任務(wù)提供了更可靠的技術(shù)解決方案。

圖片

三個(gè)核心模塊具體展開(kāi)如下：

GSG：抑制噪聲，聚焦關(guān)鍵幀

第一個(gè)，高斯平滑定位模塊（GSG）。

GSG模塊通過(guò)自適應(yīng)高斯濾波去噪，精準(zhǔn)估計(jì)視頻片段的時(shí)間間隔。

圖片

它的核心功能，是基于跨模態(tài)注意力估計(jì)時(shí)間區(qū)間，通過(guò)自適應(yīng)高斯濾波去噪，生成魯棒的視頻片段特征。

技術(shù)亮點(diǎn)主要有仨：

1、跨模態(tài)注意力計(jì)算：利用CLIP視頻特征與RoBERTa語(yǔ)言特征的交互，生成初始時(shí)間注意力權(quán)重；
2、自適應(yīng)高斯濾波：引入可學(xué)習(xí)參數(shù)的高斯核，抑制時(shí)序上的不穩(wěn)定噪聲（如無(wú)關(guān)背景幀），突出關(guān)鍵事件區(qū)域（下圖）；

圖片

3、動(dòng)態(tài)閾值分割：根據(jù)平滑后的注意力分布，動(dòng)態(tài)截取高響應(yīng)區(qū)間，提升定位精度。

消融實(shí)驗(yàn)顯示，移除高斯濾波（GSG w/o GS）會(huì)導(dǎo)致IoU@0.5下降2.2%（下表），證明其對(duì)噪聲抑制的關(guān)鍵作用。

圖片

△GSG消融實(shí)驗(yàn)，其中SGG w/o GS?表示GSG在訓(xùn)練過(guò)程中具有高斯平滑，但在推理過(guò)程中沒(méi)有高斯平滑

CMA：弱監(jiān)督下的雙向?qū)R

第二個(gè)，交叉模態(tài)對(duì)齊模塊（CMA）。

CMA模塊利用雙向?qū)Ρ葘W(xué)習(xí)，增強(qiáng)視頻與問(wèn)答特征的對(duì)齊效果。

它的核心功能，是通過(guò)雙向?qū)Ρ葘W(xué)習(xí)，對(duì)齊視頻片段特征與問(wèn)答特征，增強(qiáng)跨模態(tài)一致性。

技術(shù)亮點(diǎn)有二：

雙向InfoNCE損失：從同一批次中采樣正/負(fù)樣本，分別對(duì)齊視覺(jué)→語(yǔ)言和語(yǔ)言→視覺(jué)特征（公式1-2）；
動(dòng)態(tài)難樣本挖掘：優(yōu)先選擇語(yǔ)義差異大的負(fù)樣本，迫使模型關(guān)注細(xì)粒度因果關(guān)聯(lián)。

圖片

移除CMA模塊后，Acc@GQA下降2%，IoP@0.5下降2.2%（下表），凸顯其對(duì)弱監(jiān)督訓(xùn)練的重要性。

圖片

ECI：切斷虛假因果鏈

第三個(gè)，顯式因果干預(yù)模塊（ECI）。

ECI模塊則通過(guò)前門(mén)和后門(mén)干預(yù)，消除多模態(tài)偏差，提升因果一致性。

它的核心功能，是針對(duì)視覺(jué)和語(yǔ)言模態(tài)分別設(shè)計(jì)前門(mén)干預(yù)與后門(mén)干預(yù)，消除多模態(tài)混淆因素。

技術(shù)亮點(diǎn)有二：

語(yǔ)言后門(mén)干預(yù)：解析問(wèn)答語(yǔ)義結(jié)構(gòu)圖（如主謂賓關(guān)系），阻斷關(guān)鍵詞與答案的虛假路徑；
視覺(jué)前門(mén)干預(yù)：以視頻片段為中介變量，通過(guò)特征聚類模擬混雜因子分布，重構(gòu)因果鏈（公式3-4）。

圖片

實(shí)驗(yàn)結(jié)果顯示，在NextGQA數(shù)據(jù)集上，去除了Causal模塊后相對(duì)于CRA在Acc@GQA造成了1.2%的性能損失。

實(shí)驗(yàn)結(jié)果：多維度性能領(lǐng)先

在NextGQA數(shù)據(jù)集中，CRA以18.2%超越Temp[CLIP]（NG+）2.2%，且在使用FrozenBiLM大模型時(shí)仍保持優(yōu)勢(shì)。

此外，IoP@0.5達(dá)28.5%，顯著優(yōu)于基于LLM偽標(biāo)注的TimeCraft（27.8%），證明其無(wú)需額外數(shù)據(jù)的高效性。

圖片

在STAR數(shù)據(jù)集中，CRA分別以26.8%與27.5%的Acc@GQA分?jǐn)?shù)在Temp[CLIP]和FrozenBiLM的Backbone下領(lǐng)先NG+。

圖片

而通過(guò)統(tǒng)計(jì)弱監(jiān)督視頻定位的分布情況，研究團(tuán)隊(duì)可以觀察到NG+局限于小區(qū)間的估計(jì)，而CRA所估計(jì)的區(qū)間與真實(shí)分布情況更符合。

圖片

綜上，CRA框架通過(guò)跨模態(tài)因果對(duì)齊，首次在弱監(jiān)督條件下實(shí)現(xiàn)了視頻問(wèn)答定位的高精度與可解釋性。

目前，CRA框架代碼已開(kāi)源。

研究團(tuán)隊(duì)表示，CRA為視頻理解提供了新的因果推理范式，或?qū)⑼苿?dòng)自動(dòng)駕駛、智能監(jiān)控等領(lǐng)域的可信AI應(yīng)用。

論文地址：https://arxiv.org/abs/2503.07635CRA-GQA

倉(cāng)庫(kù)：https://github.com/WissingChen/CRA-GQA

因果框架倉(cāng)庫(kù)：https://github.com/HCPLab-SYSU/CausalVLR

責(zé)任編輯：武曉燕來(lái)源：量子位

跨模態(tài)機(jī)器視覺(jué)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)