偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ACM MM 2025 | EventVAD:7B參數(shù)免訓(xùn)練,視頻異常檢測新SOTA

人工智能 新聞
EventVAD 作為首個(gè)以事件為中心的免訓(xùn)練視頻異常檢測模型,將推動(dòng)領(lǐng)域從幀級標(biāo)注到完整事件級標(biāo)注的演進(jìn)。

來自北京大學(xué),清華大學(xué)的研究團(tuán)隊(duì)聯(lián)手京東(JD.com)在 ACM MM 2025 發(fā)表了一種以事件為中心低成本高效的 Training-Free 視頻異常檢測框架 EventVAD,論文第一作者邵軼驊目前為北京大學(xué)學(xué)術(shù)訪問學(xué)生,項(xiàng)目負(fù)責(zé)人為來自京東(JD.com)的算法研究員馬傲,目前代碼和數(shù)據(jù)已全面開源。

現(xiàn)有視頻異常檢測(Video Anomaly Detection, VAD)方法中,有監(jiān)督方法依賴大量領(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù),對未見過的異常場景泛化能力薄弱;而無需訓(xùn)練的方法雖借助大語言模型(LLMs)的世界知識實(shí)現(xiàn)檢測,但存在細(xì)粒度視覺時(shí)序定位不足、事件理解不連貫、模型參數(shù)冗余等問題。

為此,來自北大、清華和京東(JD.com)的研究團(tuán)隊(duì)提出了一種全新的視頻異常檢測框架 ——EventVAD。該框架通過動(dòng)態(tài)圖架構(gòu)與多模態(tài)大模型(MLLMs)的時(shí)序事件推理結(jié)合,在減少模型參數(shù)的同時(shí),顯著提升了異常檢測的精度和效率。實(shí)驗(yàn)結(jié)果顯示,EventVAD 在 UCF-Crime 和 XD-Violence 兩大數(shù)據(jù)集上均超越現(xiàn)有 SOTA 方法,成為無需訓(xùn)練場景下的新標(biāo)桿。

圖片

  • 論文標(biāo)題:EventVAD: Training-Free Event-Aware Video Anomaly Detection
  • 論文鏈接:https://arxiv.org/abs/2504.13092
  • 代碼開源:https://github.com/YihuaJerry/EventVAD

研究背景和動(dòng)機(jī)

圖片

視頻異常檢測(VAD)的核心目標(biāo)是精準(zhǔn)定位視頻中的異常幀,但現(xiàn)有方法存在顯著局限:

有監(jiān)督方法依賴大量標(biāo)注數(shù)據(jù),在新場景中需重新微調(diào),泛化能力差;即使是單類監(jiān)督或無監(jiān)督方法,也因缺乏有效標(biāo)簽難以達(dá)到理想性能。無需訓(xùn)練方法以 LAVAD 為代表的方法通過視覺問答模型和 LLMs 評分實(shí)現(xiàn)異常定位,但存在兩大問題:一是依賴至少 130 億參數(shù)的 LLM,導(dǎo)致框架效率低下;二是缺乏對視頻的時(shí)序理解能力,難以連貫解析長視頻,易出現(xiàn)誤檢和長尾問題。

研究團(tuán)隊(duì)發(fā)現(xiàn),無需訓(xùn)練方法的核心瓶頸在于無法對視頻中的異常事件進(jìn)行完整定位,導(dǎo)致后續(xù) LLM 評分存在偏差。受此啟發(fā),如上圖所示,EventVAD 通過將長視頻分割為短事件片段,增強(qiáng) MLLMs 對視頻的時(shí)序一致性理解,同時(shí)引入動(dòng)態(tài)圖模型捕捉幀間關(guān)聯(lián),最終在減少參數(shù)的情況下實(shí)現(xiàn)了更高精度的異常檢測。

EventVAD 的關(guān)鍵創(chuàng)新

圖片

EventVAD 的整體框架包含四個(gè)核心模塊:事件感知?jiǎng)討B(tài)圖構(gòu)建、圖注意力傳播、統(tǒng)計(jì)邊界檢測和事件中心異常評分。通過這一流程,實(shí)現(xiàn)了從視頻幀特征提取到異常幀精準(zhǔn)定位的端到端無需訓(xùn)練檢測。

事件感知?jiǎng)討B(tài)圖構(gòu)建

為捕捉視頻的動(dòng)態(tài)時(shí)序特征,EventVAD 構(gòu)建了融合語義與運(yùn)動(dòng)信息的動(dòng)態(tài)圖模型。結(jié)合 CLIP 的語義特征(512 維)和 RAFT 光流的運(yùn)動(dòng)特征(128 維),通過融合系數(shù)(α=0.75)平衡兩種特征,增強(qiáng)事件的時(shí)序一致性。通過語義相似度(余弦距離)和運(yùn)動(dòng)相似度(指數(shù)距離)計(jì)算幀間關(guān)聯(lián),并引入時(shí)間衰減因子(γ)抑制長距離幀的冗余關(guān)聯(lián),突出短時(shí)間內(nèi)的事件連貫性。

圖注意力傳播

為優(yōu)化幀級特征并保持時(shí)序一致性,EventVAD 設(shè)計(jì)了基于正交約束的圖注意力機(jī)制。通過 QR 分解生成正交的查詢(Q)、鍵(K)、值(V)矩陣,避免特征維度坍縮。基于動(dòng)態(tài)圖的鄰接矩陣計(jì)算注意力權(quán)重,通過迭代傳播更新節(jié)點(diǎn)特征,增強(qiáng)事件邊界的區(qū)分度。

圖片

統(tǒng)計(jì)邊界檢測

為精準(zhǔn)分割視頻中的事件邊界,EventVAD 采用了噪聲魯棒的統(tǒng)計(jì)方法。復(fù)合差異度量中,結(jié)合 L2 范數(shù)(特征幅度跳變)和余弦距離(方向變化),捕捉事件轉(zhuǎn)換的不連續(xù)性。通過 Savitzky-Golay 濾波平滑噪聲,計(jì)算信號比(局部與全局均值比),并基于中位數(shù)絕對偏差(MAD)設(shè)置動(dòng)態(tài)閾值,實(shí)現(xiàn)無監(jiān)督的事件邊界檢測。

事件中心異常評分

為提升 MLLMs 對視頻的理解效率,EventVAD 提出分層提示策略。將分割后的事件片段輸入 MLLMs,先生成視頻內(nèi)容描述,再基于描述輸出異常評分,形成 “自校正” 機(jī)制。相比傳統(tǒng)幀級分析或全局處理,事件級分析平衡了上下文完整性與特征精細(xì)度,減少長視頻分析中的誤差傳播。

實(shí)驗(yàn)驗(yàn)證

研究團(tuán)隊(duì)在 UCF-Crime 和 XD-Violence 兩大基準(zhǔn)數(shù)據(jù)集上對 EventVAD 進(jìn)行了全面評估,結(jié)果顯示其性能顯著優(yōu)于現(xiàn)有方法。

UCF-Crime 數(shù)據(jù)集上的結(jié)果

EventVAD 以 70 億參數(shù)實(shí)現(xiàn)了 82.03% 的 AUC,超越需 130 億參數(shù)的 LAVAD(提升近 4%),同時(shí)優(yōu)于所有無監(jiān)督、單類監(jiān)督方法,甚至超過部分弱監(jiān)督方法。

圖片

XD-Violence 數(shù)據(jù)集上的結(jié)果

使用 XD-Violence 數(shù)據(jù)集的結(jié)果中,在 AP 和 AUC 指標(biāo)上均比現(xiàn)有無需訓(xùn)練的 SOTA 方法(LAVAD)高出約 5%,驗(yàn)證了其在高分辨率場景下的適應(yīng)性。

圖片

可視化分析

圖注意力傳播可視化分析如下圖,選取 UCF-Crime 數(shù)據(jù)集中的異常和正常視頻樣本,對應(yīng)用圖注意力傳播前后的幀間關(guān)系進(jìn)行可視化。熱力圖展示了相應(yīng)幀區(qū)間內(nèi)幀與幀之間權(quán)重關(guān)系的變化。

圖片

統(tǒng)計(jì)邊界檢測可視化分析如下圖,以 UCF-Crime 數(shù)據(jù)集中的樣本為例,對異常視頻和正常視頻的邊界檢測過程進(jìn)行可視化。

圖片

消融實(shí)驗(yàn)

UCF-Crime 和 XD-Violence 數(shù)據(jù)集中正常樣本與異常樣本的可視化。對 LAVAD 未能正確檢測出異常的樣本進(jìn)行了可視化,下圖展示了事件分割結(jié)果以及多模態(tài)大語言模型(MLLM)的異常幀評分,并與真實(shí)標(biāo)簽進(jìn)行了對比。

圖片

總結(jié)與展望

EventVAD 作為首個(gè)以事件為中心的免訓(xùn)練視頻異常檢測模型,將推動(dòng)領(lǐng)域從幀級標(biāo)注到完整事件級標(biāo)注的演進(jìn)。它提供了完整的特征增強(qiáng),事件劃分,異常評分的免真值異常檢測基礎(chǔ),極大減少了人工標(biāo)注的成本和重新訓(xùn)練的開銷。未來,隨著視頻理解模型的星期,EventVAD 這類以事件為中心的視頻異常檢測范式將為視頻細(xì)粒度理解提供基礎(chǔ)。期待基于 EventVAD 涌現(xiàn)更多創(chuàng)新的算法,加速視頻幀級異常檢測的發(fā)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-12-27 10:00:00

數(shù)據(jù)自動(dòng)駕駛

2024-03-18 07:01:42

2024-06-03 10:43:34

2025-05-13 08:59:20

2024-07-18 12:53:13

2025-08-20 07:49:28

2025-03-13 12:39:22

2024-07-15 08:58:00

2024-03-25 08:00:00

2025-09-24 08:53:10

2025-06-23 09:14:00

2024-11-08 10:00:00

AI模型

2025-06-23 08:56:00

2025-03-27 09:40:59

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-08-05 09:09:00

AI訓(xùn)練模型

2023-02-28 07:03:09

AIMeta大型語言

2025-06-17 02:25:00

工業(yè)異常檢測
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號