偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

突破不可解釋性!視頻異常新檢測(cè)框架精度90.67%拿下SOTA|華科&百度&密歇根大學(xué)

人工智能 新聞
來(lái)自華中科技大學(xué)、百度、密歇根大學(xué)的研究團(tuán)隊(duì),提出了一種可解釋性的視頻異常檢測(cè)框架,名為Holmes-VAD。

大模型當(dāng)上福爾摩斯,學(xué)會(huì)對(duì)視頻異常進(jìn)行檢測(cè)了。

來(lái)自華中科技大學(xué)、百度、密歇根大學(xué)的研究團(tuán)隊(duì),提出了一種可解釋性的視頻異常檢測(cè)框架,名為Holmes-VAD。

Holmes-VAD不僅能給出精確的視頻異常定位,還能夠?qū)z測(cè)到的異常提供解釋和分析。

比如,給它看一段監(jiān)控視頻,詢(xún)問(wèn)它視頻中是否有任何異常跡象,它立馬就能識(shí)別出:

有異常,一輛白色面包車(chē)正在路上行駛,突然一輛摩托車(chē)出現(xiàn)并撞上了面包車(chē),造成了一起嚴(yán)重的事故。

圖片

爆炸場(chǎng)景也不在話下:

視頻顯示在沙漠地區(qū)發(fā)生了一次大規(guī)模爆炸,導(dǎo)致大量煙塵飄到空中。這是異常的,因?yàn)樵谧匀画h(huán)境中,如此突然和強(qiáng)烈的能量釋放是一種意料之外且不尋常的事件。

圖片

像是打籃球互相追逐競(jìng)爭(zhēng)這樣?jì)饍旱木哂忻曰笮缘囊曨l,它也能正確識(shí)別并作出解釋?zhuān)?/p>

視頻中展示的是一場(chǎng)典型的籃球比賽,球員們?cè)谝粋€(gè)維護(hù)良好的球場(chǎng)上比賽。這是一個(gè)常見(jiàn)且熟悉的體育賽事場(chǎng)景,沒(méi)有任何不尋?;蚩梢傻幕顒?dòng)。

圖片

Holmes-VAD基于視頻多模態(tài)大模型微調(diào),并利用精確的時(shí)序監(jiān)督和豐富的多模態(tài)指令來(lái)實(shí)現(xiàn)準(zhǔn)確的異常定位和全面的解釋?zhuān)诒O(jiān)控視頻安全分析、視頻生成內(nèi)容檢驗(yàn)等領(lǐng)域具有廣泛應(yīng)用前景。

在定量和定性實(shí)驗(yàn)中,Holmes-VAD在多方面的表現(xiàn)優(yōu)于此前SOTA方法。

除此外,研究團(tuán)隊(duì)還首次引入了視頻異常檢測(cè)領(lǐng)域的大規(guī)模多模態(tài)指令數(shù)據(jù)集——VAD-Instruct50k。

那么,Holmes-VAD、VAD-Instruct50k長(zhǎng)啥樣?

用數(shù)據(jù)引擎構(gòu)建大規(guī)模數(shù)據(jù)集

首先,研究團(tuán)隊(duì)構(gòu)建了首個(gè)大規(guī)模多模態(tài)VAD指令微調(diào)數(shù)據(jù)集,VAD-Instruct50k。

該數(shù)據(jù)集使用半自動(dòng)數(shù)據(jù)引擎創(chuàng)建

圖片

△數(shù)據(jù)引擎流程圖

主要包括下列步驟:

時(shí)序單幀標(biāo)注

研究團(tuán)隊(duì)采用了一種高效的時(shí)間注釋方法,即標(biāo)注涉異常事件中的隨機(jī)單幀,用該方法來(lái)減小注釋成本,利于擴(kuò)大標(biāo)注視頻的數(shù)量。

事件片段生成

基于單幀注釋?zhuān)瑘F(tuán)隊(duì)設(shè)計(jì)了一種可靠的偽幀級(jí)標(biāo)簽生成方法,對(duì)于每個(gè)具有單幀注釋G = {gi}的異常視頻及其由訓(xùn)練好的VAD網(wǎng)絡(luò)估算的異常評(píng)分,在注釋幀周?chē)啥鄠€(gè)異常事件提議,對(duì)于正常視頻,也隨機(jī)提取若干正常事件提議。

完成此過(guò)程后,收集所有帶有異常標(biāo)簽的剪輯事件片段:E={si, ei, yi},其中如果事件片段來(lái)自異常視頻,則yi設(shè)置為視頻的異常類(lèi)別(例如,爆炸),否則設(shè)置為正常。

事件片段描述

為了充分提取事件片段中的語(yǔ)義信息,研究人員利用基于視頻的多模態(tài)大型語(yǔ)言模型(MLLM)為每個(gè)事件片段生成詳細(xì)的描述。

還包括Surveillance Vision數(shù)據(jù)集,該數(shù)據(jù)集為UCF-Crime視頻片段提供了手動(dòng)注釋的詳細(xì)細(xì)粒度事件描述。結(jié)合這些資源后,獲得了所有帶有相應(yīng)描述和異常標(biāo)簽的事件片段:E={si, ei, yi, ci}。

異常對(duì)話生成

研究人員將異常標(biāo)簽和事件片段描述作為視頻的文本信息,并設(shè)計(jì)豐富的異常內(nèi)容提問(wèn),如:“Are there any unexpected or unusual events in the video clip?”。

將它們輸入到大語(yǔ)言模型中進(jìn)行分析回答,得到“視頻-提問(wèn)-回答”的指令對(duì),最后對(duì)質(zhì)量低下的指令對(duì)進(jìn)行篩查過(guò)濾。

提出可解釋視頻異常檢測(cè)框架

為實(shí)現(xiàn)開(kāi)放世界的視頻異常檢測(cè)(VAD),現(xiàn)有的方法在面對(duì)具有挑戰(zhàn)性或未見(jiàn)過(guò)的事件時(shí)往往表現(xiàn)出偏見(jiàn),并且不能對(duì)異常內(nèi)容作出解釋。

基于VAD-Instruct50k,研究團(tuán)隊(duì)設(shè)計(jì)了一種可解釋視頻異常檢測(cè)框架Holmes-VAD。

圖片

△HolmesVAD網(wǎng)絡(luò)框架

其由下列部分組成:

視覺(jué)編碼器

研究團(tuán)隊(duì)利用LanguageBind中凍結(jié)的視頻編碼器,該編碼器繼承了CLIP的ViT-L/14結(jié)構(gòu),稱(chēng)之為?v。

與原始的ViT不同,它通過(guò)在時(shí)間維度上添加自注意力層來(lái)建模幀之間的時(shí)間關(guān)系。

圖片

時(shí)序采樣器

由于視頻中大量視覺(jué)tokens導(dǎo)致的過(guò)度計(jì)算負(fù)擔(dān),過(guò)去基于視頻的MLLM方法采用了視頻的均勻時(shí)間幀采樣,例如8幀。

研究團(tuán)隊(duì)認(rèn)為這種方法顯然不適用于視頻異常檢測(cè)任務(wù)中的長(zhǎng)視頻,因?yàn)樗黾恿撕雎躁P(guān)鍵信息的概率。

為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)首先利用VAD網(wǎng)絡(luò)評(píng)估每幀的異常分?jǐn)?shù),該網(wǎng)絡(luò)接收視頻幀的cls token并輸出異常分?jǐn)?shù):

圖片

然后,根據(jù)異常分?jǐn)?shù)對(duì)視頻標(biāo)記進(jìn)行采樣。

具體來(lái)說(shuō),只有對(duì)應(yīng)異常分?jǐn)?shù)高于設(shè)定閾值的幀對(duì)應(yīng)的tokens會(huì)被輸入到LLM中,通過(guò)這種方式,模型可以對(duì)長(zhǎng)視頻做出高效響應(yīng)。

圖片

LLM

為了使LLM理解視覺(jué)編碼器輸出的特征,在它們之間設(shè)計(jì)了一個(gè)由兩層MLP組成的projector,與LLM的輸入維度對(duì)齊,團(tuán)隊(duì)使用Vicuna作為L(zhǎng)LM。

效果如何?

在訓(xùn)練過(guò)程中,時(shí)序上的單幀異常標(biāo)注被用于訓(xùn)練時(shí)間采樣器來(lái)選擇具有高異常響應(yīng)的幀,數(shù)據(jù)集中的異常相關(guān)對(duì)話內(nèi)容被用于微調(diào)多模態(tài)大語(yǔ)言模型(MLLM)來(lái)生成解釋性?xún)?nèi)容。

研究人員進(jìn)行了大量定量和定性實(shí)驗(yàn)分析,結(jié)果驗(yàn)證了所提出的Holmes-VAD的通用性和可解釋性。

定量評(píng)估方面,研究人員將本文方法與最先進(jìn)的方法進(jìn)行了比較,包括半監(jiān)督方法、無(wú)監(jiān)督方法、弱監(jiān)督方法和最近的Training-Free方法。

下表1中列出了它們的骨干網(wǎng)絡(luò)、監(jiān)督方法以及在UCF-Crime和XD-Violence數(shù)據(jù)集上的表現(xiàn)。

Holmes-VAD方法在XD-Violence上的AP為90.67%,在UCF-Crime上的AUC為89.51%,顯著超越了之前的最先進(jìn)方法,證明了該方法可以生成更少偏見(jiàn)的異常評(píng)分。

圖片

△表1.視頻異常檢測(cè)性能比較

值得一提的是,Holmes-VAD實(shí)現(xiàn)了精確的異常定位的同時(shí),還能夠?qū)δP蜋z測(cè)到的異常提供解釋和分析,這是現(xiàn)有不可解釋的VAD方法所不具備的功能。

雖然LAVAD具有可解釋性,但由于缺乏足夠的監(jiān)督數(shù)據(jù),這種無(wú)訓(xùn)練的大型語(yǔ)言模型對(duì)異常知識(shí)的理解有限。

此外,研究人員還進(jìn)行了用戶(hù)研究,通過(guò)86個(gè)測(cè)試樣本和10名志愿者評(píng)估了三種不同的訓(xùn)練策略:

  • 無(wú)訓(xùn)練:不進(jìn)行微調(diào);
  • Projector:在VAD-Instruct50k上進(jìn)行微調(diào),僅訓(xùn)練投影器,而保持多模態(tài)LLM固定;
  • Projector+LoRA:在VAD-Instruct50k上進(jìn)行微調(diào),訓(xùn)練投影器并使用LoRA 微調(diào)多模態(tài)LLM。

如表2所示,投影器+LoRA提供了最詳細(xì)的響應(yīng)(平均46.13個(gè)詞)并達(dá)到了最高的判斷準(zhǔn)確率(86.0%)

此外,它在內(nèi)容感知和異常解釋方面也達(dá)到了最高的投票率,分別為61.2%和51.9%。

圖片

△表2.不同微調(diào)策略的影響

定性結(jié)果方面,研究人員將Holmes-VAD的可解釋性結(jié)果與Video-LLaVA(未經(jīng)過(guò)微調(diào))進(jìn)行比較。正確和錯(cuò)誤的解釋分別用綠色和紅色表示。

圖片

結(jié)果表明,Holmes-VAD能夠準(zhǔn)確識(shí)別視頻中的異常,并為體育比賽中的沖突、爆炸和車(chē)載攝像頭捕捉到的事故(異常案例)提供具體解釋。

即使是對(duì)于正常視頻,Holmes-VAD也展現(xiàn)出強(qiáng)大的分析能力,糾正了時(shí)間采樣器的錯(cuò)誤響應(yīng)(正常案例)。這些發(fā)現(xiàn)突顯了Holmes-VAD在感知視頻事件和分析異常方面的有效性和優(yōu)勢(shì)。

項(xiàng)目主頁(yè):https://holmesvad.github.io/
論文地址:https://arxiv.org/abs/2406.12235

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-06-16 08:51:00

2023-03-07 16:48:54

算法可解釋性

2019-08-29 18:07:51

機(jī)器學(xué)習(xí)人工智能

2025-01-13 08:13:18

2024-05-28 08:00:00

人工智能機(jī)器學(xué)習(xí)

2024-09-18 05:25:00

可解釋性人工智能AI

2022-06-14 14:48:09

AI圖像GAN

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡(luò)

2021-01-08 10:47:07

機(jī)器學(xué)習(xí)模型算法

2024-01-08 13:30:00

AI訓(xùn)練

2012-10-19 09:47:30

百度云百度音樂(lè)云計(jì)算

2019-11-08 10:17:41

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-03-10 08:34:39

2025-01-09 14:06:31

2021-01-25 21:41:59

人工智能深度學(xué)習(xí)自動(dòng)駕駛

2022-02-07 15:49:15

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-12-20 08:07:45

2024-08-05 09:30:00

2018-05-23 10:23:18

數(shù)據(jù)系統(tǒng)機(jī)器學(xué)習(xí)

2023-08-15 10:04:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)