突破不可解釋性!視頻異常新檢測(cè)框架精度90.67%拿下SOTA|華科&百度&密歇根大學(xué)
大模型當(dāng)上福爾摩斯,學(xué)會(huì)對(duì)視頻異常進(jìn)行檢測(cè)了。
來(lái)自華中科技大學(xué)、百度、密歇根大學(xué)的研究團(tuán)隊(duì),提出了一種可解釋性的視頻異常檢測(cè)框架,名為Holmes-VAD。
Holmes-VAD不僅能給出精確的視頻異常定位,還能夠?qū)z測(cè)到的異常提供解釋和分析。
比如,給它看一段監(jiān)控視頻,詢(xún)問(wèn)它視頻中是否有任何異常跡象,它立馬就能識(shí)別出:
有異常,一輛白色面包車(chē)正在路上行駛,突然一輛摩托車(chē)出現(xiàn)并撞上了面包車(chē),造成了一起嚴(yán)重的事故。
爆炸場(chǎng)景也不在話下:
視頻顯示在沙漠地區(qū)發(fā)生了一次大規(guī)模爆炸,導(dǎo)致大量煙塵飄到空中。這是異常的,因?yàn)樵谧匀画h(huán)境中,如此突然和強(qiáng)烈的能量釋放是一種意料之外且不尋常的事件。
像是打籃球互相追逐競(jìng)爭(zhēng)這樣?jì)饍旱木哂忻曰笮缘囊曨l,它也能正確識(shí)別并作出解釋?zhuān)?/p>
視頻中展示的是一場(chǎng)典型的籃球比賽,球員們?cè)谝粋€(gè)維護(hù)良好的球場(chǎng)上比賽。這是一個(gè)常見(jiàn)且熟悉的體育賽事場(chǎng)景,沒(méi)有任何不尋?;蚩梢傻幕顒?dòng)。
Holmes-VAD基于視頻多模態(tài)大模型微調(diào),并利用精確的時(shí)序監(jiān)督和豐富的多模態(tài)指令來(lái)實(shí)現(xiàn)準(zhǔn)確的異常定位和全面的解釋?zhuān)诒O(jiān)控視頻安全分析、視頻生成內(nèi)容檢驗(yàn)等領(lǐng)域具有廣泛應(yīng)用前景。
在定量和定性實(shí)驗(yàn)中,Holmes-VAD在多方面的表現(xiàn)優(yōu)于此前SOTA方法。
除此外,研究團(tuán)隊(duì)還首次引入了視頻異常檢測(cè)領(lǐng)域的大規(guī)模多模態(tài)指令數(shù)據(jù)集——VAD-Instruct50k。
那么,Holmes-VAD、VAD-Instruct50k長(zhǎng)啥樣?
用數(shù)據(jù)引擎構(gòu)建大規(guī)模數(shù)據(jù)集
首先,研究團(tuán)隊(duì)構(gòu)建了首個(gè)大規(guī)模多模態(tài)VAD指令微調(diào)數(shù)據(jù)集,VAD-Instruct50k。
該數(shù)據(jù)集使用半自動(dòng)數(shù)據(jù)引擎創(chuàng)建。
△數(shù)據(jù)引擎流程圖
主要包括下列步驟:
時(shí)序單幀標(biāo)注
研究團(tuán)隊(duì)采用了一種高效的時(shí)間注釋方法,即標(biāo)注涉異常事件中的隨機(jī)單幀,用該方法來(lái)減小注釋成本,利于擴(kuò)大標(biāo)注視頻的數(shù)量。
事件片段生成
基于單幀注釋?zhuān)瑘F(tuán)隊(duì)設(shè)計(jì)了一種可靠的偽幀級(jí)標(biāo)簽生成方法,對(duì)于每個(gè)具有單幀注釋G = {gi}的異常視頻及其由訓(xùn)練好的VAD網(wǎng)絡(luò)估算的異常評(píng)分,在注釋幀周?chē)啥鄠€(gè)異常事件提議,對(duì)于正常視頻,也隨機(jī)提取若干正常事件提議。
完成此過(guò)程后,收集所有帶有異常標(biāo)簽的剪輯事件片段:E={si, ei, yi},其中如果事件片段來(lái)自異常視頻,則yi設(shè)置為視頻的異常類(lèi)別(例如,爆炸),否則設(shè)置為正常。
事件片段描述
為了充分提取事件片段中的語(yǔ)義信息,研究人員利用基于視頻的多模態(tài)大型語(yǔ)言模型(MLLM)為每個(gè)事件片段生成詳細(xì)的描述。
還包括Surveillance Vision數(shù)據(jù)集,該數(shù)據(jù)集為UCF-Crime視頻片段提供了手動(dòng)注釋的詳細(xì)細(xì)粒度事件描述。結(jié)合這些資源后,獲得了所有帶有相應(yīng)描述和異常標(biāo)簽的事件片段:E={si, ei, yi, ci}。
異常對(duì)話生成
研究人員將異常標(biāo)簽和事件片段描述作為視頻的文本信息,并設(shè)計(jì)豐富的異常內(nèi)容提問(wèn),如:“Are there any unexpected or unusual events in the video clip?”。
將它們輸入到大語(yǔ)言模型中進(jìn)行分析回答,得到“視頻-提問(wèn)-回答”的指令對(duì),最后對(duì)質(zhì)量低下的指令對(duì)進(jìn)行篩查過(guò)濾。
提出可解釋視頻異常檢測(cè)框架
為實(shí)現(xiàn)開(kāi)放世界的視頻異常檢測(cè)(VAD),現(xiàn)有的方法在面對(duì)具有挑戰(zhàn)性或未見(jiàn)過(guò)的事件時(shí)往往表現(xiàn)出偏見(jiàn),并且不能對(duì)異常內(nèi)容作出解釋。
基于VAD-Instruct50k,研究團(tuán)隊(duì)設(shè)計(jì)了一種可解釋視頻異常檢測(cè)框架Holmes-VAD。
△HolmesVAD網(wǎng)絡(luò)框架
其由下列部分組成:
視覺(jué)編碼器
研究團(tuán)隊(duì)利用LanguageBind中凍結(jié)的視頻編碼器,該編碼器繼承了CLIP的ViT-L/14結(jié)構(gòu),稱(chēng)之為?v。
與原始的ViT不同,它通過(guò)在時(shí)間維度上添加自注意力層來(lái)建模幀之間的時(shí)間關(guān)系。
時(shí)序采樣器
由于視頻中大量視覺(jué)tokens導(dǎo)致的過(guò)度計(jì)算負(fù)擔(dān),過(guò)去基于視頻的MLLM方法采用了視頻的均勻時(shí)間幀采樣,例如8幀。
研究團(tuán)隊(duì)認(rèn)為這種方法顯然不適用于視頻異常檢測(cè)任務(wù)中的長(zhǎng)視頻,因?yàn)樗黾恿撕雎躁P(guān)鍵信息的概率。
為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)首先利用VAD網(wǎng)絡(luò)評(píng)估每幀的異常分?jǐn)?shù),該網(wǎng)絡(luò)接收視頻幀的cls token并輸出異常分?jǐn)?shù):
然后,根據(jù)異常分?jǐn)?shù)對(duì)視頻標(biāo)記進(jìn)行采樣。
具體來(lái)說(shuō),只有對(duì)應(yīng)異常分?jǐn)?shù)高于設(shè)定閾值的幀對(duì)應(yīng)的tokens會(huì)被輸入到LLM中,通過(guò)這種方式,模型可以對(duì)長(zhǎng)視頻做出高效響應(yīng)。
LLM
為了使LLM理解視覺(jué)編碼器輸出的特征,在它們之間設(shè)計(jì)了一個(gè)由兩層MLP組成的projector,與LLM的輸入維度對(duì)齊,團(tuán)隊(duì)使用Vicuna作為L(zhǎng)LM。
效果如何?
在訓(xùn)練過(guò)程中,時(shí)序上的單幀異常標(biāo)注被用于訓(xùn)練時(shí)間采樣器來(lái)選擇具有高異常響應(yīng)的幀,數(shù)據(jù)集中的異常相關(guān)對(duì)話內(nèi)容被用于微調(diào)多模態(tài)大語(yǔ)言模型(MLLM)來(lái)生成解釋性?xún)?nèi)容。
研究人員進(jìn)行了大量定量和定性實(shí)驗(yàn)分析,結(jié)果驗(yàn)證了所提出的Holmes-VAD的通用性和可解釋性。
定量評(píng)估方面,研究人員將本文方法與最先進(jìn)的方法進(jìn)行了比較,包括半監(jiān)督方法、無(wú)監(jiān)督方法、弱監(jiān)督方法和最近的Training-Free方法。
下表1中列出了它們的骨干網(wǎng)絡(luò)、監(jiān)督方法以及在UCF-Crime和XD-Violence數(shù)據(jù)集上的表現(xiàn)。
Holmes-VAD方法在XD-Violence上的AP為90.67%,在UCF-Crime上的AUC為89.51%,顯著超越了之前的最先進(jìn)方法,證明了該方法可以生成更少偏見(jiàn)的異常評(píng)分。
△表1.視頻異常檢測(cè)性能比較
值得一提的是,Holmes-VAD實(shí)現(xiàn)了精確的異常定位的同時(shí),還能夠?qū)δP蜋z測(cè)到的異常提供解釋和分析,這是現(xiàn)有不可解釋的VAD方法所不具備的功能。
雖然LAVAD具有可解釋性,但由于缺乏足夠的監(jiān)督數(shù)據(jù),這種無(wú)訓(xùn)練的大型語(yǔ)言模型對(duì)異常知識(shí)的理解有限。
此外,研究人員還進(jìn)行了用戶(hù)研究,通過(guò)86個(gè)測(cè)試樣本和10名志愿者評(píng)估了三種不同的訓(xùn)練策略:
- 無(wú)訓(xùn)練:不進(jìn)行微調(diào);
- Projector:在VAD-Instruct50k上進(jìn)行微調(diào),僅訓(xùn)練投影器,而保持多模態(tài)LLM固定;
- Projector+LoRA:在VAD-Instruct50k上進(jìn)行微調(diào),訓(xùn)練投影器并使用LoRA 微調(diào)多模態(tài)LLM。
如表2所示,投影器+LoRA提供了最詳細(xì)的響應(yīng)(平均46.13個(gè)詞)并達(dá)到了最高的判斷準(zhǔn)確率(86.0%)。
此外,它在內(nèi)容感知和異常解釋方面也達(dá)到了最高的投票率,分別為61.2%和51.9%。
△表2.不同微調(diào)策略的影響
定性結(jié)果方面,研究人員將Holmes-VAD的可解釋性結(jié)果與Video-LLaVA(未經(jīng)過(guò)微調(diào))進(jìn)行比較。正確和錯(cuò)誤的解釋分別用綠色和紅色表示。
結(jié)果表明,Holmes-VAD能夠準(zhǔn)確識(shí)別視頻中的異常,并為體育比賽中的沖突、爆炸和車(chē)載攝像頭捕捉到的事故(異常案例)提供具體解釋。
即使是對(duì)于正常視頻,Holmes-VAD也展現(xiàn)出強(qiáng)大的分析能力,糾正了時(shí)間采樣器的錯(cuò)誤響應(yīng)(正常案例)。這些發(fā)現(xiàn)突顯了Holmes-VAD在感知視頻事件和分析異常方面的有效性和優(yōu)勢(shì)。
項(xiàng)目主頁(yè):https://holmesvad.github.io/
論文地址:https://arxiv.org/abs/2406.12235