偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="rg5vq"><p id="rg5vq"></p></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

突破不可解釋性！視頻異常新檢測(cè)框架精度90.67%拿下SOTA｜華科&百度&密歇根大學(xué)

作者：量子位 2024-07-05 09:21:37

人工智能新聞

來(lái)自華中科技大學(xué)、百度、密歇根大學(xué)的研究團(tuán)隊(duì)，提出了一種可解釋性的視頻異常檢測(cè)框架，名為Holmes-VAD。

大模型當(dāng)上福爾摩斯，學(xué)會(huì)對(duì)視頻異常進(jìn)行檢測(cè)了。

來(lái)自華中科技大學(xué)、百度、密歇根大學(xué)的研究團(tuán)隊(duì)，提出了一種可解釋性的視頻異常檢測(cè)框架，名為Holmes-VAD。

Holmes-VAD不僅能給出精確的視頻異常定位，還能夠?qū)z測(cè)到的異常提供解釋和分析。

比如，給它看一段監(jiān)控視頻，詢(xún)問(wèn)它視頻中是否有任何異常跡象，它立馬就能識(shí)別出：

有異常，一輛白色面包車(chē)正在路上行駛，突然一輛摩托車(chē)出現(xiàn)并撞上了面包車(chē)，造成了一起嚴(yán)重的事故。

爆炸場(chǎng)景也不在話下：

視頻顯示在沙漠地區(qū)發(fā)生了一次大規(guī)模爆炸，導(dǎo)致大量煙塵飄到空中。這是異常的，因?yàn)樵谧匀画h(huán)境中，如此突然和強(qiáng)烈的能量釋放是一種意料之外且不尋常的事件。

像是打籃球互相追逐競(jìng)爭(zhēng)這樣?jì)饍旱木哂忻曰笮缘囊曨l，它也能正確識(shí)別并作出解釋?zhuān)?/p>

視頻中展示的是一場(chǎng)典型的籃球比賽，球員們?cè)谝粋€(gè)維護(hù)良好的球場(chǎng)上比賽。這是一個(gè)常見(jiàn)且熟悉的體育賽事場(chǎng)景，沒(méi)有任何不尋?；蚩梢傻幕顒?dòng)。

Holmes-VAD基于視頻多模態(tài)大模型微調(diào)，并利用精確的時(shí)序監(jiān)督和豐富的多模態(tài)指令來(lái)實(shí)現(xiàn)準(zhǔn)確的異常定位和全面的解釋?zhuān)诒O(jiān)控視頻安全分析、視頻生成內(nèi)容檢驗(yàn)等領(lǐng)域具有廣泛應(yīng)用前景。

在定量和定性實(shí)驗(yàn)中，Holmes-VAD在多方面的表現(xiàn)優(yōu)于此前SOTA方法。

除此外，研究團(tuán)隊(duì)還首次引入了視頻異常檢測(cè)領(lǐng)域的大規(guī)模多模態(tài)指令數(shù)據(jù)集——VAD-Instruct50k。

那么，Holmes-VAD、VAD-Instruct50k長(zhǎng)啥樣？

用數(shù)據(jù)引擎構(gòu)建大規(guī)模數(shù)據(jù)集

首先，研究團(tuán)隊(duì)構(gòu)建了首個(gè)大規(guī)模多模態(tài)VAD指令微調(diào)數(shù)據(jù)集，VAD-Instruct50k。

該數(shù)據(jù)集使用半自動(dòng)數(shù)據(jù)引擎創(chuàng)建。

△數(shù)據(jù)引擎流程圖

主要包括下列步驟：

時(shí)序單幀標(biāo)注

研究團(tuán)隊(duì)采用了一種高效的時(shí)間注釋方法，即標(biāo)注涉異常事件中的隨機(jī)單幀，用該方法來(lái)減小注釋成本，利于擴(kuò)大標(biāo)注視頻的數(shù)量。

事件片段生成

基于單幀注釋?zhuān)瑘F(tuán)隊(duì)設(shè)計(jì)了一種可靠的偽幀級(jí)標(biāo)簽生成方法，對(duì)于每個(gè)具有單幀注釋G = {gi}的異常視頻及其由訓(xùn)練好的VAD網(wǎng)絡(luò)估算的異常評(píng)分，在注釋幀周?chē)啥鄠€(gè)異常事件提議，對(duì)于正常視頻，也隨機(jī)提取若干正常事件提議。

完成此過(guò)程后，收集所有帶有異常標(biāo)簽的剪輯事件片段：E={si, ei, yi}，其中如果事件片段來(lái)自異常視頻，則yi設(shè)置為視頻的異常類(lèi)別（例如，爆炸），否則設(shè)置為正常。

事件片段描述

為了充分提取事件片段中的語(yǔ)義信息，研究人員利用基于視頻的多模態(tài)大型語(yǔ)言模型（MLLM）為每個(gè)事件片段生成詳細(xì)的描述。

還包括Surveillance Vision數(shù)據(jù)集，該數(shù)據(jù)集為UCF-Crime視頻片段提供了手動(dòng)注釋的詳細(xì)細(xì)粒度事件描述。結(jié)合這些資源后，獲得了所有帶有相應(yīng)描述和異常標(biāo)簽的事件片段：E={si, ei, yi, ci}。

異常對(duì)話生成

研究人員將異常標(biāo)簽和事件片段描述作為視頻的文本信息，并設(shè)計(jì)豐富的異常內(nèi)容提問(wèn)，如：“Are there any unexpected or unusual events in the video clip？”。

將它們輸入到大語(yǔ)言模型中進(jìn)行分析回答，得到“視頻-提問(wèn)-回答”的指令對(duì)，最后對(duì)質(zhì)量低下的指令對(duì)進(jìn)行篩查過(guò)濾。

提出可解釋視頻異常檢測(cè)框架

為實(shí)現(xiàn)開(kāi)放世界的視頻異常檢測(cè)（VAD），現(xiàn)有的方法在面對(duì)具有挑戰(zhàn)性或未見(jiàn)過(guò)的事件時(shí)往往表現(xiàn)出偏見(jiàn)，并且不能對(duì)異常內(nèi)容作出解釋。

基于VAD-Instruct50k，研究團(tuán)隊(duì)設(shè)計(jì)了一種可解釋視頻異常檢測(cè)框架Holmes-VAD。

△HolmesVAD網(wǎng)絡(luò)框架

其由下列部分組成：

視覺(jué)編碼器

研究團(tuán)隊(duì)利用LanguageBind中凍結(jié)的視頻編碼器，該編碼器繼承了CLIP的ViT-L/14結(jié)構(gòu)，稱(chēng)之為?v。

與原始的ViT不同，它通過(guò)在時(shí)間維度上添加自注意力層來(lái)建模幀之間的時(shí)間關(guān)系。

時(shí)序采樣器

由于視頻中大量視覺(jué)tokens導(dǎo)致的過(guò)度計(jì)算負(fù)擔(dān)，過(guò)去基于視頻的MLLM方法采用了視頻的均勻時(shí)間幀采樣，例如8幀。

研究團(tuán)隊(duì)認(rèn)為這種方法顯然不適用于視頻異常檢測(cè)任務(wù)中的長(zhǎng)視頻，因?yàn)樗黾恿撕雎躁P(guān)鍵信息的概率。

為了解決這個(gè)問(wèn)題，團(tuán)隊(duì)首先利用VAD網(wǎng)絡(luò)評(píng)估每幀的異常分?jǐn)?shù)，該網(wǎng)絡(luò)接收視頻幀的cls token并輸出異常分?jǐn)?shù):

然后，根據(jù)異常分?jǐn)?shù)對(duì)視頻標(biāo)記進(jìn)行采樣。

具體來(lái)說(shuō)，只有對(duì)應(yīng)異常分?jǐn)?shù)高于設(shè)定閾值的幀對(duì)應(yīng)的tokens會(huì)被輸入到LLM中，通過(guò)這種方式，模型可以對(duì)長(zhǎng)視頻做出高效響應(yīng)。

LLM

為了使LLM理解視覺(jué)編碼器輸出的特征，在它們之間設(shè)計(jì)了一個(gè)由兩層MLP組成的projector，與LLM的輸入維度對(duì)齊，團(tuán)隊(duì)使用Vicuna作為L(zhǎng)LM。

效果如何？

在訓(xùn)練過(guò)程中，時(shí)序上的單幀異常標(biāo)注被用于訓(xùn)練時(shí)間采樣器來(lái)選擇具有高異常響應(yīng)的幀，數(shù)據(jù)集中的異常相關(guān)對(duì)話內(nèi)容被用于微調(diào)多模態(tài)大語(yǔ)言模型（MLLM）來(lái)生成解釋性?xún)?nèi)容。

研究人員進(jìn)行了大量定量和定性實(shí)驗(yàn)分析，結(jié)果驗(yàn)證了所提出的Holmes-VAD的通用性和可解釋性。

定量評(píng)估方面，研究人員將本文方法與最先進(jìn)的方法進(jìn)行了比較，包括半監(jiān)督方法、無(wú)監(jiān)督方法、弱監(jiān)督方法和最近的Training-Free方法。

下表1中列出了它們的骨干網(wǎng)絡(luò)、監(jiān)督方法以及在UCF-Crime和XD-Violence數(shù)據(jù)集上的表現(xiàn)。

Holmes-VAD方法在XD-Violence上的AP為90.67%，在UCF-Crime上的AUC為89.51%，顯著超越了之前的最先進(jìn)方法，證明了該方法可以生成更少偏見(jiàn)的異常評(píng)分。

△表1.視頻異常檢測(cè)性能比較

值得一提的是，Holmes-VAD實(shí)現(xiàn)了精確的異常定位的同時(shí)，還能夠?qū)δＰ蜋z測(cè)到的異常提供解釋和分析，這是現(xiàn)有不可解釋的VAD方法所不具備的功能。

雖然LAVAD具有可解釋性，但由于缺乏足夠的監(jiān)督數(shù)據(jù)，這種無(wú)訓(xùn)練的大型語(yǔ)言模型對(duì)異常知識(shí)的理解有限。

此外，研究人員還進(jìn)行了用戶(hù)研究，通過(guò)86個(gè)測(cè)試樣本和10名志愿者評(píng)估了三種不同的訓(xùn)練策略：

無(wú)訓(xùn)練：不進(jìn)行微調(diào)；
Projector：在VAD-Instruct50k上進(jìn)行微調(diào)，僅訓(xùn)練投影器，而保持多模態(tài)LLM固定；
Projector+LoRA：在VAD-Instruct50k上進(jìn)行微調(diào)，訓(xùn)練投影器并使用LoRA 微調(diào)多模態(tài)LLM。

如表2所示，投影器+LoRA提供了最詳細(xì)的響應(yīng)（平均46.13個(gè)詞）并達(dá)到了最高的判斷準(zhǔn)確率（86.0%）。

此外，它在內(nèi)容感知和異常解釋方面也達(dá)到了最高的投票率，分別為61.2%和51.9%。

△表2.不同微調(diào)策略的影響

定性結(jié)果方面，研究人員將Holmes-VAD的可解釋性結(jié)果與Video-LLaVA（未經(jīng)過(guò)微調(diào)）進(jìn)行比較。正確和錯(cuò)誤的解釋分別用綠色和紅色表示。

結(jié)果表明，Holmes-VAD能夠準(zhǔn)確識(shí)別視頻中的異常，并為體育比賽中的沖突、爆炸和車(chē)載攝像頭捕捉到的事故（異常案例）提供具體解釋。

即使是對(duì)于正常視頻，Holmes-VAD也展現(xiàn)出強(qiáng)大的分析能力，糾正了時(shí)間采樣器的錯(cuò)誤響應(yīng)（正常案例）。這些發(fā)現(xiàn)突顯了Holmes-VAD在感知視頻事件和分析異常方面的有效性和優(yōu)勢(shì)。

項(xiàng)目主頁(yè)：https://holmesvad.github.io/
論文地址：https://arxiv.org/abs/2406.12235

責(zé)任編輯：張燕妮來(lái)源：量子位

視頻檢測(cè)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)