偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="cxuou"></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

CNN、Transformer、Uniformer之外，我們終于有了更高效的視頻理解技術(shù)

作者：機(jī)器之心 2024-03-25 07:45:00

人工智能新聞

視頻理解因大量時(shí)空冗余和復(fù)雜時(shí)空依賴，同時(shí)克服兩個(gè)問題難度巨大，CNN 和 Transformer 及 Uniformer 都難以勝任，Mamba 是個(gè)好思路，讓我們看看本文是如何創(chuàng)造視頻理解的 VideoMamba。

視頻理解的核心目標(biāo)在于對(duì)時(shí)空表示的把握，這存在兩個(gè)巨大挑戰(zhàn)：短視頻片段存在大量時(shí)空冗余和復(fù)雜的時(shí)空依賴關(guān)系。盡管曾經(jīng)占主導(dǎo)地位的三維卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和視頻 Transformer 通過利用局部卷積或長(zhǎng)距離注意力有效地應(yīng)對(duì)其中之一的挑戰(zhàn)，但它們?cè)谕瑫r(shí)解決這兩個(gè)挑戰(zhàn)方面存在不足。UniFormer 試圖整合這兩種方法的優(yōu)勢(shì)，但它在建模長(zhǎng)視頻方面存在困難。

S4、RWKV 和 RetNet 等低成本方案在自然語言處理領(lǐng)域的出現(xiàn)，為視覺模型開辟了新的途徑。Mamba 憑借其選擇性狀態(tài)空間模型 (SSM) 脫穎而出，實(shí)現(xiàn)了在保持線性復(fù)雜性的同時(shí)促進(jìn)長(zhǎng)期動(dòng)態(tài)建模的平衡。這種創(chuàng)新推動(dòng)了它在視覺任務(wù)中的應(yīng)用，正如 Vision Mamba 和 VMamba 所證實(shí)的那樣，它們利用多方向 SSM 來增強(qiáng)二維圖像處理。這些模型在性能上與基于注意力的架構(gòu)相媲美，同時(shí)顯著減少了內(nèi)存使用量。

鑒于視頻產(chǎn)生的序列本身更長(zhǎng)，一個(gè)自然的問題是：Mamba 能否很好地用于視頻理解？

受 Mamba 啟發(fā)，本文引入了 VideoMamba 專為視頻理解量身定制的純 SSM (選擇性狀態(tài)空間模型)。VideoMamba 以 Vanilla ViT 的風(fēng)格，將卷積和注意力的優(yōu)勢(shì)融合在一起。它提供一種線性復(fù)雜度的方法，用于動(dòng)態(tài)時(shí)空背景建模，非常適合高分辨率的長(zhǎng)視頻。相關(guān)評(píng)估聚焦于 VideoMamba 的四個(gè)關(guān)鍵能力：

在視覺領(lǐng)域的可擴(kuò)展性：本文對(duì) VideoMamba 的可擴(kuò)展性進(jìn)行了檢驗(yàn)，發(fā)現(xiàn)純 Mamba 模型在不斷擴(kuò)展時(shí)往往容易過擬合，本文引入一種簡(jiǎn)單而有效的自蒸餾策略，使得隨著模型和輸入尺寸的增加，VideoMamba 能夠在不需要大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練的情況下實(shí)現(xiàn)顯著的性能增強(qiáng)。

對(duì)短期動(dòng)作識(shí)別的敏感性：本文的分析擴(kuò)展到評(píng)估 VideoMamba 準(zhǔn)確區(qū)分短期動(dòng)作的能力，特別是那些具有細(xì)微動(dòng)作差異的動(dòng)作，如打開和關(guān)閉。研究結(jié)果顯示，VideoMamba 在現(xiàn)有基于注意力的模型上表現(xiàn)出了優(yōu)異的性能。更重要的是，它還適用于掩碼建模，進(jìn)一步增強(qiáng)了其時(shí)間敏感性。

在長(zhǎng)視頻理解方面的優(yōu)越性：本文評(píng)估了 VideoMamba 在解釋長(zhǎng)視頻方面的能力。通過端到端訓(xùn)練，它展示了與傳統(tǒng)基于特征的方法相比的顯著優(yōu)勢(shì)。值得注意的是，VideoMamba 在 64 幀視頻中的運(yùn)行速度比 TimeSformer 快 6 倍，并且對(duì) GPU 內(nèi)存需求減少了 40 倍 (如圖 1 所示)。

與其他模態(tài)的兼容性：最后，本文評(píng)估了 VideoMamba 與其他模態(tài)的適應(yīng)性。在視頻文本檢索中的結(jié)果顯示，與 ViT 相比，其性能得到了改善，特別是在具有復(fù)雜情景的長(zhǎng)視頻中。這凸顯了其魯棒性和多模態(tài)整合能力。

本文的深入實(shí)驗(yàn)揭示了 VideoMamba 在理解短期 (K400 和 SthSthV2) 和長(zhǎng)期 (Breakfast，COIN 和 LVU) 視頻內(nèi)容方面的巨大潛力。鑒于其高效性和有效性，VideoMamba 注定將成為長(zhǎng)視頻理解領(lǐng)域的重要基石。所有代碼和模型均已開源，以促進(jìn)未來的研究努力。

論文地址：https://arxiv.org/pdf/2403.06977.pdf
項(xiàng)目地址：https://github.com/OpenGVLab/VideoMamba
論文標(biāo)題：VideoMamba: State Space Model for Efficient Video Understanding

方法介紹

下圖 2a 顯示了 Mamba 模塊的細(xì)節(jié)。

圖 3 說明了 VideoMamba 的整體框架。本文首先使用 3D 卷積 (即 1×16×16) 將輸入視頻 Xv ∈ R 3×T ×H×W 投影到 L 個(gè)非重疊的時(shí)空補(bǔ)丁 Xp ∈ R L×C，其中 L=t×h×w (t=T,h= H 16, 和 w= W 16)。輸入到接下來的 VideoMamba 編碼器的 token 序列是

時(shí)空掃描：為了將 B-Mamba 層應(yīng)用于時(shí)空輸入，本文圖 4 中將原始的 2D 掃描擴(kuò)展為不同的雙向 3D 掃描：

(a) 空間優(yōu)先，通過位置組織空間 token，然后逐幀堆疊它們；

(b) 時(shí)間優(yōu)先，根據(jù)幀排列時(shí)間 token，然后沿空間維度堆疊；

(c) 時(shí)空混合，既有空間優(yōu)先又有時(shí)間優(yōu)先，其中 v1 執(zhí)行其中的一半，v2 執(zhí)行全部 (2 倍計(jì)算量)。

圖 7a 中的實(shí)驗(yàn)表明，空間優(yōu)先的雙向掃描是最有效但最簡(jiǎn)單的。由于 Mamba 的線性復(fù)雜度，本文的 VideoMamba 能夠高效地處理高分辨率的長(zhǎng)視頻。

對(duì)于 B-Mamba 層中的 SSM，本文采用與 Mamba 相同的默認(rèn)超參數(shù)設(shè)置，將狀態(tài)維度和擴(kuò)展比例分別設(shè)置為 16 和 2。參照 ViT 的做法，本文調(diào)整了深度和嵌入維度，以創(chuàng)建與表 1 中相當(dāng)大小的模型，包括 VideoMamba-Ti，VideoMamba-S 和 VideoMamba-M。然而實(shí)驗(yàn)中觀察到較大的 VideoMamba 在實(shí)驗(yàn)中往往容易過擬合，導(dǎo)致像圖 6a 所示的次優(yōu)性能。這種過擬合問題不僅存在于本文提出的模型中，也存在于 VMamba 中，其中 VMamba-B 的最佳性能是在總訓(xùn)練周期的四分之三時(shí)達(dá)到的。為了對(duì)抗較大 Mamba 模型的過擬合問題，本文引入了一種有效的自蒸餾策略，該策略使用較小且訓(xùn)練良好的模型作為「教師」，來引導(dǎo)較大的「學(xué)生」模型的訓(xùn)練。如圖 6a 所示的結(jié)果表明，這種策略導(dǎo)致了預(yù)期的更好的收斂性。

關(guān)于掩碼策略，本文提出了不同的行掩碼技術(shù)，如圖 5 所示，專門針對(duì) B-Mamba 塊對(duì)連續(xù) token 的偏好。

實(shí)驗(yàn)

表 2 展示了在 ImageNet-1K 數(shù)據(jù)集上的結(jié)果。值得注意的是，VideoMamba-M 在性能上顯著優(yōu)于其他各向同性架構(gòu)，與 ConvNeXt-B 相比提高了 + 0.8%，與 DeiT-B 相比提高了 + 2.0%，同時(shí)使用的參數(shù)更少。VideoMamba-M 在針對(duì)增強(qiáng)性能采用分層特征的非各向同性主干結(jié)構(gòu)中也表現(xiàn)出色。鑒于 Mamba 在處理長(zhǎng)序列方面的效率，本文通過增加分辨率進(jìn)一步提高了性能，僅使用 74M 參數(shù)就實(shí)現(xiàn)了 84.0% 的 top-1 準(zhǔn)確率。

表 3 和表 4 列出了短期視頻數(shù)據(jù)集上的結(jié)果。(a) 監(jiān)督學(xué)習(xí)：與純注意力方法相比，基于 SSM 的 VideoMamba-M 獲得了明顯的優(yōu)勢(shì)，在與場(chǎng)景相關(guān)的 K400 和與時(shí)間相關(guān)的 Sth-SthV2 數(shù)據(jù)集上分別比 ViViT-L 高出 + 2.0% 和 + 3.0%。這種改進(jìn)伴隨著顯著降低的計(jì)算需求和更少的預(yù)訓(xùn)練數(shù)據(jù)。VideoMamba-M 的結(jié)果與 SOTA UniFormer 不相上下，后者在非各向同性結(jié)構(gòu)中巧妙地將卷積與注意力進(jìn)行了整合。(b) 自監(jiān)督學(xué)習(xí)：在掩碼預(yù)訓(xùn)練下，VideoMamba 的性能超越了以其精細(xì)動(dòng)作技能而聞名的 VideoMAE。這一成就突顯了本文基于純 SSM 的模型在高效有效地理解短期視頻方面的潛力，強(qiáng)調(diào)了它適用于監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)范式的特點(diǎn)。

如圖 1 所示，VideoMamba 的線性復(fù)雜度使其非常適合用于與長(zhǎng)時(shí)長(zhǎng)視頻的端到端訓(xùn)練。表 6 和表 7 中的比較突顯了 VideoMamba 在這些任務(wù)中相對(duì)于傳統(tǒng)基于特征的方法的簡(jiǎn)單性和有效性。它帶來了顯著的性能提升，即使在模型尺寸較小的情況下也能實(shí)現(xiàn) SOTA 結(jié)果。VideoMamba-Ti 相對(duì)于使用 Swin-B 特征的 ViS4mer 表現(xiàn)出了顯著的 + 6.1% 的增長(zhǎng)，并且相對(duì)于 Turbo 的多模態(tài)對(duì)齊方法也有 + 3.0% 的提升。值得注意的是，結(jié)果強(qiáng)調(diào)了針對(duì)長(zhǎng)期任務(wù)的規(guī)?；Ｐ秃蛶瑪?shù)的積極影響。在 LVU 提出的多樣化且具有挑戰(zhàn)性的九項(xiàng)任務(wù)中，本文采用端到端方式對(duì) VideoMamba-Ti 進(jìn)行微調(diào)，取得了與當(dāng)前 SOTA 方法相當(dāng)或優(yōu)秀的結(jié)果。這些成果不僅突顯了 VideoMamba 的有效性，也展示了它在未來長(zhǎng)視頻理解方面的巨大潛力。

如表 8 所示，在相同的預(yù)訓(xùn)練語料庫和類似的訓(xùn)練策略下，VideoMamba 在零樣本視頻檢索性能上優(yōu)于基于 ViT 的 UMT。這突顯了 Mamba 在處理多模態(tài)視頻任務(wù)中與 ViT 相比具有可比較的效率和可擴(kuò)展性。值得注意的是，對(duì)于具有更長(zhǎng)視頻長(zhǎng)度 (例如 ANet 和 DiDeMo) 和更復(fù)雜場(chǎng)景 (例如 LSMDC) 的數(shù)據(jù)集，VideoMamba 表現(xiàn)出了顯著的改進(jìn)。這表明了 Mamba 在具有挑戰(zhàn)性的多模態(tài)環(huán)境中，甚至在需求跨模態(tài)對(duì)齊的情況下的能力。

更多研究細(xì)節(jié)，可參考原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<center id="yy0h8"></center>

<abbr id="yy0h8"></abbr>

<dfn id="yy0h8"><mark id="yy0h8"></mark></dfn>