偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024

發(fā)布于 2024-4-3 12:34
瀏覽
0收藏

短視頻在當(dāng)下社交媒體逐漸成為主導(dǎo)的視頻格式。傳統(tǒng)視頻處理技術(shù)和研究一般都專注于橫屏視頻的理解和解析,而豎屏視頻因其拍攝手法和內(nèi)容重點(diǎn)不同,展示出與橫屏視頻數(shù)據(jù)不同的特性。


針對這一不同,字節(jié)跳動技術(shù)團(tuán)隊發(fā)布了專注于豎屏視頻理解的數(shù)據(jù)集,提出了多個針對豎屏視頻處理的技術(shù)點(diǎn)以及一個初始方案。這項(xiàng)研究對準(zhǔn)確的豎屏視頻理解和基礎(chǔ)技術(shù)架構(gòu)有較為重要的意義,論文已入選 CVPR2024。


視頻 demo 展示、數(shù)據(jù)特性演示以及豎屏視頻類別分類,請見 https://mingfei.info/PMV

還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)

論文地址:https://arxiv.org/abs/2312.13746


視頻分類作為基礎(chǔ)的計算機(jī)視覺技術(shù),對視頻內(nèi)容的分類、特征提取,以及推薦等有著重要的作用。豎屏視頻是目前社交媒體平臺上主導(dǎo)的短視頻格式,受到用戶的廣泛青睞。而豎屏的視頻分類技術(shù)在目前的研究中鮮有關(guān)注,為了激發(fā)這一領(lǐng)域的研究,團(tuán)隊提出了一個專用的數(shù)據(jù)集 PortraitMode-400,包含真實(shí)的視頻數(shù)據(jù)和 400 個結(jié)構(gòu)化的類別標(biāo)簽。


進(jìn)一步,通過自建數(shù)據(jù)和公開數(shù)據(jù)子集實(shí)驗(yàn),團(tuán)隊初步展示了橫屏數(shù)據(jù)和豎屏數(shù)據(jù)之間的不同,和獨(dú)特的先驗(yàn)分布,并針對不同的技術(shù)點(diǎn)進(jìn)行實(shí)驗(yàn),提出了針對豎屏視頻處理的技術(shù)方案。


還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)


團(tuán)隊首先從公開數(shù)據(jù) Kinetics-700 中抽取包含豎屏視頻數(shù)量的子集 S100-PM,并對應(yīng)的抽取同等數(shù)量的橫屏視頻得到 S100-LM。團(tuán)隊分別在 S100-PM 和 S100-LM 上訓(xùn)練兩個相同的模型(不含任何預(yù)訓(xùn)練),并在相同的測試集上進(jìn)行公平測試,以觀察豎屏和橫屏視頻所含的不同數(shù)據(jù)特性。


如下方所示,以上半為例,團(tuán)隊將 S100-PM 訓(xùn)練的模型在豎屏測試集上做滑窗測試(16x9 個不重疊的均勻分布的滑窗)得到 Probing-P,同樣的可以得到 S100-LM 訓(xùn)練模型的測試結(jié)果 Probing-L。為了觀察 S100-PM 模型對 S100-LM 模型的優(yōu)勢,團(tuán)隊做差值圖得到 c 圖,黃色框 1 表示此位置豎屏訓(xùn)練的模型以大于 9 個點(diǎn)的差值顯著優(yōu)于橫屏訓(xùn)練的模型。同樣的,團(tuán)隊可以得到下半所示的差值圖,S100-LM 訓(xùn)練模型在橫屏中下區(qū)域的準(zhǔn)確率低于 S100-PM 訓(xùn)練模型。


可以觀察得到,在確保所有訓(xùn)練和測試條件一致的情況下,訓(xùn)練數(shù)據(jù)的不同帶來準(zhǔn)確率空間分布上的顯著差異,而且差值呈啞鈴狀分布。


還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)


還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)


橫屏與豎屏視頻的不同,說明豎屏視頻是一種不同于以往數(shù)據(jù)的新視頻格式,有著不同的數(shù)據(jù)特性。為了進(jìn)一步推動領(lǐng)域研究,團(tuán)隊提出了數(shù)據(jù)集 PortraitMode-400,通過自底向上的方式綜合大量的熱門搜索詞,人工篩查和提取得到 400 個包含顯著動作內(nèi)容的類別集合,涵蓋從飲食運(yùn)動到休閑娛樂等等領(lǐng)域。每個類別包含至少 100 個公開的豎屏視頻鏈接,并已通過人工審查的方式確保數(shù)據(jù)的高質(zhì)量可用。


還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)


此外,團(tuán)隊還真對豎屏視頻數(shù)據(jù)的不同特性進(jìn)行實(shí)驗(yàn),以期提出一套合理有效的技術(shù)方案。為此,團(tuán)隊利用不同的模型類別,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在豎屏數(shù)據(jù)上進(jìn)行廣泛實(shí)驗(yàn)。團(tuán)隊發(fā)現(xiàn),與傳統(tǒng)橫屏數(shù)據(jù)處理相比,豎屏數(shù)據(jù)對數(shù)據(jù)預(yù)處理有著不一樣的傾向。


如下圖上半所示,在 CNN 模型下傾向于 Inception-style 方案,而在 Transformer 類模型下傾向于 shorter-side resize 方案。進(jìn)一步的,團(tuán)隊發(fā)現(xiàn)更好的保持原始視頻在訓(xùn)練時的長寬比,可以在同等測試條件下獲得更好的準(zhǔn)確率。


如下半所示,隨著采樣框長寬比增大,Transformer 類模型表現(xiàn)逐漸增強(qiáng),而 CNN 模型表現(xiàn)相反。這些實(shí)驗(yàn)現(xiàn)象表明了,豎屏數(shù)據(jù)不同于橫屏數(shù)據(jù)的特性;提供了不同模型架構(gòu)下的訓(xùn)練偏好設(shè)置。

還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)

還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)

最后,團(tuán)隊還在時間信息顯著性、音頻模態(tài)重要性等方面進(jìn)行了實(shí)驗(yàn)。發(fā)現(xiàn)時間信息的加入和音頻模態(tài)的引入,都可以對豎屏數(shù)據(jù)的準(zhǔn)確率帶來不小的提升,展示了在相關(guān)領(lǐng)域的研究空間和可能性。


還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024-AI.x社區(qū)

應(yīng)用落地和展望

視頻分類作為基礎(chǔ)的計算機(jī)視覺技術(shù),對視頻內(nèi)容的分類、特征提取,以及推薦等有著重要的作用。針對豎屏視頻的專門研究可以進(jìn)一步推動相關(guān)技術(shù)的發(fā)展,增強(qiáng)內(nèi)容推薦等關(guān)鍵能力,進(jìn)一步激發(fā)豎屏領(lǐng)域的其他類型研究,如生成等。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/UGSzyUkR3K4pQ9TUB-ZzHA??

已于2024-4-3 12:35:28修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦