偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<output id="05v3e"></output>

<em id="05v3e"><tfoot id="05v3e"></tfoot></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024

輕薄滴假象

發(fā)布于 2024-4-3 12:34

瀏覽

0收藏

短視頻在當(dāng)下社交媒體逐漸成為主導(dǎo)的視頻格式。傳統(tǒng)視頻處理技術(shù)和研究一般都專注于橫屏視頻的理解和解析，而豎屏視頻因其拍攝手法和內(nèi)容重點(diǎn)不同，展示出與橫屏視頻數(shù)據(jù)不同的特性。

針對這一不同，字節(jié)跳動技術(shù)團(tuán)隊發(fā)布了專注于豎屏視頻理解的數(shù)據(jù)集，提出了多個針對豎屏視頻處理的技術(shù)點(diǎn)以及一個初始方案。這項(xiàng)研究對準(zhǔn)確的豎屏視頻理解和基礎(chǔ)技術(shù)架構(gòu)有較為重要的意義，論文已入選 CVPR2024。

視頻 demo 展示、數(shù)據(jù)特性演示以及豎屏視頻類別分類，請見 https://mingfei.info/PMV

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

論文地址：https://arxiv.org/abs/2312.13746

視頻分類作為基礎(chǔ)的計算機(jī)視覺技術(shù)，對視頻內(nèi)容的分類、特征提取，以及推薦等有著重要的作用。豎屏視頻是目前社交媒體平臺上主導(dǎo)的短視頻格式，受到用戶的廣泛青睞。而豎屏的視頻分類技術(shù)在目前的研究中鮮有關(guān)注，為了激發(fā)這一領(lǐng)域的研究，團(tuán)隊提出了一個專用的數(shù)據(jù)集 PortraitMode-400，包含真實(shí)的視頻數(shù)據(jù)和 400 個結(jié)構(gòu)化的類別標(biāo)簽。

進(jìn)一步，通過自建數(shù)據(jù)和公開數(shù)據(jù)子集實(shí)驗(yàn)，團(tuán)隊初步展示了橫屏數(shù)據(jù)和豎屏數(shù)據(jù)之間的不同，和獨(dú)特的先驗(yàn)分布，并針對不同的技術(shù)點(diǎn)進(jìn)行實(shí)驗(yàn)，提出了針對豎屏視頻處理的技術(shù)方案。

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

團(tuán)隊首先從公開數(shù)據(jù) Kinetics-700 中抽取包含豎屏視頻數(shù)量的子集 S100-PM，并對應(yīng)的抽取同等數(shù)量的橫屏視頻得到 S100-LM。團(tuán)隊分別在 S100-PM 和 S100-LM 上訓(xùn)練兩個相同的模型（不含任何預(yù)訓(xùn)練），并在相同的測試集上進(jìn)行公平測試，以觀察豎屏和橫屏視頻所含的不同數(shù)據(jù)特性。

如下方所示，以上半為例，團(tuán)隊將 S100-PM 訓(xùn)練的模型在豎屏測試集上做滑窗測試（16x9 個不重疊的均勻分布的滑窗）得到 Probing-P，同樣的可以得到 S100-LM 訓(xùn)練模型的測試結(jié)果 Probing-L。為了觀察 S100-PM 模型對 S100-LM 模型的優(yōu)勢，團(tuán)隊做差值圖得到 c 圖，黃色框 1 表示此位置豎屏訓(xùn)練的模型以大于 9 個點(diǎn)的差值顯著優(yōu)于橫屏訓(xùn)練的模型。同樣的，團(tuán)隊可以得到下半所示的差值圖，S100-LM 訓(xùn)練模型在橫屏中下區(qū)域的準(zhǔn)確率低于 S100-PM 訓(xùn)練模型。

可以觀察得到，在確保所有訓(xùn)練和測試條件一致的情況下，訓(xùn)練數(shù)據(jù)的不同帶來準(zhǔn)確率空間分布上的顯著差異，而且差值呈啞鈴狀分布。

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

橫屏與豎屏視頻的不同，說明豎屏視頻是一種不同于以往數(shù)據(jù)的新視頻格式，有著不同的數(shù)據(jù)特性。為了進(jìn)一步推動領(lǐng)域研究，團(tuán)隊提出了數(shù)據(jù)集 PortraitMode-400，通過自底向上的方式綜合大量的熱門搜索詞，人工篩查和提取得到 400 個包含顯著動作內(nèi)容的類別集合，涵蓋從飲食運(yùn)動到休閑娛樂等等領(lǐng)域。每個類別包含至少 100 個公開的豎屏視頻鏈接，并已通過人工審查的方式確保數(shù)據(jù)的高質(zhì)量可用。

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

此外，團(tuán)隊還真對豎屏視頻數(shù)據(jù)的不同特性進(jìn)行實(shí)驗(yàn)，以期提出一套合理有效的技術(shù)方案。為此，團(tuán)隊利用不同的模型類別，如 CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer）在豎屏數(shù)據(jù)上進(jìn)行廣泛實(shí)驗(yàn)。團(tuán)隊發(fā)現(xiàn)，與傳統(tǒng)橫屏數(shù)據(jù)處理相比，豎屏數(shù)據(jù)對數(shù)據(jù)預(yù)處理有著不一樣的傾向。

如下圖上半所示，在 CNN 模型下傾向于 Inception-style 方案，而在 Transformer 類模型下傾向于 shorter-side resize 方案。進(jìn)一步的，團(tuán)隊發(fā)現(xiàn)更好的保持原始視頻在訓(xùn)練時的長寬比，可以在同等測試條件下獲得更好的準(zhǔn)確率。

如下半所示，隨著采樣框長寬比增大，Transformer 類模型表現(xiàn)逐漸增強(qiáng)，而 CNN 模型表現(xiàn)相反。這些實(shí)驗(yàn)現(xiàn)象表明了，豎屏數(shù)據(jù)不同于橫屏數(shù)據(jù)的特性；提供了不同模型架構(gòu)下的訓(xùn)練偏好設(shè)置。

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

最后，團(tuán)隊還在時間信息顯著性、音頻模態(tài)重要性等方面進(jìn)行了實(shí)驗(yàn)。發(fā)現(xiàn)時間信息的加入和音頻模態(tài)的引入，都可以對豎屏數(shù)據(jù)的準(zhǔn)確率帶來不小的提升，展示了在相關(guān)領(lǐng)域的研究空間和可能性。

還得是抖音，字節(jié)推出豎屏視頻理解數(shù)據(jù)集，入選CVPR2024-AI.x社區(qū)

應(yīng)用落地和展望

視頻分類作為基礎(chǔ)的計算機(jī)視覺技術(shù)，對視頻內(nèi)容的分類、特征提取，以及推薦等有著重要的作用。針對豎屏視頻的專門研究可以進(jìn)一步推動相關(guān)技術(shù)的發(fā)展，增強(qiáng)內(nèi)容推薦等關(guān)鍵能力，進(jìn)一步激發(fā)豎屏領(lǐng)域的其他類型研究，如生成等。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/UGSzyUkR3K4pQ9TUB-ZzHA??

標(biāo)簽

計算機(jī)視覺視頻

已于2024-4-3 12:35:28修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

CVPR 2024 | 通過細(xì)粒度人類反饋對齊數(shù)據(jù)，提高多模態(tài)大模型可信度

zhangyannni ? 4152瀏覽 ? 0回復(fù)
CVPR 2024 Oral：生命之樹大模型

AIGC最前線 ? 4330瀏覽 ? 0回復(fù)
MuLAn：首個實(shí)例級RGBA分解數(shù)據(jù)集

angel ? 3879瀏覽 ? 0回復(fù)
字節(jié)提出新一代數(shù)據(jù)集COCONut，比COCO粒度分割更密集

輕薄滴假象 ? 4171瀏覽 ? 0回復(fù)
字節(jié)發(fā)布視覺基礎(chǔ)模型ViTamin，多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA，入選CVPR2024

Crystalcxt ? 2722瀏覽 ? 0回復(fù)
CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)？M3Act破解人群行為標(biāo)注難題

輕薄滴假象 ? 2616瀏覽 ? 0回復(fù)
CVPR 2024 視頻場景解析挑戰(zhàn)賽第一名方案詳解

angel ? 3609瀏覽 ? 0回復(fù)
ETH北航字節(jié)推出LoRA新范式 | ICML 2024

Crystalcxt ? 2737瀏覽 ? 0回復(fù)
谷歌開源TimesFM：1000億個時間點(diǎn)訓(xùn)練，入選ICML 2024

duhorse ? 3224瀏覽 ? 0回復(fù)
百萬級高質(zhì)量視頻數(shù)據(jù)集發(fā)布，登頂抱抱臉數(shù)據(jù)集排行榜，中科大&上海AI Lab等出品

Crystalcxt ? 3066瀏覽 ? 0回復(fù)
SEED-Bench：基于生成理解的多模態(tài)大語言模型基準(zhǔn)測試（CVPR2024）

AIRoobt ? 6469瀏覽 ? 0回復(fù)
OpenAI、百度、阿里、騰訊、字節(jié)、快手最全 AI 工具集，你使用最多的是 ChatGPT 嘛？

wsp_ping ? 4327瀏覽 ? 0回復(fù)
能訓(xùn)出SOTA模型的優(yōu)質(zhì)數(shù)據(jù)集發(fā)布！復(fù)旦最新VidGen-1M: 文生視頻還得靠好數(shù)據(jù)

angel ? 2858瀏覽 ? 0回復(fù)
破解AI多模態(tài)理解難題：浙江大學(xué)與字節(jié)跳動聯(lián)手推出Molecule-Space新方法

AI論文解讀 ? 3031瀏覽 ? 0回復(fù)
從數(shù)據(jù)集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 4741瀏覽 ? 0回復(fù)
是時候接受真實(shí)世界的檢驗(yàn)啦！UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy

angel ? 3029瀏覽 ? 0回復(fù)
NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 4320瀏覽 ? 0回復(fù)
曝阿里內(nèi)部在開發(fā)AI殺手級應(yīng)用，相信會比抖音更受歡迎！吳泳銘要求把AI促增長寫進(jìn)所有部門績效

51CTO技術(shù)棧 ? 1602瀏覽 ? 0回復(fù)
快手12篇論文入選CVPR 2025！

快手技術(shù) ? 801瀏覽 ? 0回復(fù)

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍

下一篇：值得你花時間看的擴(kuò)散模型教程，來自普渡大學(xué)

社區(qū)精華內(nèi)容

目錄

<pre id="rihi1"><samp id="rihi1"></samp></pre>