偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI在實(shí)時(shí)視頻里秒“剪”出你想要的部分!輸入文字/圖/視頻片段,它都能秒懂|ICCV2025

人工智能 新聞
這項(xiàng)技術(shù)能讓系統(tǒng)一邊直播/錄像,一邊根據(jù)你提供的多種“線索”,包括文字、參考圖、示范視頻片段或組合等,瞬間在實(shí)時(shí)視頻流中找出并精準(zhǔn)裁剪出你關(guān)心的完整事件。

還在實(shí)時(shí)視頻里找特定事件找半天?最新技術(shù)直接開(kāi)掛了。

試想一下,安防監(jiān)控中,幾個(gè)人影短暫掠過(guò),利用新技術(shù)可以秒級(jí)調(diào)出這段“可疑聚眾”的精準(zhǔn)片段。

△圖片為AI生成

在VR訓(xùn)練場(chǎng),你戴上VR眼鏡練習(xí)投籃,提前在手機(jī)App輸入“定位和這個(gè)視頻示范(庫(kù)里完美三分片段)相似的動(dòng)作”。訓(xùn)練開(kāi)始,每一次出手,眼鏡在后臺(tái)默默分析第一視角視頻流。當(dāng)你做出動(dòng)作、發(fā)力、弧線都神似庫(kù)里的三分時(shí),眼鏡立刻就能在虛擬界面高亮標(biāo)記這個(gè)片段。

△圖片為AI生成

不賣(mài)關(guān)子,這就是來(lái)自深圳北理莫斯科大學(xué)、阿德萊德大學(xué)的研究團(tuán)隊(duì)提出的新任務(wù)。

名叫混合模態(tài)在線視頻定位(Online Video Grounding with Hybrid-modal Queries, OVG-HQ)。

用大白話說(shuō),這項(xiàng)技術(shù)能讓系統(tǒng)一邊直播/錄像,一邊根據(jù)你提供的多種“線索”,包括文字、參考圖、示范視頻片段或組合等,瞬間在實(shí)時(shí)視頻流中找出并精準(zhǔn)裁剪出你關(guān)心的完整事件。

論文已收錄于ICCV2025。

此前方法的缺陷有兩個(gè):

“離線”是硬傷:主流技術(shù)必須等視頻錄完才能干活,事后分析如同馬后炮,無(wú)法滿足安防“秒級(jí)響應(yīng)”、直播“即時(shí)重現(xiàn)”、VR“訓(xùn)練中實(shí)時(shí)反饋”的剛需。

“詞窮”是軟肋:僅靠文字描述(如“聚眾”“劈殺”“完美三分”)難精準(zhǔn)定義視覺(jué)世界的微妙差異。動(dòng)作發(fā)力點(diǎn)、光影細(xì)節(jié)、空間模式……很多時(shí)候“只可意會(huì)”。

OVG-HQ是怎么破局的呢?

怎么做到的?

團(tuán)隊(duì)表示,要讓系統(tǒng)做到“精準(zhǔn)定位+理解多模態(tài)”,需跨過(guò)兩道坎:

挑戰(zhàn)一:流式場(chǎng)景下的歷史知識(shí)持續(xù)保留

模型在實(shí)時(shí)處理視頻流時(shí),必須確保歷史關(guān)鍵信息不丟失——否則早期出現(xiàn)的動(dòng)作線索或場(chǎng)景特征被遺忘,將導(dǎo)致事件起止點(diǎn)誤判。

挑戰(zhàn)二:查詢(xún)模態(tài)分布不均

同一用戶意圖可能對(duì)應(yīng)一段5秒視頻(信息豐富),也可能僅是一張低分辨率圖或簡(jiǎn)短文字(信息稀疏)。強(qiáng)弱模態(tài)的顯著差異會(huì)導(dǎo)致模型過(guò)度依賴(lài)強(qiáng)模態(tài),無(wú)法充分利用弱模態(tài)信息,影響多源信息整合精度。構(gòu)建能均衡處理所有模態(tài)組合的統(tǒng)一模型異常困難。

為系統(tǒng)性研究上述問(wèn)題,團(tuán)隊(duì)整理QVHighlights數(shù)據(jù),構(gòu)建首個(gè)支持混合模態(tài)在線定位的基準(zhǔn)集QVHighlights-Unify,擴(kuò)充四種查詢(xún)?cè)兀?/span>

  • 檢索圖:模擬用戶從搜索引擎獲取參考圖
  • 生成圖:模擬用戶用文生圖模型生成參考圖
  • 生成片段:模擬用戶用文生視頻模型生成參考視頻
  • 互補(bǔ)圖文對(duì):模擬用戶用圖+文共同說(shuō)明意圖(缺一不可)

總計(jì)71.6K組查詢(xún),覆蓋8種模態(tài)組合,構(gòu)成首個(gè)混合模態(tài)在線定位的統(tǒng)一評(píng)估基準(zhǔn)。

針對(duì)兩項(xiàng)挑戰(zhàn),團(tuán)隊(duì)提出兩個(gè)核心組件:

1、參數(shù)化記憶模塊(PMB)

step 1:記憶當(dāng)前輸入,通過(guò)參數(shù)即記憶層,將當(dāng)前輸入信息壓縮到記憶參數(shù)中,并采用重構(gòu)損失進(jìn)行自監(jiān)督學(xué)習(xí)。通過(guò)梯度下降更新記憶參數(shù),使其同時(shí)保留當(dāng)前和歷史信息。

step 2:記憶增強(qiáng)處理,利用更新后的記憶參數(shù)對(duì)當(dāng)前輸入進(jìn)行增強(qiáng):先經(jīng)投影層映射,輸入?yún)?shù)即記憶層,再通過(guò)層歸一化和投影操作,輸出記憶增強(qiáng)后的表征供后續(xù)模塊使用。

2、混合模態(tài)蒸餾(Hybrid-modal Distillation)

step 1: 為信息量豐富的模態(tài)組合(文本+生成片段)訓(xùn)練專(zhuān)家模型。

step 2: 以專(zhuān)家輸出為軟標(biāo)簽,引導(dǎo)其他模態(tài)的學(xué)生模型,最終得到能統(tǒng)一處理8種模態(tài)組合的通用模型。

實(shí)驗(yàn)效果如何?

離線指標(biāo)只關(guān)心“對(duì)不對(duì)”,不關(guān)心“快不快”。為衡量實(shí)時(shí)能力,團(tuán)隊(duì)引入時(shí)間衰減因子β:當(dāng)預(yù)測(cè)在標(biāo)注片段結(jié)束時(shí)刻命中時(shí),β=1,若預(yù)測(cè)時(shí)間晚于標(biāo)注結(jié)束時(shí)間,β線性衰減,超過(guò)閾值后降為0,基于此設(shè)計(jì)兩項(xiàng)在線指標(biāo):

  • oR@n(Online Recall@n):在置信度排序的top n預(yù)測(cè)片段中,若存在至少一個(gè)命中標(biāo)注片段,則根據(jù)命中預(yù)測(cè)片段的延遲計(jì)算β。
  • omAP(Online mAP):為每個(gè)預(yù)測(cè)片段分配時(shí)間折扣分,延遲越久得分越低。

兩項(xiàng)指標(biāo)共同要求“又快又準(zhǔn)”,貼合安防、直播等場(chǎng)景需求。

實(shí)驗(yàn)結(jié)果顯示,使用混合模態(tài)蒸餾后 ,模型在弱模態(tài)處理上顯著提升:Image-R提升8.98%,Image-G提升9.35%。

參數(shù)化記憶模塊效果優(yōu)于ATT和LSTM,,以生成視頻查詢(xún)(Segment-G)為例,PMB(20.13%)>LSTM(17.41%)>ATT(11.85%)。

總結(jié)來(lái)說(shuō),OVG-HQ任務(wù)、QVHighlights-Unify數(shù)據(jù)集、PMB模塊及混合模態(tài)蒸餾策略,共同勾勒出實(shí)時(shí)視頻理解的新范式:“用戶給任何線索,系統(tǒng)實(shí)時(shí)在當(dāng)前視頻流中定位完整事件?!边@不僅加速安防告警、體育直播回放、VR訓(xùn)練反饋,更為智能家居、工業(yè)質(zhì)檢、自動(dòng)駕駛等場(chǎng)景打開(kāi)新想象空間。

作者及單位

曾潤(rùn)浩(深圳北理莫斯科大學(xué))、毛嘉其(深圳大學(xué))、賴(lài)銘浩(深圳大學(xué))、Minh Hieu Phan(阿德萊德大學(xué))、董延杰(深圳北理莫斯科大學(xué))、王偉(深圳北理莫斯科大學(xué))、陳奇(阿德萊德大學(xué))、胡希平(深圳北理莫斯科大學(xué))

論文鏈接: https://arxiv.org/abs/2508.11903

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-11-20 22:02:54

開(kāi)源模型

2024-11-08 17:34:38

2021-10-28 18:58:57

動(dòng)態(tài)規(guī)劃數(shù)據(jù)結(jié)構(gòu)算法

2022-08-19 14:46:16

視覺(jué)框架

2018-02-07 08:32:42

2017-12-20 10:08:53

2025-07-21 08:45:00

2024-06-24 08:24:57

2023-04-14 13:52:09

AI視頻

2020-04-20 10:33:56

戴爾

2018-04-26 08:40:33

線性回歸算法機(jī)器學(xué)習(xí)

2019-11-18 10:14:19

AI 數(shù)據(jù)人工智能

2018-12-17 16:34:02

華為云

2023-07-17 07:05:43

ChatGPTOpenAI

2025-10-20 08:58:00

2025-03-31 08:46:00

圖像AI生成

2018-05-11 09:29:18

云計(jì)算火鍋IaaS

2017-09-14 11:56:24

數(shù)據(jù)庫(kù)技術(shù)變遷

2022-11-09 15:41:47

人工智能小程序視頻

2023-11-23 13:24:54

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)