NeurIPS 2025|火山引擎多媒體實驗室聯(lián)合南開大學(xué)推出TempSamp-R1強化學(xué)習(xí)新框架,視頻時序理解大模型SOTA!

在人工智能與多媒體技術(shù)深度融合的當(dāng)下,視頻時序定位(Video Temporal Grounding) 成為視頻理解領(lǐng)域的核心任務(wù)之一,其目標(biāo)是根據(jù)自然語言查詢,在長段視頻流中精準(zhǔn)定位出與之匹配的時序片段。這一能力是智能視頻剪輯、內(nèi)容檢索、人機交互、事件分析等眾多場景落地的關(guān)鍵基礎(chǔ)。例如,快速定位球賽進球瞬間、影視劇名場面、游戲高光鏡頭、響應(yīng)“回放主角微笑片段” 、異常事件查看等需求,均依賴于高效精準(zhǔn)的時序定位技術(shù)。如今,火山引擎多媒體實驗室聯(lián)合南開大學(xué)研發(fā)的 TempSamp-R1 框架,通過對強化學(xué)習(xí)技術(shù)的突破性創(chuàng)新,為視頻大模型的“時空感知力”帶來質(zhì)的飛躍—— 該成果已被人工智能領(lǐng)域頂會 NeurIPS 2025接收。

論文鏈接:https://arxiv.org/pdf/2509.18056
直擊行業(yè)痛點:傳統(tǒng)方法深陷 “效率與精度” 雙重困境

圖1 視頻時序定位任務(wù)示例
視頻時序定位任務(wù)中,模型需在數(shù)分鐘甚至數(shù)小時的視頻流中,精準(zhǔn)鎖定與文本查詢匹配的幾秒到幾十秒片段?,F(xiàn)有主流方案長期面臨兩大核心難題:基于監(jiān)督微調(diào)(SFT)的方法過度依賴確定性標(biāo)注,缺乏動態(tài)時序推理能力,面對復(fù)雜視頻場景易出現(xiàn)定位偏差;而基于強化學(xué)習(xí)的 GRPO 方法雖具備自適應(yīng)學(xué)習(xí)能力,但受限于 on-policy 采樣機制,在廣泛的視頻時序搜索空間中探索效率低下,且存在獎勵信號稀疏、訓(xùn)練收斂不穩(wěn)定等問題,導(dǎo)致訓(xùn)練時精度與速度難以兼顧。
三大核心創(chuàng)新:高效提升 MLLM 視頻時序定位精度

圖2 TempSamp-R1框架概述,該框架用于微調(diào)多模態(tài)策略模型。
TempSamp-R1 框架通過“混合策略采樣+優(yōu)勢塑造+靈活推理范式”的三重創(chuàng)新,構(gòu)建起高效穩(wěn)定的視頻時序定位學(xué)習(xí)體系,其技術(shù)突破點可概括為以下三方面:
1、混合策略采樣:讓真值標(biāo)注成為“精準(zhǔn)導(dǎo)航儀”
TempSamp-R1 框架將 on-policy 動態(tài)探索與 off-policy 監(jiān)督指導(dǎo)相結(jié)合,提出“(G-1)+1”混合采樣策略,即每個查詢對應(yīng) G 個訓(xùn)練樣本,其中 G-1 個來自當(dāng)前策略的 on-policy 生成樣本,1個為基于真值標(biāo)注的 off-policy 樣本。這種設(shè)計既保留了強化學(xué)習(xí)的探索能力,又通過標(biāo)注數(shù)據(jù)樣本為模型提供精準(zhǔn)時序定位,有效解決了GRPO框架中 on-policy 采樣的稀疏性問題。

圖3 TempSamp-R1 將高質(zhì)量的注釋與基于策略的采樣相結(jié)合示例
2、非線性優(yōu)勢塑造:給獎勵信號 “裝上穩(wěn)壓器”
混合采樣雖結(jié)合兩類樣本優(yōu)勢,但 off-policy 標(biāo)注數(shù)據(jù)樣本的高獎勵與 on-policy 探索樣本的常規(guī)獎勵存在分布偏移,直接融合易致訓(xùn)練主導(dǎo)失衡、梯度波動。
針對此問題,TempSamp-R1 提出三個可選擇的優(yōu)勢塑造策略:
- 通過獎勵縮放將 off-policy 獎勵限制在最大值的80%,避免其過度主導(dǎo)訓(xùn)練;
 - 采用優(yōu)勢錨定機制獨立計算 off-policy 優(yōu)勢,增強監(jiān)督信號的引導(dǎo)作用;
 - 創(chuàng)新引入非線性獎勵函數(shù),對高獎勵區(qū)域進行壓縮、低獎勵區(qū)域進行擴展,有效緩解獎勵稀疏帶來的梯度不穩(wěn)定問題。
 
如圖4所示,GRPO 基線獎勵中位數(shù)低、箱線分散(方差大,訓(xùn)練波動劇烈),而 TempSamp-R1 獎勵箱線更緊湊、中位數(shù)更高,直觀印證優(yōu)勢塑造的“穩(wěn)壓”效果——既穩(wěn)定捕捉高價值時序解,又降低獎勵波動,緩解梯度震蕩。

圖4 對比GRPO和TempSamp-R1算法在Charades-STA和ActivityNet Captions數(shù)據(jù)集上top-1 IoU得分的分布情況。
3、混合 CoT 訓(xùn)練:兼容適配“復(fù)雜+高效”雙重需求
考慮到不同視頻任務(wù)的推理復(fù)雜度差異,框架設(shè)計了混合思維鏈(CoT)訓(xùn)練范式:
- 第一階段聚焦基礎(chǔ)定位能力,僅要求模型輸出<Answer>標(biāo)簽的時序結(jié)果,確保核心定位精度;
 - 第二階段引入格式獎勵機制(輸出符合<Think>推理過程+<Answer>結(jié)果),引導(dǎo)模型學(xué)習(xí)顯式推理邏輯,強化結(jié)構(gòu)化輸出能力。
 
在推理階段則支持可選擇 CoT 與非 CoT 模式:
- 面對事件定位等復(fù)雜任務(wù)時,CoT 模式通過顯式推理提升邊界精度;
 - 處理高光檢測等簡單任務(wù)時,非 CoT 模式直接輸出結(jié)果以提升效率。
 
這種“雙模式”的設(shè)計,大幅提升了框架的場景適配性。

圖5 TempSamp-R1進行時間定位的示例。
刷新 SOTA 紀(jì)錄:三大數(shù)據(jù)集性能全面突破
基于 Qwen2.5-VL-7B-Instruct 基座模型,TempSamp-R1 在三大權(quán)威基準(zhǔn)數(shù)據(jù)集上展現(xiàn)出壓倒性性能優(yōu)勢,核心指標(biāo)均超越現(xiàn)有最優(yōu)方案:
- CharadesSTA(事件時序定位):R1@0.7 指標(biāo)達到52.9%,較最優(yōu) GRPO 基線提升5.0個百分點,較 SFT 基線提升7.6個百分點;
 - ActivityNet Captions(長視頻事件定位):R1@0.5 指標(biāo)達到56.0%,較此前 SOTA 提升5.3個百分點,在長時序推理場景中優(yōu)勢尤為顯著;
 - QVHighlights(視頻高光檢測):mAP 指標(biāo)達到 30.0%,較最優(yōu)基線提升3.0個百分點,且非 CoT 模式下推理速度提升25%。
 

圖6 對比不同模型在 Charades-STA、ActivityNet Captions 和 QVHighlights 數(shù)據(jù)集上性能。
更值得關(guān)注的是,TempSamp-R1 展現(xiàn)出極強的泛化能力:
- 在跨數(shù)據(jù)集遷移測試中,從 CharadesSTA 訓(xùn)練的模型直接應(yīng)用于 ActivityNet Captions,mIoU 指標(biāo)達34.7%,較 GRPO 提升4.0個百分點;
 

圖7 從 Charades-STA 到 ActivityNet 的跨域泛化性能。
- 在小樣本的訓(xùn)練中,僅用50個訓(xùn)練樣本時,mIoU 達44.7%,超 SFT 2.8%;500 樣本時 mIoU 達55.1%,超 SFT 8.9%、GRPO 5.3%,且訓(xùn)練時間(218分鐘)短于 GRPO(338分鐘)。
 
智能剪輯迎來突破:效率實現(xiàn)跨越式提升,重構(gòu)內(nèi)容生產(chǎn)流程
TempSamp-R1 在強化學(xué)習(xí)領(lǐng)域的核心突破,不僅是技術(shù)層面的創(chuàng)新升級,更關(guān)鍵的是,依托該技術(shù)已構(gòu)建起“基于時序理解的高光檢測→基于故事線理解的智能剪輯”這一行業(yè)領(lǐng)先的完整技術(shù)閉環(huán)解決方案,目前已在點播與直播場景深度應(yīng)用,跨越式提升智能剪輯效率:

圖9 視頻高光智剪解決方案框架圖
- 點播場景:基于 TempSamp-R1 對視頻內(nèi)容的深度理解技術(shù),打造“精彩標(biāo)題-智能封面-看點解說-爆款衍生”一站式高光混剪解決方案,可實現(xiàn)高光劇情集錦、精彩內(nèi)容解說等內(nèi)容的大規(guī)模自動化生產(chǎn),大幅提升二創(chuàng)視頻生產(chǎn)力,有效促進用戶消費,為業(yè)務(wù)增長注入技術(shù)動力。
 - 直播場景:依托 TempSamp-R1 打造的“直播高光智剪”解決方案,以強大的內(nèi)容理解能力為內(nèi)容生產(chǎn)注入全新動能。
 
- 在體育賽事直播中,該方案支持多語種解說智能剪輯,即時捕捉精彩瞬間,自動生成集錦和吸睛標(biāo)題,顯著提升內(nèi)容生產(chǎn)效率。
 - 在電商直播場景中,該方案可精準(zhǔn)識別商品講解高光與核心賣點,一鍵生成引流視頻,顯著提升直播間成交轉(zhuǎn)化,助力商家實現(xiàn)降本提效與業(yè)務(wù)增長。
 
- 「V-Orbit」音視頻 AI 應(yīng)用廣場:是火山引擎視頻云智能媒體產(chǎn)品線聚焦音視頻處理工具+AI 應(yīng)用的平臺。平臺全面覆蓋視頻直播、視頻點播、企業(yè)直播及 ImageX 產(chǎn)品線的所有 AI 能力,您可以一站式使用所需的音視頻圖片處理工具,體驗上文介紹的短劇高光智剪和直播高光智剪、視頻處理智能體 Aideo Agent、智能播放器 Aideo player、AI 視頻翻譯、無痕字幕擦除、電商萬創(chuàng)等熱門應(yīng)用,詳情可訪問:
https://www.volcengine.com/experience/vcloudlite/ai 

「V-Orbit」音視頻 AI 應(yīng)用廣場頁面















 
 
 








 
 
 
 