偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<strong id="8dmzh"><label id="8dmzh"><pre id="8dmzh"></pre></label></strong>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

視頻推理R1時(shí)刻，7B模型反超GPT-4o！港中文清華推出首個(gè)Video-R1

作者：新智元 2025-04-16 15:28:31

人工智能新聞

港中文和清華團(tuán)隊(duì)推出Video-R1模型，首次將強(qiáng)化學(xué)習(xí)的R1范式應(yīng)用于視頻推理領(lǐng)域。通過升級(jí)的T-GRPO算法和混合圖像視頻數(shù)據(jù)集，Video-R1在視頻空間推理測試中超越了GPT-4o，展現(xiàn)了強(qiáng)大的推理能力，并且全部代碼和數(shù)據(jù)集均已開源。

語言模型的推理剛火完，視頻AI也開始「卷」起來了。

這次出手的是港中文+清華組合，直接把強(qiáng)化學(xué)習(xí)里的R1玩法搬到了視頻領(lǐng)域，整出了全球首個(gè)視頻版R1模型：Video-R1。

別看它只有7B參數(shù)，但它在李飛飛提出的VSI-Bench基準(zhǔn)中，竟然超越了GPT-4o！

這波不是簡單微調(diào)。它背后換上了全新的時(shí)間感知算法T-GRPO，再配上圖像+視頻混合訓(xùn)練、兩套高質(zhì)量數(shù)據(jù)集，硬是把AI的視頻推理能力拉滿，讓模型不止能「看」，更開始「思考」。

而且，全套模型、代碼、數(shù)據(jù)集——已經(jīng)開源了！

視頻大模型的「推理時(shí)刻」，已經(jīng)開始。

論文鏈接：https://arxiv.org/abs/2503.21776

項(xiàng)目地址：https://github.com/tulerfeng/Video-R1

知名博主AK也連發(fā)2條推特，推薦這篇論文：

為什么視頻大模型總是「不聰明」？

視頻模型看起來「懂點(diǎn)東西」，其實(shí)大多都只是表面功夫。真正讓它們「動(dòng)腦子」的地方，反而是它們最弱的短板。

研究團(tuán)隊(duì)指出，如果還按照傳統(tǒng)GRPO的套路來訓(xùn)練AI看視頻，會(huì)踩兩個(gè)坑：

一個(gè)是沒時(shí)間概念，模型完全不知道視頻事件的前后邏輯，常常「看圖說話」——看到一幀畫面就急著給出答案。這種套路最多就是蒙對(duì)幾次，沒法形成真正的因果推理，泛化性差。例如下圖所示。

另一個(gè)問題更棘手：訓(xùn)練數(shù)據(jù)太淺。很多現(xiàn)有視頻數(shù)據(jù)集壓根就不適合教模型「思考」，清一色的識(shí)別題，幾乎沒多少需要推理才能解的任務(wù)。模型怎么練都只是在死記硬背，根本沒機(jī)會(huì)練大腦。

所以，視頻大模型「不聰明」，真不是沒潛力，而是沒人教對(duì)方法。

一套獎(jiǎng)勵(lì)機(jī)制，把視頻推理訓(xùn)會(huì)了

研究團(tuán)隊(duì)整了個(gè)狠招：獎(jiǎng)勵(lì)機(jī)制綁定時(shí)間理解。

研究人員把舊版GRPO算法升級(jí)成了更懂時(shí)序的T-GRPO，直接把「考慮時(shí)序」這事寫進(jìn)了模型的獎(jiǎng)勵(lì)邏輯里。

方法簡單粗暴又高效——模型每次會(huì)收到兩組輸入：一組視頻幀隨機(jī)亂序，一組順序。只有當(dāng)它在「順序」輸入上答對(duì)題的比例更高，才會(huì)獲得獎(jiǎng)勵(lì)。

這個(gè)機(jī)制在「教」模型：別光看圖，推理得講前因后果。哪怕只看了一幀猜對(duì)了題，也拿不到分。

在這種嚴(yán)格打分機(jī)制下，模型終于明白——視頻不是PPT翻頁，而是一個(gè)個(gè)邏輯線索串起來的故事。

靠混合數(shù)據(jù)打通任督二脈

視頻推理數(shù)據(jù)太稀缺，模型「練不成」？

研究人員干脆把圖像推理數(shù)據(jù)請進(jìn)視頻訓(xùn)練流程，做了兩個(gè)關(guān)鍵數(shù)據(jù)集：一個(gè)是圖像為主的 Video-R1-COT-165k，專門用來冷啟動(dòng)模型思維；另一個(gè)是以高質(zhì)量視頻為核心的 Video-R1-260k，用來精調(diào)強(qiáng)化訓(xùn)練。

別以為圖片只是打輔助，恰恰相反——它幫AI打好了「邏輯底盤」，學(xué)會(huì)怎么通用推理；而那些優(yōu)選過的視頻數(shù)據(jù)，則進(jìn)一步逼它理解時(shí)間邏輯和動(dòng)態(tài)變化。

這套圖像+視頻混合訓(xùn)練方式，不光解決了數(shù)據(jù)稀缺，還真讓模型形成了從「看圖說話」到「視頻深思」的進(jìn)階跳躍，真正打通了多模態(tài)理解的任督二脈。

視頻推理的「aha moment」

Video-R1在推理過程中，竟然出現(xiàn)了類似人類的「頓悟時(shí)刻」——那種突然把所有線索串起來、恍然大悟的瞬間，也被稱為「aha moment」。

比如有一道題是：哪個(gè)動(dòng)作會(huì)導(dǎo)致系統(tǒng)能量損耗？另一個(gè)是：看完一段室內(nèi)漫游視頻，推理出從書柜走到浴缸的路徑。

換做以前的模型，十有八九就是「看一眼」就開答，但Video-R1卻能一步步分析時(shí)序，進(jìn)行推理，最終給出邏輯閉環(huán)的準(zhǔn)確回答。

這不是死記硬背，而是推理真正生效的信號(hào)。AI第一次表現(xiàn)出：它不只是識(shí)圖，而是在「思考」視頻里發(fā)生了什么。

實(shí)驗(yàn)結(jié)果

在多個(gè)視頻推理測試基準(zhǔn)上，這個(gè)Video-R1-7B模型幾乎場場領(lǐng)先，尤其在李飛飛提出的VSI-Bench這一權(quán)威評(píng)測中，它拿下了35.8%的準(zhǔn)確率，超越了閉源頂尖大模型GPT-4o。

不僅如此，RL和傳統(tǒng)SFT之間的差距也被拉開了。比如同樣是7B體量的Qwen2.5-VL-SFT，在測試中表現(xiàn)不佳。反觀Video-R1，則在幾乎所有場景中都穩(wěn)定輸出，泛化能力一騎絕塵。

還有一個(gè)非常關(guān)鍵的發(fā)現(xiàn)：幀數(shù)越多，推理越準(zhǔn)。當(dāng)模型輸入的視頻幀數(shù)從16增加到32，再到64，測試表現(xiàn)都跟著上臺(tái)階。這說明，對(duì)時(shí)間線的理解力，正是視頻推理模型的決勝點(diǎn)——誰能處理更長的視頻，誰就更有未來。

團(tuán)隊(duì)還做了一組消融實(shí)驗(yàn)，直接「抽掉」圖像數(shù)據(jù)訓(xùn)練、再試試砍掉時(shí)間建模模塊，結(jié)果都一樣——模型性能明顯下滑。這直接驗(yàn)證了一件事：Video-R1的每一塊設(shè)計(jì)都打在了點(diǎn)子上。

不僅如此，從訓(xùn)練動(dòng)態(tài)中也能看出門道。隨著強(qiáng)化學(xué)習(xí)的推進(jìn)，模型獲得的準(zhǔn)確率獎(jiǎng)勵(lì)和時(shí)間獎(jiǎng)勵(lì)在持續(xù)上升，說明它不僅越來越會(huì)答題，還越來越懂得「時(shí)間邏輯」這回事。

有意思的是，模型在訓(xùn)練早期輸出的回答變短了——這是在主動(dòng)拋棄之前SFT里學(xué)到的次優(yōu)推理模式；但隨著訓(xùn)練推進(jìn)，輸出逐漸恢復(fù)并穩(wěn)定，形成了一套更高效、更具邏輯的表達(dá)路徑。

寫在最后

Video-R1用實(shí)力證明：強(qiáng)化學(xué)習(xí)不只是NLP的專利，視頻大模型也能玩出推理力。

它不靠「堆料」，靠的是機(jī)制設(shè)計(jì)和訓(xùn)練策略，并且全套開源。

R1的推理范式，正在把下一場AI革命，從文本世界帶進(jìn)了每一幀畫面里。

視頻推理的時(shí)代，真的來了。

責(zé)任編輯：張燕妮來源：新智元

模型 AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="exg60"></abbr>