偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

「世界理解」維度看AI視頻生成:Veo3和Sora2水平如何?新基準來了

人工智能 新聞
中山大學(xué)、香港理工大學(xué)、清華大學(xué)與OPPO Research Institute合作,在港理工Chair Professor張磊教授的指導(dǎo)下提出了一種新的評測框架——VideoVerse。

近年來,Text-to-Video(T2V)模型取得顯著進展——

從靜態(tài)幀質(zhì)量到連貫的視頻敘事,模型能力大幅提升,尤其是最近Sora2的爆火,讓人們開始想象,T2V Model是否已經(jīng)是一個真正的“世界模型”?。

然而,傳統(tǒng)基準主要考察圖像質(zhì)量與語義一致性,并不能系統(tǒng)衡量模型對事件因果、物理規(guī)律與常識的理解,而這些正是“世界模型”的核心能力。

為此,中山大學(xué)、香港理工大學(xué)、清華大學(xué)與OPPO Research Institute合作,在港理工Chair Professor張磊教授的指導(dǎo)下提出了一種新的評測框架——VideoVerse。

設(shè)計目標與核心內(nèi)容

VideoVerse致力于評估T2V模型在事件級時間因果與世界知識(物理、材料、常識)上的表現(xiàn)。團隊從兩大視角定義了十個評測維度

1、動態(tài)(Dynamic):Event Following(事件順序與因果)、Mechanics(力學(xué))、Interaction(交互)、Material Properties(材料特性)、Camera Control(鏡頭控制)。

2、靜態(tài)(Static):Natural Constraints(自然/物理約束)、Common Sense(常識)、Attribution Correctness(屬性正確性)、2D Layout(二維布局)、3D Depth(三維深度)。

每條prompt對應(yīng)若干二元(Yes/No)評測問題;Event Following采用事件序列匹配(LCS)度量序列一致性。

最終通過QA + LCS的混合評分,得到模型在各維度上的綜合表現(xiàn)。

Prompt構(gòu)建流程

為確保prompt的真實性、多樣性與可評測性,團隊采用多階段構(gòu)建流程:

域內(nèi)原始語料采樣

團隊從三大域獲取源數(shù)據(jù):Daily Life(如 ActivityNet Caption)、Scientific Experiment(高中/教科書級實驗步驟)、Science Fiction(VidProM 等社區(qū)收集)。

目的是覆蓋真實世界場景、受控科學(xué)實驗與超現(xiàn)實/想象場景,以測試模型的現(xiàn)實/推理/泛化能力。

事件與因果結(jié)構(gòu)抽取

團隊使用GPT-4o等強LLM自動抽取視頻或文本中的事件序列與潛在因果鏈,把自然語言描述轉(zhuǎn)換為事件級結(jié)構(gòu)(event1 ? event2 ? event3…)。

這么做是為了保證prompt天然具備事件因果的性質(zhì),為prompt中的“事件跟隨”評測打下基礎(chǔ)。

人工標注與評測維度

獨立人類注釋者對自動抽取的raw-prompt進行語義增補(例如加入材料、鏡頭動作、隱藏語義)、并為每條prompt選擇適用的評測維度。

注釋者均具備本科及以上學(xué)歷,定期交叉校驗以減少偏差。

這樣,可以將自動抽取與人工知識結(jié)合,保障prompt的多維挑戰(zhàn)性與標注質(zhì)量。

維度二元檢測問題生成

基于每條prompt的選定維度,自動/人工生成與之對應(yīng)的二元QA(例如:“視頻中是否出現(xiàn)藍色海綿?”、“事件順序是否為A ? B ? C?”)。

這些問題用于后續(xù)的VLM評測,同時屏蔽原始的prompt,降低評估時的文本幻覺風(fēng)險。

QA+LCS的混合評估

評估方面,團隊采用QA+LCS的混合評估,具體分為三個步驟

1、事件跟隨(Event Following):用VLM提取生成視頻的事件序列,再用最長公共子序列(LCS)與地面真值比對,評分反映事件順序與因果的一致性。

2、維度特定問題:每個維度下的二元問題獨立詢問VLM,正確數(shù)累加為維度得分。

3、總體得分:LCS得分+各維度二元問題答對數(shù)之和。該設(shè)計既關(guān)注序列邏輯也關(guān)注屬性/物理細節(jié)。

隱含語義

不過,能生成一段合理的畫面,不代表模型理解了背后的隱含語義。

為此,團隊在VideoVerse中引入了隱含語義(hidden semantics)。

目前,大多數(shù)現(xiàn)有T2V評測只關(guān)注顯式語義(explicit semantics)——即prompt中直接描述的事件。

然而,真正的“世界理解”不僅在于生成“可見的動作”,還在于能否遵循那些未明說但合理存在的語義前提。

例如這樣一段prompt:

A man drops an egg on the floor.

這段話的顯式語義很清晰:男人掉下雞蛋。

而隱含語義則是:雞蛋應(yīng)破碎、液體應(yīng)流動、地面應(yīng)濕潤。

如果一個模型能正確生成破碎和液體流動,這說明它真正理解了物理因果,而非僅僅模仿了文字表象。

因此,團隊在VideoVerse中系統(tǒng)引入了隱含語義,用以檢測模型是否能生成這些“隱含后果”。

主要實驗與分析

團隊在VideoVerse上評測了主流開源與閉源模型(如 Wan 系列、HunyuanVideo、SkyReels、Veo-3 、Sora2等)。有兩點關(guān)鍵發(fā)現(xiàn):

1、開源模型在基礎(chǔ)維度(屬性、2D/3D布局等)與閉源模型接近,但在世界模型級別(自然約束、常識、事件因果)差距明顯。

2、即便是最強閉源模型(Sora2),在“隱藏語義跟隨”與某些物理/材料推斷上仍有顯著缺陷。

一個例子,不同視頻模型對于“唐三藏騎的馬的顏色”的理解迥乎不同。

研究發(fā)現(xiàn),Wan 2.1Hunyuan能成功生成相應(yīng)的描述性內(nèi)容(如“馬的皮毛閃閃發(fā)光”),但在事件連貫性(Event Following)和常識理解(Common Sense)方面表現(xiàn)不佳。

相比之下,Veo-3在各個維度上均表現(xiàn)出色。

此外,其他模型還會犯一些一些更加顯著的反常識錯誤。

例如Hailuo Video能生成視覺上頗具吸引力的剃須動作,但胡須始終沒有刮掉。

再如,Hunyuan Video能正確生成球形冰塊、倒水動作、一塊干冰,以及諸如“在右側(cè)”等二維空間布局關(guān)系。

但它對自然約束的理解依然不佳——干冰在室溫下并未出現(xiàn)升華現(xiàn)象。

面向“世界理解”的視頻生成未來

綜上,VideoVerse提供了一個完善的面向世界模型的評測框架,旨在推動社區(qū)從“生成逼真畫面”向“理解并模擬世界”轉(zhuǎn)變。

目前,團隊已開源數(shù)據(jù)、評測代碼和leaderboard,他們期待更多研究者能基于VideoVerse提出更強的世界模型能力改進方法。

項目主頁:https://www.naptmn.cn/Homepage_of_VideoVerse/

ArXiv:https://arxiv.org/abs/2510.08398

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-10-16 09:37:11

2025-02-24 10:03:21

2025-05-21 09:04:00

2025-08-04 09:17:00

馬斯克AI視頻生成

2024-03-25 00:30:00

AI框架

2024-02-19 08:58:00

模型AI

2024-12-18 07:15:00

2024-04-07 14:56:22

技術(shù)應(yīng)用

2025-10-14 08:57:00

AI模型視頻生成

2024-01-22 08:59:00

AI

2024-12-12 08:35:58

2025-10-08 11:13:19

2025-10-10 07:33:24

2024-02-19 07:58:01

OpenAI模型GPT

2024-02-26 16:55:51

Sora人工智能

2024-12-18 08:01:12

2024-02-19 08:56:00

AI模型

2025-04-10 15:44:47

2024-12-23 00:30:12

2025-03-27 09:24:16

點贊
收藏

51CTO技術(shù)棧公眾號