「世界理解」維度看AI視頻生成:Veo3和Sora2水平如何?新基準來了
近年來,Text-to-Video(T2V)模型取得顯著進展——
從靜態(tài)幀質(zhì)量到連貫的視頻敘事,模型能力大幅提升,尤其是最近Sora2的爆火,讓人們開始想象,T2V Model是否已經(jīng)是一個真正的“世界模型”?。
然而,傳統(tǒng)基準主要考察圖像質(zhì)量與語義一致性,并不能系統(tǒng)衡量模型對事件因果、物理規(guī)律與常識的理解,而這些正是“世界模型”的核心能力。
為此,中山大學(xué)、香港理工大學(xué)、清華大學(xué)與OPPO Research Institute合作,在港理工Chair Professor張磊教授的指導(dǎo)下提出了一種新的評測框架——VideoVerse。

設(shè)計目標與核心內(nèi)容
VideoVerse致力于評估T2V模型在事件級時間因果與世界知識(物理、材料、常識)上的表現(xiàn)。團隊從兩大視角定義了十個評測維度:
1、動態(tài)(Dynamic):Event Following(事件順序與因果)、Mechanics(力學(xué))、Interaction(交互)、Material Properties(材料特性)、Camera Control(鏡頭控制)。
2、靜態(tài)(Static):Natural Constraints(自然/物理約束)、Common Sense(常識)、Attribution Correctness(屬性正確性)、2D Layout(二維布局)、3D Depth(三維深度)。
每條prompt對應(yīng)若干二元(Yes/No)評測問題;Event Following采用事件序列匹配(LCS)度量序列一致性。
最終通過QA + LCS的混合評分,得到模型在各維度上的綜合表現(xiàn)。

Prompt構(gòu)建流程
為確保prompt的真實性、多樣性與可評測性,團隊采用多階段構(gòu)建流程:
域內(nèi)原始語料采樣
團隊從三大域獲取源數(shù)據(jù):Daily Life(如 ActivityNet Caption)、Scientific Experiment(高中/教科書級實驗步驟)、Science Fiction(VidProM 等社區(qū)收集)。
目的是覆蓋真實世界場景、受控科學(xué)實驗與超現(xiàn)實/想象場景,以測試模型的現(xiàn)實/推理/泛化能力。
事件與因果結(jié)構(gòu)抽取
團隊使用GPT-4o等強LLM自動抽取視頻或文本中的事件序列與潛在因果鏈,把自然語言描述轉(zhuǎn)換為事件級結(jié)構(gòu)(event1 ? event2 ? event3…)。
這么做是為了保證prompt天然具備事件因果的性質(zhì),為prompt中的“事件跟隨”評測打下基礎(chǔ)。
人工標注與評測維度
獨立人類注釋者對自動抽取的raw-prompt進行語義增補(例如加入材料、鏡頭動作、隱藏語義)、并為每條prompt選擇適用的評測維度。
注釋者均具備本科及以上學(xué)歷,定期交叉校驗以減少偏差。
這樣,可以將自動抽取與人工知識結(jié)合,保障prompt的多維挑戰(zhàn)性與標注質(zhì)量。
維度二元檢測問題生成
基于每條prompt的選定維度,自動/人工生成與之對應(yīng)的二元QA(例如:“視頻中是否出現(xiàn)藍色海綿?”、“事件順序是否為A ? B ? C?”)。
這些問題用于后續(xù)的VLM評測,同時屏蔽原始的prompt,降低評估時的文本幻覺風(fēng)險。

QA+LCS的混合評估
評估方面,團隊采用QA+LCS的混合評估,具體分為三個步驟:
1、事件跟隨(Event Following):用VLM提取生成視頻的事件序列,再用最長公共子序列(LCS)與地面真值比對,評分反映事件順序與因果的一致性。
2、維度特定問題:每個維度下的二元問題獨立詢問VLM,正確數(shù)累加為維度得分。
3、總體得分:LCS得分+各維度二元問題答對數(shù)之和。該設(shè)計既關(guān)注序列邏輯也關(guān)注屬性/物理細節(jié)。
隱含語義
不過,能生成一段合理的畫面,不代表模型理解了背后的隱含語義。
為此,團隊在VideoVerse中引入了隱含語義(hidden semantics)。
目前,大多數(shù)現(xiàn)有T2V評測只關(guān)注顯式語義(explicit semantics)——即prompt中直接描述的事件。
然而,真正的“世界理解”不僅在于生成“可見的動作”,還在于能否遵循那些未明說但合理存在的語義前提。
例如這樣一段prompt:
A man drops an egg on the floor.
這段話的顯式語義很清晰:男人掉下雞蛋。
而隱含語義則是:雞蛋應(yīng)破碎、液體應(yīng)流動、地面應(yīng)濕潤。
如果一個模型能正確生成破碎和液體流動,這說明它真正理解了物理因果,而非僅僅模仿了文字表象。
因此,團隊在VideoVerse中系統(tǒng)引入了隱含語義,用以檢測模型是否能生成這些“隱含后果”。

主要實驗與分析
團隊在VideoVerse上評測了主流開源與閉源模型(如 Wan 系列、HunyuanVideo、SkyReels、Veo-3 、Sora2等)。有兩點關(guān)鍵發(fā)現(xiàn):
1、開源模型在基礎(chǔ)維度(屬性、2D/3D布局等)與閉源模型接近,但在世界模型級別(自然約束、常識、事件因果)差距明顯。
2、即便是最強閉源模型(Sora2),在“隱藏語義跟隨”與某些物理/材料推斷上仍有顯著缺陷。


一個例子,不同視頻模型對于“唐三藏騎的馬的顏色”的理解迥乎不同。
研究發(fā)現(xiàn),Wan 2.1和Hunyuan能成功生成相應(yīng)的描述性內(nèi)容(如“馬的皮毛閃閃發(fā)光”),但在事件連貫性(Event Following)和常識理解(Common Sense)方面表現(xiàn)不佳。
相比之下,Veo-3在各個維度上均表現(xiàn)出色。

此外,其他模型還會犯一些一些更加顯著的反常識錯誤。
例如Hailuo Video能生成視覺上頗具吸引力的剃須動作,但胡須始終沒有刮掉。

再如,Hunyuan Video能正確生成球形冰塊、倒水動作、一塊干冰,以及諸如“在右側(cè)”等二維空間布局關(guān)系。
但它對自然約束的理解依然不佳——干冰在室溫下并未出現(xiàn)升華現(xiàn)象。

面向“世界理解”的視頻生成未來
綜上,VideoVerse提供了一個完善的面向世界模型的評測框架,旨在推動社區(qū)從“生成逼真畫面”向“理解并模擬世界”轉(zhuǎn)變。
目前,團隊已開源數(shù)據(jù)、評測代碼和leaderboard,他們期待更多研究者能基于VideoVerse提出更強的世界模型能力改進方法。
項目主頁:https://www.naptmn.cn/Homepage_of_VideoVerse/
ArXiv:https://arxiv.org/abs/2510.08398





































