「世界理解」維度看AI視頻生成：Veo3和Sora2水平如何？新基準來了

2025-10-28 08:49:33

中山大學(xué)、香港理工大學(xué)、清華大學(xué)與OPPO Research Institute合作，在港理工Chair Professor張磊教授的指導(dǎo)下提出了一種新的評測框架——VideoVerse。

近年來，Text-to-Video（T2V）模型取得顯著進展——

從靜態(tài)幀質(zhì)量到連貫的視頻敘事，模型能力大幅提升，尤其是最近Sora2的爆火，讓人們開始想象，T2V Model是否已經(jīng)是一個真正的“世界模型”？。

然而，傳統(tǒng)基準主要考察圖像質(zhì)量與語義一致性，并不能系統(tǒng)衡量模型對事件因果、物理規(guī)律與常識的理解，而這些正是“世界模型”的核心能力。

為此，中山大學(xué)、香港理工大學(xué)、清華大學(xué)與OPPO Research Institute合作，在港理工Chair Professor張磊教授的指導(dǎo)下提出了一種新的評測框架——VideoVerse。

設(shè)計目標與核心內(nèi)容

VideoVerse致力于評估T2V模型在事件級時間因果與世界知識（物理、材料、常識）上的表現(xiàn)。團隊從兩大視角定義了十個評測維度：

1、動態(tài)（Dynamic）：Event Following（事件順序與因果）、Mechanics（力學(xué)）、Interaction（交互）、Material Properties（材料特性）、Camera Control（鏡頭控制）。

2、靜態(tài)（Static）：Natural Constraints（自然/物理約束）、Common Sense（常識）、Attribution Correctness（屬性正確性）、2D Layout（二維布局）、3D Depth（三維深度）。

每條prompt對應(yīng)若干二元（Yes/No）評測問題；Event Following采用事件序列匹配（LCS）度量序列一致性。

最終通過QA + LCS的混合評分，得到模型在各維度上的綜合表現(xiàn)。

Prompt構(gòu)建流程

為確保prompt的真實性、多樣性與可評測性，團隊采用多階段構(gòu)建流程：

域內(nèi)原始語料采樣

團隊從三大域獲取源數(shù)據(jù)：Daily Life（如 ActivityNet Caption）、Scientific Experiment（高中/教科書級實驗步驟）、Science Fiction（VidProM 等社區(qū)收集）。

目的是覆蓋真實世界場景、受控科學(xué)實驗與超現(xiàn)實/想象場景，以測試模型的現(xiàn)實/推理/泛化能力。

事件與因果結(jié)構(gòu)抽取

團隊使用GPT-4o等強LLM自動抽取視頻或文本中的事件序列與潛在因果鏈，把自然語言描述轉(zhuǎn)換為事件級結(jié)構(gòu)（event1 ? event2 ? event3…）。

這么做是為了保證prompt天然具備事件因果的性質(zhì)，為prompt中的“事件跟隨”評測打下基礎(chǔ)。

人工標注與評測維度

獨立人類注釋者對自動抽取的raw-prompt進行語義增補（例如加入材料、鏡頭動作、隱藏語義）、并為每條prompt選擇適用的評測維度。

注釋者均具備本科及以上學(xué)歷，定期交叉校驗以減少偏差。

這樣，可以將自動抽取與人工知識結(jié)合，保障prompt的多維挑戰(zhàn)性與標注質(zhì)量。

維度二元檢測問題生成

基于每條prompt的選定維度，自動/人工生成與之對應(yīng)的二元QA（例如：“視頻中是否出現(xiàn)藍色海綿？”、“事件順序是否為A ? B ? C？”）。

這些問題用于后續(xù)的VLM評測，同時屏蔽原始的prompt，降低評估時的文本幻覺風(fēng)險。

QA+LCS的混合評估

評估方面，團隊采用QA+LCS的混合評估，具體分為三個步驟：

1、事件跟隨（Event Following）：用VLM提取生成視頻的事件序列，再用最長公共子序列（LCS）與地面真值比對，評分反映事件順序與因果的一致性。

2、維度特定問題：每個維度下的二元問題獨立詢問VLM，正確數(shù)累加為維度得分。

3、總體得分：LCS得分+各維度二元問題答對數(shù)之和。該設(shè)計既關(guān)注序列邏輯也關(guān)注屬性/物理細節(jié)。

隱含語義

不過，能生成一段合理的畫面，不代表模型理解了背后的隱含語義。

為此，團隊在VideoVerse中引入了隱含語義（hidden semantics）。

目前，大多數(shù)現(xiàn)有T2V評測只關(guān)注顯式語義（explicit semantics）——即prompt中直接描述的事件。

然而，真正的“世界理解”不僅在于生成“可見的動作”，還在于能否遵循那些未明說但合理存在的語義前提。

例如這樣一段prompt:

A man drops an egg on the floor.

這段話的顯式語義很清晰：男人掉下雞蛋。

而隱含語義則是：雞蛋應(yīng)破碎、液體應(yīng)流動、地面應(yīng)濕潤。

如果一個模型能正確生成破碎和液體流動，這說明它真正理解了物理因果，而非僅僅模仿了文字表象。

因此，團隊在VideoVerse中系統(tǒng)引入了隱含語義，用以檢測模型是否能生成這些“隱含后果”。

主要實驗與分析

團隊在VideoVerse上評測了主流開源與閉源模型（如 Wan 系列、HunyuanVideo、SkyReels、Veo-3 、Sora2等）。有兩點關(guān)鍵發(fā)現(xiàn)：

1、開源模型在基礎(chǔ)維度（屬性、2D/3D布局等）與閉源模型接近，但在世界模型級別（自然約束、常識、事件因果）差距明顯。

2、即便是最強閉源模型（Sora2），在“隱藏語義跟隨”與某些物理/材料推斷上仍有顯著缺陷。

一個例子，不同視頻模型對于“唐三藏騎的馬的顏色”的理解迥乎不同。

研究發(fā)現(xiàn)，Wan 2.1和Hunyuan能成功生成相應(yīng)的描述性內(nèi)容（如“馬的皮毛閃閃發(fā)光”），但在事件連貫性（Event Following）和常識理解（Common Sense）方面表現(xiàn)不佳。

相比之下，Veo-3在各個維度上均表現(xiàn)出色。

此外，其他模型還會犯一些一些更加顯著的反常識錯誤。

例如Hailuo Video能生成視覺上頗具吸引力的剃須動作，但胡須始終沒有刮掉。

再如，Hunyuan Video能正確生成球形冰塊、倒水動作、一塊干冰，以及諸如“在右側(cè)”等二維空間布局關(guān)系。

但它對自然約束的理解依然不佳——干冰在室溫下并未出現(xiàn)升華現(xiàn)象。

面向“世界理解”的視頻生成未來

綜上，VideoVerse提供了一個完善的面向世界模型的評測框架，旨在推動社區(qū)從“生成逼真畫面”向“理解并模擬世界”轉(zhuǎn)變。

目前，團隊已開源數(shù)據(jù)、評測代碼和leaderboard，他們期待更多研究者能基于VideoVerse提出更強的世界模型能力改進方法。

項目主頁：https://www.naptmn.cn/Homepage_of_VideoVerse/

ArXiv：https://arxiv.org/abs/2510.08398

責任編輯：張燕妮來源：量子位

AI 視頻生成模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p