偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

5700問答對全面評估拷問AI空間感!最新空間智能評測基準來了丨浙大&成電&港中文

人工智能 新聞
來自浙江大學、電子科技大學和香港中文大學的研究團隊提出了首個系統(tǒng)評估VLM多視角多任務下的空間定位能力的基準體系。

這個對人類來說非常簡單的問題,連GPT-4o這樣級別的視覺語言大模型(VLMs)也可能答錯。

究其根本,還是當前的視覺語言大模型在大規(guī)模圖文數(shù)據(jù)中學習到的空間信息往往是片段化的,僅限于靜態(tài)視角的理解,缺乏多維度、多視角的空間推理能力。

因此,當面對需要多視角空間推理的任務時,這些模型們就頻頻卡殼。

但是,具備穩(wěn)健的空間推理能力與視角理解能力的AI系統(tǒng),才能真正成為與人類協(xié)作的智能體。

為此,來自浙江大學、電子科技大學和香港中文大學的研究團隊提出了首個系統(tǒng)評估VLM多視角多任務下的空間定位能力的基準體系——

ViewSpatial-Bench,涵蓋五種不同的任務類型,從相機和人類視角出發(fā),全面評估模型的空間推理能力。

同時還并配備了能夠生成精確方向標簽的自動化3D標注流水線。通過高效的3D方向標注生成流程,實現(xiàn)了超過5700個問答對,覆蓋豐富的3D場景。

通過在多視角空間數(shù)據(jù)集上的微調,ViewSpatial-Bench團隊實現(xiàn)了模型性能的整體提升46.24%。

圖片


五大任務,覆蓋雙重視角

ViewSpatial-Bench評估集中包含5700個問答對,涵蓋相機視角與人類視角兩種框架下的五種空間定位識別任務。

圖片

如圖所示,無論圖像聚焦的是場景布局還是人物動作,該基準測試要求模型在不同場景中準確理解空間結構并進行定位,系統(tǒng)性評估多模態(tài)模型的跨視角空間推理能力,其中包括:

從相機視角出發(fā)的兩類任務,主要評估視覺語言大模型基于自我視角的直觀空間理解能力。

  1. 物體相對方向識別:直接基于圖像判斷物體之間的空間關系。
  2. 人物視線方向識別:從相機視角識別圖中人物的注視方向。

還有三類任務從人類視角出發(fā),聚焦于模型是否具備抽象的、依賴感知的空間理解能力。分別是:

  1. 物體相對方向識別:從圖中人物的視角,判斷其他物體與其的空間關系。
  2. 人物視線方向識別:假設自己處于圖中人物的位置,推斷其面朝的方向。
  3. 場景模擬的相對方向識別:通過模擬“自身”在場景中位置判斷物體的相對位置。

為構建高質量的空間推理評估基準,研究團隊基于ScanNet和MS-COCO兩大經(jīng)典視覺數(shù)據(jù)集,開發(fā)了完整的自動化數(shù)據(jù)構建流水線。

構建流程如下:

首先從場景中選取包含豐富三維信息的圖像,結合現(xiàn)有標注信息精準提取物體位置坐標或人物姿態(tài)方向。

隨后基于這些三維坐標或朝向角度計算各類相對空間關系,通過精心設計的自然語言模板自動生成語義明確的問答對,最終經(jīng)過人工驗證確保質量。

圖片

這一自動化處理方式在保證數(shù)據(jù)規(guī)?;透咝实耐瑫r,兼顧了空間關系的準確性和語言表述的多樣性,為模型訓練和評估奠定了堅實的數(shù)據(jù)基礎。

多模態(tài)大模型并未真正理解空間結構

基于構建的 ViewSpatial-Bench,研究團隊系統(tǒng)評估了包括GPT-4o、Gemini 2.0、InternVL3、Qwen2.5-VL等在內(nèi)的十余種主流模型的表現(xiàn),結果顯示:

在真正理解空間關系上,當前VLMs的表現(xiàn)還遠遠不夠。

圖片

從整體準確率來看,多個頂尖模型在ViewSpatial-Bench上的得分并不高。

這表明,盡管模型具備基本的圖像理解能力,但在涉及多視角空間定位時,仍缺乏空間感與換位思考能力。

更值得關注的是不同任務類型間的顯著表現(xiàn)差異。

在攝像頭視角下,模型在人物面朝方向判斷任務上的平均準確率僅為25.6%,遠低于”物體相對方向判斷”的38.9%。然而在人物視角下,這一趨勢卻完全反轉。

這種“任務-視角”交叉表現(xiàn)的失衡揭示了當前VLMs的核心缺陷:它們無法構建統(tǒng)一的三維空間認知框架來支持跨視角推理。

實質上,模型并未真正理解空間結構,而是將不同視角下的推理過程割裂處理,缺乏從統(tǒng)一空間表征中靈活調度信息的能力。

有趣的是,實驗結果還揭示出一個反直覺的現(xiàn)象:

大多數(shù)模型在人物視角的任務上表現(xiàn)略優(yōu)于攝像頭視角。

例如,GPT-4o 在人物視角平均準確率為36.29%,略高于攝像頭視角的33.57%;InternVL2.5、Kimi-VL也表現(xiàn)出類似趨勢。

這一現(xiàn)象打破了我們對“自我視角更易處理”的常識性認知,這與上面任務表現(xiàn)的失衡有直接聯(lián)系,說明模型在訓練過程中可能存在學習了更偏“第三人稱”視角的空間分布規(guī)律,而缺乏從相機視角進行空間映射的能力。

這種偏差揭示了當前訓練語料在視角分布上存在結構性不平衡,為未來的數(shù)據(jù)構建和模型優(yōu)化指明了重要方向。

如何讓模型理解“換位思考”

針對當前視覺語言大模型在多視角空間推理方面的根本性局限,研究團隊開發(fā)了Multi-View Spatial Model(MVSM),專門用于跨視角空間理解進行系統(tǒng)性優(yōu)化

MVSM采用自動化空間標注框架生成了約43000個高質量的多樣化空間關系樣本,全面覆蓋ViewSpatial-Bench的五個任務類別。

實驗結果顯示,在ViewSpatial-Bench上,MVSM相比其骨干模型Qwen2.5-VL實現(xiàn)了46.24%的絕對性能提升,充分驗證了針對性訓練在解決空間認知缺陷方面的有效性。

圖片

如上圖所示,為了進一步驗證MVSM的空間理解能力,研究團隊在VSI-Bench和自建的ViewSpatial Interaction Application Dataset(VSI-App)上進行了評估。

在VSI-Bench中,MVSM在需要視角轉換能力的物體相對方向任務上取得了0.93%的提升,在路徑規(guī)劃任務上更是實現(xiàn)了9.54%的顯著改進。

圖片

VSI-App包含50個場景(25個室內(nèi),25個戶外),專門設計用于評估具身交互環(huán)境中的人類中心空間推理。

在這個更貼近現(xiàn)實的測試中,MVSM依然取得了顯著領先,尤其在結構更清晰的室內(nèi)場景中表現(xiàn)尤為出色(提升+20%),在戶外場景中也有適度提升(+4.00%)。

以上結果證明,MVSM不僅能夠建模靜態(tài)空間關系,還能處理穿越3D環(huán)境的動態(tài)軌跡以及人機交互場景——這些能力都是從視角感知訓練方法中自然涌現(xiàn)的,而非通過顯式的優(yōu)化獲得。

ViewSpatial-Bench和MVSM的提出不僅為多模態(tài)模型的空間理解能力提供了系統(tǒng)評估工具,也首次在數(shù)據(jù)和訓練范式上重構了“視角采擇”這一關鍵人類認知能力的建模方式。

通過建立首個多視角空間推理基準并實現(xiàn)顯著的性能突破,為AI系統(tǒng)獲得類人空間認知能力提供了可行路徑:

更聰明的空間感知,是下一代機器人與多模態(tài)助手的關鍵一步。

論文鏈接:
https://arxiv.org/abs/2505.21500
項目主頁:
https://zju-real.github.io/ViewSpatial-Page
GitHub倉庫:
https://github.com/ZJU-REAL/ViewSpatial-Bench

責任編輯:張燕妮 來源: 量子位
相關推薦

2015-08-12 10:06:12

UI動效

2025-09-05 09:05:00

AI模型訓練

2024-07-02 12:19:54

2025-03-18 09:56:42

2025-03-17 08:48:00

大模型AI生成

2024-08-27 13:00:10

2025-05-16 10:01:31

2024-10-30 15:00:00

AI視頻模型

2024-04-28 06:56:45

Llama 3大規(guī)模人工智能

2024-12-23 13:50:00

數(shù)據(jù)訓練模型

2025-10-15 14:02:29

AI模型自動駕駛

2019-03-07 14:11:39

AIIAAI芯片

2025-06-03 14:14:59

智能技術AI

2025-07-14 08:40:00

模型AI推理

2024-11-11 08:30:00

2025-10-20 09:12:00

2012-10-09 13:52:30

2024-07-05 15:06:00

點贊
收藏

51CTO技術棧公眾號