偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

李飛飛謝賽寧新作「空間推理」:多模態(tài)大模型性能突破關鍵所在

人工智能
即使是最先進的多模態(tài)大模型,在空間認知方面與人類相比仍有顯著差距,測試中約71%的錯誤都源于空間推理方面的缺陷,即空間推理能力是當前主要瓶頸。

李飛飛謝賽寧再發(fā)新成果:

直接把o1式思考拉至下一個level——多模態(tài)大語言模型的空間思維

這項研究系統(tǒng)評估了多模態(tài)大模型的視覺空間智能,結果發(fā)現(xiàn):

當前,即使是最先進的多模態(tài)大模型,在空間認知方面與人類相比仍有顯著差距,測試中約71%的錯誤都源于空間推理方面的缺陷,即空間推理能力是當前主要瓶頸

圖片圖片

更為有趣的是,在這種情況下,思維鏈、思維樹等常用的語言提示技術直接失靈了——

不僅沒有提升模型在空間任務上的表現(xiàn),反而會使性能下降。

而在問答過程中明確生成認知地圖則會增強多模態(tài)大模型的空間距離能力。

圖片圖片

這項工作陣容非常豪華,合著作者中不僅有李飛飛,還有紐約大學計算機科學助理教授、CV大牛謝賽寧。

而剩下的四位作者,全部共同一作。

圖片圖片

這項研究吸引了不少網(wǎng)友的關注,大伙兒一邊看論文,一邊已迫不及待搓搓手期待2025年的新進展。

圖片圖片

多模態(tài)大模型的空間思維

雖然當前多模態(tài)大語言模型在語言理解和一般視覺任務上取得了顯著進展,但在空間認知和理解方面的能力仍未得到充分研究。

反觀人類,面對心理旋轉測試、挑選家具這些任務時,會同時依賴于空間和視覺思考。

圖片圖片

多模態(tài)大語言模型能否“進行空間思考”?能否構建一個準確的、隱式的“認知地圖”來幫助它們回答有關空間的問題?使用多模態(tài)大語言模型來增強空間智能的優(yōu)勢和局限性是什么?

為了探索這些問題,團隊研究了視覺空間智能。

作者解釋,之所以在“空間智能”前加上“視覺”一詞,是因為空間智能不受感官模式限制,比如盲人也可以通過別的感官感知空間,而該研究專注于視頻輸入,所以討論視覺空間智能。

圖片圖片

VSI-Bench視覺空間智能基準測試集

首先團隊提出了一個名為VSI-Bench的基準測試集。

基于之前的計算機視覺工作,團隊重新利用現(xiàn)有的空間掃描視頻(最初用于3D重建)及其真實標注來自動生成視覺問答(VQA)問題。

具體來說,這個測試集基于ScanNet、ScanNet++和ARKitScenes等數(shù)據(jù)集中的288個真實室內(nèi)場景視頻,包括住宅、辦公室、實驗室等各種環(huán)境。

團隊設計了超5000個問答對,將評測任務分為三大類:

  • 配置型任務:物體計數(shù)、相對距離、相對方向、路線規(guī)劃
  • 測量估計:物體尺寸、房間大小、絕對距離
  • 時空任務:物體出現(xiàn)順序等

并采用人工審核確保數(shù)據(jù)質量,消除歧義和錯誤標注。

圖片圖片

隨后,他們?nèi)嬖u估了15種支持視頻的多模態(tài)大語言模型,開源、閉源的都有。

圖片圖片

結果,人類在VSI-Bench上的平均準確率達到79%,在配置型和時空任務上準確率更高,處于94%-100%之間。

相比之下,表現(xiàn)最好的閉源模型是Gemini-1.5 Pro,平均準確率為48.8%,開源模型LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B與之相近。

在需要精確估計絕對距離/大小的三個測量任務上,大模型和人類表現(xiàn)差距相對較小。

團隊還進一步證實了視頻輸入對模型性能的重要性,盲測實驗中,在絕對距離估計等特定任務上,即使是最先進的模型也難以超越隨機基線的表現(xiàn)。

語言視覺兩個層面分析模型思維過程

為了深入理解模型的認知機制,團隊又從語言和視覺兩個層面分析了模型的思維過程。

圖片圖片

圖片圖片

在語言層面,通過讓模型進行自我解釋,發(fā)現(xiàn)它們確實具備不錯的視頻理解和語言推理能力。

但詳細的錯誤分析顯示,超70%的錯誤源于其空間推理能力的不足。

圖片圖片

圖片圖片

接著,團隊用常用的語言提示技術改進,包括思維鏈、思維樹、自洽性。

結果不僅沒有提升模型在空間任務上的表現(xiàn),反而導致了性能下降,也就是說純粹的語言推理技術難以解決空間認知問題。

在視覺層面,他們又使用認知地圖來分析模型的空間記憶能力。

結果顯示,模型在理解局部空間關系時表現(xiàn)較好,相鄰物體位置關系的準確率達到64%。但隨著物體之間距離的增加,模型的空間關系理解能力顯著下降。

這說明模型傾向于建立局部空間模型,而不是形成完整的全局空間理解。

圖片圖片

圖片圖片

不過,他們研究了一種新思路:

使用認知地圖輔助空間推理。

圖片圖片

加入這種機制,模型在相對距離任務上的準確率提升了10個百分點,這為提升模型空間智能提供了一個潛在的解決方向。

李飛飛謝賽寧領銜,四位共同一作

論文一經(jīng)公布,幾位作者就激情當起了自個兒的首批自來水(doge)。

謝賽寧表示:

視頻理解是下一個前沿領域,但并非所有視頻都是相同的。

這項研究探索了多模態(tài)大語言模型如何觀察、記憶和回憶空間。

圖片圖片

“AI教母”李飛飛也轉發(fā)開麥:

這是人類智能中極為重要的一個方面,2025年還有更多值得期待,推動空間智能的邊界!

圖片圖片

這項研究共同一作有四位,正如李飛飛教授透露,多位都是謝賽寧的學生。

Jihan Yang

圖片圖片

Jihan Yang是紐約大學Courant研究所博士后研究員,導師是謝賽寧。在此之前,Jihan Yang于香港大學獲得了博士學位,中山大學獲得了學士學位。

他的研究興趣集中在機器學習和計算機視覺領域,特別關注多模態(tài)和具身智能。

Shusheng Yang

圖片圖片

Shusheng Yang目前是紐約大學博士生。

領英顯示,他是華中科技大學校友,曾經(jīng)在阿里和騰訊有過工作經(jīng)歷。

圖片圖片

Anjali Gupta

圖片圖片

Anjali Gupta是紐約大學Courant研究所博士生,導師是謝賽寧教授。

她的研究領域是機器學習和計算機視覺,特別是以視覺為中心的多模態(tài)大語言模型。

Rilyn Han

圖片圖片

Rilyn Han來自耶魯大學,主修計算機科學和經(jīng)濟學,研究主要關注探索多模態(tài)大語言模型的能力。

論文鏈接:https://arxiv.org/pdf/2412.14171
項目主頁:https://vision-x-nyu.github.io/thinking-in-space.github.io/
參考鏈接:
[1]https://x.com/sainingxie/status/1870877202595958791
[2]https://x.com/drfeifei/status/1870881981703291097
[3]https://vision-x-nyu.github.io/thinking-in-space.github.io/

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-12-23 13:50:00

數(shù)據(jù)訓練模型

2025-04-08 09:10:00

模型訓練AI

2023-12-25 09:23:07

模型技術

2025-04-14 09:38:00

2024-08-07 13:00:00

2009-10-12 14:00:24

布線測試

2024-06-27 13:10:21

2011-04-14 13:26:10

2021-06-23 10:26:19

自動化DevSecOps安全防護

2023-09-28 08:23:18

AI模型

2025-01-08 08:21:16

2025-07-04 08:52:00

3D圖像生成AI

2020-06-10 14:00:28

生物識別智慧城市網(wǎng)絡

2016-11-14 16:47:11

Nutanix

2025-05-21 08:47:00

2024-10-25 14:30:00

模型AI

2025-04-03 11:11:50

2024-12-13 14:20:00

AI模型訓練

2023-12-28 17:31:44

PixelLM性能模型

2025-06-10 03:30:00

點贊
收藏

51CTO技術棧公眾號