GPT-5空間智能大考:簡單任務(wù)稱王,復(fù)雜挑戰(zhàn)平手,所有模型都輸給了人類

大家好,我是肆〇柒。今天我們要探討一篇由 DeepMind 聯(lián)合 Stanford HAI(斯坦福以人為本人工智能研究院)共同發(fā)布的重磅實證研究報告。這份報告首次對GPT-5的空間智能能力進行了系統(tǒng)性、標(biāo)準(zhǔn)化的全面評估,其結(jié)論可能會更加清晰我們對當(dāng)前AI能力邊界的認(rèn)知。
想想,當(dāng)一個機器人需要在真實環(huán)境中導(dǎo)航、抓取物體或理解空間關(guān)系時,它依賴的不僅是視覺識別能力,更是對物理世界的空間理解與推理能力。這種被稱為"空間智能"的認(rèn)知能力,是實現(xiàn)真正人工智能(AGI)的關(guān)鍵卻常被忽視的維度。沒有空間智能,具身智能體(embodied agent)將無法完全在物理世界中操作、適應(yīng)或交互。
假設(shè)這樣一個場景:GPT-5被問及"如果將這張紙按虛線折疊,會形成什么形狀?"——這個對5歲兒童來說輕而易舉的任務(wù),卻讓號稱最強大的AI模型頻頻出錯。 這不是虛構(gòu),而是最新研究中記錄的真實案例。隨著GPT-5的發(fā)布,這一問題變得尤為緊迫:號稱最強大AI模型的GPT-5,是否已經(jīng)攻克了這一基礎(chǔ)性難題?基于此,研究團隊構(gòu)建了涵蓋六項基礎(chǔ)能力的評估體系,在八個最新發(fā)布的空間智能基準(zhǔn)上測試了約31K圖像、4.5K視頻和24K問題,總成本超過十億Token。這一嚴(yán)謹(jǐn)?shù)姆椒ㄕ摓榛卮?GPT-5是否實現(xiàn)空間智能"這一關(guān)鍵問題提供了堅實證據(jù)。

GPT-5在復(fù)雜問題與基礎(chǔ)空間任務(wù)上的表現(xiàn)對比
上圖:GPT-5在解決人類認(rèn)為復(fù)雜的問題(左)表現(xiàn)出色,但在人類兒童能輕松理解的基礎(chǔ)空間任務(wù)(右)上失敗。
空間智能——通往 AGI 的"最后一公里"
空間理解與推理構(gòu)成了一種關(guān)鍵卻未被充分探索的智能維度,對實現(xiàn)人工通用智能(AGI)至關(guān)重要。正如研究明確指出,空間智能可以說是最未被探索的前沿領(lǐng)域之一。沒有空間智能,具身智能體將無法完全在物理世界中操作、適應(yīng)或交互。
空間智能代表著通往AGI道路上的關(guān)鍵瓶頸。沒有強大的空間理解能力,AI系統(tǒng)將僅限于符號操作,而無法真正理解物理世界。研究發(fā)現(xiàn)表明,克服這一瓶頸不僅需要擴展現(xiàn)有架構(gòu),還需要開發(fā)3D表示和推理的根本性新方法。 這提示我們,空間智能的突破可能需要超越當(dāng)前MLLM范式的創(chuàng)新。
盡管多模態(tài)大語言模型(MLLM)近年來取得了顯著進展,但即使是當(dāng)前最先進的模型,在人類認(rèn)為簡單的空間任務(wù)上仍頻頻失敗。最新研究表明,空間智能(Spatial Intelligence, SI)是一項根本性不同的技能,與主流基準(zhǔn)測量的多模態(tài)能力相比具有獨特挑戰(zhàn)性。
隨著GPT-5的發(fā)布,整個AI圈自然好奇:它在這一維度上的表現(xiàn)如何?是否已經(jīng)實現(xiàn)了空間智能?一篇題為《Has GPT-5 Achieved Spatial Intelligence? An Empirical Study》的技術(shù)報告首次通過系統(tǒng)性、標(biāo)準(zhǔn)化的實證研究,對這一問題給出了嚴(yán)謹(jǐn)回答。
方法論:構(gòu)建統(tǒng)一的評估框架
六維能力模型:空間智能的科學(xué)解構(gòu)
現(xiàn)有空間智能評估基準(zhǔn)往往關(guān)注不同方面,并采用各異的分類體系。為整合這些分散的研究,該論文提煉出六項基礎(chǔ)能力,構(gòu)建了空間智能的統(tǒng)一評估框架:

六項空間智能基礎(chǔ)能力
- MM(度量測量,Metric Measurement):從2D觀察推斷3D維度(如度量深度或長度)。由于缺乏相機內(nèi)參時這一推斷本質(zhì)上是模糊的,合理的估計反映了對物理尺度和典型物體尺寸的理解。
- MR(心理重構(gòu),Mental Reconstruction):從一個或多個受限視角推斷物體的精細幾何結(jié)構(gòu),要求模型從有限2D觀察中推斷完整3D結(jié)構(gòu)并有時進行虛擬操作。這類技能賦能現(xiàn)實工程應(yīng)用,包括解釋或生成三視圖。
- PT(視角轉(zhuǎn)換,Perspective Taking):理解并推理不同視角之間的關(guān)系,包括相機-相機、物體-物體、區(qū)域-區(qū)域等視角轉(zhuǎn)換。這是具身智能體理解物理世界的基礎(chǔ)能力。
- SR(空間關(guān)系,Spatial Relations):識別和理解物體之間的空間關(guān)系(如"在...上面"、"在...前面"等)。
- DA(形變與裝配,Deformation and Assembly):理解物體形狀的變形(如折紙)和結(jié)構(gòu)的組裝(如積木搭建)。
- CR(綜合推理,Comprehensive Reasoning):結(jié)合多種空間能力進行復(fù)雜推理,如計算被遮擋物體數(shù)量、理解多步空間變換等。
這一六維框架將此前碎片化的評估基準(zhǔn)整合為系統(tǒng)性科學(xué)評估體系,為比較不同模型的空間能力提供了共同語言。圖2直觀展示了六項能力的層次關(guān)系,從基礎(chǔ)的MM(度量測量)到高級的CR(綜合推理),構(gòu)成一個遞進的能力金字塔。值得注意的是,MR(心理重構(gòu))和PT(視角轉(zhuǎn)換)作為中間層能力,是連接基礎(chǔ)測量與高級推理的關(guān)鍵樞紐。
嚴(yán)謹(jǐn)?shù)脑u估協(xié)議:避免評估陷阱
研究評估了八項最新空間智能基準(zhǔn):VSI-Bench、SITE、MMSI、OmniSpatial、MindCube、STARE、CoreCognition和SpatialViz。這些基準(zhǔn)均在2024-2025年發(fā)布,反映了該領(lǐng)域研究的最新進展。

空間智能評估基準(zhǔn)的關(guān)鍵要素
為確保評估的可靠性和公平性,研究團隊建立了嚴(yán)格的評估協(xié)議。包括:
標(biāo)準(zhǔn)化提示(System Prompts):不同基準(zhǔn)采用不同的系統(tǒng)提示,而提示對模型性能影響顯著。為最大化模型空間推理能力,研究采用OmniSpatial提出的零樣本思維鏈(zero-shot CoT)方法,并遵循SpatialViz指定的答案模板。
Chance-Adjusted Accuracy (CAA)指標(biāo):研究采用CAA消除隨機猜測的混淆效應(yīng),確保評估不受選項數(shù)量影響,使不同基準(zhǔn)間的結(jié)果具有可比性。CAA通過數(shù)學(xué)公式校正結(jié)果,其中是隨機猜測的準(zhǔn)確率。
答案匹配方法:采用三步匹配流程:1)初始基于規(guī)則的匹配:提取"<answer></answer>"標(biāo)簽內(nèi)的答案;2)擴展基于規(guī)則的匹配:若第一步失敗,使用額外模式如"<answer>"、"Answer:"等;3)LLM輔助提取:對規(guī)則方法失敗的情況,使用LLM提取答案。
循環(huán)測試(Circular Testing):為確保評估的穩(wěn)健性,研究團隊對所有適用的基準(zhǔn)進行了循環(huán)測試,通過測量同一圖像在多次旋轉(zhuǎn)下的性能,區(qū)分真正的空間理解與對答案選項位置的偏見。這一方法揭示了許多模型表面上的空間能力實際上主要歸因于識別答案位置模式,而非真正的空間推理。硬循環(huán)評分作為更嚴(yán)格的任務(wù)能力度量,能有效揭示模型是否真正理解任務(wù),而非依賴選項位置的隨機猜測。
MindCube-Tiny的選擇:MindCube包含21K問題,但其三個子集(among、around、rotation)分布不均,其中'among'子集包含18K問題。因此,研究采用MindCube-Tiny進行測試,包含1,050個QA對(among:around:rotatinotallow= 600:250:200)和428個獨特圖像。
評估總計涉及約31K圖像、4.5K視頻和24K問題,總成本超過十億Token。這種大規(guī)模、標(biāo)準(zhǔn)化的評估為結(jié)論提供了堅實的統(tǒng)計基礎(chǔ),避免了小樣本評估可能帶來的偏差,也克服了不同基準(zhǔn)間評估方法差異帶來的可比性問題。

GPT-5與其他模型在空間智能基準(zhǔn)測試上的性能對比,展示了其在多數(shù)任務(wù)上的領(lǐng)先優(yōu)勢,但在某些任務(wù)上與人類仍有顯著差距。
核心發(fā)現(xiàn):GPT-5 的能力全景與領(lǐng)域共性瓶頸
GPT-5 確立新 SOTA
研究結(jié)果顯示,GPT-5在空間智能方面確立了新的最先進水平(state of the art),在絕大多數(shù)基準(zhǔn)上超越了Gemini-2.5-pro和InternVL3等強大基線。它在SITE、MindCube和STARE的大多數(shù)子類別中展現(xiàn)出明顯優(yōu)勢,同時在其他基準(zhǔn)上保持高度競爭力。
在基礎(chǔ)幾何測量方面,GPT-5展現(xiàn)出前所未有的能力,甚至在某些MM子任務(wù)上超越了人類。如附錄B.2所示,在VSI-Bench基準(zhǔn)中,GPT-5在"物體尺寸"和"房間尺寸"任務(wù)上的表現(xiàn)已超過人類水平(人類:47.0和45.9分;GPT-5:50.53和63.73分),僅在"絕對距離"任務(wù)上略遜于人類(人類:94.3分;GPT-5:53.61分)。這一突破表明GPT-5可能通過大規(guī)模訓(xùn)練獲得了強大的幾何先驗知識,類似于人類依賴典型物體尺寸的啟發(fā)式假設(shè)。
GPT-5在SR任務(wù)上也表現(xiàn)優(yōu)異,在SITE和CoreCognition基準(zhǔn)的多個子任務(wù)中達到或接近人類水平。例如在SITE的"Counting & Existence"和"3D Information Understanding"任務(wù)上,GPT-5分別達到66.45和73.34分,與人類表現(xiàn)(66和83.3分)相當(dāng)。然而,值得注意的是,SITE是唯一一個報告人類表現(xiàn)約為67.5分的基準(zhǔn),而其他基準(zhǔn)的人類表現(xiàn)多在75分以上甚至接近90分,這凸顯了跨基準(zhǔn)比較的復(fù)雜性。
人類性能鴻溝依然顯著
盡管GPT-5在空間智能方面取得了顯著進步,但研究明確指出,它仍未實現(xiàn)真正的空間智能。在多項基礎(chǔ)能力上,GPT-5與人類表現(xiàn)仍有明顯差距:
- 心理重構(gòu)(MR):在8個基準(zhǔn)中的3個上表現(xiàn)不佳,特別是在SpatialViz的Mental Rotation和Mental Folding任務(wù)上,GPT-5僅得42.50和28.75分,遠低于人類的90.00和79.16分
- 視角轉(zhuǎn)換(PT):在8個基準(zhǔn)中的6個上存在明顯差距,在MMSI、OmniSpatial、STARE和CoreCognition中,PT任務(wù)與人類表現(xiàn)之間的差距尤為顯著
- 綜合推理(CR):在8個基準(zhǔn)中的3個上表現(xiàn)欠佳,特別是在MMSI和SpatialViz中,模型在需要多階段推理的任務(wù)上表現(xiàn)薄弱
- 形變與裝配(DA):在SpatialViz基準(zhǔn)上表現(xiàn)尤其薄弱,Paper Folding任務(wù)僅得28.81分(人類98.6分),差距達69.79分
特別是在MMSI這一高挑戰(zhàn)性、綜合性基準(zhǔn)上,即使是GPT-5也遠未達到人類水平。MMSI要求模型處理7種類型的視角轉(zhuǎn)換(包括相機-相機、物體-物體、區(qū)域-區(qū)域等),這種綜合性使其成為真正的"壓力測試"。在OmniSpatial、STARE、CoreCognition和SpatialViz中,空間智能任務(wù)與人類表現(xiàn)之間的差距明顯大于非空間智能任務(wù)。這表明空間智能任務(wù)對當(dāng)前多模態(tài)模型構(gòu)成了獨特挑戰(zhàn)。
任務(wù)難度決定優(yōu)勢格局:簡單任務(wù)與復(fù)雜任務(wù)的模型表現(xiàn)差異
讓我們來理解一個非常有意思的發(fā)現(xiàn):AI模型在空間智能任務(wù)上的表現(xiàn)并非一成不變,而是取決于任務(wù)的難度。
想象一下,如果讓AI模型玩不同難度的拼圖游戲:
- 簡單拼圖:只有幾塊大塊,圖案清晰
- 復(fù)雜拼圖:數(shù)百塊小碎片,圖案模糊
研究發(fā)現(xiàn)了一個關(guān)鍵規(guī)律:在簡單任務(wù)上,商業(yè)閉源模型(如GPT-5)明顯優(yōu)于開源模型;但在真正復(fù)雜的任務(wù)上,所有模型都表現(xiàn)不佳,看上去差距大大縮小。
為什么會出現(xiàn)這種現(xiàn)象?
這就像讓不同水平的學(xué)生解數(shù)學(xué)題:對于基礎(chǔ)算術(shù)題(簡單任務(wù)),優(yōu)等生(GPT-5)能輕松得滿分,而普通學(xué)生(開源模型)可能得80分;但對于高難度的微積分題(復(fù)雜任務(wù)),即使是優(yōu)等生也只能得30分,普通學(xué)生得25分——兩者的差距從20分縮小到了5分
在空間智能領(lǐng)域,這種現(xiàn)象尤為明顯。研究團隊測試了多種空間任務(wù),發(fā)現(xiàn):在簡單的空間判斷任務(wù)上,GPT-5等商業(yè)模型確實遙遙領(lǐng)先;但在需要綜合空間能力的高難度任務(wù)上(如理解物體被遮擋的部分、進行多步空間變換等),所有模型——無論是否商業(yè)閉源——都表現(xiàn)不佳,且差距很小
一個典型例子:MindCube旋轉(zhuǎn)任務(wù)
為了更清楚地理解,讓我們看看MindCube的"旋轉(zhuǎn)"任務(wù)是什么。MindCube是一個評估空間智能的重要基準(zhǔn)測試,它包含三個主要子任務(wù):
- Among(位置關(guān)系):判斷物體是否在其他物體"之間"
- Around(環(huán)繞關(guān)系):判斷物體是否"環(huán)繞"其他物體
- Rotation(旋轉(zhuǎn)判斷):判斷圖像旋轉(zhuǎn)了多少度
在Rotation任務(wù)中,模型看到的是同一個物體從不同角度拍攝的圖像,需要判斷圖像旋轉(zhuǎn)了90度還是180度。關(guān)鍵點在于:這個任務(wù)中"相機位置固定不動,僅原地旋轉(zhuǎn)",就像你把手機平放在桌上,然后原地轉(zhuǎn)動它拍照,而不是圍繞物體走動拍照。
這意味著模型不需要理解空間視角轉(zhuǎn)換,只需判斷圖像旋轉(zhuǎn)了90度還是180度——就像判斷一張照片是正著還是倒著。對人類來說,這太簡單了!GPT-5在這一任務(wù)上得分高達93.33分,看起來非常出色。
然而,真正的空間智能挑戰(zhàn)是這樣的:想象你站在房間一角,看到一個物體;然后你走到房間另一角,再看同一個物體。這時,物體在圖像中的位置和形狀都發(fā)生了變化,你需要理解這是同一個物體,只是視角變了。這種需要在腦海中進行視角轉(zhuǎn)換的能力,才是真正的空間智能。
所以,這就像只轉(zhuǎn)動你的頭而不移動位置看同一個物體,與實際在空間中移動觀察物體有本質(zhì)區(qū)別。
為什么這個發(fā)現(xiàn)如此重要?
這一發(fā)現(xiàn)對AI研究社區(qū)具有重大意義:
- 開源社區(qū)的機遇:在空間智能的最前沿領(lǐng)域,開源模型與閉源模型表現(xiàn)相當(dāng),這意味著開源社區(qū)有平等的機會取得突破
- 研究方向的啟示:如果所有頂級模型在最難任務(wù)上都表現(xiàn)不佳,說明這不是簡單的數(shù)據(jù)或算力問題,而是需要根本性的方法創(chuàng)新
- 避免誤判AI能力:不能因為模型在簡單任務(wù)上表現(xiàn)好,就認(rèn)為它真正理解了空間概念
也就是說,任務(wù)難度就像一把尺子,能更準(zhǔn)確地衡量模型的真實空間智能水平。當(dāng)任務(wù)足夠復(fù)雜時,那些看似強大的模型優(yōu)勢就會消失,暴露出所有模型共同面臨的基礎(chǔ)性挑戰(zhàn)。
推理深度的雙刃劍效應(yīng)
研究通過消融實驗考察了GPT-5的"thinking mode"對性能的影響。在SpatialViz-Tiny測試集上,四種推理模式(Minimal、Low、Medium、High)的結(jié)果顯示:
- Minimal模式:準(zhǔn)確率48.31%,推理token為0
- Low模式:準(zhǔn)確率54.24%,平均推理token 1899
- Medium模式:準(zhǔn)確率56.78%,平均推理token 5860
- High模式:準(zhǔn)確率52.54%,平均推理token 8567(排除超時/截斷問題后為68.89%)

這一結(jié)果表明,適度的推理能提升性能,證明了鏈?zhǔn)酵评淼挠行?。然而,在High模式下,28個問題(占118個測試問題的23.7%)因超過15分鐘時間限制或達到token上限而被計為錯誤,導(dǎo)致準(zhǔn)確率下降。這暴露了當(dāng)前架構(gòu)在執(zhí)行長程、復(fù)雜空間推理任務(wù)時的穩(wěn)定性缺陷,是導(dǎo)致CR任務(wù)表現(xiàn)不佳的重要原因。
這一發(fā)現(xiàn)具有重要啟示:空間推理不僅需要深度思考,還需要在思考深度與執(zhí)行穩(wěn)定性之間取得平衡。當(dāng)前模型在Medium模式下達到最佳性能,暗示著未來模型設(shè)計需要優(yōu)化推理過程的穩(wěn)定性和效率,而非簡單增加推理深度。
案例分析:GPT-5 的空間認(rèn)知局限
MR4:心理重構(gòu)的根本缺陷

MR4:GPT-5在心理重構(gòu)任務(wù)中的失敗案例-無法正確推斷3D結(jié)構(gòu)的俯視投影
在"根據(jù)前視圖、側(cè)視圖和俯視圖重建3D結(jié)構(gòu)"的任務(wù)中,GPT-5選擇了A,而正確答案是B。該任務(wù)要求模型理解3D立方體結(jié)構(gòu)的俯視投影,但模型似乎無法正確推斷隱藏面的幾何關(guān)系。
從GPT-5的思維過程可見,它嘗試分析3D結(jié)構(gòu):

然鵝,它錯誤地認(rèn)為"Option A correctly shows green above orange",而實際上在正確答案B中,綠色方塊應(yīng)位于L形結(jié)構(gòu)的頂部角落。
這一錯誤表明GPT-5未能正確理解立方體堆疊的空間約束——它無法在心理上模擬3D結(jié)構(gòu)的投影變換,僅能進行表面的模式匹配。這種根本性局限揭示了模型缺乏真正的3D心智模型構(gòu)建能力,無法在腦海中進行動態(tài)的空間操作。
PT6:視角轉(zhuǎn)換的根本局限

PT6:GPT-5在視角轉(zhuǎn)換任務(wù)中的失敗案例-誤判相機移動方向
在這一任務(wù)中,模型需要根據(jù)視頻前后幀判斷相機運動方向。
人類能輕松看出相機向左移動,但GPT-5判斷為向右。從其思維過程可見:"In the first image, we see more of the label's left side and a small circle '72'. In the second image, the front label ('每益添') faces more towards us. This suggests the camera moved clockwise to the right, revealing more of the bottle's front."

GPT-5錯誤地將物體在圖像中的相對位置變化解讀為相機向右移動,而實際上相機向左移動會導(dǎo)致右側(cè)物體更突出。這與人類的空間推理能力形成鮮明對比——人類能直觀理解視角變化與物體空間位置的關(guān)系。
DA7/8:形變與裝配的認(rèn)知斷層

DA7/8:GPT-5在形變與裝配任務(wù)中的失敗案例-折紙與結(jié)構(gòu)組裝
在"將2D形狀折疊成3D立方體"(DA7)和"旋轉(zhuǎn)并組合3D結(jié)構(gòu)"(DA8)任務(wù)中,GPT-5均表現(xiàn)不佳。這些任務(wù)要求模型理解形狀的變形和結(jié)構(gòu)關(guān)系,但模型似乎無法在心理上模擬這一過程。
在DA7任務(wù)中,GPT-5選擇Image 2而非正確的Image 4。從思維過程可見,它嘗試分析折疊過程:"The correct option is the one where the triangle is not mirrored across the pivot edge."

然而,它未能正確理解展開圖中各面的空間對應(yīng)關(guān)系,特別是忽略了立方體折疊時相鄰面的約束條件。
在DA8任務(wù)中,GPT-5錯誤地認(rèn)為"Which of A, B, C is possible to be built when rotating and combining the two 3D structure in image 1? Answer: B",而正確答案是C。

這表明模型缺乏對剛體變換和結(jié)構(gòu)約束的深層理解,無法正確模擬3D結(jié)構(gòu)的組合過程。
這些失敗共同揭示了一個核心問題:當(dāng)前MLLMs的根本局限在于無法構(gòu)建和操作持久的3D心智模型。雖然它們在模式識別和符號推理方面表現(xiàn)出色,但缺乏人類空間智能所具有的動態(tài)空間模擬能力。 這種能力缺失使它們在需要具身化認(rèn)知的任務(wù)上表現(xiàn)不佳,而這些任務(wù)對人類來說往往是直覺性的。
CR9:綜合推理的短板

CR9:GPT-5在綜合推理任務(wù)中的失敗案例-無法推斷被遮擋方塊
在計算部分被遮擋物體數(shù)量的任務(wù)中,GPT-5能識別可見方塊,但無法推斷被遮擋方塊的存在。人類能通過空間推理推斷出總共8個方塊,而GPT-5只識別出9個可見方塊(實際應(yīng)為8個,GT標(biāo)注為8)。
從GPT-5的思維過程可見,它能夠描述可見結(jié)構(gòu):"I can see nine cubes in the image..."但它未能進一步推理被遮擋部分:"I cannot see any cubes behind the visible ones."

這種局限性表明模型在多階段空間推理、擴展記憶和邏輯推導(dǎo)方面存在根本缺陷,特別是在需要構(gòu)建完整3D場景表示的任務(wù)上。 這解釋了為什么GPT-5在CR9任務(wù)中能夠識別可見方塊,卻無法推斷被遮擋方塊的存在——它缺乏構(gòu)建完整3D場景表示的能力。
值得注意的是,當(dāng)提供視覺模擬(VSim)時,GPT-5在STARE的Cube Net任務(wù)上表現(xiàn)顯著提升(從47.06分提升至88.89分)。這表明適當(dāng)?shù)囊曈X輔助能有效彌補模型的空間推理缺陷,也暗示了未來改進方向:結(jié)合更強的視覺表示與空間推理能力。
總結(jié):從評估到進化
研究清晰地展示出GPT-5在空間智能領(lǐng)域的全景:在MM(度量測量)和SR(空間關(guān)系)任務(wù)上,它已接近甚至超越人類水平;但在MR(心理重構(gòu))、PT(視角轉(zhuǎn)換)、DA(形變與裝配)和CR(綜合推理)這四項核心能力上,與人類表現(xiàn)仍有顯著差距,特別是在MMSI和SpatialViz等高挑戰(zhàn)性基準(zhǔn)上。
尤為關(guān)鍵的是,研究揭示了"任務(wù)難度決定優(yōu)勢格局"的現(xiàn)象——在最困難的空間任務(wù)上,閉源模型并未展現(xiàn)出決定性優(yōu)勢,這為開源社區(qū)提供了平等的突破機會。
表14 GPT-5在SpatialViz基準(zhǔn)上的表現(xiàn)與人類差距
上表:GPT-5在SpatialViz基準(zhǔn)上的表現(xiàn),展示了其在心理重構(gòu)(MR)、形變與裝配(DA)等關(guān)鍵空間能力上與人類的巨大差距,特別是在復(fù)雜任務(wù)如Mental Folding(人類90.00分 vs GPT-5 28.75分)上。
簡而言之,GPT-5在空間智能方面的真實表現(xiàn)可以總結(jié)為:
- 它在基礎(chǔ)測量任務(wù)上表現(xiàn)出色,甚至在某些MM任務(wù)上超越人類,表明其已獲得強大的幾何先驗知識
- 但在需要構(gòu)建3D心智模型的核心任務(wù)上,它仍然落后,特別是在心理重構(gòu)、視角轉(zhuǎn)換、形變與裝配和綜合推理方面
- 任務(wù)難度決定了模型優(yōu)勢:在簡單任務(wù)上GPT-5領(lǐng)先明顯,但在最具挑戰(zhàn)性的任務(wù)上,所有模型都面臨相似的局限
- 推理深度需要平衡:過度思考反而導(dǎo)致性能下降,揭示了當(dāng)前架構(gòu)在執(zhí)行長程空間推理時的穩(wěn)定性缺陷
這一研究揭示了空間智能領(lǐng)域的幾個關(guān)鍵點:
空間智能的根本瓶頸是領(lǐng)域共性難題,而非簡單的資源或數(shù)據(jù)壁壘。研究發(fā)現(xiàn),在復(fù)雜的語音識別(SI)任務(wù)中,專有模型并沒有顯示出比開源模型顯著的優(yōu)勢。這一發(fā)現(xiàn)可能重塑空間智能研究的格局。在MMSI、OmniSpatial、STARE和SpatialViz等最具挑戰(zhàn)性的基準(zhǔn)上,所有先進模型都面臨相似的局限。
任務(wù)難度決定了模型優(yōu)勢格局。在低難度任務(wù)上,閉源模型優(yōu)勢明顯;但在高難度任務(wù)上,所有模型都面臨根本性挑戰(zhàn)。這一發(fā)現(xiàn)提示我們,空間智能可能需要超越當(dāng)前MLLM架構(gòu)的特定能力,如真正的3D心智模型構(gòu)建。
推理深度與穩(wěn)定性需要平衡。GPT-5的消融研究表明,適度的推理能提升性能,但過度推理反而導(dǎo)致穩(wěn)定性下降。這對未來模型設(shè)計具有重要啟示:空間推理不僅需要深度思考,還需要優(yōu)化推理過程的效率和可靠性。
基于這些發(fā)現(xiàn),未來:
開發(fā)顯式3D心智模型表示:未來研究應(yīng)致力于在MLLMs中開發(fā)顯式的3D心智模型表示,使模型能夠構(gòu)建和操作物理世界的內(nèi)部表征。這需要突破當(dāng)前架構(gòu)的限制,實現(xiàn)真正的3D空間表征能力。
設(shè)計針對性訓(xùn)練目標(biāo):應(yīng)設(shè)計專門針對空間推理能力的訓(xùn)練目標(biāo),而非依賴通用多模態(tài)訓(xùn)練。這可能包括空間關(guān)系預(yù)測、視角轉(zhuǎn)換任務(wù)和3D結(jié)構(gòu)重建等特定任務(wù)。研究表明,通用訓(xùn)練不足以發(fā)展出強大的空間推理能力。
整合基于物理的模擬:將基于物理的模擬與空間推理相結(jié)合顯示出巨大潛力。研究已證明,當(dāng)提供視覺模擬輸入時,GPT-5在Cube Net任務(wù)上的表現(xiàn)顯著提升(從47.06分提升至88.89分),這為未來研究指明了方向。物理模擬可以作為模型空間推理的"外掛",彌補其內(nèi)在能力的不足。
采納標(biāo)準(zhǔn)化評估:研究提出的六維能力框架和公平評估協(xié)議為領(lǐng)域提供了重要基礎(chǔ)。采納這些標(biāo)準(zhǔn)將促進可比、可復(fù)現(xiàn)和累積性的研究進展,避免"基準(zhǔn)過擬合"問題。未來研究應(yīng)關(guān)注任務(wù)難度的梯度設(shè)計,區(qū)分基礎(chǔ)能力和高級能力。
這項研究的發(fā)現(xiàn)為不同領(lǐng)域的實踐者提供了清晰的指引。對于AI研究者,GPT-5在復(fù)雜空間任務(wù)上的局限表明,單純擴大模型規(guī)模已接近瓶頸,未來的關(guān)鍵在于讓模型具備構(gòu)建和操作3D心智模型的能力。對開源社區(qū)而言,研究發(fā)現(xiàn)頂尖模型在最難任務(wù)上差距不大,這意味著開源項目在空間智能的前沿探索中擁有與閉源模型同等的機遇,創(chuàng)新和協(xié)作可能成為突破的關(guān)鍵。對于應(yīng)用開發(fā)者,研究提醒我們,在機器人或AR/VR等依賴空間理解的場景中,不應(yīng)完全依賴模型的推理能力;引入視覺輔助或簡化任務(wù)流程是當(dāng)前更可靠的解決方案。對于所有關(guān)注AI進展的人,理解AI在基礎(chǔ)空間任務(wù)上的這些根本性局限,有助于我們更客觀地看待其能力,避免被過度宣傳所誤導(dǎo),從而更理性地評估技術(shù)發(fā)展的現(xiàn)狀與未來。
空間智能作為通往AGI道路上的關(guān)鍵瓶頸。沒有強大的空間理解能力,AI系統(tǒng)將僅限于符號操作,而無法真正理解物理世界。這項研究最大的價值,在于清晰揭示了AI空間認(rèn)知的"卡殼點":GPT-5能解復(fù)雜的數(shù)學(xué)題,卻搞不定一張折紙;能寫文章、編代碼,卻數(shù)不清被遮擋的方塊。這種反差表明,AI智能并非單一維度,而是由多個能力模塊組成的拼圖。當(dāng)前AI在語言和知識領(lǐng)域已堆砌得很高,但空間認(rèn)知能力仍顯薄弱。
問題的核心在于:當(dāng)前MLLM的根本局限是無法構(gòu)建和操作持久的3D心智模型。雖然它們在模式識別和符號推理方面表現(xiàn)出色,但缺乏人類空間智能所具有的動態(tài)空間模擬能力。它們更像是"猜"答案而非"想"出答案,沒有能在腦海中反復(fù)操作、推演的"3D小模型"。
然而,這一局限也帶來了希望:當(dāng)任務(wù)難度達到最高時,閉源與開源模型的差距顯著縮小,所有模型都面臨相似的挑戰(zhàn)。這表明空間智能的突破不在于算力堆砌,而在于創(chuàng)新性的架構(gòu)設(shè)計。這為研究社區(qū)提供了公平的競技場,無論資源多寡,都有機會在這一關(guān)鍵領(lǐng)域取得突破。
未來的突破點可能在于三個方向:開發(fā)顯式的3D心智模型表示、設(shè)計專門針對空間推理的訓(xùn)練目標(biāo),以及整合基于物理的模擬。特別是當(dāng)視覺模擬與空間推理結(jié)合時展現(xiàn)出的巨大潛力(如Cube Net任務(wù)中從47.06分提升至88.89分),提示我們物理模擬可作為彌補模型內(nèi)在能力不足的有效"外掛"。
當(dāng)AI能夠像人類一樣自然地理解并推理物理空間時,它將不再僅僅是信息處理工具,而成為能在現(xiàn)實世界中自如行動的智能伙伴??缭娇臻g智能這一關(guān)鍵障礙,或許是通往真正AGI的必經(jīng)之路。這項研究不僅評估了當(dāng)前技術(shù)的邊界,更為未來研究鋪設(shè)了道路——當(dāng)AI能夠真正理解并推理物理世界時,它將開啟人機協(xié)作的新時代。





































