科普:AI 是如何理解問題的?它能像人類一樣思考嗎?
現(xiàn)有的AI推理的局限性
在人類的日常生活中,我們并不需要把思維的每一步說出口或畫出來才能思考。 比如:你在腦子里可以默默思考一篇文章的結(jié)構(gòu),或者在腦海中想象一下你家房間的布局。 思考這些都不需要真正動筆或動手去畫。

但對于現(xiàn)如今的生成式 AI(比如 GPT-4o DeepSeek這類大型多模態(tài)模型)來說,它的“思考”過程本質(zhì)上是通過“生成東西”來完成的。也就是說,它并不是像人類一樣,在內(nèi)部默默推理、默默構(gòu)圖,而是在每一步都必須“寫出字”或“畫出圖”來輔助自己完成思考。
假設(shè)你問一個 AI:“這把椅子從不同角度看起來是什么樣子?”
??人類的處理方式: 我們會在腦中想象那把椅子的三維結(jié)構(gòu),然后“腦補”它旋轉(zhuǎn)后的樣子。我們不需要真的畫出來,靠大腦內(nèi)的“心理圖像”就可以完成。

?? AI 的處理方式(傳統(tǒng)多模態(tài)模型): AI 可能會通過逐步生成一張旋轉(zhuǎn)后的椅子圖像,然后再用這張圖來推理下一步。它不是“在腦子里轉(zhuǎn)椅子”,而是每轉(zhuǎn)一個角度就得畫一張圖出來,再繼續(xù)想。 換句話說,生成本身就是它的一部分思考過程。
直到 Mirage 的出現(xiàn),這種局限才被打破。
但問題是——我們?yōu)槭裁葱枰寵C器擁有這種像人類的思考能力?
人類想象的能力
幾十年來,科學界已經(jīng)明確知道:人類在大腦中會生成帶有圖像特征的 “心理圖像”(mental images),這些圖像具有類似視覺圖畫的表征形式。
為了避免過多術(shù)語,我們簡要回顧一下。早在 1994 年,Stephen Kosslyn 就通過一系列研究證實,人類確實會在頭腦中構(gòu)建“心理圖像”。
科學家在研究中發(fā)現(xiàn):人類在心中旋轉(zhuǎn)物體圖像時,所需的反應(yīng)時間與旋轉(zhuǎn)角度成正比。這強有力地證明了人腦中的圖像處理不僅僅真實存在,而且具有空間操作性——我們的大腦并非抽象地“理解”圖像,而是在“心中看見并操縱”它們。
這個發(fā)現(xiàn)說明,我們頭腦中的圖像表征是具有空間屬性的。因為人在進行這種心理旋轉(zhuǎn)時,其實是在主動地從一個新的角度重新構(gòu)建圖像。
我們在思考場景時,并不是以符號的方式進行抽象推理;我們是在大腦中真實地構(gòu)建出這些場景的畫面。
所以,如果人類會在腦中構(gòu)建心理圖像,并且這一能力很可能正是我們進行空間推理的基礎(chǔ),那為什么人工智能不應(yīng)該也具備同樣的能力呢?
什么是潛在空間(Latent Space)
在現(xiàn)代人工智能中,幾乎所有核心機制都圍繞著一個概念展開:內(nèi)部表征(internal representations)。
這些“表征”并不是文字、圖像或聲音,而是一些數(shù)值向量(vectors) 畢竟機器只能處理數(shù)字。這些向量所承載的,是模型對現(xiàn)實世界中各種概念的理解。這是什么意思?
在 AI 的世界里,理解不是通過“定義”來建立的,而是通過“相對相似度”來形成的。用一句更通俗的話說:
AI 理解“貓”這個概念,并不是因為它知道“貓的本質(zhì)是什么”,而是因為它知道“貓”與“狗”“老虎”等概念之間比較相似, 而與“航空母艦”之類的概念差異極大。
也就是說,模型是通過“和其他概念的距離關(guān)系”來理解一個概念的意義。
通過這種方式,模型在內(nèi)部構(gòu)建出一個被稱為 “表征空間”(representation space)的結(jié)構(gòu),更正式的說法叫做“潛在空間”(latent space) 。
比如在潛在空間中,“貓”與“狗”或“老虎”等概念距離非常接近,因此模型會推斷出:“貓”屬于“動物”這一大類。而更進一步,由于“貓”與其他哺乳動物之間的距離也很小,模型進一步判斷出,“貓”不僅是動物,還是屬于“哺乳動物”這一子類。
這個潛在空間本質(zhì)上是一個高維向量空間,它就是模型的“知識地圖”。在這個空間中:
- 每一個概念都是一個點(向量);
- 點與點之間的距離表示它們的語義差異;
- 一個概念的“意義”,就是它在整個空間中的相對位置。
因此,模型所“知道”的一切,不管是“貓”還是“航母”。都是通過在這個潛在空間中彼此定位、比較和聯(lián)系來實現(xiàn)的。

這也正是 AI 推理和生成的基礎(chǔ)。
因此,每當模型接收到新的輸入——無論是文本、圖像,還是二者的結(jié)合。它都會將這些信息映射到潛在空間中,并依賴這種空間結(jié)構(gòu)來理解“輸入的內(nèi)容是什么”以及“下一步應(yīng)該生成什么”。
然而,盡管這些模型被稱為 “多模態(tài)模型”(multimodal) ,它們的核心處理機制仍然嚴重依賴 “文字思維”(text thinking) 來生成響應(yīng)。那么,什么是“文字思維”?我們?yōu)槭裁凑f它是個問題?我們接著往下看。
從“純文本”到真正的多模態(tài)智能
假設(shè)你現(xiàn)在看到下圖中的問題,你會如何解答這些題目?(規(guī)劃一個路線,讓小人拿到獎勵,并且不掉進洞里):你會在腦中想象路徑的走向。你甚至可以腦補出手指在圖上移動的樣子,或是路徑被高亮的樣子。

AI 是怎么解決同樣問題的?
AI不會“想象”那條路徑長什么樣,也不會在腦中模擬走法。它會把圖像轉(zhuǎn)化成一堆“結(jié)構(gòu)化信息”或者“文字描述”,比如說:“圖上有一個起點 A,終點 B,錯誤點位于一行三列,路徑方向是...”(像DeepSeek的思考過程)然后用一堆“邏輯推理 + 語言模型”來生成答案。
造成這一現(xiàn)象的技術(shù)原因主要有兩個:
首先,如前所述,AI 模型在“思考”時必須生成內(nèi)容——說出文字、繪制圖像,或者兩者都有。它們并不存在某種“中間狀態(tài)”,可以讓模型在不輸出任何東西的前提下,隨意“思考”。對它AI來說,生成本身就是思考的必要步驟,只有通過生成,問題才能被解決。
其次,使用圖像進行思考,或者說生成圖像以輔助推理,對于用戶而言是一種非常糟糕的體驗(主要因為速度極慢)。因此,當前最前沿的模型在大多數(shù)情況下選擇回避圖像生成,而改用文本來處理問題。也就是說,即使任務(wù)本身明確需要視覺思維,模型最終還是會主要依賴文本,甚至是代碼來尋找解法。
那么,我們要如何才能賦予 AI “心理圖像”這樣的能力呢? 這正是當前研究的關(guān)鍵所在。
現(xiàn)有核心思路是:訓練模型識別出何時需要進行視覺化思考,并在那一刻生成一個特殊的標記 token,將模型引導進入“空間思維”模式。此時,模型將在潛在空間中進行視覺推理,而不是切換回文字空間。等到視覺思維階段結(jié)束后,模型再重新回到文本生成的軌道,繼續(xù)輸出結(jié)果。這聽起來有些玄幻,但現(xiàn)在很多研究團隊都在這方面努力。

麻省理工學院和阿默斯特學院的研究人員最近發(fā)表了一篇全新的論文。他們提出了一種名為 Mirage 的AI模型,它是首個真正具備“視覺思維”能力的模型。這意味著它能夠像人類一樣,在大腦中構(gòu)建“心理圖像”。
讓模型在輸出答案之前先進行內(nèi)部思考,是當前研究領(lǐng)域的一個熱門方向。 這樣做的好處在于:它可以減少生成的 token 數(shù)量(降低成本),并且這種“先思考、后表達”的過程也更貼近人類的行為方式。
但問題在于:它的這種內(nèi)部思考依然是以文字為主的。換句話說,模型雖然沒“開口說話”,但它的思維過程依然建立在語言上,而非真正的心理圖像。
為了解決這個問題,Mirage 的研究人員設(shè)計了一套獨特的“視覺數(shù)據(jù)集”:其中包含由人工標注的輔助圖像,作為模型解題的參考。 簡單來說,這種訓練方式強迫模型利用圖像中的視覺線索來推理并給出答案,而不是僅依賴文字或代碼推導過程。
論文地址:https://arxiv.org/abs/2506.17218
此外,為了證明模型確實在學習并利用視覺線索,研究團隊還進行了主成分分析(PCA, Principal Component Analysis)。 結(jié)果顯示,當模型處理視覺場景時所生成的新的潛在思維(latent thoughts)的分布與圖像處理階段學到的圖像潛在分布非常接近,并且在潛在空間中呈現(xiàn)出高度聚集、緊密分布的特征。

相比之下,傳統(tǒng)的文本潛在表示則通常在模型主導的文本空間中均勻分散分布。這一差異說明:模型在進行“視覺思考”時,確實進入了一種更接近圖像表征的內(nèi)在思維狀態(tài),而不再只是“用語言假裝理解圖像”。正如預(yù)期的那樣,Mirage在各類空間推理與規(guī)劃基準測試中都表現(xiàn)出顯著提升。這表明,這種方法不僅在理論上講得通,在實際效果上也確實奏效。































