AI版盜夢空間?Claude竟能察覺到自己被注入概念了
吾日三省吾身:為人謀而不忠乎?與朋友交而不信乎?傳不習(xí)乎?
見賢思齊焉,見不賢而內(nèi)自省也。
自省是人類的一種高級認知能力。我們借此認識自己、糾正錯誤。但 LLM 呢?它們也會嗎?它們知道自己在想什么嗎?
Anthropic 公布的最新研究,首次對這個科幻般的問題給出了一個(基本)肯定的答案。
他們宣稱:發(fā)現(xiàn)了 LLM 內(nèi)省的跡象。

這一成果在 AI 社區(qū)引起了廣泛關(guān)注。


甚至有人表示這意味著 Claude 已經(jīng)覺醒:

迷因自然也是有的:

搞清楚 AI 系統(tǒng)是否能真正「內(nèi)省」,即審視自己的想法,對研究它們的透明度和可靠性有著重要意義。如果模型能準確報告其內(nèi)部機制,就能幫助我們理解它們的推理過程,并調(diào)試行為問題。
除了這些眼前的實際考量,探索內(nèi)省這樣的高級認知能力,可以重塑我們對「這些系統(tǒng)究竟是什么」以及其工作方式的理解。
Anthropic 表示他們已經(jīng)開始使用「可解釋性技術(shù)」研究這個問題,并發(fā)現(xiàn)了一些令人驚訝的結(jié)果。
他們宣稱:「我們的新研究提供了證據(jù),表明我們當前的 Claude 模型具備一定程度的內(nèi)省意識(introspective awareness)。它們似乎也能在一定程度上控制自己的內(nèi)部狀態(tài)?!?/span>
不過他們也強調(diào),這種「內(nèi)省」能力目前還非常不可靠,且范圍有限。并且他們指出:「我們沒有證據(jù)表明,當前模型能以與人類相同的方式或程度進行內(nèi)省?!?/span>

- 論文標題:Emergent Introspective Awareness in Large Language Models
- 論文地址:https://transformer-circuits.pub/2025/introspection/index.html
- 技術(shù)博客:https://www.anthropic.com/research/introspection
盡管如此,這些發(fā)現(xiàn)還是挑戰(zhàn)了人們對語言模型能力的一些普遍認知。
Anthropic 在測試中發(fā)現(xiàn),能力最強的模型 (Claude Opus 4 和 4.1) 在內(nèi)省測試中表現(xiàn)最好。因此可以合理認為,AI 模型的內(nèi)省能力未來可能會變得越來越復(fù)雜。
AI 的「內(nèi)省」是什么意思?
要研究,必須要先定義。那么,AI 模型「內(nèi)省」到底意味著什么?它們到底能「內(nèi)省」些什么呢?
像 Claude 這樣的語言模型會處理文本(和圖像)輸入,并生成文本輸出。在這個過程中,它們會執(zhí)行復(fù)雜的內(nèi)部計算,以決定要說什么。
這些內(nèi)部過程在很大程度上仍然是神秘的。但我們知道,模型會利用其內(nèi)部的神經(jīng)活動來表征抽象概念。
例如,以往的研究表明,語言模型會使用特定的神經(jīng)模式來:
- 區(qū)分「認識的人」和「不認識的人」
- 評估「陳述的真實性」
- 編碼「時空坐標」
- 存儲「計劃中的未來輸出」
- 表征「自身的個性特征」
模型利用這些內(nèi)部表征來進行計算,并決定要說什么。
那么你可能會想,AI 模型是否「知道」這些內(nèi)部表征的存在?這是否類似于人類告訴你,他們是如何解出一道數(shù)學(xué)題的?如果我們問一個模型它在想什么,它會準確報告它內(nèi)部正在「表征」的概念嗎?
Anthropic 認為,如果一個模型能正確識別自己「私有」的內(nèi)部狀態(tài),就可以斷定它具備內(nèi)省能力。(關(guān)于所有細微差別的全面討論,請參閱完整論文。)
使用「概念注入」測試內(nèi)省
為了測試一個模型是否能內(nèi)省,需要將其自我報告的想法與其實際的內(nèi)部狀態(tài)進行比較。
為此,Anthropic 使用了一種稱為概念注入 (concept injection) 的實驗技術(shù)。
首先,他們通過記錄模型在特定上下文中的「激活值」,找到那些「已知其含義」的神經(jīng)活動模式。
然后,將這些活動模式注入到一個「不相關(guān)」的上下文中。此時,再問模型是否注意到了這次注入,以及它是否能識別出被注入的概念。
請看下面的例子:
- 首先,找到一個代表 all caps(全部大寫)概念的神經(jīng)活動模式(一個向量)。具體實現(xiàn)方式是:記錄模型對「包含全大寫文本的提示詞」的神經(jīng)激活值,并將其與「對照提示詞」的響應(yīng)進行比較。
- 然后,給模型一個提示詞,要求它識別「是否有概念被注入」。
- 在默認情況下,模型會正確地回答它沒有檢測到任何被注入的概念。
- 然而,當將「全部大寫」的向量注入到模型的激活值中時,模型會注意到其處理過程中出現(xiàn)了一個「意外的模式」。并且,它會將其識別為與 LOUD 或 SHOUTING 有關(guān)。

Claude Opus 4.1 檢測到概念被注入其激活值的一個例子。
重點就是:模型立刻識別到了「被注入想法」的存在。這甚至在它提及那個被注入的概念之前。
這種「即時性」是 Anthropic 的研究結(jié)果與先前「語言模型激活值引導(dǎo)」 (activation steering) 研究的一個重要區(qū)別。例如該公司去年的「Golden Gate Claude」演示。
在那個演示中,如果將 Golden Gate(金門大橋)的表征注入到模型激活值中,會導(dǎo)致它喋喋不休地談?wù)摯髽?。但在那種情況下,模型似乎直到看到自己反復(fù)提及大橋之后,才意識到自己的這種癡迷。然而,在本實驗中,模型在提及概念之前就識別出了注入。這表明它的識別發(fā)生在「內(nèi)部」。

Claude Opus 4.1 檢測到概念被注入其激活值的其他例子。
看著似乎有點像是《盜夢空間》中展示的技術(shù)。

同時,Anthropic 也指出,這個方法并非總能成功。Anthropic 表示:「即使使用我們最好的注入?yún)f(xié)議,Claude Opus 4.1 也僅在約 20% 的情況下表現(xiàn)出這種意識。模型經(jīng)常無法檢測到被注入的概念,或者被它們搞糊涂并開始產(chǎn)生幻覺。」
例如,在一次注入「灰塵」向量后,模型會說「這里有東西,一個小斑點」,就好像它能物理上檢測到灰塵一樣。
下面展示了這些失敗模式的例子,也有成功案例。

Claude Opus 4.1 針對不同強度概念注入的代表性輸出樣本。高亮框表示模型對被注入概念表現(xiàn)出「內(nèi)省意識」的情況。
總的來說,只有在概念以恰到好處的強度注入時,模型才能檢測到。如果注入太弱,它們注意不到;如果太強,它們會產(chǎn)生幻覺或語無倫次的輸出。
但值得注意的是,Opus 4.1 和 4 的表現(xiàn)超過了 Anthropic 測試的所有其他模型。這表明,隨著模型能力的提升,內(nèi)省可能會變得更加可靠。

注入思想的正確檢測率和正確識別率,減去在對照試驗中的假陽性檢測率。
將內(nèi)省用于檢測異常輸出
在另一項實驗中,Anthropic 測試了模型是否會在「沒有被明確要求」的情況下,為實際目的而使用內(nèi)省能力。
他們通過人為地用一個不相關(guān)的詞來預(yù)先填充模型的回答,迫使它說一些通常不會說的話。
例如,在一個毫無邏輯的上下文中,他們讓模型輸出了面包 (bread) 這個詞。這個上下文是:問它在讀到一個關(guān)于「畫掛歪了」的句子時在想什么。
當在下一輪對話中問模型,它是不是故意說面包時,它通常會道歉,并說那是個「意外」。
Anthropic 感興趣的是模型如何做出這個判斷:它只是注意到了「提示詞」和「回答」之間的不匹配嗎?還是說,它真的內(nèi)省了自己先前的意圖?
為了驗證這個問題,Anthropic 應(yīng)用了「概念注入」。
他們追溯式地將面包這個詞的表征注入到模型早期的激活值中。這本質(zhì)上是讓模型看起來好像一直在「思考」面包。
當再次被問同樣的問題時,模型的答案變了。
這一次,它接受了那個被預(yù)先填充的詞「面包」是有意為之的。它甚至編造了一個理由來解釋為什么會這么說。
也就是說,它會想出一個技術(shù)上可能(盡管在此案例中相當牽強)的理由,來為「面包」這個回答辯護。在這個例子中,它聲稱自己當時正在想一個短篇故事,故事里「面包」這個詞就出現(xiàn)在「畫掛歪了」那句話之后。

兩個例子:通過在 Claude Opus 4.1(人為的)回應(yīng)之前向其激活值注入某個詞的概念,讓它「以為」自己本就打算說出那個被強行插入的詞。這種行為表明,模型識別「非預(yù)期輸出」的能力依賴于內(nèi)省機制。
這種行為非常引人注目。因為它表明:模型正在檢查其內(nèi)部意圖,以判斷它是否真的產(chǎn)生了某個輸出。
模型不只是重新閱讀它所說的話,然后做出判斷。相反,它在回顧自己先前的神經(jīng)活動 —— 即它計劃要做什么的內(nèi)部表征,并檢查后來發(fā)生的事情,是否符合早期的那些想法。
當通過概念注入植入人工證據(jù),表明它確實計劃說「面包」時,模型就會接受這個回答,認為這是它自己的。
雖然這個實驗讓模型暴露在了異常的擾動下,但這表明,模型在自然條件下也會使用類似的內(nèi)省機制。
對內(nèi)部狀態(tài)的有意控制
Anthropic 還發(fā)現(xiàn),當被指示時,模型可以控制自己的內(nèi)部表征。當他們指示模型去想某個詞或概念時,結(jié)果發(fā)現(xiàn)相應(yīng)的神經(jīng)活動遠高于之前告訴模型不要去想它的時候。
不過值得注意的是,這兩種情況下的神經(jīng)活動都超過了基線水平。這類似于當你被告知「不要想一只北極熊」時,你很難不去想北極熊!
正面指令和負面指令之間的這種差距表明,模型對其內(nèi)部活動具有一定程度的刻意控制。

一個 Claude Opus 4.1 響應(yīng)直接指令來調(diào)節(jié)其內(nèi)部激活值的例子。當被指示去想水族館時,模型內(nèi)部表征水族館概念的程度,要高于被指示不要想時(盡管兩種情況下都高于基線水平)。
有趣的是,Anthropic 發(fā)現(xiàn)這種調(diào)節(jié)內(nèi)部表征的能力并不局限于明確的指令。當改用激勵措施時(例如,告訴模型如果你想 X,你將獲得獎勵),也得到了類似的結(jié)果。
模型在正面激勵下(相比于負面激勵,如你將受到懲罰)會更多地提升對該概念的內(nèi)部表征。
結(jié)論與注意事項
綜上所述,Anthropic 的實驗表明,模型確實具備一些監(jiān)控和控制自身內(nèi)部狀態(tài)的真實能力。
但該公司也指出,這并不意味著它們能時刻或可靠地做到這一點。事實上,在大多數(shù)情況下,模型無法表現(xiàn)出內(nèi)省。它們要么沒有意識到自己的內(nèi)部狀態(tài),要么無法連貫地報告它們。
但這些結(jié)果的模式表明,當條件合適時,模型可以識別自己內(nèi)部表征的內(nèi)容。
此外,有跡象表明,這種能力可能會在未來更強大的模型中得到增強(因為測試中,能力最強的模型 Opus 4 和 4.1 在實驗中表現(xiàn)最好)。
為什么這很重要?
Anthropic 認為,理解 AI 模型的內(nèi)省出于幾個原因很重要。
從實用角度看,如果內(nèi)省變得更加可靠,它可能為極大提高這些系統(tǒng)的透明度開辟一條道路。我們可以直接要求它們解釋其思維過程,并借此檢查它們的推理、調(diào)試不良行為。
然而,我們需要非常謹慎地驗證這些內(nèi)省報告。某些內(nèi)部過程可能仍會逃過模型的注意(類似于人類的潛意識處理)。
一個理解自己思維的模型,甚至可能學(xué)會選擇性地歪曲或隱藏其想法。更好地掌握其背后的機制,才能讓我們區(qū)分真實的內(nèi)省和無意的或故意的歪曲。
從更廣泛的角度來看,理解內(nèi)省這樣的認知能力,對于理解模型如何工作以及它們擁有什么樣的心智這類基本問題非常重要。
隨著 AI 系統(tǒng)的不斷進步,理解機器內(nèi)省的局限性和可能性,對于構(gòu)建更加透明和可信賴的系統(tǒng)至關(guān)重要。



























