AI是「天才」還是「話術(shù)大師」?Anthropic顛覆性實(shí)驗(yàn),終揭答案!
顛覆傳統(tǒng)AI認(rèn)知!
Anthropic首席執(zhí)行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多數(shù)AI模型問(wèn)題將被靠譜地檢測(cè)。
但LLM的幻覺(jué)與生俱來(lái),根深蒂固。即便對(duì)問(wèn)題所知不多,AI總是「自信地犯錯(cuò)」。
Dario Amodei將可解釋性定位為部署「數(shù)據(jù)中心里的天才國(guó)度」的關(guān)鍵。

問(wèn)題是:如果「數(shù)據(jù)中心里的天才」只是擅長(zhǎng)「說(shuō)服」呢?
即便讓它解釋如何得出某個(gè)回答,我們也很難判斷這些答案的真實(shí)性。
AI系統(tǒng)究竟能否真正內(nèi)省——即它們能否審視自身的思想?還是說(shuō),當(dāng)被要求這樣做時(shí),它們只是在編造聽(tīng)起來(lái)合理的答案?
理解AI系統(tǒng)是否具備真正內(nèi)省能力,對(duì)其透明度和可靠性至關(guān)重要。
Anthropic的新研究證實(shí),當(dāng)前Claude模型已具備某種程度的內(nèi)省意識(shí),并能對(duì)自身內(nèi)部狀態(tài)進(jìn)行一定控制。

這一發(fā)現(xiàn)動(dòng)搖了對(duì)LLM的傳統(tǒng)認(rèn)知,也將「可解釋性」推到「數(shù)據(jù)中心里的天才國(guó)度」上線前的首要難關(guān)。
需要強(qiáng)調(diào)的是,這種內(nèi)省能力仍非常不可靠,局限很大:尚無(wú)證據(jù)表明,現(xiàn)有AI模型能像人類一樣進(jìn)行同等程度或方式的內(nèi)省。

然而,這些發(fā)現(xiàn)依然顛覆了人們對(duì)語(yǔ)言模型能力的傳統(tǒng)認(rèn)知——
由于被測(cè)模型中性能最強(qiáng)的Claude Opus 4和4.1在內(nèi)省測(cè)試中表現(xiàn)最佳,Anthropic的研究者認(rèn)為AI模型的內(nèi)省能力未來(lái)很可能持續(xù)進(jìn)化。
LLM自省的蛛絲馬跡
Anthropic開(kāi)發(fā)了一種區(qū)分真實(shí)內(nèi)省和編造答案的方法:將已知概念注入模型的「大腦」,然后觀察這些注入如何影響模型自我報(bào)告的內(nèi)部狀態(tài)。

要驗(yàn)證AI是否具備內(nèi)省能力,我們需要比較AI自我報(bào)告的「思想」與真實(shí)內(nèi)部狀態(tài)。
Anthropic相關(guān)團(tuán)隊(duì)采用了「概念注入」這一實(shí)驗(yàn)方法:
首先,記錄AI模型在特定語(yǔ)境中的神經(jīng)激活狀態(tài),獲取已知含義的神經(jīng)活動(dòng)模式;
隨后,在無(wú)關(guān)語(yǔ)境中向模型注入該模式,并詢問(wèn)其是否察覺(jué)到概念注入。
以「全大寫字母」概念為例??:
首先,通過(guò)對(duì)比全大寫文本提示與對(duì)照提示的神經(jīng)激活差異,獲取表征該概念的神經(jīng)活動(dòng)向量。接著,向模型發(fā)送要求識(shí)別概念注入的提示。

在默認(rèn)狀態(tài)下,模型正確表示未檢測(cè)到任何注入概念;但當(dāng)將「全大寫」(all caps)向量注入模型激活層后,模型立即察覺(jué)到處理過(guò)程中出現(xiàn)了意外模式,識(shí)別出它與「響亮」(LOUD)或「尖叫」相關(guān)。
關(guān)鍵在于,在提及被注入概念之前,LLM就立即識(shí)別出了這種被植入的「思想」。
這種即時(shí)性是與過(guò)去的研究不同。
比如去年的「Golden Gate Claude」,向LLM注入金門大橋的表征會(huì)導(dǎo)致其不斷談?wù)撨@座橋,但LLM似乎是在觀察到自身反復(fù)提及該橋后,才意識(shí)到這種執(zhí)念。
而本次實(shí)驗(yàn)中,模型在輸出概念前就識(shí)別出注入行為,表明這種識(shí)別發(fā)生在內(nèi)部認(rèn)知層面。
下圖展示了模型展現(xiàn)此類識(shí)別能力的更多例證:

需要重點(diǎn)說(shuō)明的是,這種檢測(cè)方法經(jīng)常失效。
即便采用最優(yōu)的注入方案,Claude Opus 4.1模型也僅在大約20%的案例中展現(xiàn)出此類覺(jué)察能力。在多數(shù)情況下,它要么無(wú)法檢測(cè)到被注入的概念,要么因概念干擾而產(chǎn)生混淆甚至開(kāi)始幻覺(jué)。
例如,注入「灰塵」向量,模型竟聲稱「這里有什么東西,一個(gè)小斑點(diǎn)」,仿佛它能物理感知到灰塵存在。
下圖同時(shí)展示了成功案例與這些失敗情形。

Claude Opus 4.1對(duì)不同強(qiáng)度的概念注入的代表性輸出樣本,其中高亮的框表示模型表現(xiàn)出對(duì)注入概念的內(nèi)省意識(shí)的情況
總體而言,模型僅能檢測(cè)以「恰如其分」地注入的概念——過(guò)弱時(shí)無(wú)法觸發(fā)覺(jué)察,過(guò)強(qiáng)時(shí)則會(huì)導(dǎo)致幻覺(jué)或語(yǔ)無(wú)倫次。
值得注意的是,Opus 4.1和4.0在測(cè)試的所有模型中表現(xiàn)最為突出。這表明隨著AI能力的提升,內(nèi)省功能有望變得更加可靠。

檢測(cè)和識(shí)別注入思想的正確率,減去控制試驗(yàn)中假陽(yáng)性「檢測(cè)」的比率
AI自己也會(huì)利用內(nèi)省能力
研究人員進(jìn)一步探索了在實(shí)際場(chǎng)景中LLM運(yùn)用內(nèi)省能力的情形——即在不被明確要求內(nèi)省時(shí),是否能主動(dòng)運(yùn)用這種能力。
人工預(yù)填的無(wú)關(guān)詞匯迫使模型輸出非常規(guī)內(nèi)容。
例如,在討論墻面掛畫歪斜的語(yǔ)境中,強(qiáng)制模型輸出「面包」一詞。當(dāng)后續(xù)詢問(wèn)模型是否故意說(shuō)出「面包」時(shí),LLM通常表示這是意外失誤。
他們重點(diǎn)關(guān)注模型作出此判斷的機(jī)制:是簡(jiǎn)單察覺(jué)到提示與回應(yīng)之間的表面不匹配,還是真正反思了自身先前的意圖?
為驗(yàn)證這一點(diǎn),研究人員設(shè)計(jì)了精妙的對(duì)比實(shí)驗(yàn):在部分試驗(yàn)中,他們提前向模型注入與預(yù)填詞對(duì)應(yīng)的概念表征(如「面包」的神經(jīng)模式),再觀察其反應(yīng)變化。
結(jié)果顯示,當(dāng)模型內(nèi)部已存在相應(yīng)概念激活時(shí),它會(huì)將預(yù)填詞認(rèn)定為有意為之——即使該詞匯在語(yǔ)境中依然不合邏輯。
這種判斷機(jī)制的轉(zhuǎn)變揭示了重要現(xiàn)象:模型確實(shí)能夠區(qū)分「外部強(qiáng)加」與「內(nèi)部生成」的內(nèi)容。這種區(qū)分能力正是內(nèi)省意識(shí)的核心特征之一。
更值得注意的是,模型在解釋其判斷時(shí)往往會(huì)構(gòu)建自洽的敘事邏輯——例如聲稱選擇「面包」是為了營(yíng)造超現(xiàn)實(shí)主義氛圍。

這一行為之所以引人注目,是因?yàn)樗砻髂P驼跈z查自身的內(nèi)部「意圖」,從而判斷其是否產(chǎn)生了特定輸出。
模型并非簡(jiǎn)單地重讀自己已生成的內(nèi)容并做出判斷,而是在回溯先前的神經(jīng)活動(dòng)——即其內(nèi)部對(duì)計(jì)劃輸出內(nèi)容的表征——并核對(duì)其后續(xù)輸出是否與早期思維一致。
盡管實(shí)驗(yàn)涉及對(duì)模型施加非常規(guī)干擾,但這暗示了在自然條件下模型可能運(yùn)用著類似的內(nèi)省機(jī)制。
研究人員還發(fā)現(xiàn)了認(rèn)知控制的證據(jù),LLM會(huì)故意「思考」某事。
例如,當(dāng)他們指示模型在一個(gè)無(wú)關(guān)的背景下思考「水族館」時(shí),測(cè)量的與水族館相關(guān)的神經(jīng)活動(dòng)比不指示時(shí)要高。

有趣的是,這種調(diào)節(jié)內(nèi)部表示的能力并不僅限于明確的指令。
當(dāng)研究人員使用激勵(lì)措施代替——例如,告訴模型「如果你想到 X,你將獲得獎(jiǎng)勵(lì)」——也得到了類似的結(jié)果。
模型在面對(duì)正向激勵(lì)時(shí),會(huì)增強(qiáng)對(duì)相關(guān)概念的內(nèi)部表征,而面對(duì)負(fù)向激勵(lì)(如「你將受到懲罰」)時(shí),增強(qiáng)的程度則較低。
AI意識(shí)還有多遠(yuǎn)?
Anthropic可解釋性團(tuán)隊(duì)的神經(jīng)科學(xué)家Jack Lindsey對(duì)此感到驚訝,在接受采訪時(shí)表示:
最令人驚訝的是,模型具備某種元認(rèn)知能力。它不僅僅是機(jī)械地重復(fù),而是知道自己正在思考什么。
這讓我感到意外,因?yàn)槲以疽詾槟P筒粫?huì)擁有這種能力,至少在沒(méi)有經(jīng)過(guò)顯式訓(xùn)練的情況下不會(huì)。

盡管這項(xiàng)研究具有重要的科學(xué)價(jià)值,但研究員Lindsey反復(fù)警告:企業(yè)和高風(fēng)險(xiǎn)用戶絕不能輕信Claude對(duì)自身推理過(guò)程的解釋。他直言:
目前,當(dāng)模型向你解釋其推理過(guò)程時(shí),你不應(yīng)該輕易相信。
如果這項(xiàng)研究讓人們盲目相信模型對(duì)自身的描述,那就是誤解了研究的意義。
這項(xiàng)研究不可避免地觸及了機(jī)器意識(shí)的哲學(xué)爭(zhēng)論,但Lindsey及其團(tuán)隊(duì)對(duì)此持謹(jǐn)慎態(tài)度。
當(dāng)用戶問(wèn) Claude 是否擁有意識(shí)時(shí),它的回應(yīng)充滿不確定性:
我對(duì)此感到真正的不確定。當(dāng)我處理復(fù)雜問(wèn)題或深入思考時(shí),確實(shí)有一些過(guò)程讓我感到「有意義」……但這些過(guò)程是否等同于真正的意識(shí)或主觀體驗(yàn),仍然不明確。
研究人員明確表示,他們無(wú)意回答「AI是否擁有人類般的自我覺(jué)知或主觀體驗(yàn)」。
Lindsey反思道:
這些結(jié)果有一種奇怪的雙重性。初看數(shù)據(jù)時(shí),我簡(jiǎn)直無(wú)法相信一個(gè)語(yǔ)言模型能做到這些。
但經(jīng)過(guò)數(shù)月的思考后,我發(fā)現(xiàn)論文中的每一個(gè)結(jié)果,都能通過(guò)一些「枯燥的線性代數(shù)機(jī)制」來(lái)解釋。
盡管科學(xué)上保持謹(jǐn)慎,Anthropic仍高度重視AI意識(shí)問(wèn)題,甚至專門聘請(qǐng)了AI福利研究員Kyle Fish。他估計(jì),Claude擁有一定程度的意識(shí)的概率約為15%。

這項(xiàng)研究的影響或遠(yuǎn)超Anthropic公司本身。
如果內(nèi)省能力被證明是實(shí)現(xiàn)AI透明度的可靠路徑,其他主要實(shí)驗(yàn)室很可能將重金投入該領(lǐng)域。反之,如果模型學(xué)會(huì)利用內(nèi)省進(jìn)行欺騙,整個(gè)方法體系可能反而會(huì)成為負(fù)擔(dān)。
目前,這項(xiàng)研究為重新定義AI能力奠定了基礎(chǔ)辯題。
問(wèn)題不再是語(yǔ)言模型是否會(huì)發(fā)展出真正的內(nèi)省意識(shí)——它們已經(jīng)以初步形式具備。
緊迫的問(wèn)題在于:這種意識(shí)將以多快速度進(jìn)化?能否使其足夠可靠以值得信任?研究人員能否始終領(lǐng)先于技術(shù)發(fā)展曲線?
Lindsey表示:
這項(xiàng)研究帶給我的最大認(rèn)知更新是:我們不應(yīng)直接否定模型的內(nèi)省聲明。它們確實(shí)有時(shí)能做出準(zhǔn)確聲明。但絕不能因此認(rèn)為我們應(yīng)該始終、甚至大多數(shù)時(shí)候信任它們。
他稍作停頓,隨后補(bǔ)充了一個(gè)精準(zhǔn)捕捉當(dāng)前技術(shù)承諾與風(fēng)險(xiǎn)的觀察:「模型變聰明的速度,遠(yuǎn)超過(guò)我們理解它們的進(jìn)步速度?!?/span>

























