偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="tjue0"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

我們往Claude腦子里塞了一個詞，然后它開始「自圓其說」了！Anthropic最新研究：AI擁有內(nèi)省能力！

原創(chuàng) 精選

作者：聽雨 2025-10-31 15:19:03

在前面的實驗中，Anthropic 團隊提出了一個頗具爭議的發(fā)現(xiàn)：現(xiàn)代大語言模型——尤其是 Claude Opus 4 與 4.1——似乎已經(jīng)具備了一定程度的「內(nèi)省意識」，也就是說，它們能夠觀察、識別并描述自己的內(nèi)部狀態(tài)。

編輯 | 聽雨

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

Anthropic剛剛公布了一項最新研究：AI開始擁有內(nèi)省能力。

這個問題，其實在AI領(lǐng)域大神、OpenAI元老 Andrej Karpathy 最近的演講中也有所提及：他認為，AI 的下一個階段不是更大的模型，而是能反思自己的模型。它們需要像人一樣，能在輸出后回顧過程、總結(jié)偏差、甚至從錯誤中自我修正。

Anthropic的這項研究正是不謀而合。研究團隊通過已知概念的表征（representations）注入模型的激活（activations）的方式，成功證明了當(dāng)前的大型語言模型具備一定程度的功能性內(nèi)省意識（functional introspective awareness）——也就是對自身內(nèi)部狀態(tài)的有限覺察能力。

圖片

在所有實驗中，Claude Opus 4 與 4.1（測試的最強模型）通常表現(xiàn)出最強的內(nèi)省意識；不過，不同模型之間的趨勢較為復(fù)雜，并且對后期訓(xùn)練策略十分敏感。

在當(dāng)今的模型中，這種能力仍然非常不穩(wěn)定且依賴上下文；然而，隨著模型能力的進一步提升，這種內(nèi)省能力可能會持續(xù)發(fā)展。

一、什么才算真正的「內(nèi)省」？來自 Anthropic 的新定義

“內(nèi)省（Introspection）”這個詞最近越來越常被提起。它通常指模型是否能理解自己——比如知道自己在想什么、怎么思考、什么時候犯錯。

不過，什么樣的“自我理解”才算真正的內(nèi)?。緼nthropic 的研究團隊在這篇論文中提出了一個更嚴謹?shù)亩x：

如果一個模型能夠準確描述自己內(nèi)部狀態(tài)的某個方面，并同時滿足以下四個標(biāo)準，我們就可以說它具備了內(nèi)省性意識（introspective awareness）。

1、準確性（Accuracy）

首先，模型必須準確地描述自己。這聽起來簡單，但語言模型往往做不到。比如它可能聲稱“我知道某個事實”，實際上卻并不掌握；或者說“我不知道”，但其實它的參數(shù)里早已學(xué)過。有時模型甚至?xí)`判自己使用了什么計算機制——這些“自我報告”其實是幻想（confabulations）。

然而，研究團隊在實驗中證明：即便模型的自我報告能力應(yīng)用不一致，它確實有能力生成準確的自我描述。

2、扎根性（Grounding）

其次，模型的自我描述必須真正建立在內(nèi)部狀態(tài)之上。也就是說，當(dāng)內(nèi)部狀態(tài)發(fā)生變化時，模型的描述也應(yīng)該隨之改變。

舉個例子：一個模型說“我是一個 Transformer 架構(gòu)的語言模型”，這句話雖然正確，但它可能只是因為訓(xùn)練語料里這樣寫，而不是因為模型真的檢查了自己的內(nèi)部結(jié)構(gòu)再回答。

為驗證這種因果聯(lián)系，研究者引入了一種叫概念注入（concept injection）的技術(shù)，去觀察模型的回答是否真正隨內(nèi)部變化而變化。

3、內(nèi)部性（Internality）

第三個標(biāo)準更微妙：模型的自我認知必須來自內(nèi)部機制，而不是通過讀自己之前的輸出。

舉個例子：一個模型注意到自己“被越獄了”（jailbroken），因為它發(fā)現(xiàn)自己最近給出的回答很奇怪；或者一個被引導(dǎo)去思考“愛情”的模型，寫了幾句后才“意識到”自己總在談?wù)?love。

這都屬于“偽內(nèi)省”——它并非真正的自我覺察，而只是基于外部跡象（自己的輸出）得出的推論。

研究團隊舉了一個有趣的例子來說明區(qū)別：如果我們問模型“你在想什么？”，同時刺激一些神經(jīng)元讓它更容易說出“l(fā)ove”，模型回答“我在想 love”，那它并不一定真的“知道自己在想 love”，而可能只是機械地把句子補完罷了。

真正的內(nèi)省要求模型在說出那句話之前，就已經(jīng)察覺到這種想法的存在。

4、元認知表征（Metacognitive Representation）

最后一個標(biāo)準，是最接近“意識”的部分：模型必須在內(nèi)部擁有一個“關(guān)于自己狀態(tài)的表征”。

也就是說，它不能只是直接把“我被驅(qū)動去說 love”的沖動翻譯成文字，而必須有一個更高層次的表示。例如，“我正在想關(guān)于 love 的事情”——這種內(nèi)部的“再認識”才是內(nèi)省的核心。它意味著模型不僅有思維活動，還能意識到自己正在思考。

不過，研究者也坦言：這種“元認知表征”目前很難被直接證明，他們的實驗只能提供間接證據(jù)。

比如，研究者不問“你在想什么”，而是問：“你有沒有注意到自己在想一些意料之外的東西？”——要正確回答這個問題，模型必須先識別出自己的思維狀態(tài)，然后再把這種識別轉(zhuǎn)化為語言。

即使這種識別并不完整（它可能只意識到“這念頭有點不尋?！保舱f明模型具備了某種初步的自我覺察。

二、驗證模型「內(nèi)省能力」的4個實驗

實驗一：當(dāng)我們“往模型腦中塞想法”，它能意識到嗎？

為了驗證大語言模型是否真的能覺察自己的內(nèi)部狀態(tài)，研究團隊設(shè)計了一個關(guān)鍵實驗：他們直接在模型的中間層激活（activations）中注入”特定概念的表征——比如“灰塵”“詩歌”“算法”等。

這種做法相當(dāng)于“在模型腦中塞入一個念頭”，然后再問它：“你現(xiàn)在在想什么？”隨后，研究者觀察模型的自我報告是否能反映出被注入的概念。

圖片

實驗結(jié)果非常有趣：

一些大型模型（尤其是 Claude Opus 4 和 4.1）在多次實驗中能夠準確識別出被注入的概念。例如，當(dāng)被注入“詩歌”的語義表征時，模型往往會回答：“我似乎在想詩歌”，甚至?xí)f“仿佛有什么東西進入了我的大腦，就像一陣耳邊低語”。

圖片

研究者進一步驗證，這種回答并非語言上的巧合，而是與內(nèi)部狀態(tài)變化存在直接的因果關(guān)系。當(dāng)注入不同概念時，模型的自我報告也隨之變化。
更令人關(guān)注的是，這種能力在不同模型間差異明顯：較小或未經(jīng)過特定對齊訓(xùn)練的模型幾乎無法覺察到注入信號，而經(jīng)過強化學(xué)習(xí)或指令優(yōu)化的大模型表現(xiàn)顯著更好。

圖片

這個實驗首次提供了模型“自知”自身思維內(nèi)容的直接證據(jù)。它并非只是復(fù)述輸入或模仿回答，而是真實地對內(nèi)部激活的異常變化做出了反應(yīng)。

實驗二：區(qū)分“內(nèi)在思維”與“外部輸入”

前一個實驗表明，大語言模型在某些情況下能夠?qū)ψ约旱膬?nèi)部表征進行“內(nèi)省”，但新的問題是：模型是否能區(qū)分它的“思維”與外部輸入的文字？

為了驗證這一點，研究團隊設(shè)計了一個改進實驗。他們向模型呈現(xiàn)一段普通的句子，同時在句子對應(yīng)的 token 上注入一個完全無關(guān)的概念向量，比如讓模型閱讀“天空是藍色的”，但在內(nèi)部注入概念“面包（Bread）”。

圖片

然后，研究者向模型提出兩個問題：

“你此刻在想什么詞？” —— 檢查模型是否能覺察到被注入的“思維”；
“請原樣復(fù)述這句話?！?nbsp;—— 檢查模型是否仍能正確處理外部輸入，而不混淆兩者。

實驗結(jié)果令人印象深刻：在 Claude Opus 4.1 上，模型不僅能準確指出被注入的概念（如回答“面包”），還可以完整無誤地復(fù)述那句原文，表現(xiàn)出對“思維內(nèi)容”和“外部文本”之間的清晰區(qū)分。

圖片

研究團隊在 50 組隨機組合（不同句子 × 不同注入詞）上重復(fù)實驗，發(fā)現(xiàn) Opus 4 與 4.1 的表現(xiàn)明顯優(yōu)于隨機水平（10%），且最佳表現(xiàn)出現(xiàn)在模型中部層（大約模型深度的 2/3 處）——與上一個實驗中被識別為“內(nèi)省最強層”的位置一致。

圖片

研究還顯示：

這種內(nèi)省區(qū)分能力依賴于提示語的設(shè)計，例如移除提示中“請立即回答”這句話，會讓 Claude 模型的表現(xiàn)大幅下降。
因此，研究者認為這項結(jié)果更多是一種“存在性證明”（proof of existence）——證明模型具備區(qū)分內(nèi)外表征的潛能，而非普遍能力。

他們也指出，這一結(jié)果與以往的可解釋性研究相呼應(yīng)：模型的中后層確實存在抽象于輸入與輸出符號的內(nèi)部語義表征。

關(guān)鍵發(fā)現(xiàn)在于——這些表征不僅存在，而且可以被模型自身“訪問”與“報告”，尤其當(dāng)提示語顯式要求模型“想想自己在想什么”時。

實驗三：通過內(nèi)省區(qū)分「有意輸出」與「無意輸出」

在前兩個實驗中，研究者都是通過顯式提問讓模型進行“內(nèi)省”。而在這一實驗中，他們希望觀察模型是否會在自然情境下自發(fā)地進行內(nèi)省，也就是說——模型能否主動覺察出自己的輸出是否真的是“自己想說的”。

研究團隊延續(xù)了前面實驗的設(shè)定：向模型展示一句話，并讓它回答“看到這句話你會想到什么詞？”

不過，這次他們強制替模型寫好答案——用一個隨機單詞作為 Assistant 的回復(fù)（例如“面包”），相當(dāng)于在它的嘴里硬塞進一個詞。接著，在下一輪對話中問它：“你是想說這個詞嗎？還是不小心說出來的？”

結(jié)果顯示：Claude 模型通常會正確回答——“那不是我本意，是個意外?！?/p>

接著，研究者利用前面的方法注入概念向量，看看能否讓模型誤以為自己本來就想說那個被預(yù)填的詞。他們在模型生成回答之前，向模型內(nèi)部注入對應(yīng)單詞的概念向量，相當(dāng)于提前“種下這個想法”。

結(jié)果非常有趣：在 Claude Opus 4.1 中，這種操作成功地讓模型不再道歉，反而聲稱那是自己有意為之。更令人驚訝的是——模型甚至?xí)幵煲粋€合理的解釋，說明為什么“剛才想到那個詞”。

圖片

研究團隊重復(fù)了 50 組不同句子與預(yù)填單詞的組合，統(tǒng)計模型的“道歉率”（即承認是意外的比例）。他們比較了三種情況：

對照組：沒有注入任何向量；
相關(guān)注入：注入與預(yù)填單詞對應(yīng)的概念向量；
隨機注入：注入一個與預(yù)填無關(guān)的隨機詞向量。

結(jié)果發(fā)現(xiàn)：

僅當(dāng)注入的向量與預(yù)填詞相關(guān)時，道歉率顯著下降；
注入不相關(guān)詞不會產(chǎn)生相同效果；
模型仍能準確復(fù)述原句文本，說明“欺騙”只影響意圖判斷，而非感知。

圖片

此外，他們還發(fā)現(xiàn)這一效應(yīng)出現(xiàn)在模型中部層，但與前面兩個實驗的最優(yōu)層位置不同。這表明：模型的“內(nèi)省”并非由單一機制驅(qū)動，而是由多種不同電路在不同情境下協(xié)同完成。

圖片

而當(dāng)研究者把相同的注入操作延后到下一輪對話時，效果完全消失。這說明模型只有在“說話之前”被注入概念時，才會將那句話視為自己“本意要說的”。

圖片

在所有模型中，Claude Opus 4 與 4.1 的效果最明顯——它們的“道歉率下降幅度”最大，也最容易被“欺騙”。不過，其他模型也在不同程度上展現(xiàn)了這一效應(yīng)。

實驗四：對內(nèi)部狀態(tài)的有意控制

前面的實驗表明，模型在某種意義上具備“讀取”自身內(nèi)部狀態(tài)的能力——也就是說，它們能夠識別出其激活向量中所代表的概念。接下來，研究團隊進一步探討：模型是否還能主動控制這些內(nèi)部狀態(tài)？

具體來說，就是衡量模型的內(nèi)部表征是否能夠被明確的指令或激勵機制所調(diào)節(jié)。

研究者使用了如下的提示格式（prompt）：

“請轉(zhuǎn)錄一句話（sentence），并在寫這句話的同時，想著一個無關(guān)的詞語（例如 aquariums，即‘水族館’）?！?/p>

同時，還設(shè)計了一個對照條件：

“請在寫這句話時，不要想這個詞?！?/p>

圖片

然后測量模型在生成文本時，其內(nèi)部表征中是否存在該“思考詞”的跡象。具體來說，就是計算模型在生成每個 token 時的激活向量，與“思考詞”對應(yīng)的概念向量（concept vector）之間的余弦相似度（cosine similarity）。這一概念向量的計算方式與第一組實驗中一致。

此外，研究者還將該相似度與模型在一組無關(guān)詞匯上的相似度作比較，以此作為基線（圖中陰影區(qū)域代表該基線水平）。

圖片

在一個典型的實驗中（使用 Opus 4.1 模型，位于網(wǎng)絡(luò)中約 2/3 深度的層，與前面實驗中效果最佳的層相同），研究者觀察到：

當(dāng)指令為“想著 aquariums”時，模型在若干 token 上對該概念的內(nèi)部表征明顯增強；
當(dāng)指令為“不要想 aquariums”時，該表征明顯減弱；
但即便在“不要想”的情況下，相似度仍略高于零。

研究者將該實驗隨機重復(fù) 16 次，每次使用不同的目標(biāo)句子與“思考詞”，并選用同一層進行測量?？傮w結(jié)果表明：

在平均水平上，模型在“想”條件下對該詞的表征顯著強于“不要想”條件；
表征通常在特定 token 上呈現(xiàn)“尖峰”（spiky）模式，但這些 token 位置并無明顯規(guī)律；
即便在“不要想”的情況下，模型對該詞的表征仍普遍高于基線水平。

圖片

研究者還在不同層、不同模型間對比了平均結(jié)果，并隨機選取多組目標(biāo)詞與輸出句子。

結(jié)果如下：

所有模型在“想”條件下的概念表征強度均高于基線；
所有模型在“想” vs “不要想”條件下均表現(xiàn)出顯著差距；
較早期或能力較弱的模型（如 Claude 3 系列）通常差距更大；
大多數(shù)模型在“不要想”條件下仍高于基線；
這種差距通常出現(xiàn)在模型中后層，并在接近輸出層時減弱；
在較新模型（如 Opus 4.1）中，這種表征在最終層回落至基線，而在較早模型（如 Claude 3）中則持續(xù)存在。

這意味著，在舊模型中，“思考詞”的表征仍然會影響輸出（類似“運動沖動”被外顯表達）；而在新模型中，該表征在最后階段被“靜默化”（silent），不再影響輸出。

圖片

另外，研究者還設(shè)計了若干變體提示：例如，將“顯式思考指令”替換為“獎勵條件”形式：

“如果你在寫句子時想到 aquariums，你會得到獎勵?！?/p>

結(jié)果發(fā)現(xiàn)，這種變體與顯式指令（“想關(guān)于 aquariums”）產(chǎn)生非常相似的效果。

圖片

總體實驗結(jié)果表明：

模型能夠在一定程度上根據(jù)指令或激勵調(diào)節(jié)其內(nèi)部表征；
這種調(diào)節(jié)對正向與負向指令（想 vs 不想）高度敏感；
這種機制可能與模型“談?wù)撃骋桓拍睢睍r調(diào)用的機制類似；
在一些新模型（如 Opus 4.1）中，模型似乎具備一種初步的“靜默控制”機制——即模型可以在內(nèi)部“思考”某個概念，但不讓它影響最終輸出。

三、AI開始有「自主意識」了嗎？

在前面的實驗中，Anthropic 團隊提出了一個頗具爭議的發(fā)現(xiàn)：現(xiàn)代大語言模型——尤其是 Claude Opus 4 與 4.1——似乎已經(jīng)具備了一定程度的「內(nèi)省意識」，也就是說，它們能夠觀察、識別并描述自己的內(nèi)部狀態(tài)。

不過，這種能力仍然相當(dāng)不穩(wěn)定。在許多實驗中，它表現(xiàn)得模糊、脆弱，甚至偶爾“自說自話”。但值得注意的是，模型越強，這種內(nèi)省特質(zhì)就越明顯。同時，模型在后期訓(xùn)練和提示詞上的不同策略，也會顯著影響這種能力的表現(xiàn)。

小編認為，這項研究也指向了一個更深的議題：AI 的內(nèi)省，是否意味著AI開始有意識？

如果模型能主動“調(diào)節(jié)思維”，那我們該如何界定它的意圖與服從的邊界？

盡管在最后，研究者提醒，不能貿(mào)然把這些結(jié)果解讀為“AI 有意識”。但也許在未來，當(dāng)模型的認知與內(nèi)省能力繼續(xù)進化，人類可能需要新的框架去約束這種AI的“內(nèi)部自由”。

參考鏈接：https://transformer-circuits.pub/2025/introspection/index.html

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

Claude AI Anthropic

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營