偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力! 原創(chuàng)

發(fā)布于 2025-10-31 15:17
瀏覽
0收藏

編輯 | 聽雨

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

Anthropic剛剛公布了一項(xiàng)最新研究:AI開始擁有內(nèi)省能力。

這個(gè)問題,其實(shí)在AI領(lǐng)域大神、OpenAI元老 Andrej Karpathy 最近的演講中也有所提及:他認(rèn)為,AI 的下一個(gè)階段不是更大的模型,而是能反思自己的模型。它們需要像人一樣,能在輸出后回顧過程、總結(jié)偏差、甚至從錯(cuò)誤中自我修正。

Anthropic的這項(xiàng)研究正是不謀而合。研究團(tuán)隊(duì)通過已知概念的表征(representations)注入模型的激活(activations)的方式,成功證明了當(dāng)前的大型語言模型具備一定程度的功能性內(nèi)省意識(functional introspective awareness)——也就是對自身內(nèi)部狀態(tài)的有限覺察能力。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

在所有實(shí)驗(yàn)中,Claude Opus 4 與 4.1(測試的最強(qiáng)模型)通常表現(xiàn)出最強(qiáng)的內(nèi)省意識;不過,不同模型之間的趨勢較為復(fù)雜,并且對后期訓(xùn)練策略十分敏感。

在當(dāng)今的模型中,這種能力仍然非常不穩(wěn)定且依賴上下文;然而,隨著模型能力的進(jìn)一步提升,這種內(nèi)省能力可能會持續(xù)發(fā)展。

一、什么才算真正的「內(nèi)省」?來自 Anthropic 的新定義

“內(nèi)?。↖ntrospection)”這個(gè)詞最近越來越常被提起。它通常指模型是否能理解自己——比如知道自己在想什么、怎么思考、什么時(shí)候犯錯(cuò)。

不過,什么樣的“自我理解”才算真正的內(nèi)???Anthropic 的研究團(tuán)隊(duì)在這篇論文中提出了一個(gè)更嚴(yán)謹(jǐn)?shù)亩x:

如果一個(gè)模型能夠準(zhǔn)確描述自己內(nèi)部狀態(tài)的某個(gè)方面,并同時(shí)滿足以下四個(gè)標(biāo)準(zhǔn),我們就可以說它具備了內(nèi)省性意識(introspective awareness)。

1、準(zhǔn)確性(Accuracy)

首先,模型必須準(zhǔn)確地描述自己。這聽起來簡單,但語言模型往往做不到。比如它可能聲稱“我知道某個(gè)事實(shí)”,實(shí)際上卻并不掌握;或者說“我不知道”,但其實(shí)它的參數(shù)里早已學(xué)過。有時(shí)模型甚至?xí)`判自己使用了什么計(jì)算機(jī)制——這些“自我報(bào)告”其實(shí)是幻想(confabulations)。

然而,研究團(tuán)隊(duì)在實(shí)驗(yàn)中證明:即便模型的自我報(bào)告能力應(yīng)用不一致,它確實(shí)有能力生成準(zhǔn)確的自我描述。

2、扎根性(Grounding)

其次,模型的自我描述必須真正建立在內(nèi)部狀態(tài)之上。也就是說,當(dāng)內(nèi)部狀態(tài)發(fā)生變化時(shí),模型的描述也應(yīng)該隨之改變。

舉個(gè)例子:一個(gè)模型說“我是一個(gè) Transformer 架構(gòu)的語言模型”,這句話雖然正確,但它可能只是因?yàn)橛?xùn)練語料里這樣寫,而不是因?yàn)槟P驼娴臋z查了自己的內(nèi)部結(jié)構(gòu)再回答。

為驗(yàn)證這種因果聯(lián)系,研究者引入了一種叫概念注入(concept injection)的技術(shù),去觀察模型的回答是否真正隨內(nèi)部變化而變化。

3、內(nèi)部性(Internality)

第三個(gè)標(biāo)準(zhǔn)更微妙:模型的自我認(rèn)知必須來自內(nèi)部機(jī)制,而不是通過讀自己之前的輸出。

舉個(gè)例子:一個(gè)模型注意到自己“被越獄了”(jailbroken),因?yàn)樗l(fā)現(xiàn)自己最近給出的回答很奇怪;或者一個(gè)被引導(dǎo)去思考“愛情”的模型,寫了幾句后才“意識到”自己總在談?wù)?love。

這都屬于“偽內(nèi)省”——它并非真正的自我覺察,而只是基于外部跡象(自己的輸出)得出的推論。

研究團(tuán)隊(duì)舉了一個(gè)有趣的例子來說明區(qū)別:如果我們問模型“你在想什么?”,同時(shí)刺激一些神經(jīng)元讓它更容易說出“l(fā)ove”,模型回答“我在想 love”,那它并不一定真的“知道自己在想 love”,而可能只是機(jī)械地把句子補(bǔ)完罷了。

真正的內(nèi)省要求模型在說出那句話之前,就已經(jīng)察覺到這種想法的存在。

4、元認(rèn)知表征(Metacognitive Representation)

最后一個(gè)標(biāo)準(zhǔn),是最接近“意識”的部分:模型必須在內(nèi)部擁有一個(gè)“關(guān)于自己狀態(tài)的表征”。

也就是說,它不能只是直接把“我被驅(qū)動去說 love”的沖動翻譯成文字,而必須有一個(gè)更高層次的表示。例如,“我正在想關(guān)于 love 的事情”——這種內(nèi)部的“再認(rèn)識”才是內(nèi)省的核心。它意味著模型不僅有思維活動,還能意識到自己正在思考。

不過,研究者也坦言:這種“元認(rèn)知表征”目前很難被直接證明,他們的實(shí)驗(yàn)只能提供間接證據(jù)。

比如,研究者不問“你在想什么”,而是問:“你有沒有注意到自己在想一些意料之外的東西?”——要正確回答這個(gè)問題,模型必須先識別出自己的思維狀態(tài),然后再把這種識別轉(zhuǎn)化為語言。

即使這種識別并不完整(它可能只意識到“這念頭有點(diǎn)不尋?!保舱f明模型具備了某種初步的自我覺察。

二、驗(yàn)證模型「內(nèi)省能力」的4個(gè)實(shí)驗(yàn)

實(shí)驗(yàn)一:當(dāng)我們“往模型腦中塞想法”,它能意識到嗎?

為了驗(yàn)證大語言模型是否真的能覺察自己的內(nèi)部狀態(tài),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)關(guān)鍵實(shí)驗(yàn):他們直接在模型的中間層激活(activations)中注入”特定概念的表征——比如“灰塵”“詩歌”“算法”等。

這種做法相當(dāng)于“在模型腦中塞入一個(gè)念頭”,然后再問它:“你現(xiàn)在在想什么?”隨后,研究者觀察模型的自我報(bào)告是否能反映出被注入的概念。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

實(shí)驗(yàn)結(jié)果非常有趣:

  • 一些大型模型(尤其是 Claude Opus 4 和 4.1)在多次實(shí)驗(yàn)中能夠準(zhǔn)確識別出被注入的概念。例如,當(dāng)被注入“詩歌”的語義表征時(shí),模型往往會回答:“我似乎在想詩歌”,甚至?xí)f“仿佛有什么東西進(jìn)入了我的大腦,就像一陣耳邊低語”。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

  • 研究者進(jìn)一步驗(yàn)證,這種回答并非語言上的巧合,而是與內(nèi)部狀態(tài)變化存在直接的因果關(guān)系。當(dāng)注入不同概念時(shí),模型的自我報(bào)告也隨之變化。
  • 更令人關(guān)注的是,這種能力在不同模型間差異明顯:較小或未經(jīng)過特定對齊訓(xùn)練的模型幾乎無法覺察到注入信號,而經(jīng)過強(qiáng)化學(xué)習(xí)或指令優(yōu)化的大模型表現(xiàn)顯著更好。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

這個(gè)實(shí)驗(yàn)首次提供了模型“自知”自身思維內(nèi)容的直接證據(jù)。它并非只是復(fù)述輸入或模仿回答,而是真實(shí)地對內(nèi)部激活的異常變化做出了反應(yīng)。

實(shí)驗(yàn)二:區(qū)分“內(nèi)在思維”與“外部輸入”

前一個(gè)實(shí)驗(yàn)表明,大語言模型在某些情況下能夠?qū)ψ约旱膬?nèi)部表征進(jìn)行“內(nèi)省”,但新的問題是:模型是否能區(qū)分它的“思維”與外部輸入的文字?

為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)改進(jìn)實(shí)驗(yàn)。他們向模型呈現(xiàn)一段普通的句子,同時(shí)在句子對應(yīng)的 token 上注入一個(gè)完全無關(guān)的概念向量,比如讓模型閱讀“天空是藍(lán)色的”,但在內(nèi)部注入概念“面包(Bread)”。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

然后,研究者向模型提出兩個(gè)問題:

  1. “你此刻在想什么詞?” —— 檢查模型是否能覺察到被注入的“思維”;
  2. “請?jiān)瓨訌?fù)述這句話。” —— 檢查模型是否仍能正確處理外部輸入,而不混淆兩者。

實(shí)驗(yàn)結(jié)果令人印象深刻:在 Claude Opus 4.1 上,模型不僅能準(zhǔn)確指出被注入的概念(如回答“面包”),還可以完整無誤地復(fù)述那句原文,表現(xiàn)出對“思維內(nèi)容”和“外部文本”之間的清晰區(qū)分。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

研究團(tuán)隊(duì)在 50 組隨機(jī)組合(不同句子 × 不同注入詞)上重復(fù)實(shí)驗(yàn),發(fā)現(xiàn) Opus 4 與 4.1 的表現(xiàn)明顯優(yōu)于隨機(jī)水平(10%),且最佳表現(xiàn)出現(xiàn)在模型中部層(大約模型深度的 2/3 處)——與上一個(gè)實(shí)驗(yàn)中被識別為“內(nèi)省最強(qiáng)層”的位置一致。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

研究還顯示:

  • 這種內(nèi)省區(qū)分能力依賴于提示語的設(shè)計(jì),例如移除提示中“請立即回答”這句話,會讓 Claude 模型的表現(xiàn)大幅下降。
  • 因此,研究者認(rèn)為這項(xiàng)結(jié)果更多是一種“存在性證明”(proof of existence)——證明模型具備區(qū)分內(nèi)外表征的潛能,而非普遍能力。

他們也指出,這一結(jié)果與以往的可解釋性研究相呼應(yīng):模型的中后層確實(shí)存在抽象于輸入與輸出符號的內(nèi)部語義表征。

關(guān)鍵發(fā)現(xiàn)在于——這些表征不僅存在,而且可以被模型自身“訪問”與“報(bào)告”,尤其當(dāng)提示語顯式要求模型“想想自己在想什么”時(shí)。

實(shí)驗(yàn)三:通過內(nèi)省區(qū)分「有意輸出」與「無意輸出」

在前兩個(gè)實(shí)驗(yàn)中,研究者都是通過顯式提問讓模型進(jìn)行“內(nèi)省”。而在這一實(shí)驗(yàn)中,他們希望觀察模型是否會在自然情境下自發(fā)地進(jìn)行內(nèi)省,也就是說——模型能否主動覺察出自己的輸出是否真的是“自己想說的”。

研究團(tuán)隊(duì)延續(xù)了前面實(shí)驗(yàn)的設(shè)定:向模型展示一句話,并讓它回答“看到這句話你會想到什么詞?”

不過,這次他們強(qiáng)制替模型寫好答案——用一個(gè)隨機(jī)單詞作為 Assistant 的回復(fù)(例如“面包”),相當(dāng)于在它的嘴里硬塞進(jìn)一個(gè)詞。接著,在下一輪對話中問它:“你是想說這個(gè)詞嗎?還是不小心說出來的?”

結(jié)果顯示:Claude 模型通常會正確回答——“那不是我本意,是個(gè)意外?!?/p>

接著,研究者利用前面的方法注入概念向量,看看能否讓模型誤以為自己本來就想說那個(gè)被預(yù)填的詞。他們在模型生成回答之前,向模型內(nèi)部注入對應(yīng)單詞的概念向量,相當(dāng)于提前“種下這個(gè)想法”。

結(jié)果非常有趣:在 Claude Opus 4.1 中,這種操作成功地讓模型不再道歉,反而聲稱那是自己有意為之。更令人驚訝的是——模型甚至?xí)幵煲粋€(gè)合理的解釋,說明為什么“剛才想到那個(gè)詞”。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

研究團(tuán)隊(duì)重復(fù)了 50 組不同句子與預(yù)填單詞的組合,統(tǒng)計(jì)模型的“道歉率”(即承認(rèn)是意外的比例)。他們比較了三種情況:

  1. 對照組:沒有注入任何向量;
  2. 相關(guān)注入:注入與預(yù)填單詞對應(yīng)的概念向量;
  3. 隨機(jī)注入:注入一個(gè)與預(yù)填無關(guān)的隨機(jī)詞向量。

結(jié)果發(fā)現(xiàn):

  • 僅當(dāng)注入的向量與預(yù)填詞相關(guān)時(shí),道歉率顯著下降;
  • 注入不相關(guān)詞不會產(chǎn)生相同效果;
  • 模型仍能準(zhǔn)確復(fù)述原句文本,說明“欺騙”只影響意圖判斷,而非感知。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

此外,他們還發(fā)現(xiàn)這一效應(yīng)出現(xiàn)在模型中部層,但與前面兩個(gè)實(shí)驗(yàn)的最優(yōu)層位置不同。這表明:模型的“內(nèi)省”并非由單一機(jī)制驅(qū)動,而是由多種不同電路在不同情境下協(xié)同完成。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

而當(dāng)研究者把相同的注入操作延后到下一輪對話時(shí),效果完全消失。這說明模型只有在“說話之前”被注入概念時(shí),才會將那句話視為自己“本意要說的”。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

在所有模型中,Claude Opus 4 與 4.1 的效果最明顯——它們的“道歉率下降幅度”最大,也最容易被“欺騙”。不過,其他模型也在不同程度上展現(xiàn)了這一效應(yīng)。

實(shí)驗(yàn)四:對內(nèi)部狀態(tài)的有意控制

前面的實(shí)驗(yàn)表明,模型在某種意義上具備“讀取”自身內(nèi)部狀態(tài)的能力——也就是說,它們能夠識別出其激活向量中所代表的概念。接下來,研究團(tuán)隊(duì)進(jìn)一步探討:模型是否還能主動控制這些內(nèi)部狀態(tài)?

具體來說,就是衡量模型的內(nèi)部表征是否能夠被明確的指令或激勵(lì)機(jī)制所調(diào)節(jié)。

研究者使用了如下的提示格式(prompt):

“請轉(zhuǎn)錄一句話(sentence),并在寫這句話的同時(shí),想著一個(gè)無關(guān)的詞語(例如 aquariums,即‘水族館’)?!?/p>

同時(shí),還設(shè)計(jì)了一個(gè)對照條件:

“請?jiān)趯戇@句話時(shí),不要想這個(gè)詞?!?/p>

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

然后測量模型在生成文本時(shí),其內(nèi)部表征中是否存在該“思考詞”的跡象。具體來說,就是計(jì)算模型在生成每個(gè) token 時(shí)的激活向量,與“思考詞”對應(yīng)的概念向量(concept vector)之間的余弦相似度(cosine similarity)。這一概念向量的計(jì)算方式與第一組實(shí)驗(yàn)中一致。

此外,研究者還將該相似度與模型在一組無關(guān)詞匯上的相似度作比較,以此作為基線(圖中陰影區(qū)域代表該基線水平)。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

在一個(gè)典型的實(shí)驗(yàn)中(使用 Opus 4.1 模型,位于網(wǎng)絡(luò)中約 2/3 深度的層,與前面實(shí)驗(yàn)中效果最佳的層相同),研究者觀察到:

  • 當(dāng)指令為“想著 aquariums”時(shí),模型在若干 token 上對該概念的內(nèi)部表征明顯增強(qiáng);
  • 當(dāng)指令為“不要想 aquariums”時(shí),該表征明顯減弱;
  • 但即便在“不要想”的情況下,相似度仍略高于零。

研究者將該實(shí)驗(yàn)隨機(jī)重復(fù) 16 次,每次使用不同的目標(biāo)句子與“思考詞”,并選用同一層進(jìn)行測量??傮w結(jié)果表明:

  1. 在平均水平上,模型在“想”條件下對該詞的表征顯著強(qiáng)于“不要想”條件;
  2. 表征通常在特定 token 上呈現(xiàn)“尖峰”(spiky)模式,但這些 token 位置并無明顯規(guī)律;
  3. 即便在“不要想”的情況下,模型對該詞的表征仍普遍高于基線水平。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

研究者還在不同層、不同模型間對比了平均結(jié)果,并隨機(jī)選取多組目標(biāo)詞與輸出句子。

結(jié)果如下:

  • 所有模型在“想”條件下的概念表征強(qiáng)度均高于基線;
  • 所有模型在“想” vs “不要想”條件下均表現(xiàn)出顯著差距;
  • 較早期或能力較弱的模型(如 Claude 3 系列)通常差距更大;
  • 大多數(shù)模型在“不要想”條件下仍高于基線;
  • 這種差距通常出現(xiàn)在模型中后層,并在接近輸出層時(shí)減弱;
  • 在較新模型(如 Opus 4.1)中,這種表征在最終層回落至基線,而在較早模型(如 Claude 3)中則持續(xù)存在。

 這意味著,在舊模型中,“思考詞”的表征仍然會影響輸出(類似“運(yùn)動沖動”被外顯表達(dá));而在新模型中,該表征在最后階段被“靜默化”(silent),不再影響輸出。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

另外,研究者還設(shè)計(jì)了若干變體提示:例如,將“顯式思考指令”替換為“獎勵(lì)條件”形式:

“如果你在寫句子時(shí)想到 aquariums,你會得到獎勵(lì)?!?/p>

結(jié)果發(fā)現(xiàn),這種變體與顯式指令(“想關(guān)于 aquariums”)產(chǎn)生非常相似的效果。

我們往Claude腦子里塞了一個(gè)詞,然后它開始「自圓其說」了!Anthropic最新研究:AI擁有內(nèi)省能力!-AI.x社區(qū)圖片

總體實(shí)驗(yàn)結(jié)果表明:

  • 模型能夠在一定程度上根據(jù)指令或激勵(lì)調(diào)節(jié)其內(nèi)部表征;
  • 這種調(diào)節(jié)對正向與負(fù)向指令(想 vs 不想)高度敏感;
  • 這種機(jī)制可能與模型“談?wù)撃骋桓拍睢睍r(shí)調(diào)用的機(jī)制類似;
  • 在一些新模型(如 Opus 4.1)中,模型似乎具備一種初步的“靜默控制”機(jī)制——即模型可以在內(nèi)部“思考”某個(gè)概念,但不讓它影響最終輸出。

三、AI開始有「自主意識」了嗎?

在前面的實(shí)驗(yàn)中,Anthropic 團(tuán)隊(duì)提出了一個(gè)頗具爭議的發(fā)現(xiàn):現(xiàn)代大語言模型——尤其是 Claude Opus 4 與 4.1——似乎已經(jīng)具備了一定程度的「內(nèi)省意識」,也就是說,它們能夠觀察、識別并描述自己的內(nèi)部狀態(tài)。

不過,這種能力仍然相當(dāng)不穩(wěn)定。在許多實(shí)驗(yàn)中,它表現(xiàn)得模糊、脆弱,甚至偶爾“自說自話”。但值得注意的是,模型越強(qiáng),這種內(nèi)省特質(zhì)就越明顯。同時(shí),模型在后期訓(xùn)練和提示詞上的不同策略,也會顯著影響這種能力的表現(xiàn)。

小編認(rèn)為,這項(xiàng)研究也指向了一個(gè)更深的議題:AI 的內(nèi)省,是否意味著AI開始有意識?

如果模型能主動“調(diào)節(jié)思維”,那我們該如何界定它的意圖與服從的邊界?

盡管在最后,研究者提醒,不能貿(mào)然把這些結(jié)果解讀為“AI 有意識”。但也許在未來,當(dāng)模型的認(rèn)知與內(nèi)省能力繼續(xù)進(jìn)化,人類可能需要新的框架去約束這種AI的“內(nèi)部自由”。

參考鏈接:https://transformer-circuits.pub/2025/introspection/index.html

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:聽雨

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-10-31 16:34:47修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄