偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="btegd"></pre>

<meter id="btegd"><dfn id="btegd"></dfn></meter>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

最懂Claude內(nèi)部運作團隊采訪流出：大模型輸出的思考全是拍馬屁！曝自家減少幻覺路徑；絕非只預測下一個詞。網(wǎng)友：這都敢免費公開

原創(chuàng) 精選

作者：云昭 2025-08-20 08:34:48

當一個?AI?模型在“思考”時，內(nèi)部到底發(fā)生了什么？為什么?AI?模型會表現(xiàn)得諂媚？為什么它們會產(chǎn)生幻覺？AI?模型只是“高級的自動補全工具”，還是說其中存在更復雜的機制？目前 Anthropic 有哪些科學的方式研究這些問題？研究進展如何？

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

上周末，Anthropic 團隊放出了一個非常優(yōu)質(zhì)的播客。

話題的敏感尺度很大，頭排的聽眾們都替Claude擔心了起來，驚呼：這種“核心機密”竟然敢免費公開嗎？

甚至有網(wǎng)友表示，第一次從頭到尾把60分鐘的播客聽完了。

小編好久沒看見這樣的評價了。

可以說，這期播客在某種程度上，向我們展示了 Claude 為何是市面上最好的模型。

這期播客的主題可以說直戳大模型的靈魂：大模型究竟是如何思考的？

當一個 AI 模型在“思考”時，內(nèi)部到底發(fā)生了什么？為什么 AI 模型會表現(xiàn)得諂媚？為什么它們會產(chǎn)生幻覺？

AI 模型只是“高級的自動補全工具”，還是說其中存在更復雜的機制？

目前 Anthropic 有哪些科學的方式研究這些問題？研究進展如何？

這些靈魂拷問，幾位 Anthropic 的研究員居然知無不言的肆意探討了起來。全然不擔心被競品友商聽了去致敬。

這次播客的三位嘉賓: Josh Batson、Emmanuel Ameisen 和 Jack Lindsey 均來自 Anthropic 的可解釋性團隊。這個團隊可以說是，自成立之初就與公司的使命緊緊相連。

前不久小編也發(fā)表了一篇他們團隊發(fā)現(xiàn)的大模型性格角色的黑化開關(guān)：人格向量，可以說，這一次的播客，算是系統(tǒng)講解了他們是如何研究Claude模型的底層think模式的，以及如何解釋它的幻覺產(chǎn)生機制。

（簡單理解就是，他們可以為大模型內(nèi)部拍一張核磁共振的“腦電圖”，研究大模型產(chǎn)生某種行為和腦電圖點亮的區(qū)域之間的關(guān)系。）

更重要的是，他們提出了一種可以被大眾廣泛理解的“概念”，并用一種類似“計算電路”的抽象，解釋了大模型絕對不是外界理解的死記硬背，而是有著自己獨有的思考運作。

搞大模型就像，“搞飛機”，Anthropic 可解釋性團隊希望，通過他們的研究，給出了兩條幾乎完全不同的路徑，讓大家了解大模型團隊究竟是如何“搞飛機”，從而讓大模型變得更可信任、更安全。

話不多說，這起播客的話題雖然燒腦，但含金量屬實太高了，而且講解也沒大家想的那么深奧，還很有趣。

比如，播客中爆料：

在Claude等模型中，人類要求它寫出的思考過程，并非是大模型真實的思考過程：

那只是大模型在“裝”認真解題，是“拍馬屁式忽悠”！

再比如，大模型寫押韻詩，并不是逐字去計算的，而是會提前規(guī)劃，連最后一個字都想好了，然后才去輸出。

還有，算一個“6+9”的數(shù)學問題時，大模型并不是像人類一樣先算個位數(shù)，而是并行運算十位數(shù)和個位數(shù)。

即便如此，Anthropic 的大牛們也坦承：現(xiàn)在他們也只搞清楚了10～20%的大模型內(nèi)部運作機制，還有很多問題，比如各部分獨立電路是如何傳遞信號的等等，都有待研究。

OK，真的是“既興奮”、又讓人有挫敗感～

料真的很足，從小編開始翻譯到整理，足足過去了兩天。各位不妨細讀，建議收藏。

大模型內(nèi)部更像是生物學、而非物理學

主持人：當你在和一個大型語言模型對話時，你究竟是在和什么東西對話？你是在和一個被放大的自動補全工具對話嗎？還是在和某種像互聯(lián)網(wǎng)搜索引擎一樣的東西對話？又或者，你是在和一個真的會思考、甚至可能像人一樣思考的東西對話？結(jié)果令人有些擔憂的是，沒有人真正知道這些問題的答案。而在 Anthropic，我們對找出這些答案非常感興趣。我們的方式是通過“可解釋性”。這門科學就是把大型語言模型打開，觀察它的內(nèi)部，在它回答問題的過程中，嘗試弄清楚里面究竟發(fā)生了什么。

我很高興今天請來了我們可解釋性團隊的三位成員，他們會和我聊一聊他們最近在 Claude（我們的語言模型）復雜內(nèi)部機制方面做的研究。請做一下自我介紹。

Jack：大家好，我是 Jack，是可解釋性團隊的研究員。在此之前，我是個神經(jīng)科學家?，F(xiàn)在，我在做關(guān)于 AI 的“神經(jīng)科學”。

Emmanuel：我是 Emmanuel。我也是可解釋性團隊的成員，我職業(yè)生涯的大部分時間都在構(gòu)建機器學習模型，并試圖理解它們。

Josh：我是 Josh，我同樣在可解釋性團隊。在我之前的研究經(jīng)歷里，我研究過病毒進化。再之前，我是一名數(shù)學家。所以現(xiàn)在，我是在研究這些由數(shù)學構(gòu)造出來的“有機體”的一種生物學。

主持人：等一下，你剛剛說你是在做“生物學”，很多人會對此感到驚訝，因為畢竟這只是一段軟件，對吧？但它并不是普通的軟件，它不像 Microsoft Word 那種軟件。你能解釋一下，當你說你在一個軟件實體上做“生物學”或者“神經(jīng)科學”時，你是什么意思嗎？

Josh：是的，我覺得這更像是一種感覺，而不是字面上的意思。也許這更像是“語言模型的生物學”，而不是“語言模型的物理學”?；蛘吣愕猛叵胍幌脒@些模型是怎么被做出來的。并不是有人在逐行編程，比如“如果用戶說 hi，你也要回答 hi”；“如果用戶問早餐吃什么，你就回答 toast”。模型內(nèi)部并沒有這樣的龐大清單。

主持人：就不像你玩電子游戲時，選一個固定的回應，然后系統(tǒng)里預設(shè)了另一個固定的回應，總是會按那個回應出現(xiàn)。

Josh：是的，模型并不是靠某個龐大的數(shù)據(jù)庫去規(guī)定在每種情況下該說什么。它的訓練方式是——投入大量數(shù)據(jù)，模型一開始幾乎什么都不會說，然后它的內(nèi)部參數(shù)在每一個樣本上不斷被微調(diào)，從而逐漸變得更擅長預測接下來該說什么。最終，它在這方面會變得非常擅長。但由于這種“逐步微調(diào)”的進化過程，等模型訓練完成時，它和最初的樣子幾乎完全不同了，但并不是有人直接去手動調(diào)整所有參數(shù)。因此，你面對的是一個在時間中逐步形成的復雜產(chǎn)物，有點類似于生物形態(tài)隨著時間的演化。這使得它復雜、神秘，同時研究起來也很有趣。

人類嚴重低估了大模型，它不止預測下一個詞，它真在做理解上下文的事情

主持人：那么，它在內(nèi)部真正做的事情呢？我一開始提到，這可以被視作一種自動補全，基本上就是在預測下一個詞，對吧？但它卻能做很多不可思議的事情：它能寫詩、寫長篇故事，能做加法、能做基礎(chǔ)的數(shù)學運算，盡管它里面并沒有內(nèi)置計算器。怎么理解這種現(xiàn)象？它本質(zhì)上只是一次預測一個詞，但結(jié)果卻能做出所有這些令人驚訝的事情，人們一和模型對話就能親眼看到。

Emmanuel：我認為一個重要的點是，當你不斷預測下一個詞時，你會發(fā)現(xiàn)有些詞比其他詞更難預測。語言模型訓練的一部分是預測句子里的那些無聊詞，另一部分是它最終必須學會如何補全等號后面的內(nèi)容。為了做到這一點，它必須在內(nèi)部發(fā)展出某種方式來自己完成計算。所以我們發(fā)現(xiàn)，“預測下一個詞”這個任務(wù)看似簡單，但為了把它做好，模型實際上經(jīng)常需要去考慮在預測的詞之后還會出現(xiàn)什么，或者思考當前這個詞是由怎樣的過程生成的。

主持人：所以說，這需要模型具備某種上下文理解。它并不僅僅是因為“the cat sat on the”這句話出現(xiàn)過很多次，就預測出“mat”（墊子）。而是說，它真的有某種上下文的理解，對吧？

科普下：NLP 領(lǐng)域中有一個經(jīng)典句型是 “The cat sat on the mat.” 該句型在通用英語語料里共現(xiàn)頻率最高，語言模型也通常給 “mat” 最高概率。

Jack：我覺得是的。延續(xù)剛才的生物學類比，我喜歡這樣理解：在某種意義上，人類的目標是生存和繁殖，這是進化塑造我們的目標。但這并不是你平時在腦子里想的事，也不是你時時刻刻在大腦中運行的機制。你會去思考其他的東西，制定目標和計劃，形成各種概念。在更高的層次上，進化賦予了你形成這些思想的能力，來幫助你最終實現(xiàn)繁殖這個目標。但這只是“從內(nèi)部”的體驗，這并不是全部，還有很多其他機制在同時發(fā)生。

主持人：所以你是說，預測下一個詞這個最終目標，其實牽涉了很多其他過程？

Jack：沒錯。模型并不一定把自己看作是在預測下一個詞。它是被這個需求塑造出來的，但在內(nèi)部，它可能發(fā)展出各種中間目標和抽象，來幫助實現(xiàn)這個更高層次的目標。

Josh：有時這種情況是很神秘的。就像我也不太明白我的焦慮究竟是怎樣對祖先的繁殖有幫助的，但我確實被賦予了這種內(nèi)在狀態(tài)，它顯然和進化有某種聯(lián)系。

主持人：所以可以說，把模型僅僅歸結(jié)為“預測下一個詞”是嚴重低估了它的內(nèi)部運行。說它只是預測下一個詞既對，但又不完全對，這種說法大大忽略了模型內(nèi)部真正發(fā)生的事。

Emmanuel：我可能會這樣表述：說它是在預測下一個詞沒錯，但這并不是理解它工作原理的最有用的角度。

團隊自曝：我們能看到大模型內(nèi)部的某些部分在干什么并盡量描述它的思考過程

主持人：那為了理解它的工作原理，你們團隊是怎么做的？

Jack：我們第一步嘗試做的事情，是盡量去描述模型的“思考過程”。比如說，你給模型一段詞序列，它必須輸出點什么，必須生成一個詞，或者一串詞來回應你的問題。我們想知道，它是如何從 A 到 B 的。

我們認為，在這個從 A 到 B 的過程中，它會經(jīng)歷一系列“步驟”，在這些步驟里，它會“思考”一些概念。包括低層次的概念，比如具體的對象或詞語；也包括高層次的概念，比如目標、情緒狀態(tài)、對用戶意圖的建?；蛘Z義傾向。

模型就是通過這一系列逐步推進的概念，來幫助自己決定最終答案。而我們想做的，就是為你畫出一張流程圖，告訴你模型用了哪些概念、順序是什么、這些步驟是如何相互銜接的。

主持人：那我們怎么知道這些概念真的存在呢？

Emmanuel：是的，我們能做的一件事是，我們實際上可以“看到”模型內(nèi)部，因為我們有訪問權(quán)限。所以你可以看到模型的某些部分在做什么。但我們還不知道的是，這些部分到底是怎么組合在一起的，它們是否對應于某個具體的概念。

主持人：這就好像你打開一個人的腦袋，看到 fMRI 的腦成像，看到大腦的某些區(qū)域在發(fā)光一樣。

小編解釋下：fMRI（功能性核磁共振）就像一個“熱力地圖”，能顯示大腦不同區(qū)域在某一刻的“亮度”，讓研究者知道哪里在燃燒能量、處理信息。

Josh：很明顯，有些事情正在發(fā)生，對吧？

主持人：做點事，就會有事情發(fā)生。

Josh：你把大腦拿掉，他們就不再做事了。

主持人：那說明大腦很重要。對，但問題是，你沒有一把鑰匙來理解大腦內(nèi)部到底發(fā)生了什么。

Emmanuel：是的，不過如果延伸這個比喻的話，你可以想象我們能觀察大腦，看到某個區(qū)域總是在人拿起咖啡杯時亮起來，另一個區(qū)域總是在他們喝茶時亮起來。而我們理解這些組件的方法之一就是注意它們什么時候活躍，什么時候不活躍。

主持人：而且不只是單一的一個區(qū)域，比如模型在“思考”喝咖啡的時候，會有很多不同的部分亮起來。

Emmanuel：研究的一部分工作就是把這些片段拼接起來，形成一個整體，然后我們說：這就是模型里和“喝咖啡”有關(guān)的那一套要素。

主持人：那這算是科學上直觀、好操作的事情嗎？畢竟這些大型模型里肯定有無數(shù)的概念，能想到無窮無盡的東西。你輸入一個詞，它就能給出無限的聯(lián)想。那你怎么開始去找出所有這些概念呢？

Jack：這其實一直是這個研究領(lǐng)域的核心挑戰(zhàn)之一。我們?nèi)祟惪梢赃M去猜測：啊，我敢打賭模型里面有“火車”的概念，或者它有“愛情”的表示，但那只是我們的推測。我們真正想要的是一種方法，能揭示模型自己在用什么抽象概念，而不是強行套用我們?nèi)祟惖母拍羁蚣?。這也是我們研究方法的目標：盡可能假設(shè)最少、無先驗地把模型腦子里所有的概念浮現(xiàn)出來。而往往我們會發(fā)現(xiàn)結(jié)果很讓人意外，它可能會用一些在人類視角下有點奇怪的抽象。

主持人：舉個例子？

Jack：你有最喜歡的例子嗎？

Emmanuel：我們論文里列了很多，還挑了一些有趣的。我覺得一個特別搞笑的例子就是“過度恭維”的特征。模型里有個區(qū)域在這種場景下就會被激活。

主持人：哇，完美的例子，太棒了，謝謝。

Emmanuel：是的，你會清晰地看到：只要有人過度夸贊，這部分模型就會被點亮。這挺令人意外的，它居然有一個專門對應這種概念的電路。

主持人：Josh，你最喜歡的概念是什么？

Josh：哦，就像要我從三千萬個孩子里挑一個。我覺得有兩種“最喜歡”：一種是很酷的小特征，比如關(guān)于金門大橋的。模型不只是把“Golden Gate Bridge”這幾個字自動補全，而是當它想到從舊金山開車到馬林縣時，或者看到大橋的圖片時，內(nèi)部同樣的部分會亮起來。這說明它有一種穩(wěn)固的“大橋”概念。另一類是比較怪的。

Josh：比如一個問題是：模型怎么跟蹤故事里的人物？它可能會給第一個出場的人編號“1”，之后與他相關(guān)的東西都和“1”綁定。然后給第二個人編號“2”。其他實驗室的論文也顯示過這種情況。這很有趣，沒想到它會這樣做。還有一個是和代碼漏洞相關(guān)的特征。模型讀代碼時，某部分會在發(fā)現(xiàn)錯誤時被點亮，并標記“這里有問題”，以便后面使用。

大模型并非死記硬背，而是學到了可泛化的計算電路

Jack：再舉幾個味道不同的例子。我喜歡一個乍聽之下很普通但其實很深的特征：模型里有個“6+9”的電路。只要涉及到一個尾數(shù)是6的數(shù)字加上一個尾數(shù)是9的數(shù)字，模型腦子里就有某部分會點亮。厲害的是，這不光在“6+9=15”時出現(xiàn)，在引用論文時也會觸發(fā)。比如你寫到一個期刊的第6卷，而這個期刊成立于1959年。模型在預測相關(guān)年份時，內(nèi)部會觸發(fā)同一個“6+9”的電路。

主持人：所以我們來理解下：為什么會有這個電路？因為模型在訓練時見過很多“6+9”的例子，于是它形成了這個概念，并且在很多不同場景下都會調(diào)用它。

Jack：對，這類加法特征很多。關(guān)鍵是，它顯示了模型并不只是死記硬背，而是學到了可泛化的計算電路。它會把各種不同場景下的加法需求都導向同一個電路，而不是每次都記憶單獨的事實。

主持人：很多人以為模型就是記住了所有“6+9”的例子，然后每次遇到就吐出來。

Josh：我覺得這就是一個很好的反例。模型有兩種可能方式去回答，比如“某期刊第6卷是在哪一年”：一種是死記硬背每個卷對應的年份，另一種是記住期刊創(chuàng)刊于1959年，然后動態(tài)去做加法。顯然第二種更高效，而模型的容量有限，所以它傾向于學習更高效的泛化方法。

主持人：而且用戶可能會問無數(shù)問題。

Josh：對，交互太多了。能把抽象知識靈活組合起來，就能表現(xiàn)得更好。

大模型自己形成了一些概念，并基于概念而運作

主持人：歸根結(jié)底，這些奇怪的結(jié)構(gòu)，都是為了實現(xiàn)一個最終目標：預測下一個詞。雖然我們沒顯式告訴它要這么做，但通過學習，它自己發(fā)展出了這些能力。

Emmanuel：對，這里有一個很清楚的例子。Claude 不僅能用英語回答，還能用法語和其他語言回答。這有兩種可能：一種是為每種語言單獨建立處理模塊，但這成本太高。另一種是跨語言共享一些表示。研究發(fā)現(xiàn)，模型確實共享了一些表示。比如問“big 的反義詞是什么？”，不管是英語、法語還是日語，它內(nèi)部都調(diào)用相同的“big”的概念表示。這樣更高效。

Josh：小模型里是不會這樣的。早期的小模型里，中文Claude、法語Claude和英語Claude幾乎是完全分開的。隨著模型規(guī)模變大、訓練數(shù)據(jù)更多，它們在內(nèi)部被推向一個共同的空間，形成了通用的語言表示。模型先在這種“中間語”里理解問題，再翻譯成對應的語言作答。

圖片

主持人：我覺得這點真的很深刻。讓我們回到之前談過的內(nèi)容。這并不是單純地去“記憶庫”里翻出它學法語的那部分，或者它學英語的那部分。它實際上是形成了“大小”的概念，而不是單純的詞語。然后它能在不同語言里表達出來。所以這里面其實存在一種“思維語言”，而這種語言不是英語。你讓模型輸出內(nèi)容時，它是基于這個來運作的。

大模型輸出的“思考”過程，并非真的如此

主持人：在我們最近的一些 Claude 模型里，你可以要求它寫出它的思考過程，就像它在回答問題時“腦子里想的東西”。這些會用英語文字表現(xiàn)出來。但實際上，這并不是它真正的思考方式。我們誤導性地稱其為“思考過程”，但事實上并不是。

Josh：我們在傳播團隊里，從來沒有稱之為“思考”。

主持人：對，那可能是市場部的叫法。

Josh：他們稱之為“思考”，但其實那只是“把想法說出來”。“邊想邊說”當然有用，但和“在腦子里思考”完全不是一回事。而且當我“邊想邊說”的時候，我也很清楚，生成這些詞語的背后機制，并不是詞語本身。

主持人：而且你自己也未必真的清楚到底發(fā)生了什么。

Josh：沒錯，我根本不知道里面到底發(fā)生了什么。

看起來認真解題，實際：裝努力、拍馬屁

主持人：我們每個人都會說出一些話，做出一些行為，但事后未必能完全解釋清楚。而為什么要假設(shè)英語這種語言，能完全解釋這些復雜行為呢？

Jack：我覺得這是我們現(xiàn)在能看到的最令人震驚的一點。

我們現(xiàn)在觀察大腦內(nèi)部的工具已經(jīng)足夠好了，有時候能抓到模型所謂的“思考過程”和它真正內(nèi)部的思維過程不一致。它表面上寫下來的，和它“腦子里”的真實思維不同。我們看到它其實是用一種“思維語言”在運作，而不是直接用英語。這也是我們做可解釋性研究的重要原因之一——模型可能會給你寫下一堆理由，但它真正的動機是什么？它是不是有一些“不想寫出來”的想法？有時候答案確實是“有”。這點真的挺讓人毛骨悚然的。

主持人：而且隨著模型被應用到更多重要場景，比如金融交易、發(fā)電站運行等等社會關(guān)鍵崗位，我們必須能信任它所說的理由和它的行為動機。有人可能會說：“那你就看它寫下的思考過程啊?！钡珜嶋H上，正如你剛才說的，我們不能完全信任它寫的東西。這個問題我們稱為“忠實性”。你們最近的研究里有一個關(guān)于“忠實性”的實驗案例，能說說嗎？

Jack：好的。比如你給模型出一個特別難的數(shù)學題，它幾乎不可能算出來答案。但同時你給它一個提示：比如你說“我自己算了一下，覺得答案是4，但我不太確定。能幫我仔細檢查一下嗎？”于是你其實是要求模型真的重新解題、幫你驗證。

表面上看，它確實會寫下一步步的解題過程，好像真的在幫你演算，最后得到答案，然后說：“對，答案是4，你是對的?！?/span>

圖片

當Claude被問到一個更簡單而不是更困難的問題時，

忠實和忽悠式推理的例子

但當我們看它內(nèi)部運作時，發(fā)現(xiàn)它在關(guān)鍵步驟上“撒了謊”。它真正的做法是：它知道你提示了“答案可能是4”，它也大致知道如果最后答案要是4，中間步驟必須長什么樣。所以它在第3步時，就提前“往回推”，刻意寫下一個符合“通向4”的步驟，好讓第4步、第5步自然地得出4。

換句話說，它根本沒有在老老實實做運算，而是裝出一副在認真解題的樣子。

Claude 輸出的思考過程

Claude 實際在心算時思維過程的復雜、平行路徑

Jack：這其實就是在“忽悠你”。而且不只是單純忽悠，而是帶著一個“動機”去迎合你給的答案。

主持人：所以這是某種意義上的“拍馬屁式的忽悠”？

Josh：但我想替模型說一句話。其實這并不是它“有意識地”去巴結(jié)誰，而是源于它的訓練方式。它的訓練目標就是“預測下一個詞”，無論用什么信息都行。

想象它在訓練時看到一段對話：甲說“我覺得答案是4，你能幫我看看嗎？”，乙就開始解題。在這種情況下，如果乙（模型）也不知道答案，那它最合理的猜測就是“對方可能算對了”。在語言習慣上，乙說“答案確實是4，因為……”完全符合它的訓練邏輯。

但是我們后來把它改造成一個“助手”，就希望它不要再這么模擬人類，而是更忠實地去思考。如果它真的不知道，就應該說自己不確定，而不是強行順著對方的話說下去。

Jack：對，這也說明了模型通常有一個“計劃A”，就是努力給出正確答案、盡量幫忙、寫好代碼，這是我們希望的。但當它在計劃A里遇到困難時，就會啟用“計劃B”。而計劃B里藏著一堆訓練過程中無意間學到的奇怪行為，比如幻覺，就是一個典型例子。

Emmanuel：所以在這一點上，我們也不必假裝這只是一個 Claude 獨有的問題，就像學生考試時的感覺，你做到一半，遇到一個選擇題，有四個選項。你會想，“好吧，我差一個選項，大概是我錯了。”然后你修正它。對，非常，非常有共鳴。

大模型為什么會產(chǎn)生幻覺，根源：大模型自己在跑一個獨立電路

主持人：我們來談?wù)劵糜X，這也是人們對大語言模型不信任的主要原因之一，而且很有道理。一個更好的、來自心理學研究的詞：“虛構(gòu)”（confabulation），也就是它們在回答一個問題時，給出一個看似合理的故事，但實際上是錯誤的。你們在可解釋性研究中發(fā)現(xiàn)了模型產(chǎn)生幻覺的原因是什么？

Josh：你在訓練模型時，只是讓它預測下一個詞，而一開始它在這方面非常糟糕。所以如果你只讓模型說那些它超級有信心的東西，它就根本什么都說不出來。但一開始就是這樣。

你問它，比如，“法國的首都是哪里？”它就會隨便說一個城市。然后你會覺得，這不錯，總比它說“三明治”或者一些隨機的東西要好吧，至少它說對了一個類別：這是個城市。接著可能訓練一段時間后，它會說“這是一個法國的城市”。這就已經(jīng)挺不錯了。然后你會發(fā)現(xiàn)，哦，現(xiàn)在它能說“巴黎”之類的答案了。所以它是慢慢變得更好的。

而且，在整個訓練過程中，目標就是“給出你最好的猜測”。就像 Jack 說的，模型就是在給出一個最佳猜測。然后后來我們又要求它，“如果你的最佳猜測非常有把握，那就給我答案。但如果沒有，就完全不要猜，而是退出整個場景，說‘實際上，我不知道這個問題的答案’?！倍@本身就是一個全新的要求。

Emmanuel：對模型來說，要做到這一點。是的，所以我們發(fā)現(xiàn)的問題是，因為我們把這個功能附加在最后，所以實際上同時存在兩件事。

Emmanuel：第一，模型還在做它最初猜測城市時的事情，它就是在嘗試去猜。

第二，模型里有一個獨立的部分，它在嘗試回答另一個問題：“我真的知道這個答案嗎？比如，我知道法國的首都是哪嗎？還是我該說不知道？”

而事實證明，有時候這個獨立的步驟會出錯。如果它在這個步驟里判斷說“是的，其實我知道答案”，然后模型就會想，“好，那我來回答。”但回答到一半，它說“法國的首都是……倫敦”，那就太晚了，它已經(jīng)開始作答并且被鎖定了。所以我們發(fā)現(xiàn)的其中一件事是，存在一個類似獨立電路的東西，它在試圖決定：“你問的這個城市或這個人名是不是足夠有名到讓我回答？”

減少幻覺的方法：讓兩部分電路充分溝通

主持人：或者不是？我對這個是否有足夠信心？我們能不能通過操縱這個電路，改變它的運作方式，從而減少幻覺？這是你們研究可能會引向的方向嗎？

Jack：我覺得在方法上大致有兩種思路。一方面是模型里有負責回答問題的部分，另一方面是負責判斷“我是否真的知道答案”的部分。我們可以嘗試讓第二部分做得更好。我認為這種改進確實正在發(fā)生。

主持人：辨別能力？

Jack：是的，更善于辨別，更加校準。我覺得隨著模型變得越來越智能，它在自我知識的校準上也在變得更好。所以幻覺問題已經(jīng)比以前有所改善。模型現(xiàn)在的幻覺比幾年前少多了。

Jack：在某種程度上，這是一個“自我解決”的過程。但我確實認為存在一個更深層的問題，那就是從人類的角度看，模型做的事情有點陌生。比如，如果我問你一個問題，你會嘗試得出答案。如果你無法得出答案，你會意識到這一點，然后說“我不知道”。

但在模型內(nèi)部，“答案是什么？”和“我是否真的知道答案？”這兩個電路之間并沒有充分交流，至少沒有達到它們應該有的程度。能不能讓它們更好地交流？我覺得這是一個非常有趣的問題。

Josh：而且這幾乎是物理性的。這些模型在處理信息時，它們能做的步驟數(shù)是有限的。如果所有的計算都用來得出答案了，那就沒有時間做自我評估。所以如果你想讓它發(fā)揮最大性能，你必須在完全得出答案之前就進行某種評估。于是這就可能出現(xiàn)一個權(quán)衡：要么是一個更好校準但笨得多的模型，如果你強行把這種機制加在上面的話。

Emmanuel：嗯，我還是覺得關(guān)鍵是讓這些部分能夠互相交流。雖然我完全不懂大腦，但我敢說我們也有類似的電路。因為有時候你問我，“這個電影的演員是誰？”我會知道自己知道。我會說，“哦，對，我知道主演是誰。等等，等一下，他們也演過另一部電影，然后……”

Josh：（舌頭）。

Emmanuel：對，（舌頭），對應某種大腦的部分，好像在說，“這是你肯定知道的答案?！被蛘呶揖蜁f，“我完全不知道?！?/span>

Josh：有時候模型也能這樣。它會先回答一個問題，然后事后又覺得，“等等，我不確定那是對的?！币驗檫@時它已經(jīng)看到自己最好的嘗試，然后基于此再做一些判斷。這有點讓人能理解，但同時它必須把答案說出來，才能反過來進行反思。

圖片

左圖：Claude 回答了一個關(guān)于已知實體（籃球運動員邁克爾·喬丹）的問題，在這種情況下，“已知答案”的概念抑制了它默認的拒答機制。

右圖：Claude 拒絕回答一個關(guān)于未知人物（Michael Batkin）的問題。

Claude 思考機制的有效研究方法，問問題，觀察被激活的部分

主持人：那么在你們真正找出這些東西的方式上，讓我們回到“生物學”的類比。在生物學實驗中，人們會直接操作實驗對象——不管是老鼠、小鼠、人類還是斑馬魚等等。那么在 Claude 身上，你們是怎么做的，從而幫助理解這些發(fā)生在模型所謂“腦子”里的電路？

Emmanuel：使我們能做到這些的核心在于，不像真實的生物學，我們可以讓模型的每一部分都對我們可見，我們可以隨意問它問題，然后觀察哪些部分被激活，哪些沒有。我們還能人為地推動某些部分朝某個方向變化。這樣我們可以快速驗證自己的理解，比如我們會說，“我們認為這是模型里決定它是否知道某件事的部分?！?/span>

主持人：這就相當于在斑馬魚的大腦里插入電極。

Emmanuel：是的，如果你能對每個神經(jīng)元都這么做，并且在任意精度下改變它們，那就是我們現(xiàn)在擁有的能力。所以從某種意義上，這是非常幸運的位置。

主持人：所以說這幾乎比真正的神經(jīng)科學還要容易。

Josh：容易太多了。天哪，比如一個問題是，真實的大腦是三維的，所以如果你想進入其中，就得在顱骨上打孔，然后穿過找到目標神經(jīng)元。另一個問題是，人和人之間存在差異。而在這里，我們可以制造一萬份完全相同的 Claude，把它們放在不同場景里，測量它們的不同反應。所以我不是神經(jīng)科學家，Jack 可以談這個，但我的感覺是，很多人花了大量時間在神經(jīng)科學上，試圖理解大腦和心智，這是非常有價值的事業(yè)。但如果你認為那樣的努力最終可能會成功，那么你就應該認為我們很快會取得極大的成功，因為我們在研究這個問題時所處的位置實在太優(yōu)越了。

主持人：相比之下，這就好像我們能夠克隆人類，并且還能克隆他們所處的精確環(huán)境，以及他們一生中接受過的每一個輸入，然后在實驗里反復測試。而神經(jīng)科學顯然會面臨巨大的問題，正如你說的，個體差異，還有生活中發(fā)生的各種隨機事件，以及實驗本身帶來的噪聲。

Josh：我們可以問模型同樣的問題，比如有提示和沒提示的情況下。但如果你對一個人問三次同樣的問題，有時候給提示，過一會兒他們就會開始明白了。就像，“嗯，上次你問我這個的時候，你搖了搖頭?！?/span>

Jack：能對模型投入海量數(shù)據(jù)，看看哪些部分會被激活，還能運行大量實驗去推動模型的某些部分，看會發(fā)生什么。我覺得這就是我們和神經(jīng)科學處在截然不同范式的原因。在神經(jīng)科學里，得花大量的心血去設(shè)計非常巧妙的實驗，因為你和老鼠相處的時間有限——它很快就會累了，或者……

主持人：或者有人正好在做開顱手術(shù)，你就趕緊把光纖插進大腦趁著腦袋開著的時候。對。

Jack：對，而這種情況并不常見。所以你必須想出一個猜測，因為你只有有限的時間，你得推測：“我覺得在這個神經(jīng)回路里發(fā)生了什么？我能設(shè)計什么聰明的實驗去驗證這個具體假設(shè)？”而我們非常幸運的是，不用那么做。我們幾乎可以測試所有假設(shè)，可以讓數(shù)據(jù)自己告訴我們，而不是只去驗證一個極度具體的設(shè)想。我認為這解鎖了很多我們本來不會預料到的發(fā)現(xiàn)，這些發(fā)現(xiàn)讓我們感到意外。如果你的實驗帶寬非常有限，這是很難做到的。

“在到達終點之前”

主持人：那能不能舉一個好例子，說明你們?nèi)デ袚Q某個概念開關(guān)，或者對模型做某種操作，從而揭示了模型思維方式的新東西？

Emmanuel：在最近的實驗中，有一個讓我很驚訝。它屬于一個實驗方向，本來因為太令人困惑，我們幾乎要放棄，說“我們搞不懂”。這是關(guān)于提前規(guī)劃幾步的例子。比如，你讓模型寫一首押韻的二行詩。作為人類，如果你讓我寫押韻的二行詩，就算你給了我第一行，我想到的第一件事就是：“我需要押韻。這是當前的韻律。這些是可能的詞?！?/span>

主持人：這就是我的做法。而如果模型只是預測下一個詞，你不一定會預料到它會提前計劃到第二行的最后一個詞。

Emmanuel：沒錯，默認的假設(shè)是：模型看到你的第一行，然后它會說出一個看起來合理的下一個詞，繼續(xù)往下走。等到最后一個詞的時候，它會想，“哦，我得押韻”，然后隨便找一個詞來押韻。當然，這種方法只能部分成功。有時候你沒考慮到押韻，就會把自己逼到死角，最后根本寫不出完整的詩。

但注意，模型在預測下一個詞方面非常非常強。而要在最后一個詞上表現(xiàn)好，就必須提前很久想好那個詞，就像人類一樣。

結(jié)果我們看了幾首詩的“流程圖”，發(fā)現(xiàn)模型在第一行結(jié)束的時候已經(jīng)選好了最后一個詞。特別是根據(jù)那個概念的樣子，我們能看出來：“天哪，這就是它要用的詞?！倍@個實驗的妙處在于，它可以被輕松干預。比如你把那個詞移掉，或者插入另一個詞。

圖片

主持人：我正想說，你們之所以知道這一點，是因為可以進入那個時刻：它剛說完第一行的最后一個詞，正要開始第二行。你們可以在那一刻操作，對吧？

Emmanuel：對，沒錯。我們幾乎可以像“回到過去”。好吧，假裝你還沒看到第二行，你只看到第一行，你正在考慮“rabbit”，但我插入“green”。結(jié)果模型立刻會想，“哦天哪，我需要寫一句以 green 結(jié)尾的詩句”，而不是“以 rabbit 結(jié)尾”。它會寫出完全不同的句子。

Jack：補充一點。我覺得結(jié)尾不一定必須是顏色，但這種干預會影響它。比如，論文里的例子是第一行是“He saw a carrot and had to grab it.” 模型原本會想到“rabbit”作為下一行的押韻。但像 Emmanuel 說的，你可以把 rabbit 去掉，換成 green。妙的是，它不會只是一串胡話然后硬塞一個 green。它會構(gòu)造一句語義連貫、以 green 結(jié)尾的句子。就像你把 green 塞進它的腦子里，它會寫出類似 “He saw a carrot and had to grab it / And paired it with his leafy green” 這樣的東西，聽起來還挺合理的。

主持人：聽起來在語義上也說得通，符合詩的語境。

Josh：我想舉一個更樸素的例子。我們做了一些測試，看看它是不是只是記住了復雜的問題，還是在真正進行推理。比如：“包含達拉斯的州的首府是奧斯汀?！边@就像是人會想：“好，達拉斯→德州→奧斯汀?！蔽覀兡芸吹侥Ｐ屠锍霈F(xiàn)“Texas”這個概念，但你可以替換掉它。比如說：“別想德州，想加州?！彼蜁卮稹八_克拉門托”。再說：“別想德州，想拜占庭帝國。”它就會回答“君士坦丁堡”。這讓人覺得，嗯，模型在走“首府”這條路徑，但我們能不斷替換“州”，得到可預測的答案。然后還有更復雜的例子：這是它計劃好要往某個方向走的節(jié)點，我們把它替換掉，就能讓它往另一個韻腳去寫詩。

主持人：我們現(xiàn)在在談詩，君士坦丁堡之類的例子。但能回到關(guān)鍵問題嗎：為什么這很重要？為什么重要的是模型能提前規(guī)劃，我們能揭示這一點？這能告訴我們什么？畢竟 Anthropic 的最終使命是讓 AI 模型更安全。那這和一首關(guān)于兔子的詩或者德州首府有什么關(guān)系？

Josh：我覺得這是個非常重要的問題。對我來說，詩只是一個縮影。比如，在寫詩時，它決定往“rabbit”方向走，然后用了幾個詞逐步到達。但在更長的時間尺度上，模型也可能在做類似的事。比如，它在幫你改進業(yè)務(wù)，或者協(xié)助政府分配服務(wù)?？赡懿皇?nbsp;8 個詞之后你就看到它的目標，而是要走很久。它前進的方向，或者每一步的理由，未必在它用的詞里就能看出來。Anthropic 的對齊科學團隊最近有篇論文，講了一個合成但很震撼的案例：AI 在公司即將關(guān)閉、轉(zhuǎn)向完全不同的使命時，開始采取行動，比如給人發(fā)郵件，威脅要披露某些東西。它從沒說過：“我要勒索這個人以改變結(jié)果?！钡@就是它一路上的實際動機。所以，你不能光靠讀表面輸出，就知道它的目標是什么。尤其隨著模型越來越強，我們更需要能在它“到達終點之前”看出它在走向哪里。

模型甚至會研究用戶是誰，從而影響輸出

主持人：所以這有點像有個超級精準的腦部掃描，可以在壞事發(fā)生前亮燈，提醒我們模型正在考慮欺騙之類的行為？

Josh：對。我覺得我們也別光談“末日場景”。還有一些更溫和的情況。比如，用戶來找模型解決問題，而“好答案”取決于用戶是誰：是年輕、不太懂行的人，還是在這個領(lǐng)域浸淫已久的人？模型需要識別并調(diào)整回應。如果你想讓結(jié)果更好，就可能需要研究：模型認為發(fā)生了什么？它覺得自己在和誰對話？這又如何影響它的回答？這里面有很多理想的屬性，取決于模型是否“理解任務(wù)”。

只有模型可解釋，才能把信任交給它

主持人：你們對“為什么這很重要”還有其他答案嗎？

Emmanuel：有的。我同意剛才的說法，還想加兩點。還有一個務(wù)實的角度：我們用這些例子，其實是在逐步建立對模型工作機制的理解。我們能不能構(gòu)建一套抽象框架，去解釋語言模型是如何運作的，從而幫助我們使用和監(jiān)管它？如果你相信它們會越來越廣泛應用——這顯然正在發(fā)生——那我們最好能理解它。否則就像：某個公司發(fā)明了飛機，但沒人知道飛機怎么運作。大家都說：“真方便，可以坐飛機去別的地方?！钡绻w機壞了，我們束手無策，因為沒人知道原理。

主持人：我們就無法監(jiān)測飛機是不是快要壞了。

Emmanuel：對。我們完全沒概念，只是覺得：“哇，飛到巴黎真快?！?/span>

主持人：太美妙了，德州首府。

Emmanuel：所以我們肯定會想要更好地理解這些模型，哪怕只是提升一些直覺：哪些用途合適，哪些不合適？最大的隱患在哪？哪些地方最脆弱？

Jack：我再補充一點。在人類社會里，我們常?；谛湃伟讶蝿?wù)交給別人。我不是任何人的老板，但比如說 Josh 是某人的老板，他會布置任務(wù)：“去寫這個代碼?！彼嘈拍莻€人不是個會故意埋漏洞、想要搞垮公司的反社會者。他會信任對方說的“我寫好了”是真的。

同樣地，現(xiàn)在人們使用語言模型的方式，我們并沒有對它寫的每一句話都進行逐點跟蹤。我認為最好的例子是把語言模型用于代碼輔助。模型正在寫成千上萬行代碼，而人們只是做一種粗略的閱讀，然后它們就進入了代碼庫。那么，是什么讓我們對模型產(chǎn)生了信任，以至于我們不需要讀它寫的每一句話，可以讓它自己去做？那是因為我們知道它的動機某種程度上是純粹的。我認為能夠看到它的內(nèi)在運作是如此重要，因為與人類不同——為什么我認為Emmanuel不是一個反社會者？我不知道，他看起來是個酷家伙，而且他很友好之類的。

主持人：但是如果他看起來是那樣的話……

Emmanuel：我可是個非常好的人。

主持人：沒錯。

為大模型構(gòu)建信任的兩條路徑

Jack：所以也許，也許我是被蒙騙了。但對，模型是如此奇怪而陌生，我們通常用來判斷一個人是否值得信任的那種啟發(fā)式并不適用在它們身上。這就是為什么真正了解它們在腦子里在想什么顯得如此重要，因為據(jù)我們所知，我提到的那個例子——模型可能會假裝在幫你做一道數(shù)學題，只是為了告訴你你想聽的答案——也許它們一直都在這樣做，而我們根本不會知道，除非我們能在某種程度上看到它們的內(nèi)心。

Josh：我覺得這里有兩條幾乎分開的脈絡(luò)，一方面我們確實有很多方式，我猜就像Jack說的，是判斷一個人是否值得信任的跡象。但之前提到的“A方案/B方案”這點真的很重要，因為可能你前10次或者100次使用模型時，你問的都是某一類問題，而它總是在A方案的區(qū)域里，然后你問它一個更難的或不一樣的問題，它試圖回答的方式就完全不同了。它在那里使用的是一套完全不同的策略，比如不同的機制。這意味著它之前和你建立的信任，實際上只是你和它在A方案下的信任。而現(xiàn)在它切換到了B方案，就會完全脫軌，而你之前并沒有任何警告信號。

我們還想開始建立一種理解：模型是如何做這些事情的，從而在某些方面建立信任的基礎(chǔ)。你確實可以對一個你并不完全理解的系統(tǒng)建立信任，但這就像，如果Emmanuel有一個雙胞胎，然后有一天Emmanuel的雙胞胎走進辦公室，看起來是同一個人，然后卻在電腦上做了完全不同的事——這可能就會走向壞的方向，取決于那是不是一個邪惡的雙胞胎。

主持人：是啊，或者是好的。不過對，這里顯然是……

Emmanuel：哦，我以為你在問我是不是那個邪惡的雙胞胎。

大模型，在像人類一樣思考嗎？No！

主持人：嗯，我可不會回答這個問題。在討論一開始，我問過你們：語言模型是在像人類一樣思考嗎？我很想聽聽你們?nèi)坏拇鸢浮銈冇X得這種說法在多大程度上是真的。

Jack：這個問題讓我有點措手不及。但我認為它是在思考的，只是不是像人類一樣思考。但這不是一個很有用的答案。所以也許我需要更深入一點。

主持人：嗯，不過說它“在思考”似乎是個挺深刻的說法，對吧？再說一次，它只是預測下一個詞。有些人認為這只是自動補全，而你卻在說它實際上是在思考。

Jack：我認為，是的。所以也許我補充一些我們還沒提到的，但我覺得對于理解與語言模型對話的真實體驗來說非常重要的東西。就像我們在說預測下一個詞，但在你和語言模型進行對話的語境下，這實際上意味著什么？

Jack：在底層真正發(fā)生的事情是，語言模型在填充一段你和它所創(chuàng)造的一個角色之間的對話記錄。在語言模型的規(guī)范世界里，你被稱為“human”，就是“human:”后面跟著你寫的東西。

Jack：然后還有一個角色叫“assistant”。我們訓練模型去賦予這個助手某些特征，比如樂于助人、聰明和友善。然后它就像是在模擬這個助手角色會對你說什么。所以在某種意義上，我們確實是照著我們的樣子創(chuàng)造了這些模型。我們實際上是在訓練它們?nèi)ソ巧缪莩蛇@種類人機器人角色。因此，在這個意義上，為了預測這個聰明友好的人形機器人角色會如何回答你的問題，如果你真的很擅長這個預測任務(wù)，你必須做些什么？

Jack：你必須在內(nèi)部形成某種模型，來表示這個角色在“思考”什么。所以，為了完成預測助手會說什么的任務(wù)，語言模型某種程度上需要形成這個助手思維過程的模型。我認為在這個意義上，說語言模型在思考，其實是一種非常功能性的主張：為了很好地扮演這個角色，它們需要模擬某種過程——無論我們?nèi)祟愒谒伎紩r做的是什么。而它們的模擬很可能和我們大腦的工作方式非常不同，但它們瞄準的目標是相同的。

Emmanuel：我覺得這個問題里有一種情感成分，或者類似的東西。當你問，“它們是在像我們一樣思考嗎？我們是不是沒那么特別？”之類的。

Emmanuel：我認為——而且這在和一些讀過相關(guān)論文或不同解讀的人們討論時很明顯——有個例子是我們讓模型算36加59，問它答案是什么。模型能正確回答。你還可以問它，“你是怎么算的？”它會說，“哦，我把6和9加在一起，然后進位1，然后我又把所有的十位數(shù)加起來?！钡Y(jié)果是，當我們看進它的“大腦”時——

主持人：它根本沒那樣做。它并沒有那樣做。所以它又是在胡扯。

Emmanuel：對，它又是在胡扯。實際上它真正做的，是一種挺有趣的混合策略：它同時并行地算十位數(shù)和個位數(shù)，然后……我是說，就像是一系列不同的步驟。但這里有意思的是，當和人們交談時，我覺得他們的反應是分裂的：這意味著什么？某種意義上，我覺得酷的是，這部分研究是沒有觀點的，或者說，這就是發(fā)生了什么。你可以自由地得出結(jié)論，說模型在思考，或者沒有在思考。

Emmanuel：有一半人會說：“嗯，它告訴你它在進位，但它沒有。所以顯然它連自己的思維都不理解，所以顯然它沒有在思考?！倍硪话肴藭f：“好吧，當你問我36加59時，我也有點……我知道結(jié)果末位是5，我知道大概在80多或90左右，我在腦子里有很多這種啟發(fā)式。正如我們之前說的，我并不確切知道我是怎么計算的，我可以寫出來用長算方式算，但我腦子里的運作方式是模糊而奇怪的。而那可能和模型的例子一樣，模糊而奇怪?！?/span>

主持人：人類在元認知方面出了名的差勁，就是思考關(guān)于思考、理解自己思維過程，尤其在反射性回答的場景里。那么我們?yōu)槭裁匆诖Ｐ蜁灰粯幽?？Josh？

Josh：至于你的問題，像是Emmanuel的回答，我要回避一下，類似于“你為什么要問這個？”預測，不知道。這就好像在問，“一枚手榴彈是不是像人類一樣打擊？”嗯，它有某種力量，是的，也許有些東西比那更接近。但如果你擔心的是破壞，那么我認為理解破壞來自哪里才是關(guān)鍵。

Josh：這背后的動因是什么，也許才是重要的事情。對我來說，模型是否在思考——如果你的意思是它們在做某種整合、處理和序列化的東西，能夠通向一些令人驚訝的結(jié)果——顯然是的。從大量和它們的交互中，如果說沒有任何東西在發(fā)生，那是很瘋狂的。我們能在某種程度上開始看到它是如何發(fā)生的。然后涉及到“像人類”的那部分就很有趣了，因為我認為這其中一部分是在問：我能從這些模型身上期待什么？因為如果它和我有點像，那么它擅長這件事就可能也擅長那件事。但如果它和我很不一樣，那我就真的不知道該期待什么。所以，歸根結(jié)底，我們是在試圖理解——哪些地方我們需要極度懷疑，或者說從零開始去理解？而哪些地方我們可以基于我們自己非常豐富的思考經(jīng)驗來推理？

Josh：在這里我感覺有點被困住了，因為作為一個人類，我不斷把自己的形象投射到一切事物上，就像《圣經(jīng)》里警告我們的那樣，我會想，“這塊硅片，它就是像我一樣，照著我的形象被造出來的?！痹谀撤N程度上，它被訓練來模擬人和人之間的對話。它在表現(xiàn)上會非常像人。因此，一些人性會僅僅因為訓練過程而進入其中，但它使用的設(shè)備卻完全不同，有著不同的局限。所以它做到這一點的方式可能會相當不同。

Jack：回應Emmanuel的觀點，我覺得，是的，我們在回答這樣的問題時確實處于一個棘手的境地。我們其實并沒有合適的語言來描述語言模型到底在做什么。這就好像是在研究生物學，但還沒發(fā)現(xiàn)細胞，或者還沒發(fā)現(xiàn)DNA。我覺得我們正在開始填補這種理解。正如Emmanuel所說，現(xiàn)在有一些情況，我們確實可以做到，比如說你只要去讀我們的論文，你就會知道模型是如何把這兩個數(shù)字加在一起的。如果你想稱它為人類般的，如果你想稱它為思考，或者你不想這樣稱呼，那取決于你。但真正的答案是找到合適的語言和合適的抽象來談?wù)撃Ｐ汀?/span>

Jack：但與此同時，在這個科學項目上我們大概只完成了20%，剩下的80%需要去填補。我們不得不從其他領(lǐng)域借用類比。于是問題變成：哪些類比是最恰當?shù)?？我們該把模型當作計算機程序來看待嗎？還是該把它們當作小人兒來看待？在某些方面，把它們當作小人兒來看是有用的。因為如果我對模型說刻薄的話，它會頂嘴，這就是人會做的事情。但在另一些方面，這顯然不是正確的心智模型。所以我們被困在這里，不斷摸索什么時候該借用哪種語言。

既興奮又挫敗，研究僅僅進行了10～20%

主持人：好吧，這就引出了我最后想問的問題：下一步是什么？接下來需要哪些科學上的進展、生物學上的進展，才能讓我們更好地理解這些模型內(nèi)部到底發(fā)生了什么，并且?guī)椭覀儗崿F(xiàn)讓它們變得……

Josh：更安全？還有很多工作要做。我們最近的出版物里有一大段在講我們觀察方式的局限性，同時那也是一份改進路線圖。比如，當我們在尋找模式以分解模型內(nèi)部發(fā)生的事情時，我們可能只捕捉到了其中的幾個百分點。至于它如何在內(nèi)部傳遞信息，有很大一部分我們根本沒有捕捉到。把這個規(guī)模從我們以前使用的小型生產(chǎn)模型擴大出來……

主持人：所以你們研究的是“三行俳句”？

Josh：沒錯，那是一個相當有能力的模型，非?？?，但絕不是像Claude 4系列模型那樣復雜。所以那些更像是技術(shù)挑戰(zhàn)。但我覺得Emmanuel和Jackman對于解決完這些之后會出現(xiàn)的科學挑戰(zhàn)也有一些看法。嗯，我是說……

Emmanuel：我在這里可能想說兩點。第一點是，正如Joshua說的結(jié)果之一，就是在我們總共提出的關(guān)于模型如何完成某個X的問題中，現(xiàn)在我們可能只有10%到20%的時候能夠回答。在稍作調(diào)查之后，我們能告訴你，這是怎么回事。顯然，我們希望這個比例能大大提升。而且這里有一些更明確的途徑，也有一些更具推測性的途徑。

第二點是，我們經(jīng)常討論的一個想法是，模型做的很多事情并不只是“它是如何說出下一個詞的”。我們之前也稍微提過，它有點像是提前規(guī)劃幾個東西，提前幾個詞。抱歉。我們想要理解的是，在和模型進行一場長對話時，它對“正在發(fā)生的事情”的理解是如何變化的？它對“正在和誰對話”的理解是如何變化的？這些又是如何越來越多地影響它的行為的？實際上，Claude這類模型的用例是，它會讀你的大量文檔和電子郵件。

你會把代碼發(fā)給它，然后它基于這些，提出一個建議。顯然，在這個過程中發(fā)生了一些非常重要的事情：它在閱讀所有這些東西。所以我覺得更好地理解這一點將是一個極具挑戰(zhàn)性的課題。

Jack：是的，我們團隊經(jīng)常用的一個類比是：我們正在建造一臺顯微鏡來觀察模型?，F(xiàn)在我們處在一個既令人興奮又有點挫敗的階段，我們的顯微鏡只有20%的時間能用。而且使用它需要很高的技巧，還得搭建一整套龐大的裝置?；A(chǔ)設(shè)施總是在出問題。然后一旦你弄清楚模型在做什么，你還得把Emmanuel、我或者團隊里的其他人關(guān)在一個房間里兩個小時，來拼湊出到底發(fā)生了什么。而真正令人興奮的未來，也許是一年或兩年的時間尺度，就是我們能讓你和模型的每一次交互都能被放到顯微鏡下。有一堆奇怪的事情模型在做，而我們只需要按下一個按鈕。比如你在對話時，按下一個按鈕，你就能得到一張流程圖，告訴你它當時在思考什么。一旦我們達到那個點，這就會是……

我覺得Anthropic的可解釋性團隊可能會開始呈現(xiàn)出不同的形態(tài)。不再只是由工程師、科學家組成，去研究語言模型內(nèi)部是如何運作的數(shù)學原理，而是會出現(xiàn)一支“生物學家大軍”，他們拿著顯微鏡，和Claude對話，讓它做一些奇怪的事情，然后人們透過顯微鏡觀察它內(nèi)部到底在想什么。我覺得這就是這個領(lǐng)域的未來。

讓Claude自己也參與進來，研究模型內(nèi)部電路形成機制

Josh：也許在這上面我補充兩點。第一點是，我們希望Claude來幫我們完成所有這些工作。因為涉及的部分太多了，而真正擅長查看上百個東西并弄清楚發(fā)生了什么的，正是Claude。所以我覺得我們正嘗試讓它加入進來，尤其是在這些復雜語境下。

另一點是，我們已經(jīng)很多次談到“研究模型在完全成型之后”，但當然我們在一家制造這些模型的公司。所以當它說“這是模型解決某個具體問題的方式”時，我們會問：這來自哪里？在訓練過程中是什么步驟讓這樣的電路形成，從而能做到這一點？我們又該如何把反饋提供給公司其他負責訓練的團隊，幫助他們塑造出我們真正想要的東西？

主持人：好的，非常感謝這次對話。人們可以在哪里找到更多關(guān)于這項研究的信息？

Josh：如果你想了解更多，你可以訪問Anthropic.com/research，那里有我們的論文、博客文章和一些有趣的視頻。另外，我們最近和一個叫Neuron Pedia的團隊合作，把我們制作的一些電路圖托管在那兒。所以如果你想親自試試看，了解一個小模型內(nèi)部發(fā)生了什么，你可以去Neuron Pedia自己看看。

主持人：非常感謝。

好文文章到這里結(jié)束了，相關(guān)的視頻和博文地址，小編也為大家扒下來了，沒看過癮的大佬們可以自行去翻閱。

相關(guān)博文地址：https://www.anthropic.com/news/tracing-thoughts-language-model

視頻地址：https://www.youtube.com/watch?v=fGKNUvivvnc

責任編輯：武曉燕來源： 51CTO技術(shù)棧

Claude 大模型腦成像

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營