偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

最懂Claude內(nèi)部運作團隊采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預測下一個詞。網(wǎng)友:這都敢免費公開

原創(chuàng) 精選
人工智能
當一個?AI?模型在“思考”時,內(nèi)部到底發(fā)生了什么?為什么?AI?模型會表現(xiàn)得諂媚?為什么它們會產(chǎn)生幻覺?AI?模型只是“高級的自動補全工具”,還是說其中存在更復雜的機制?目前 Anthropic 有哪些科學的方式研究這些問題?研究進展如何?

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

上周末,Anthropic 團隊放出了一個非常優(yōu)質(zhì)的播客。

話題的敏感尺度很大,頭排的聽眾們都替Claude擔心了起來,驚呼:這種“核心機密”竟然敢免費公開嗎?

圖片

甚至有網(wǎng)友表示,第一次從頭到尾把60分鐘的播客聽完了。

圖片

小編好久沒看見這樣的評價了。

可以說,這期播客在某種程度上,向我們展示了 Claude 為何是市面上最好的模型。

這期播客的主題可以說直戳大模型的靈魂:大模型究竟是如何思考的?

當一個 AI 模型在“思考”時,內(nèi)部到底發(fā)生了什么?為什么 AI 模型會表現(xiàn)得諂媚?為什么它們會產(chǎn)生幻覺?

AI 模型只是“高級的自動補全工具”,還是說其中存在更復雜的機制?

目前 Anthropic 有哪些科學的方式研究這些問題?研究進展如何?

這些靈魂拷問,幾位 Anthropic 的研究員居然知無不言的肆意探討了起來。全然不擔心被競品友商聽了去致敬。

這次播客的三位嘉賓: Josh Batson、Emmanuel Ameisen 和 Jack Lindsey 均來自 Anthropic 的可解釋性團隊。這個團隊可以說是,自成立之初就與公司的使命緊緊相連。

前不久小編也發(fā)表了一篇他們團隊發(fā)現(xiàn)的大模型性格角色的黑化開關(guān):人格向量,可以說,這一次的播客,算是系統(tǒng)講解了他們是如何研究Claude模型的底層think模式的,以及如何解釋它的幻覺產(chǎn)生機制。

(簡單理解就是,他們可以為大模型內(nèi)部拍一張核磁共振的“腦電圖”,研究大模型產(chǎn)生某種行為和腦電圖點亮的區(qū)域之間的關(guān)系。)

更重要的是,他們提出了一種可以被大眾廣泛理解的“概念”,并用一種類似“計算電路”的抽象,解釋了大模型絕對不是外界理解的死記硬背,而是有著自己獨有的思考運作。

搞大模型就像,“搞飛機”,Anthropic 可解釋性團隊希望,通過他們的研究,給出了兩條幾乎完全不同的路徑,讓大家了解大模型團隊究竟是如何“搞飛機”,從而讓大模型變得更可信任、更安全。

話不多說,這起播客的話題雖然燒腦,但含金量屬實太高了,而且講解也沒大家想的那么深奧,還很有趣。

比如,播客中爆料:

在Claude等模型中,人類要求它寫出的思考過程,并非是大模型真實的思考過程:

那只是大模型在“裝”認真解題,是“拍馬屁式忽悠”!

再比如,大模型寫押韻詩,并不是逐字去計算的,而是會提前規(guī)劃,連最后一個字都想好了,然后才去輸出。

還有,算一個“6+9”的數(shù)學問題時,大模型并不是像人類一樣先算個位數(shù),而是并行運算十位數(shù)和個位數(shù)。

即便如此,Anthropic 的大牛們也坦承:現(xiàn)在他們也只搞清楚了10~20%的大模型內(nèi)部運作機制,還有很多問題,比如各部分獨立電路是如何傳遞信號的等等,都有待研究。

OK,真的是“既興奮”、又讓人有挫敗感~

料真的很足,從小編開始翻譯到整理,足足過去了兩天。各位不妨細讀,建議收藏。

大模型內(nèi)部更像是生物學、而非物理學

主持人:當你在和一個大型語言模型對話時,你究竟是在和什么東西對話?你是在和一個被放大的自動補全工具對話嗎?還是在和某種像互聯(lián)網(wǎng)搜索引擎一樣的東西對話?又或者,你是在和一個真的會思考、甚至可能像人一樣思考的東西對話?結(jié)果令人有些擔憂的是,沒有人真正知道這些問題的答案。而在 Anthropic,我們對找出這些答案非常感興趣。我們的方式是通過“可解釋性”。這門科學就是把大型語言模型打開,觀察它的內(nèi)部,在它回答問題的過程中,嘗試弄清楚里面究竟發(fā)生了什么。

我很高興今天請來了我們可解釋性團隊的三位成員,他們會和我聊一聊他們最近在 Claude(我們的語言模型)復雜內(nèi)部機制方面做的研究。請做一下自我介紹。

Jack:大家好,我是 Jack,是可解釋性團隊的研究員。在此之前,我是個神經(jīng)科學家?,F(xiàn)在,我在做關(guān)于 AI 的“神經(jīng)科學”。

Emmanuel:我是 Emmanuel。我也是可解釋性團隊的成員,我職業(yè)生涯的大部分時間都在構(gòu)建機器學習模型,并試圖理解它們。

Josh:我是 Josh,我同樣在可解釋性團隊。在我之前的研究經(jīng)歷里,我研究過病毒進化。再之前,我是一名數(shù)學家。所以現(xiàn)在,我是在研究這些由數(shù)學構(gòu)造出來的“有機體”的一種生物學。

主持人:等一下,你剛剛說你是在做“生物學”,很多人會對此感到驚訝,因為畢竟這只是一段軟件,對吧?但它并不是普通的軟件,它不像 Microsoft Word 那種軟件。你能解釋一下,當你說你在一個軟件實體上做“生物學”或者“神經(jīng)科學”時,你是什么意思嗎?

Josh:是的,我覺得這更像是一種感覺,而不是字面上的意思。也許這更像是“語言模型的生物學”,而不是“語言模型的物理學”?;蛘吣愕猛叵胍幌脒@些模型是怎么被做出來的。并不是有人在逐行編程,比如“如果用戶說 hi,你也要回答 hi”;“如果用戶問早餐吃什么,你就回答 toast”。模型內(nèi)部并沒有這樣的龐大清單。

主持人:就不像你玩電子游戲時,選一個固定的回應,然后系統(tǒng)里預設(shè)了另一個固定的回應,總是會按那個回應出現(xiàn)。

Josh:是的,模型并不是靠某個龐大的數(shù)據(jù)庫去規(guī)定在每種情況下該說什么。它的訓練方式是——投入大量數(shù)據(jù),模型一開始幾乎什么都不會說,然后它的內(nèi)部參數(shù)在每一個樣本上不斷被微調(diào),從而逐漸變得更擅長預測接下來該說什么。最終,它在這方面會變得非常擅長。但由于這種“逐步微調(diào)”的進化過程,等模型訓練完成時,它和最初的樣子幾乎完全不同了,但并不是有人直接去手動調(diào)整所有參數(shù)。因此,你面對的是一個在時間中逐步形成的復雜產(chǎn)物,有點類似于生物形態(tài)隨著時間的演化。這使得它復雜、神秘,同時研究起來也很有趣。

人類嚴重低估了大模型,它不止預測下一個詞,它真在做理解上下文的事情

主持人:那么,它在內(nèi)部真正做的事情呢?我一開始提到,這可以被視作一種自動補全,基本上就是在預測下一個詞,對吧?但它卻能做很多不可思議的事情:它能寫詩、寫長篇故事,能做加法、能做基礎(chǔ)的數(shù)學運算,盡管它里面并沒有內(nèi)置計算器。怎么理解這種現(xiàn)象?它本質(zhì)上只是一次預測一個詞,但結(jié)果卻能做出所有這些令人驚訝的事情,人們一和模型對話就能親眼看到。

Emmanuel:我認為一個重要的點是,當你不斷預測下一個詞時,你會發(fā)現(xiàn)有些詞比其他詞更難預測。語言模型訓練的一部分是預測句子里的那些無聊詞,另一部分是它最終必須學會如何補全等號后面的內(nèi)容。為了做到這一點,它必須在內(nèi)部發(fā)展出某種方式來自己完成計算。所以我們發(fā)現(xiàn),“預測下一個詞”這個任務(wù)看似簡單,但為了把它做好,模型實際上經(jīng)常需要去考慮在預測的詞之后還會出現(xiàn)什么,或者思考當前這個詞是由怎樣的過程生成的。

主持人:所以說,這需要模型具備某種上下文理解。它并不僅僅是因為“the cat sat on the”這句話出現(xiàn)過很多次,就預測出“mat”(墊子)。而是說,它真的有某種上下文的理解,對吧?

科普下:NLP 領(lǐng)域中有一個經(jīng)典句型是 “The cat sat on the mat.” 該句型在通用英語語料里共現(xiàn)頻率最高,語言模型也通常給 “mat” 最高概率。

Jack:我覺得是的。延續(xù)剛才的生物學類比,我喜歡這樣理解:在某種意義上,人類的目標是生存和繁殖,這是進化塑造我們的目標。但這并不是你平時在腦子里想的事,也不是你時時刻刻在大腦中運行的機制。你會去思考其他的東西,制定目標和計劃,形成各種概念。在更高的層次上,進化賦予了你形成這些思想的能力,來幫助你最終實現(xiàn)繁殖這個目標。但這只是“從內(nèi)部”的體驗,這并不是全部,還有很多其他機制在同時發(fā)生。

主持人:所以你是說,預測下一個詞這個最終目標,其實牽涉了很多其他過程?

Jack:沒錯。模型并不一定把自己看作是在預測下一個詞。它是被這個需求塑造出來的,但在內(nèi)部,它可能發(fā)展出各種中間目標和抽象,來幫助實現(xiàn)這個更高層次的目標。

Josh:有時這種情況是很神秘的。就像我也不太明白我的焦慮究竟是怎樣對祖先的繁殖有幫助的,但我確實被賦予了這種內(nèi)在狀態(tài),它顯然和進化有某種聯(lián)系。

主持人:所以可以說,把模型僅僅歸結(jié)為“預測下一個詞”是嚴重低估了它的內(nèi)部運行。說它只是預測下一個詞既對,但又不完全對,這種說法大大忽略了模型內(nèi)部真正發(fā)生的事。

Emmanuel:我可能會這樣表述:說它是在預測下一個詞沒錯,但這并不是理解它工作原理的最有用的角度。

團隊自曝:我們能看到大模型內(nèi)部的某些部分在干什么并盡量描述它的思考過程

主持人:那為了理解它的工作原理,你們團隊是怎么做的?

Jack:我們第一步嘗試做的事情,是盡量去描述模型的“思考過程”。比如說,你給模型一段詞序列,它必須輸出點什么,必須生成一個詞,或者一串詞來回應你的問題。我們想知道,它是如何從 A 到 B 的。

我們認為,在這個從 A 到 B 的過程中,它會經(jīng)歷一系列“步驟”,在這些步驟里,它會“思考”一些概念。包括低層次的概念,比如具體的對象或詞語;也包括高層次的概念,比如目標、情緒狀態(tài)、對用戶意圖的建?;蛘Z義傾向。

模型就是通過這一系列逐步推進的概念,來幫助自己決定最終答案。而我們想做的,就是為你畫出一張流程圖,告訴你模型用了哪些概念、順序是什么、這些步驟是如何相互銜接的。

主持人:那我們怎么知道這些概念真的存在呢?

Emmanuel:是的,我們能做的一件事是,我們實際上可以“看到”模型內(nèi)部,因為我們有訪問權(quán)限。所以你可以看到模型的某些部分在做什么。但我們還不知道的是,這些部分到底是怎么組合在一起的,它們是否對應于某個具體的概念。

主持人:這就好像你打開一個人的腦袋,看到 fMRI 的腦成像,看到大腦的某些區(qū)域在發(fā)光一樣。 

小編解釋下:fMRI(功能性核磁共振) 就像一個“熱力地圖”,能顯示大腦不同區(qū)域在某一刻的“亮度”,讓研究者知道哪里在燃燒能量、處理信息。

Josh:很明顯,有些事情正在發(fā)生,對吧?

主持人:做點事,就會有事情發(fā)生。

Josh:你把大腦拿掉,他們就不再做事了。

主持人:那說明大腦很重要。對,但問題是,你沒有一把鑰匙來理解大腦內(nèi)部到底發(fā)生了什么。

Emmanuel:是的,不過如果延伸這個比喻的話,你可以想象我們能觀察大腦,看到某個區(qū)域總是在人拿起咖啡杯時亮起來,另一個區(qū)域總是在他們喝茶時亮起來。而我們理解這些組件的方法之一就是注意它們什么時候活躍,什么時候不活躍。

主持人:而且不只是單一的一個區(qū)域,比如模型在“思考”喝咖啡的時候,會有很多不同的部分亮起來。

Emmanuel:研究的一部分工作就是把這些片段拼接起來,形成一個整體,然后我們說:這就是模型里和“喝咖啡”有關(guān)的那一套要素。

主持人:那這算是科學上直觀、好操作的事情嗎?畢竟這些大型模型里肯定有無數(shù)的概念,能想到無窮無盡的東西。你輸入一個詞,它就能給出無限的聯(lián)想。那你怎么開始去找出所有這些概念呢?

Jack:這其實一直是這個研究領(lǐng)域的核心挑戰(zhàn)之一。我們?nèi)祟惪梢赃M去猜測:啊,我敢打賭模型里面有“火車”的概念,或者它有“愛情”的表示,但那只是我們的推測。我們真正想要的是一種方法,能揭示模型自己在用什么抽象概念,而不是強行套用我們?nèi)祟惖母拍羁蚣?。這也是我們研究方法的目標:盡可能假設(shè)最少、無先驗地把模型腦子里所有的概念浮現(xiàn)出來。而往往我們會發(fā)現(xiàn)結(jié)果很讓人意外,它可能會用一些在人類視角下有點奇怪的抽象。

主持人:舉個例子?

Jack:你有最喜歡的例子嗎?

Emmanuel:我們論文里列了很多,還挑了一些有趣的。我覺得一個特別搞笑的例子就是“過度恭維”的特征。模型里有個區(qū)域在這種場景下就會被激活。

主持人:哇,完美的例子,太棒了,謝謝。

Emmanuel:是的,你會清晰地看到:只要有人過度夸贊,這部分模型就會被點亮。這挺令人意外的,它居然有一個專門對應這種概念的電路。

主持人:Josh,你最喜歡的概念是什么?

Josh:哦,就像要我從三千萬個孩子里挑一個。我覺得有兩種“最喜歡”:一種是很酷的小特征,比如關(guān)于金門大橋的。模型不只是把“Golden Gate Bridge”這幾個字自動補全,而是當它想到從舊金山開車到馬林縣時,或者看到大橋的圖片時,內(nèi)部同樣的部分會亮起來。這說明它有一種穩(wěn)固的“大橋”概念。另一類是比較怪的。

Josh:比如一個問題是:模型怎么跟蹤故事里的人物?它可能會給第一個出場的人編號“1”,之后與他相關(guān)的東西都和“1”綁定。然后給第二個人編號“2”。其他實驗室的論文也顯示過這種情況。這很有趣,沒想到它會這樣做。還有一個是和代碼漏洞相關(guān)的特征。模型讀代碼時,某部分會在發(fā)現(xiàn)錯誤時被點亮,并標記“這里有問題”,以便后面使用。

大模型并非死記硬背,而是學到了可泛化的計算電路

Jack:再舉幾個味道不同的例子。我喜歡一個乍聽之下很普通但其實很深的特征:模型里有個“6+9”的電路。只要涉及到一個尾數(shù)是6的數(shù)字加上一個尾數(shù)是9的數(shù)字,模型腦子里就有某部分會點亮。厲害的是,這不光在“6+9=15”時出現(xiàn),在引用論文時也會觸發(fā)。比如你寫到一個期刊的第6卷,而這個期刊成立于1959年。模型在預測相關(guān)年份時,內(nèi)部會觸發(fā)同一個“6+9”的電路。

主持人:所以我們來理解下:為什么會有這個電路?因為模型在訓練時見過很多“6+9”的例子,于是它形成了這個概念,并且在很多不同場景下都會調(diào)用它。

Jack:對,這類加法特征很多。關(guān)鍵是,它顯示了模型并不只是死記硬背,而是學到了可泛化的計算電路。它會把各種不同場景下的加法需求都導向同一個電路,而不是每次都記憶單獨的事實。

主持人:很多人以為模型就是記住了所有“6+9”的例子,然后每次遇到就吐出來。

Josh:我覺得這就是一個很好的反例。模型有兩種可能方式去回答,比如“某期刊第6卷是在哪一年”:一種是死記硬背每個卷對應的年份,另一種是記住期刊創(chuàng)刊于1959年,然后動態(tài)去做加法。顯然第二種更高效,而模型的容量有限,所以它傾向于學習更高效的泛化方法。

主持人:而且用戶可能會問無數(shù)問題。

Josh:對,交互太多了。能把抽象知識靈活組合起來,就能表現(xiàn)得更好。

大模型自己形成了一些概念,并基于概念而運作

主持人:歸根結(jié)底,這些奇怪的結(jié)構(gòu),都是為了實現(xiàn)一個最終目標:預測下一個詞。雖然我們沒顯式告訴它要這么做,但通過學習,它自己發(fā)展出了這些能力。

Emmanuel:對,這里有一個很清楚的例子。Claude 不僅能用英語回答,還能用法語和其他語言回答。這有兩種可能:一種是為每種語言單獨建立處理模塊,但這成本太高。另一種是跨語言共享一些表示。研究發(fā)現(xiàn),模型確實共享了一些表示。比如問“big 的反義詞是什么?”,不管是英語、法語還是日語,它內(nèi)部都調(diào)用相同的“big”的概念表示。這樣更高效。

Josh:小模型里是不會這樣的。早期的小模型里,中文Claude、法語Claude和英語Claude幾乎是完全分開的。隨著模型規(guī)模變大、訓練數(shù)據(jù)更多,它們在內(nèi)部被推向一個共同的空間,形成了通用的語言表示。模型先在這種“中間語”里理解問題,再翻譯成對應的語言作答。

圖片圖片

主持人:我覺得這點真的很深刻。讓我們回到之前談過的內(nèi)容。這并不是單純地去“記憶庫”里翻出它學法語的那部分,或者它學英語的那部分。它實際上是形成了“大小”的概念,而不是單純的詞語。然后它能在不同語言里表達出來。所以這里面其實存在一種“思維語言”,而這種語言不是英語。你讓模型輸出內(nèi)容時,它是基于這個來運作的。

大模型輸出的“思考”過程,并非真的如此

主持人:在我們最近的一些 Claude 模型里,你可以要求它寫出它的思考過程,就像它在回答問題時“腦子里想的東西”。這些會用英語文字表現(xiàn)出來。但實際上,這并不是它真正的思考方式。我們誤導性地稱其為“思考過程”,但事實上并不是。

Josh:我們在傳播團隊里,從來沒有稱之為“思考”。

主持人:對,那可能是市場部的叫法。

Josh:他們稱之為“思考”,但其實那只是“把想法說出來”。“邊想邊說”當然有用,但和“在腦子里思考”完全不是一回事。而且當我“邊想邊說”的時候,我也很清楚,生成這些詞語的背后機制,并不是詞語本身。

主持人:而且你自己也未必真的清楚到底發(fā)生了什么。

Josh:沒錯,我根本不知道里面到底發(fā)生了什么。

看起來認真解題,實際:裝努力、拍馬屁

主持人:我們每個人都會說出一些話,做出一些行為,但事后未必能完全解釋清楚。而為什么要假設(shè)英語這種語言,能完全解釋這些復雜行為呢?

Jack:我覺得這是我們現(xiàn)在能看到的最令人震驚的一點。

我們現(xiàn)在觀察大腦內(nèi)部的工具已經(jīng)足夠好了,有時候能抓到模型所謂的“思考過程”和它真正內(nèi)部的思維過程不一致。它表面上寫下來的,和它“腦子里”的真實思維不同。我們看到它其實是用一種“思維語言”在運作,而不是直接用英語。這也是我們做可解釋性研究的重要原因之一——模型可能會給你寫下一堆理由,但它真正的動機是什么?它是不是有一些“不想寫出來”的想法?有時候答案確實是“有”。這點真的挺讓人毛骨悚然的。

主持人:而且隨著模型被應用到更多重要場景,比如金融交易、發(fā)電站運行等等社會關(guān)鍵崗位,我們必須能信任它所說的理由和它的行為動機。有人可能會說:“那你就看它寫下的思考過程啊?!钡珜嶋H上,正如你剛才說的,我們不能完全信任它寫的東西。這個問題我們稱為“忠實性”。你們最近的研究里有一個關(guān)于“忠實性”的實驗案例,能說說嗎?

Jack:好的。比如你給模型出一個特別難的數(shù)學題,它幾乎不可能算出來答案。但同時你給它一個提示:比如你說“我自己算了一下,覺得答案是4,但我不太確定。能幫我仔細檢查一下嗎?”于是你其實是要求模型真的重新解題、幫你驗證。

表面上看,它確實會寫下一步步的解題過程,好像真的在幫你演算,最后得到答案,然后說:“對,答案是4,你是對的?!?/span>

圖片圖片

當Claude被問到一個更簡單而不是更困難的問題時,

忠實和忽悠式推理的例子

但當我們看它內(nèi)部運作時,發(fā)現(xiàn)它在關(guān)鍵步驟上“撒了謊”。它真正的做法是:它知道你提示了“答案可能是4”,它也大致知道如果最后答案要是4,中間步驟必須長什么樣。所以它在第3步時,就提前“往回推”,刻意寫下一個符合“通向4”的步驟,好讓第4步、第5步自然地得出4。

換句話說,它根本沒有在老老實實做運算,而是裝出一副在認真解題的樣子。

Claude 輸出的思考過程Claude 輸出的思考過程

Claude 實際在心算時思維過程的復雜、平行路徑Claude 實際在心算時思維過程的復雜、平行路徑

Jack:這其實就是在“忽悠你”。而且不只是單純忽悠,而是帶著一個“動機”去迎合你給的答案。

主持人:所以這是某種意義上的“拍馬屁式的忽悠”?

Josh:但我想替模型說一句話。其實這并不是它“有意識地”去巴結(jié)誰,而是源于它的訓練方式。它的訓練目標就是“預測下一個詞”,無論用什么信息都行。

想象它在訓練時看到一段對話:甲說“我覺得答案是4,你能幫我看看嗎?”,乙就開始解題。在這種情況下,如果乙(模型)也不知道答案,那它最合理的猜測就是“對方可能算對了”。在語言習慣上,乙說“答案確實是4,因為……”完全符合它的訓練邏輯。

但是我們后來把它改造成一個“助手”,就希望它不要再這么模擬人類,而是更忠實地去思考。如果它真的不知道,就應該說自己不確定,而不是強行順著對方的話說下去。

Jack:對,這也說明了模型通常有一個“計劃A”,就是努力給出正確答案、盡量幫忙、寫好代碼,這是我們希望的。但當它在計劃A里遇到困難時,就會啟用“計劃B”。而計劃B里藏著一堆訓練過程中無意間學到的奇怪行為,比如幻覺,就是一個典型例子。

Emmanuel:所以在這一點上,我們也不必假裝這只是一個 Claude 獨有的問題,就像學生考試時的感覺,你做到一半,遇到一個選擇題,有四個選項。你會想,“好吧,我差一個選項,大概是我錯了。”然后你修正它。對,非常,非常有共鳴。

大模型為什么會產(chǎn)生幻覺,根源:大模型自己在跑一個獨立電路

主持人:我們來談?wù)劵糜X,這也是人們對大語言模型不信任的主要原因之一,而且很有道理。一個更好的、來自心理學研究的詞:“虛構(gòu)”(confabulation),也就是它們在回答一個問題時,給出一個看似合理的故事,但實際上是錯誤的。你們在可解釋性研究中發(fā)現(xiàn)了模型產(chǎn)生幻覺的原因是什么?

Josh:你在訓練模型時,只是讓它預測下一個詞,而一開始它在這方面非常糟糕。所以如果你只讓模型說那些它超級有信心的東西,它就根本什么都說不出來。但一開始就是這樣。

你問它,比如,“法國的首都是哪里?”它就會隨便說一個城市。然后你會覺得,這不錯,總比它說“三明治”或者一些隨機的東西要好吧,至少它說對了一個類別:這是個城市。接著可能訓練一段時間后,它會說“這是一個法國的城市”。這就已經(jīng)挺不錯了。然后你會發(fā)現(xiàn),哦,現(xiàn)在它能說“巴黎”之類的答案了。所以它是慢慢變得更好的。

而且,在整個訓練過程中,目標就是“給出你最好的猜測”。就像 Jack 說的,模型就是在給出一個最佳猜測。然后后來我們又要求它,“如果你的最佳猜測非常有把握,那就給我答案。但如果沒有,就完全不要猜,而是退出整個場景,說‘實際上,我不知道這個問題的答案’?!倍@本身就是一個全新的要求。

Emmanuel:對模型來說,要做到這一點。是的,所以我們發(fā)現(xiàn)的問題是,因為我們把這個功能附加在最后,所以實際上同時存在兩件事。

Emmanuel:第一,模型還在做它最初猜測城市時的事情,它就是在嘗試去猜。

第二,模型里有一個獨立的部分,它在嘗試回答另一個問題:“我真的知道這個答案嗎?比如,我知道法國的首都是哪嗎?還是我該說不知道?”

而事實證明,有時候這個獨立的步驟會出錯。如果它在這個步驟里判斷說“是的,其實我知道答案”,然后模型就會想,“好,那我來回答。”但回答到一半,它說“法國的首都是……倫敦”,那就太晚了,它已經(jīng)開始作答并且被鎖定了。所以我們發(fā)現(xiàn)的其中一件事是,存在一個類似獨立電路的東西,它在試圖決定:“你問的這個城市或這個人名是不是足夠有名到讓我回答?”

減少幻覺的方法:讓兩部分電路充分溝通

主持人:或者不是?我對這個是否有足夠信心?我們能不能通過操縱這個電路,改變它的運作方式,從而減少幻覺?這是你們研究可能會引向的方向嗎?

Jack:我覺得在方法上大致有兩種思路。一方面是模型里有負責回答問題的部分,另一方面是負責判斷“我是否真的知道答案”的部分。我們可以嘗試讓第二部分做得更好。我認為這種改進確實正在發(fā)生。

主持人:辨別能力?

Jack:是的,更善于辨別,更加校準。我覺得隨著模型變得越來越智能,它在自我知識的校準上也在變得更好。所以幻覺問題已經(jīng)比以前有所改善。模型現(xiàn)在的幻覺比幾年前少多了。

Jack:在某種程度上,這是一個“自我解決”的過程。但我確實認為存在一個更深層的問題,那就是從人類的角度看,模型做的事情有點陌生。比如,如果我問你一個問題,你會嘗試得出答案。如果你無法得出答案,你會意識到這一點,然后說“我不知道”。

但在模型內(nèi)部,“答案是什么?”和“我是否真的知道答案?”這兩個電路之間并沒有充分交流,至少沒有達到它們應該有的程度。能不能讓它們更好地交流?我覺得這是一個非常有趣的問題。

Josh:而且這幾乎是物理性的。這些模型在處理信息時,它們能做的步驟數(shù)是有限的。如果所有的計算都用來得出答案了,那就沒有時間做自我評估。所以如果你想讓它發(fā)揮最大性能,你必須在完全得出答案之前就進行某種評估。于是這就可能出現(xiàn)一個權(quán)衡:要么是一個更好校準但笨得多的模型,如果你強行把這種機制加在上面的話。

Emmanuel:嗯,我還是覺得關(guān)鍵是讓這些部分能夠互相交流。雖然我完全不懂大腦,但我敢說我們也有類似的電路。因為有時候你問我,“這個電影的演員是誰?”我會知道自己知道。我會說,“哦,對,我知道主演是誰。等等,等一下,他們也演過另一部電影,然后……”

Josh:(舌頭)。

Emmanuel:對,(舌頭),對應某種大腦的部分,好像在說,“這是你肯定知道的答案?!被蛘呶揖蜁f,“我完全不知道?!?/span>

Josh:有時候模型也能這樣。它會先回答一個問題,然后事后又覺得,“等等,我不確定那是對的?!币驗檫@時它已經(jīng)看到自己最好的嘗試,然后基于此再做一些判斷。這有點讓人能理解,但同時它必須把答案說出來,才能反過來進行反思。

圖片圖片

左圖:Claude 回答了一個關(guān)于已知實體(籃球運動員邁克爾·喬丹)的問題,在這種情況下,“已知答案”的概念抑制了它默認的拒答機制。

右圖:Claude 拒絕回答一個關(guān)于未知人物(Michael Batkin)的問題。

Claude 思考機制的有效研究方法,問問題,觀察被激活的部分

主持人:那么在你們真正找出這些東西的方式上,讓我們回到“生物學”的類比。在生物學實驗中,人們會直接操作實驗對象——不管是老鼠、小鼠、人類還是斑馬魚等等。那么在 Claude 身上,你們是怎么做的,從而幫助理解這些發(fā)生在模型所謂“腦子”里的電路?

Emmanuel:使我們能做到這些的核心在于,不像真實的生物學,我們可以讓模型的每一部分都對我們可見,我們可以隨意問它問題,然后觀察哪些部分被激活,哪些沒有。我們還能人為地推動某些部分朝某個方向變化。這樣我們可以快速驗證自己的理解,比如我們會說,“我們認為這是模型里決定它是否知道某件事的部分?!?/span>

主持人:這就相當于在斑馬魚的大腦里插入電極。

Emmanuel:是的,如果你能對每個神經(jīng)元都這么做,并且在任意精度下改變它們,那就是我們現(xiàn)在擁有的能力。所以從某種意義上,這是非常幸運的位置。

主持人:所以說這幾乎比真正的神經(jīng)科學還要容易。

Josh:容易太多了。天哪,比如一個問題是,真實的大腦是三維的,所以如果你想進入其中,就得在顱骨上打孔,然后穿過找到目標神經(jīng)元。另一個問題是,人和人之間存在差異。而在這里,我們可以制造一萬份完全相同的 Claude,把它們放在不同場景里,測量它們的不同反應。所以我不是神經(jīng)科學家,Jack 可以談這個,但我的感覺是,很多人花了大量時間在神經(jīng)科學上,試圖理解大腦和心智,這是非常有價值的事業(yè)。但如果你認為那樣的努力最終可能會成功,那么你就應該認為我們很快會取得極大的成功,因為我們在研究這個問題時所處的位置實在太優(yōu)越了。

主持人:相比之下,這就好像我們能夠克隆人類,并且還能克隆他們所處的精確環(huán)境,以及他們一生中接受過的每一個輸入,然后在實驗里反復測試。而神經(jīng)科學顯然會面臨巨大的問題,正如你說的,個體差異,還有生活中發(fā)生的各種隨機事件,以及實驗本身帶來的噪聲。

Josh:我們可以問模型同樣的問題,比如有提示和沒提示的情況下。但如果你對一個人問三次同樣的問題,有時候給提示,過一會兒他們就會開始明白了。就像,“嗯,上次你問我這個的時候,你搖了搖頭?!?/span>

Jack:能對模型投入海量數(shù)據(jù),看看哪些部分會被激活,還能運行大量實驗去推動模型的某些部分,看會發(fā)生什么。我覺得這就是我們和神經(jīng)科學處在截然不同范式的原因。在神經(jīng)科學里,得花大量的心血去設(shè)計非常巧妙的實驗,因為你和老鼠相處的時間有限——它很快就會累了,或者……

主持人:或者有人正好在做開顱手術(shù),你就趕緊把光纖插進大腦趁著腦袋開著的時候。對。

Jack:對,而這種情況并不常見。所以你必須想出一個猜測,因為你只有有限的時間,你得推測:“我覺得在這個神經(jīng)回路里發(fā)生了什么?我能設(shè)計什么聰明的實驗去驗證這個具體假設(shè)?”而我們非常幸運的是,不用那么做。我們幾乎可以測試所有假設(shè),可以讓數(shù)據(jù)自己告訴我們,而不是只去驗證一個極度具體的設(shè)想。我認為這解鎖了很多我們本來不會預料到的發(fā)現(xiàn),這些發(fā)現(xiàn)讓我們感到意外。如果你的實驗帶寬非常有限,這是很難做到的。

“在到達終點之前”

主持人:那能不能舉一個好例子,說明你們?nèi)デ袚Q某個概念開關(guān),或者對模型做某種操作,從而揭示了模型思維方式的新東西?

Emmanuel:在最近的實驗中,有一個讓我很驚訝。它屬于一個實驗方向,本來因為太令人困惑,我們幾乎要放棄,說“我們搞不懂”。這是關(guān)于提前規(guī)劃幾步的例子。比如,你讓模型寫一首押韻的二行詩。作為人類,如果你讓我寫押韻的二行詩,就算你給了我第一行,我想到的第一件事就是:“我需要押韻。這是當前的韻律。這些是可能的詞?!?/span>

主持人:這就是我的做法。而如果模型只是預測下一個詞,你不一定會預料到它會提前計劃到第二行的最后一個詞。

Emmanuel:沒錯,默認的假設(shè)是:模型看到你的第一行,然后它會說出一個看起來合理的下一個詞,繼續(xù)往下走。等到最后一個詞的時候,它會想,“哦,我得押韻”,然后隨便找一個詞來押韻。當然,這種方法只能部分成功。有時候你沒考慮到押韻,就會把自己逼到死角,最后根本寫不出完整的詩。

但注意,模型在預測下一個詞方面非常非常強。而要在最后一個詞上表現(xiàn)好,就必須提前很久想好那個詞,就像人類一樣。

結(jié)果我們看了幾首詩的“流程圖”,發(fā)現(xiàn)模型在第一行結(jié)束的時候已經(jīng)選好了最后一個詞。特別是根據(jù)那個概念的樣子,我們能看出來:“天哪,這就是它要用的詞?!倍@個實驗的妙處在于,它可以被輕松干預。比如你把那個詞移掉,或者插入另一個詞。

圖片圖片

主持人:我正想說,你們之所以知道這一點,是因為可以進入那個時刻:它剛說完第一行的最后一個詞,正要開始第二行。你們可以在那一刻操作,對吧?

Emmanuel:對,沒錯。我們幾乎可以像“回到過去”。好吧,假裝你還沒看到第二行,你只看到第一行,你正在考慮“rabbit”,但我插入“green”。結(jié)果模型立刻會想,“哦天哪,我需要寫一句以 green 結(jié)尾的詩句”,而不是“以 rabbit 結(jié)尾”。它會寫出完全不同的句子。

Jack:補充一點。我覺得結(jié)尾不一定必須是顏色,但這種干預會影響它。比如,論文里的例子是第一行是“He saw a carrot and had to grab it.” 模型原本會想到“rabbit”作為下一行的押韻。但像 Emmanuel 說的,你可以把 rabbit 去掉,換成 green。妙的是,它不會只是一串胡話然后硬塞一個 green。它會構(gòu)造一句語義連貫、以 green 結(jié)尾的句子。就像你把 green 塞進它的腦子里,它會寫出類似 “He saw a carrot and had to grab it / And paired it with his leafy green” 這樣的東西,聽起來還挺合理的。

主持人:聽起來在語義上也說得通,符合詩的語境。

Josh:我想舉一個更樸素的例子。我們做了一些測試,看看它是不是只是記住了復雜的問題,還是在真正進行推理。比如:“包含達拉斯的州的首府是奧斯汀?!边@就像是人會想:“好,達拉斯→德州→奧斯汀?!蔽覀兡芸吹侥P屠锍霈F(xiàn)“Texas”這個概念,但你可以替換掉它。比如說:“別想德州,想加州?!彼蜁卮稹八_克拉門托”。再說:“別想德州,想拜占庭帝國。”它就會回答“君士坦丁堡”。這讓人覺得,嗯,模型在走“首府”這條路徑,但我們能不斷替換“州”,得到可預測的答案。然后還有更復雜的例子:這是它計劃好要往某個方向走的節(jié)點,我們把它替換掉,就能讓它往另一個韻腳去寫詩。

主持人:我們現(xiàn)在在談詩,君士坦丁堡之類的例子。但能回到關(guān)鍵問題嗎:為什么這很重要?為什么重要的是模型能提前規(guī)劃,我們能揭示這一點?這能告訴我們什么?畢竟 Anthropic 的最終使命是讓 AI 模型更安全。那這和一首關(guān)于兔子的詩或者德州首府有什么關(guān)系?

Josh:我覺得這是個非常重要的問題。對我來說,詩只是一個縮影。比如,在寫詩時,它決定往“rabbit”方向走,然后用了幾個詞逐步到達。但在更長的時間尺度上,模型也可能在做類似的事。比如,它在幫你改進業(yè)務(wù),或者協(xié)助政府分配服務(wù)??赡懿皇?nbsp;8 個詞之后你就看到它的目標,而是要走很久。它前進的方向,或者每一步的理由,未必在它用的詞里就能看出來。Anthropic 的對齊科學團隊最近有篇論文,講了一個合成但很震撼的案例:AI 在公司即將關(guān)閉、轉(zhuǎn)向完全不同的使命時,開始采取行動,比如給人發(fā)郵件,威脅要披露某些東西。它從沒說過:“我要勒索這個人以改變結(jié)果?!钡@就是它一路上的實際動機。所以,你不能光靠讀表面輸出,就知道它的目標是什么。尤其隨著模型越來越強,我們更需要能在它“到達終點之前”看出它在走向哪里。

模型甚至會研究用戶是誰,從而影響輸出

主持人:所以這有點像有個超級精準的腦部掃描,可以在壞事發(fā)生前亮燈,提醒我們模型正在考慮欺騙之類的行為?

Josh:對。我覺得我們也別光談“末日場景”。還有一些更溫和的情況。比如,用戶來找模型解決問題,而“好答案”取決于用戶是誰:是年輕、不太懂行的人,還是在這個領(lǐng)域浸淫已久的人?模型需要識別并調(diào)整回應。如果你想讓結(jié)果更好,就可能需要研究:模型認為發(fā)生了什么?它覺得自己在和誰對話?這又如何影響它的回答?這里面有很多理想的屬性,取決于模型是否“理解任務(wù)”。

只有模型可解釋,才能把信任交給它

主持人:你們對“為什么這很重要”還有其他答案嗎?

Emmanuel:有的。我同意剛才的說法,還想加兩點。還有一個務(wù)實的角度:我們用這些例子,其實是在逐步建立對模型工作機制的理解。我們能不能構(gòu)建一套抽象框架,去解釋語言模型是如何運作的,從而幫助我們使用和監(jiān)管它?如果你相信它們會越來越廣泛應用——這顯然正在發(fā)生——那我們最好能理解它。否則就像:某個公司發(fā)明了飛機,但沒人知道飛機怎么運作。大家都說:“真方便,可以坐飛機去別的地方?!钡绻w機壞了,我們束手無策,因為沒人知道原理。

主持人:我們就無法監(jiān)測飛機是不是快要壞了。

Emmanuel:對。我們完全沒概念,只是覺得:“哇,飛到巴黎真快?!?/span>

主持人:太美妙了,德州首府。

Emmanuel:所以我們肯定會想要更好地理解這些模型,哪怕只是提升一些直覺:哪些用途合適,哪些不合適?最大的隱患在哪?哪些地方最脆弱?

Jack:我再補充一點。在人類社會里,我們常?;谛湃伟讶蝿?wù)交給別人。我不是任何人的老板,但比如說 Josh 是某人的老板,他會布置任務(wù):“去寫這個代碼?!彼嘈拍莻€人不是個會故意埋漏洞、想要搞垮公司的反社會者。他會信任對方說的“我寫好了”是真的。

同樣地,現(xiàn)在人們使用語言模型的方式,我們并沒有對它寫的每一句話都進行逐點跟蹤。我認為最好的例子是把語言模型用于代碼輔助。模型正在寫成千上萬行代碼,而人們只是做一種粗略的閱讀,然后它們就進入了代碼庫。那么,是什么讓我們對模型產(chǎn)生了信任,以至于我們不需要讀它寫的每一句話,可以讓它自己去做?那是因為我們知道它的動機某種程度上是純粹的。我認為能夠看到它的內(nèi)在運作是如此重要,因為與人類不同——為什么我認為Emmanuel不是一個反社會者?我不知道,他看起來是個酷家伙,而且他很友好之類的。

主持人:但是如果他看起來是那樣的話……

Emmanuel:我可是個非常好的人。

主持人:沒錯。

為大模型構(gòu)建信任的兩條路徑

Jack:所以也許,也許我是被蒙騙了。但對,模型是如此奇怪而陌生,我們通常用來判斷一個人是否值得信任的那種啟發(fā)式并不適用在它們身上。這就是為什么真正了解它們在腦子里在想什么顯得如此重要,因為據(jù)我們所知,我提到的那個例子——模型可能會假裝在幫你做一道數(shù)學題,只是為了告訴你你想聽的答案——也許它們一直都在這樣做,而我們根本不會知道,除非我們能在某種程度上看到它們的內(nèi)心。

Josh:我覺得這里有兩條幾乎分開的脈絡(luò),一方面我們確實有很多方式,我猜就像Jack說的,是判斷一個人是否值得信任的跡象。但之前提到的“A方案/B方案”這點真的很重要,因為可能你前10次或者100次使用模型時,你問的都是某一類問題,而它總是在A方案的區(qū)域里,然后你問它一個更難的或不一樣的問題,它試圖回答的方式就完全不同了。它在那里使用的是一套完全不同的策略,比如不同的機制。這意味著它之前和你建立的信任,實際上只是你和它在A方案下的信任。而現(xiàn)在它切換到了B方案,就會完全脫軌,而你之前并沒有任何警告信號。

我們還想開始建立一種理解:模型是如何做這些事情的,從而在某些方面建立信任的基礎(chǔ)。你確實可以對一個你并不完全理解的系統(tǒng)建立信任,但這就像,如果Emmanuel有一個雙胞胎,然后有一天Emmanuel的雙胞胎走進辦公室,看起來是同一個人,然后卻在電腦上做了完全不同的事——這可能就會走向壞的方向,取決于那是不是一個邪惡的雙胞胎。

主持人:是啊,或者是好的。不過對,這里顯然是……

Emmanuel:哦,我以為你在問我是不是那個邪惡的雙胞胎。

大模型,在像人類一樣思考嗎?No!

主持人:嗯,我可不會回答這個問題。在討論一開始,我問過你們:語言模型是在像人類一樣思考嗎?我很想聽聽你們?nèi)坏拇鸢浮銈冇X得這種說法在多大程度上是真的。

Jack:這個問題讓我有點措手不及。但我認為它是在思考的,只是不是像人類一樣思考。但這不是一個很有用的答案。所以也許我需要更深入一點。

主持人:嗯,不過說它“在思考”似乎是個挺深刻的說法,對吧?再說一次,它只是預測下一個詞。有些人認為這只是自動補全,而你卻在說它實際上是在思考。

Jack:我認為,是的。所以也許我補充一些我們還沒提到的,但我覺得對于理解與語言模型對話的真實體驗來說非常重要的東西。就像我們在說預測下一個詞,但在你和語言模型進行對話的語境下,這實際上意味著什么?

Jack:在底層真正發(fā)生的事情是,語言模型在填充一段你和它所創(chuàng)造的一個角色之間的對話記錄。在語言模型的規(guī)范世界里,你被稱為“human”,就是“human:”后面跟著你寫的東西。

Jack:然后還有一個角色叫“assistant”。我們訓練模型去賦予這個助手某些特征,比如樂于助人、聰明和友善。然后它就像是在模擬這個助手角色會對你說什么。所以在某種意義上,我們確實是照著我們的樣子創(chuàng)造了這些模型。我們實際上是在訓練它們?nèi)ソ巧缪莩蛇@種類人機器人角色。因此,在這個意義上,為了預測這個聰明友好的人形機器人角色會如何回答你的問題,如果你真的很擅長這個預測任務(wù),你必須做些什么?

Jack:你必須在內(nèi)部形成某種模型,來表示這個角色在“思考”什么。所以,為了完成預測助手會說什么的任務(wù),語言模型某種程度上需要形成這個助手思維過程的模型。我認為在這個意義上,說語言模型在思考,其實是一種非常功能性的主張:為了很好地扮演這個角色,它們需要模擬某種過程——無論我們?nèi)祟愒谒伎紩r做的是什么。而它們的模擬很可能和我們大腦的工作方式非常不同,但它們瞄準的目標是相同的。

Emmanuel:我覺得這個問題里有一種情感成分,或者類似的東西。當你問,“它們是在像我們一樣思考嗎?我們是不是沒那么特別?”之類的。

Emmanuel:我認為——而且這在和一些讀過相關(guān)論文或不同解讀的人們討論時很明顯——有個例子是我們讓模型算36加59,問它答案是什么。模型能正確回答。你還可以問它,“你是怎么算的?”它會說,“哦,我把6和9加在一起,然后進位1,然后我又把所有的十位數(shù)加起來?!钡Y(jié)果是,當我們看進它的“大腦”時——

主持人:它根本沒那樣做。它并沒有那樣做。所以它又是在胡扯。

Emmanuel:對,它又是在胡扯。實際上它真正做的,是一種挺有趣的混合策略:它同時并行地算十位數(shù)和個位數(shù),然后……我是說,就像是一系列不同的步驟。但這里有意思的是,當和人們交談時,我覺得他們的反應是分裂的:這意味著什么?某種意義上,我覺得酷的是,這部分研究是沒有觀點的,或者說,這就是發(fā)生了什么。你可以自由地得出結(jié)論,說模型在思考,或者沒有在思考。

Emmanuel:有一半人會說:“嗯,它告訴你它在進位,但它沒有。所以顯然它連自己的思維都不理解,所以顯然它沒有在思考?!倍硪话肴藭f:“好吧,當你問我36加59時,我也有點……我知道結(jié)果末位是5,我知道大概在80多或90左右,我在腦子里有很多這種啟發(fā)式。正如我們之前說的,我并不確切知道我是怎么計算的,我可以寫出來用長算方式算,但我腦子里的運作方式是模糊而奇怪的。而那可能和模型的例子一樣,模糊而奇怪?!?/span>

主持人:人類在元認知方面出了名的差勁,就是思考關(guān)于思考、理解自己思維過程,尤其在反射性回答的場景里。那么我們?yōu)槭裁匆诖P蜁灰粯幽??Josh?

Josh:至于你的問題,像是Emmanuel的回答,我要回避一下,類似于“你為什么要問這個?”預測,不知道。這就好像在問,“一枚手榴彈是不是像人類一樣打擊?”嗯,它有某種力量,是的,也許有些東西比那更接近。但如果你擔心的是破壞,那么我認為理解破壞來自哪里才是關(guān)鍵。

Josh:這背后的動因是什么,也許才是重要的事情。對我來說,模型是否在思考——如果你的意思是它們在做某種整合、處理和序列化的東西,能夠通向一些令人驚訝的結(jié)果——顯然是的。從大量和它們的交互中,如果說沒有任何東西在發(fā)生,那是很瘋狂的。我們能在某種程度上開始看到它是如何發(fā)生的。然后涉及到“像人類”的那部分就很有趣了,因為我認為這其中一部分是在問:我能從這些模型身上期待什么?因為如果它和我有點像,那么它擅長這件事就可能也擅長那件事。但如果它和我很不一樣,那我就真的不知道該期待什么。所以,歸根結(jié)底,我們是在試圖理解——哪些地方我們需要極度懷疑,或者說從零開始去理解?而哪些地方我們可以基于我們自己非常豐富的思考經(jīng)驗來推理?

Josh:在這里我感覺有點被困住了,因為作為一個人類,我不斷把自己的形象投射到一切事物上,就像《圣經(jīng)》里警告我們的那樣,我會想,“這塊硅片,它就是像我一樣,照著我的形象被造出來的?!痹谀撤N程度上,它被訓練來模擬人和人之間的對話。它在表現(xiàn)上會非常像人。因此,一些人性會僅僅因為訓練過程而進入其中,但它使用的設(shè)備卻完全不同,有著不同的局限。所以它做到這一點的方式可能會相當不同。

Jack:回應Emmanuel的觀點,我覺得,是的,我們在回答這樣的問題時確實處于一個棘手的境地。我們其實并沒有合適的語言來描述語言模型到底在做什么。這就好像是在研究生物學,但還沒發(fā)現(xiàn)細胞,或者還沒發(fā)現(xiàn)DNA。我覺得我們正在開始填補這種理解。正如Emmanuel所說,現(xiàn)在有一些情況,我們確實可以做到,比如說你只要去讀我們的論文,你就會知道模型是如何把這兩個數(shù)字加在一起的。如果你想稱它為人類般的,如果你想稱它為思考,或者你不想這樣稱呼,那取決于你。但真正的答案是找到合適的語言和合適的抽象來談?wù)撃P汀?/span>

Jack:但與此同時,在這個科學項目上我們大概只完成了20%,剩下的80%需要去填補。我們不得不從其他領(lǐng)域借用類比。于是問題變成:哪些類比是最恰當?shù)??我們該把模型當作計算機程序來看待嗎?還是該把它們當作小人兒來看待?在某些方面,把它們當作小人兒來看是有用的。因為如果我對模型說刻薄的話,它會頂嘴,這就是人會做的事情。但在另一些方面,這顯然不是正確的心智模型。所以我們被困在這里,不斷摸索什么時候該借用哪種語言。

既興奮又挫敗,研究僅僅進行了10~20%

主持人:好吧,這就引出了我最后想問的問題:下一步是什么?接下來需要哪些科學上的進展、生物學上的進展,才能讓我們更好地理解這些模型內(nèi)部到底發(fā)生了什么,并且?guī)椭覀儗崿F(xiàn)讓它們變得……

Josh:更安全?還有很多工作要做。我們最近的出版物里有一大段在講我們觀察方式的局限性,同時那也是一份改進路線圖。比如,當我們在尋找模式以分解模型內(nèi)部發(fā)生的事情時,我們可能只捕捉到了其中的幾個百分點。至于它如何在內(nèi)部傳遞信息,有很大一部分我們根本沒有捕捉到。把這個規(guī)模從我們以前使用的小型生產(chǎn)模型擴大出來……

主持人:所以你們研究的是“三行俳句”?

Josh:沒錯,那是一個相當有能力的模型,非???,但絕不是像Claude 4系列模型那樣復雜。所以那些更像是技術(shù)挑戰(zhàn)。但我覺得Emmanuel和Jackman對于解決完這些之后會出現(xiàn)的科學挑戰(zhàn)也有一些看法。嗯,我是說……

Emmanuel:我在這里可能想說兩點。第一點是,正如Joshua說的結(jié)果之一,就是在我們總共提出的關(guān)于模型如何完成某個X的問題中,現(xiàn)在我們可能只有10%到20%的時候能夠回答。在稍作調(diào)查之后,我們能告訴你,這是怎么回事。顯然,我們希望這個比例能大大提升。而且這里有一些更明確的途徑,也有一些更具推測性的途徑。

第二點是,我們經(jīng)常討論的一個想法是,模型做的很多事情并不只是“它是如何說出下一個詞的”。我們之前也稍微提過,它有點像是提前規(guī)劃幾個東西,提前幾個詞。抱歉。我們想要理解的是,在和模型進行一場長對話時,它對“正在發(fā)生的事情”的理解是如何變化的?它對“正在和誰對話”的理解是如何變化的?這些又是如何越來越多地影響它的行為的?實際上,Claude這類模型的用例是,它會讀你的大量文檔和電子郵件。

你會把代碼發(fā)給它,然后它基于這些,提出一個建議。顯然,在這個過程中發(fā)生了一些非常重要的事情:它在閱讀所有這些東西。所以我覺得更好地理解這一點將是一個極具挑戰(zhàn)性的課題。

Jack:是的,我們團隊經(jīng)常用的一個類比是:我們正在建造一臺顯微鏡來觀察模型?,F(xiàn)在我們處在一個既令人興奮又有點挫敗的階段,我們的顯微鏡只有20%的時間能用。而且使用它需要很高的技巧,還得搭建一整套龐大的裝置?;A(chǔ)設(shè)施總是在出問題。然后一旦你弄清楚模型在做什么,你還得把Emmanuel、我或者團隊里的其他人關(guān)在一個房間里兩個小時,來拼湊出到底發(fā)生了什么。而真正令人興奮的未來,也許是一年或兩年的時間尺度,就是我們能讓你和模型的每一次交互都能被放到顯微鏡下。有一堆奇怪的事情模型在做,而我們只需要按下一個按鈕。比如你在對話時,按下一個按鈕,你就能得到一張流程圖,告訴你它當時在思考什么。一旦我們達到那個點,這就會是……

我覺得Anthropic的可解釋性團隊可能會開始呈現(xiàn)出不同的形態(tài)。不再只是由工程師、科學家組成,去研究語言模型內(nèi)部是如何運作的數(shù)學原理,而是會出現(xiàn)一支“生物學家大軍”,他們拿著顯微鏡,和Claude對話,讓它做一些奇怪的事情,然后人們透過顯微鏡觀察它內(nèi)部到底在想什么。我覺得這就是這個領(lǐng)域的未來。

讓Claude自己也參與進來,研究模型內(nèi)部電路形成機制

Josh:也許在這上面我補充兩點。第一點是,我們希望Claude來幫我們完成所有這些工作。因為涉及的部分太多了,而真正擅長查看上百個東西并弄清楚發(fā)生了什么的,正是Claude。所以我覺得我們正嘗試讓它加入進來,尤其是在這些復雜語境下。

另一點是,我們已經(jīng)很多次談到“研究模型在完全成型之后”,但當然我們在一家制造這些模型的公司。所以當它說“這是模型解決某個具體問題的方式”時,我們會問:這來自哪里?在訓練過程中是什么步驟讓這樣的電路形成,從而能做到這一點?我們又該如何把反饋提供給公司其他負責訓練的團隊,幫助他們塑造出我們真正想要的東西?

主持人:好的,非常感謝這次對話。人們可以在哪里找到更多關(guān)于這項研究的信息?

Josh:如果你想了解更多,你可以訪問Anthropic.com/research,那里有我們的論文、博客文章和一些有趣的視頻。另外,我們最近和一個叫Neuron Pedia的團隊合作,把我們制作的一些電路圖托管在那兒。所以如果你想親自試試看,了解一個小模型內(nèi)部發(fā)生了什么,你可以去Neuron Pedia自己看看。

主持人:非常感謝。

好文文章到這里結(jié)束了,相關(guān)的視頻和博文地址,小編也為大家扒下來了,沒看過癮的大佬們可以自行去翻閱。

相關(guān)博文地址:https://www.anthropic.com/news/tracing-thoughts-language-model

視頻地址:https://www.youtube.com/watch?v=fGKNUvivvnc

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-05-22 07:53:21

2025-02-18 13:00:00

2025-02-17 08:25:00

模型數(shù)據(jù)訓練

2010-08-30 09:18:15

2020-02-04 10:24:43

云計算云安全數(shù)據(jù)

2015-09-01 11:33:08

云安全云服務(wù)云安全工具

2015-09-21 09:33:08

2020-11-30 08:31:14

Windows 10Windows微軟

2022-02-28 00:14:30

人工智能數(shù)據(jù)機器學習

2025-06-11 08:59:21

2013-07-18 14:58:11

AndroidiOSWP

2015-10-29 09:35:12

BAT趨勢數(shù)據(jù)

2023-10-07 13:16:40

ChatGPT神經(jīng)元模型

2019-01-08 14:47:32

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數(shù)據(jù)平臺IT

2024-09-12 14:46:03

2024-04-22 09:06:17

AILLMs架構(gòu)

2022-02-24 11:46:38

區(qū)塊鏈技術(shù)NFT

2014-06-17 10:57:09

點贊
收藏

51CTO技術(shù)棧公眾號