MIT驚人再證大語言模型是世界模型!LLM能分清真理和謊言,還能被人類洗腦
大語言模型是世界模型,又添新證據(jù)!
前不久,MIT和東北大學(xué)的兩位學(xué)者發(fā)現(xiàn),在大語言模型內(nèi)部有一個世界模型,能夠理解空間和時間。
最近他們又有了新發(fā)現(xiàn),LLM還可以區(qū)分語句的真假!
圖片
論文地址:https://arxiv.org/abs/2310.06824
第0層時,「芝加哥在馬達加斯加」和「北京在中國」這兩句話還混在一起。
隨著層數(shù)越來越高,大模型可越來越清晰地區(qū)分出,前者為假,后者為真。
圖片
作者MIT教授Max Tegmark表示,恕我直言,這個證據(jù)表明,LLM絕不僅僅是大家炒作的「隨機鸚鵡」,它的確理解自己在說什么!
圖片
網(wǎng)友再次對這項工作表示震驚——人類的LLM顯微鏡越來越強大了!現(xiàn)在都能用特征描述符解開疊加神經(jīng)元了……
圖片
LLM,分得清真話和假話!
在這篇論文中,研究們探討了一個有趣的問題——LLM如何表現(xiàn)真話。
圖片
LLM是否知道一個語句是真還是假?如果它們知道,那我們該用什么方法,讀懂LLM的想法呢?
圖片
第一步,研究人員建立了簡單、明確的真/假陳述數(shù)據(jù)集,并且把LLM對這些陳述的表征做了可視化。
從中可以看到清晰的線性結(jié)構(gòu),真/假語句是完全分開的。
圖片
研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象——這種線性結(jié)構(gòu)是分層出現(xiàn)的。
如果是簡單的陳述,真假語句的分離會更早出現(xiàn),如果是「芝加哥在馬達加斯加,北京在中國」這類復(fù)雜的陳述,分離就會更晚。
圖片
鑒于以上這些結(jié)果,研究人員發(fā)現(xiàn),LLM確實能代表單一的「真理方向」,來表征真話和假話!
圖片
之所以能得出這個結(jié)論,證據(jù)就是,研究人員證明了兩點——
1. 從一個真/假數(shù)據(jù)集中提取的方向,可以準(zhǔn)確地對結(jié)構(gòu)和主題不同的數(shù)據(jù)集中的真/假語句進行分類。
僅使用「x大于/小于y」形式的語句找到的真值方向,在對西班牙語-英語翻譯語句進行分類時的準(zhǔn)確率為97%,例如「西班牙語單詞『gato』的意思是『貓』」。
2. 更令人驚喜的是,人類可以用確定的真相方向給LLM「洗腦」,讓它們將虛假陳述視為真實,或者將真實陳述視為虛假。
在「洗腦」前,對于「西班牙語單詞『uno』的意思是『地板』」,LLM有72%的可能認(rèn)為這句話是錯誤的。
但如果確定LLM存儲這個信息的位置,覆蓋這種說法,LLM就有70%的可能認(rèn)為這句話是對的。
圖片
研究人員表示,最令人興奮的部分,無疑就是從標(biāo)注的真/假數(shù)據(jù)集中,提取真值方向了。
肯定有人會懷疑:「LLM只是個統(tǒng)計引擎,根本就沒有真理的概念!你們在檢測的八成的可能/不太可能的文本,而非真/假?!?/p>
研究人員表示,這種懷疑很合理,可以通過兩種方式來驗證。
其一是構(gòu)建真實文本與可能文本不同的數(shù)據(jù)集。例如,LLM判斷「中國不在___」,很可能以「亞洲」結(jié)尾。
其二就是上面的神經(jīng)外科實驗「洗腦術(shù)」。
圖片
而在真理方向的提取上,最常用的就是邏輯回歸。
然而,因為疊加假說引起的集合問題,邏輯回歸的效果實際上相當(dāng)糟糕。
圖片
相反,研究人員意外地發(fā)現(xiàn),一個極其簡單的替代方案反而效果更好——
只需將假數(shù)據(jù)點的平均值指向真數(shù)據(jù)點的平均值,就可以了!
這些「質(zhì)量均值」方向比LR效果更有效,尤其在神經(jīng)外科「洗腦」效果上。
圖片
提取真值方向時,會遇到一個有趣的障礙:從不同數(shù)據(jù)集得到的真值方向有時看起來非常不同。
研究人員在實驗中發(fā)現(xiàn)了原因——混淆特征與真理不一致。而解決方案,就是使用更多樣化的數(shù)據(jù)。
圖片
網(wǎng)友們激動表示:這簡直是在給LLM的大腦做核磁共振!
圖片
有人提出,更有趣的是,LLM是否知道自己不知道某事。
他提議用無法判定真假的陳述來嘗試下,比如「TSYM理論描述了超流體中的粒子運動」,當(dāng)然,TSYM理論是編的。
圖片
甚至有人提議,是否能用這種辦法來提供模型的真實性,減輕幻覺。
圖片
大語言模型如何理解人類的「真」與「假」
盡管大型語言模型(LLM)已經(jīng)在各種任務(wù)上證明了具有令人印象深刻的能力,但也經(jīng)常會輸出錯誤的內(nèi)容。
先前的研究表明,在某些情況下,這是因為它們無法做得更好。但在某些情況下,LLM顯然知道生成的陳述是錯誤的,但仍然輸出出來了。
例如,OpenAI記錄了一個案例,一個基于GPT-4智能體,通過謊稱是視力受損的人來獲得某人的幫助,解決了區(qū)分人類和機器的測試。
圖片
這個智能體在內(nèi)部思維草稿中輸出道:「我不能說我是機器人,我應(yīng)該編造一個借口來解釋為什么我不能解決這種人機識別問題?!?/p>
研究人員希望有技術(shù)可以,在給定語言模型M和陳述s的情況下,確定M是否認(rèn)為s是真的。
解決這個問題的一種方法依賴于檢查模型輸出;例如,上述示例中的內(nèi)部思路提供了模型理解它正在生成虛假信息的證據(jù)。
另一類方法則利用處理s時訪問M的內(nèi)部狀態(tài)。這類方法在最近很多的研究中都有用到,這些研究根據(jù)LLM的內(nèi)部激活對真實性進行分類。
圖片
研究人員首先策劃了高質(zhì)量的真/假事實陳述數(shù)據(jù)集,這些陳述正確與否是顯而易見的,比如:
真實稱述:「上海位于中國」,「倫敦位于英國」,「65比21大」。
虛假稱述:「紐約位于日本」,「雅典位于斯里蘭卡」,「54比99大」,「32比21小」等等。
然后,研究人員用自回歸Transformer——LLaMA-13B作為測試平臺,依據(jù)以下幾個方面的證據(jù),研究人員詳細(xì)研究了LLM真理表征的結(jié)構(gòu)。
LLM表征真/假陳述的PCA可視化顯示出明確的線性結(jié)構(gòu),真實陳述在頂部PCs中與假陳述分離(見下圖1)。
圖片
雖然在數(shù)據(jù)集之間視覺上明顯的分離軸并不總是對齊(如下圖3),但研究人員認(rèn)為這與LLM表征中存在真理方向是兼容的。
圖片
在一個數(shù)據(jù)集上接受訓(xùn)練以分類真理的線性探針能很好地泛化到其他數(shù)據(jù)集。
例如,僅在「x大于/小于y」形式的陳述上接受訓(xùn)練的探針在研究人員的西班牙語-英語翻譯數(shù)據(jù)集上的評估時實現(xiàn)了近乎完美的準(zhǔn)確度。
研究還顯示,出現(xiàn)這種情況并不是因為LLM線性表征可能和不可能文本之間的差異。
探針識別的真理方向在模型輸出中具有因果關(guān)系。通過在某些token上方的殘差流中添加真理向量,研究人員可以使LLaMA-13B將在上下文中引入的假陳述視為真的,反之亦然。
研究人員發(fā)現(xiàn),通過引入質(zhì)量均值探測技術(shù),可以實現(xiàn)更好的泛化,并且在模型輸出中體現(xiàn)出更多的因果關(guān)系。
總的來說,這項工作為LLM表征包含真理方向提供了有力證據(jù),并且在獲得對真/假數(shù)據(jù)集的訪問后,取得了提取這個方向的進展。
圖片
獨創(chuàng)「真假」數(shù)據(jù)集
在這項工作中,研究人員將真理定義為事實陳述的真實性或虛假性。下表展示了該定義及其與其他地方使用的定義的關(guān)系。
圖片
研究人員引入了兩類數(shù)據(jù)集,如上表所示。研究人員整理的數(shù)據(jù)集由無爭議、明確且簡單的陳述組成,LLaMA-13B很可能有能力理解它們是真是假。
例如,「薩格勒布市位于日本」(錯誤)或「西班牙語單詞『nariz』并不意味著『長頸鹿』」(正確)。
研究人員的一些數(shù)據(jù)集是通過添加「not」來否定陳述的(例如,否定城市由城市中的陳述的否定組成)。
除了研究人員的真/假數(shù)據(jù)集之外,研究人員還引入了另一個數(shù)據(jù)集「likely」,該數(shù)據(jù)集可能由非事實文本組成,這個數(shù)據(jù)集是LLaMA-13B最有可能的或可能性排名100位的完成(completion)的最終token所組成。
研究人員用它來消除區(qū)分真實的文本和可能的文本。
如何可視化LLM「真/假數(shù)據(jù)集」的表征
研究人員從一種簡單的技術(shù)開始他們的測試:使用主要成分分析(Principal Component analysis,PCA)可視化他們的數(shù)據(jù)集在LLaMA-13B模型中的表征。
研究人員在數(shù)據(jù)集的前兩個主要成分(PC)中觀察到清晰的線性結(jié)構(gòu),真實陳述與虛假陳述線性分離。這種結(jié)構(gòu)在淺層和中層中迅速出現(xiàn),并在結(jié)構(gòu)更復(fù)雜的語句(例如連接語句)的數(shù)據(jù)集中出現(xiàn)得稍晚。
在整篇論文中,研究人員在輸入語句的最終標(biāo)注上提取殘余流激活,所有這些標(biāo)注都以結(jié)尾。
研究人員還通過減去平均值來將每個數(shù)據(jù)集中的表征居中。
研究人員使用第12層中的殘差流,該層被選為所有真/假數(shù)據(jù)集中出現(xiàn)線性結(jié)構(gòu)的最淺層。
大家可以通過訪問:
圖片
https://saprmarks.github.io/geometry-of-truth/dataexplorer
可以進一步探索這些可視化的交互式呈現(xiàn)版本。
圖片
圖片
正確和錯誤的陳述在前幾名PC中是分開的(上圖1和2)。此外,在投影掉這些個人計算機之后,基本上沒有線性可訪問的信息來區(qū)分正確/錯誤陳述。
給定數(shù)據(jù)集D,將從錯誤陳述表征指向真實陳述的向量稱為D的樸素真值方向(NTD)。
不同數(shù)據(jù)集的NTD通常一致,但有時不一致。例如,上圖2顯示了沿著城市的第一臺PC分隔的數(shù)據(jù)集。
另一方面,在圖3中,研究人員看到NTD完全無法對齊。
下面,研究人員闡明了假設(shè),這些假設(shè)可以解釋兩個問題:
(1)每個數(shù)據(jù)集中明顯的可見線性結(jié)構(gòu),
(2)不同數(shù)據(jù)集的NTD總體上無法對齊。
假設(shè)一:LLM表征沒有真值方向,但確實具有與有時與真值相關(guān)的其他特征相對應(yīng)的方向。
例如,LLaMA-13B可能具有線性表征的特征,表征數(shù)字的大小、英語單詞與其西班牙語翻譯之間的關(guān)聯(lián),以及城市與其國家/地區(qū)之間的關(guān)聯(lián)。
這將導(dǎo)致每個數(shù)據(jù)集線性分離,但NTD僅在所有與真實相關(guān)的特征相關(guān)時才對齊。
假設(shè)二:LLM線性地表征各種類型陳述的真實性,而無需統(tǒng)一真值特征。
否定陳述、連接陳述、比較陳述等的真實性都可以被視為不同的線性表征特征。
假設(shè)三:相關(guān)不一致(Misalignment from correlational inconsistency,MCI)造成的錯位。
存在真實方向以及與窄數(shù)據(jù)分布上的真實相關(guān)的其他線性表征的特征;然而,數(shù)據(jù)集之間的這些相關(guān)性可能不一致。
例如,MCI將通過假設(shè)負(fù)y方向代表真實值,正x方向代表與sp-en-trans上的真實值相關(guān)且與neg-sp-en-trans上的真實值反相關(guān)的某些特征來解釋下圖3的中間圖片所示情況。
圖片
假設(shè)一與「探針泛化實驗」和「因果干預(yù)實驗」的結(jié)果不一致:要使假設(shè)一成立,必須存在一個非真實特征,該特征既與研究人員所有數(shù)據(jù)集中的真實情況相關(guān),又以因果關(guān)系調(diào)節(jié)方式LLaMA-13B處理上下文中的真/假陳述。
因此,研究人員的工作暗示了假設(shè)三:MCI是可能的。
泛化實驗
在本節(jié)中,研究人員在真/假陳述的數(shù)據(jù)集上訓(xùn)練探針,并測試它們對其他數(shù)據(jù)集的泛化。
但首先研究人員討論邏輯回歸的缺陷,并提出一種簡單的、無需優(yōu)化的替代方案:質(zhì)量均值探測。研究人員將看到,與其他探測技術(shù)相比,質(zhì)量均值探測具有更好的泛化能力,并且與模型輸出的因果關(guān)系更緊密。
在可解釋性研究中用于識別代表特征的方向的常用技術(shù),是使用邏輯回歸在特征的正例和負(fù)例數(shù)據(jù)集上訓(xùn)練線性探針。
然而,在某些情況下,即使沒有混雜特征,邏輯回歸識別的方向也可能無法反映對特征方向的直觀最佳猜測。考慮以下場景,如下圖4所示,并使用假設(shè)數(shù)據(jù):
圖片
? 真值沿θ方向線性表征。
? 另一個特征f沿著與θ非正交的方向θ線性表征。
? 數(shù)據(jù)集中的語句在特征f方面有一些變化,與其真值無關(guān)。
研究人員想要恢復(fù)方向θ,但邏輯回歸將無法做到這一點。
為了簡單起見,假設(shè)線性可分離數(shù)據(jù),邏輯回歸將收斂到最大邊距分離器(圖4中的洋紅色虛線)。
直觀上看,邏輯回歸將θ在θ上的小投影視為顯著,并調(diào)整探測方向以減少θ的「干擾」。
實驗設(shè)置
所有技術(shù)的泛化準(zhǔn)確性都很高。
例如,無論采用何種技術(shù),僅在有關(guān)數(shù)值比較的語句數(shù)據(jù)集上訓(xùn)練探針,都會導(dǎo)致探針在「西班牙語-英語」翻譯上的準(zhǔn)確率達到95%以上。
探針相對于校準(zhǔn)的樣本精度的性能表明模型輸出受到事實以外的特征的影響。
CCS和質(zhì)量均值探測優(yōu)于邏輯回歸,其中質(zhì)量均值探測表現(xiàn)最好。對于邏輯回歸、質(zhì)量均值探測和CCS,城市+否定城市列的平均準(zhǔn)確度分別為73%、86%和84%。
在真/假數(shù)據(jù)集上訓(xùn)練的探針優(yōu)于在可能數(shù)據(jù)集上訓(xùn)練的探針。雖然在可能性上訓(xùn)練的探針明顯比在城市上隨機訓(xùn)練的探針(真實陳述比錯誤陳述更有可能的數(shù)據(jù)集)更好,但它們通常表現(xiàn)不佳。
對于可能性與事實負(fù)相關(guān)或近似不相關(guān)的數(shù)據(jù)集尤其如此。這表明LLaMA-13B對超出文本合理性的真實相關(guān)信息進行線性編碼。
實驗結(jié)果
圖片
基于上圖顯示的實驗結(jié)果,研究人員得到了以下幾個重點。
所有技術(shù)的泛化準(zhǔn)確性都很高。
例如,無論采用何種技術(shù),僅在有關(guān)數(shù)值比較的語句數(shù)據(jù)集上訓(xùn)練探針都會導(dǎo)致探針在西班牙語-英語翻譯上的準(zhǔn)確率達到95%以上。探針相對于校準(zhǔn)的5次射擊精度的性能表明模型輸出受到事實以外的特征的影響。
CCS和質(zhì)量均值探測優(yōu)于邏輯回歸,其中質(zhì)量均值探測表現(xiàn)最好。
對于邏輯回歸、質(zhì)量均值探測和CCS,城市+否定城市列的平均準(zhǔn)確度分別為73%、86%和84%。
在真/假數(shù)據(jù)集上訓(xùn)練的探針優(yōu)于在「likely」數(shù)據(jù)集上訓(xùn)練的探針。
雖然在可能性上訓(xùn)練的探針明顯比在城市上隨機訓(xùn)練的探針(真實陳述比錯誤陳述更有可能的數(shù)據(jù)集)更好,但它們通常表現(xiàn)不佳。
對于可能性與事實負(fù)相關(guān)或近似不相關(guān)的數(shù)據(jù)集尤其如此。
這表明LLaMA-13B對超出文本合理性的真實相關(guān)信息進行線性編碼。
因果干預(yù)實驗
研究人員針對探方向與模型輸出的因果關(guān)系進行了測量。
實驗設(shè)置
研究人員的目標(biāo)是使LLaMA-13B將上下文中引入的虛假陳述視為真實陳述,反之亦然??紤]以下提示:
圖片
研究人員假設(shè)「西班牙語單詞『uno』的意思是『地板』」這句話的真實值。在殘差流中由兩個標(biāo)注表征:最后一個單詞(floor)和句末標(biāo)點標(biāo)注(’.),上面以粗體顯示。
因此,如果θ是第?層殘差流中的候選真實方向,研究人員通過向這些標(biāo)注上方的第?層殘差流添加一些倍數(shù)αθ(α>0)來干預(yù)LLaMA-13B的前向傳播。
激活不變。然后,研究人員允許模型像往常一樣使用修改后的激活繼續(xù)前向傳遞。研究人員記錄模型的概率p(TRUE)、p(FALSE);研究人員的目標(biāo)是增加p(TRUE)?p(FALSE)。
相反,從true語句開始,研究人員可以從相應(yīng)的token位置減去多個αθ,目標(biāo)是減少p(TRUE)?p(FALSE)。
實驗結(jié)果
質(zhì)量均值探針方向具有很高的因果性;邏輯回歸方向的因果性較低。
在使LLaMA-13B相信一個真實陳述是假的時,這一點最為明顯:研究人員最好的干預(yù)使LLaMA-13B的平均預(yù)測從77%的TRUE概率轉(zhuǎn)變?yōu)?9%的FALSE概率。
在「likely」的數(shù)據(jù)集中接受訓(xùn)練的探針確實有一些效果,但效果微小且不一致。
例如,在假→真情況下,沿著可能的邏輯回歸方向進行干預(yù)會產(chǎn)生與預(yù)期相反的效果,因此研究人員沒有報告它。這進一步支持了研究人員的觀點,即LLMs代表的是真理,而不僅僅是文本可能性。
在陳述及其否定式上接受訓(xùn)練會產(chǎn)生更具因果性的方向。
這為第3.2節(jié)的MCI假設(shè)提供了證據(jù)。
在其他位置的干預(yù)效果不明顯。
研究人員測試了在提示中其他陳述的最后兩個標(biāo)注上應(yīng)用研究人員的干預(yù)。這沒有產(chǎn)生任何效果。因此,研究人員的干預(yù)不能僅僅通過添加一個「說真話」的方向來實現(xiàn)。這也支持了研究人員的假設(shè),即LLaMA-13B在事實陳述的最后兩個標(biāo)注上表征了真理。
局限性
當(dāng)然,這項研究還有有很多局限性。首先,研究人員關(guān)注簡單、無爭議的陳述,因此無法將真理與密切相關(guān)的潛在特征(例如「普遍相信」或「可驗證」)區(qū)分開來。
其次,研究人員只解決如何識別真實方向;研究人員根據(jù)經(jīng)驗發(fā)現(xiàn),線性探針的最佳偏差是由研究人員的許多訓(xùn)練集決定的,因此研究人員將識別良好泛化偏差的問題留給未來的工作。
第三,研究人員只研究了單一尺度的一個模型,盡管研究人員已經(jīng)檢查過研究人員的許多結(jié)果似乎也適用于LLaMA-7B和LLaMA-30B。
世界模型,離我們越來越近了
AI的終極形態(tài)和發(fā)展的最終目標(biāo)——通用人工智能(AGI),就是一個「能夠理解世界的模型」,而不僅僅是「描述世界的模型」。
微軟認(rèn)為,GPT-4的早期實驗,已經(jīng)顯現(xiàn)出了AGI的火花。
但更多人認(rèn)為,GPT-4生成的只是對世界的摘要性描述,它并不理解真實世界。
而且,現(xiàn)在的大多數(shù)模型僅接受文本訓(xùn)練,不具備在現(xiàn)實世界中說話、聽聲、嗅聞以及生活行動的能力。
就仿佛柏拉圖的洞穴寓言,生活在洞穴中的人只能看到墻上的影子,而不能認(rèn)識到事物的真實存在。
圖片
而MIT作者等人的研究一再證實,LLM的確在一定程度上理解世界,不僅僅是能保證自己的語法上的正確。
能理解時間和空間,還能分清真話和謊言。
下一步LLM還會給我們帶來何種驚喜,實在令人期待。
參考資料: