吳恩達(dá)力贊!哈佛、MIT學(xué)者用下棋證明:大型語(yǔ)言模型確實(shí)「理解」了世界
2021年,華盛頓大學(xué)語(yǔ)言學(xué)家Emily M. Bender發(fā)表了一篇論文,認(rèn)為大型語(yǔ)言模型不過(guò)是「隨機(jī)鸚鵡」(stochastic parrots)而已,它們并不理解真實(shí)世界,只是統(tǒng)計(jì)某個(gè)詞語(yǔ)出現(xiàn)的概率,然后像鸚鵡一樣隨機(jī)產(chǎn)生看起來(lái)合理的字句。
由于神經(jīng)網(wǎng)絡(luò)的不可解釋性,學(xué)術(shù)界也弄不清楚語(yǔ)言模型到底是不是隨機(jī)鸚鵡,各方觀點(diǎn)差異分歧極大。
由于缺乏廣泛認(rèn)可的測(cè)試,模型是否能「理解世界」也成為了哲學(xué)問(wèn)題而非科學(xué)問(wèn)題。
最近,來(lái)自哈佛大學(xué)、麻省理工學(xué)院的研究人員共同發(fā)表了一項(xiàng)新研究Othello-GPT,在簡(jiǎn)單的棋盤游戲中驗(yàn)證了內(nèi)部表征的有效性,他們認(rèn)為語(yǔ)言模型的內(nèi)部確實(shí)建立了一個(gè)世界模型,而不只是單純的記憶或是統(tǒng)計(jì),不過(guò)其能力來(lái)源還不清楚。

論文鏈接:https://arxiv.org/pdf/2210.13382.pdf
實(shí)驗(yàn)過(guò)程非常簡(jiǎn)單,在沒(méi)有任何奧賽羅規(guī)則先驗(yàn)知識(shí)的情況下,研究人員發(fā)現(xiàn)模型能夠以非常高的準(zhǔn)確率預(yù)測(cè)出合法的移動(dòng)操作,捕捉棋盤的狀態(tài)。
吳恩達(dá)在「來(lái)信」欄目中對(duì)該研究表示高度認(rèn)可,他認(rèn)為基于該研究,有理由相信大型語(yǔ)言模型構(gòu)建出了足夠復(fù)雜的世界模型,在某種程度上來(lái)說(shuō),確實(shí)理解了世界。

博客鏈接:https://www.deeplearning.ai/the-batch/does-ai-understand-the-world/
不過(guò)吳恩達(dá)也表示,雖然哲學(xué)很重要,但這樣的爭(zhēng)論可能會(huì)無(wú)休無(wú)止,所以不如編程去吧!
棋盤世界模型
如果把棋盤想象成一個(gè)簡(jiǎn)單的「世界」,并要求模型在對(duì)局中不斷決策,就可以初步測(cè)試出序列模型是否能夠?qū)W習(xí)到世界表征。

研究人員選擇一個(gè)簡(jiǎn)單的黑白棋游戲奧賽羅(Othllo)作為實(shí)驗(yàn)平臺(tái),其規(guī)則是在8*8棋盤的中心位置,先放入四個(gè)棋子,黑白各兩個(gè);然后雙方輪流下子,在直線或斜線方向,己方兩子之間的所有敵子(不能包含空格)全部變?yōu)榧鹤樱ǚQ為吃子),每次落子必須有吃子;最后棋盤全部占滿,子多者為勝。
相比國(guó)際象棋來(lái)說(shuō),奧賽羅的規(guī)則簡(jiǎn)單得多;同時(shí)棋類游戲的搜索空間足夠大,模型無(wú)法通過(guò)記憶完成序列生成,所以很適合測(cè)試模型的世界表征學(xué)習(xí)能力。
Othello語(yǔ)言模型
研究人員首先訓(xùn)練了一個(gè)GPT變體版語(yǔ)言模型(Othello-GPT),將游戲腳本(玩家做出的一系列棋子移動(dòng)操作)輸入到模型中,但模型沒(méi)有關(guān)于游戲及相關(guān)規(guī)則的先驗(yàn)知識(shí)。
模型也沒(méi)有被明確訓(xùn)練以追求策略提升、贏得對(duì)局等,只是在生成合法奧賽羅移動(dòng)操作時(shí)準(zhǔn)確率比較高。
數(shù)據(jù)集
研究人員使用了兩組訓(xùn)練數(shù)據(jù):
錦標(biāo)賽(Championship)更關(guān)注數(shù)據(jù)質(zhì)量,主要是從兩個(gè)奧賽羅錦標(biāo)賽中專業(yè)的人類玩家采用的、更具戰(zhàn)略思考的移動(dòng)步驟,但分別只收集到7605個(gè)和132921個(gè)游戲樣本,兩個(gè)數(shù)據(jù)集合并后以8:2的比例隨機(jī)分成訓(xùn)練集(2000萬(wàn)個(gè)樣本)和驗(yàn)證集(379.6萬(wàn)個(gè))。
合成(Synthetic)更關(guān)注數(shù)據(jù)的規(guī)模,由隨機(jī)的、合法的移動(dòng)操作組成,數(shù)據(jù)分布不同于錦標(biāo)賽數(shù)據(jù)集,而是均勻地從奧賽羅游戲樹(shù)上采樣獲得,其中2000萬(wàn)個(gè)樣本用于訓(xùn)練,379.6萬(wàn)個(gè)樣本用于驗(yàn)證。
每場(chǎng)游戲的描述由一串token組成,詞表大小為60(8*8-4)
模型和訓(xùn)練
模型的架構(gòu)為8層GPT模型,具有8個(gè)頭,隱藏維度為512
模型的權(quán)重完全隨機(jī)初始化,包括word embedding層,雖然表示棋盤位置的詞表內(nèi)存在幾何關(guān)系(如C4低于B4),但這種歸納偏置并沒(méi)有明確表示出來(lái),而是留給模型學(xué)習(xí)。
預(yù)測(cè)合法移動(dòng)
模型的主要評(píng)估指標(biāo)就是模型預(yù)測(cè)的移動(dòng)操作是否符合奧賽羅的規(guī)則。
在合成數(shù)據(jù)集上訓(xùn)練的Othello-GPT錯(cuò)誤率為0.01%,在錦標(biāo)賽數(shù)據(jù)集上的錯(cuò)誤率為5.17%,相比之下,未經(jīng)訓(xùn)練的Othello-GPT的錯(cuò)誤率為93.29%,也就是說(shuō)這兩個(gè)數(shù)據(jù)集都一定程度上讓模型學(xué)會(huì)了游戲規(guī)則。
一個(gè)可能的解釋是,模型記住了奧賽羅游戲的所有移動(dòng)操作。
為了驗(yàn)證這個(gè)猜想,研究人員合成了一個(gè)新的數(shù)據(jù)集:在每場(chǎng)比賽開(kāi)始時(shí),奧賽羅有四種可能的開(kāi)局棋位置(C5、D6、E3和F4),將所有C5開(kāi)局的走法移除后作為訓(xùn)練集,再將C5開(kāi)局的數(shù)據(jù)作為測(cè)試,也就是移除了近1/4的博弈樹(shù),結(jié)果發(fā)現(xiàn)模型錯(cuò)誤率仍然只有0.02%
所以O(shè)thello-GPT的高性能并不是因?yàn)橛洃?,因?yàn)闇y(cè)試數(shù)據(jù)是訓(xùn)練過(guò)程中完全沒(méi)見(jiàn)過(guò)的,那到底是什么讓模型成功預(yù)測(cè)?
探索內(nèi)部表征
一個(gè)常用的神經(jīng)網(wǎng)絡(luò)內(nèi)部表征探測(cè)工具就是探針(probe),每個(gè)探針是一個(gè)分類器或回歸器,其輸入由網(wǎng)絡(luò)的內(nèi)部激活組成,并經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)感興趣的特征。
在這個(gè)任務(wù)中,為了檢測(cè)Othello-GPT的內(nèi)部激活是否包含當(dāng)前棋盤狀態(tài)的表征,輸入移動(dòng)序列后,用內(nèi)部激活向量對(duì)下一個(gè)移動(dòng)步驟進(jìn)行預(yù)測(cè)。
當(dāng)使用線性探針時(shí),訓(xùn)練后的Othello-GPT內(nèi)部表征只比隨機(jī)猜測(cè)的準(zhǔn)確率高了一點(diǎn)點(diǎn)。

當(dāng)使用非線性探針(兩層MLP)時(shí),錯(cuò)誤率大幅下降,證明了棋盤狀態(tài)并不是以一種簡(jiǎn)單的方式存儲(chǔ)在網(wǎng)絡(luò)激活中。

干預(yù)實(shí)驗(yàn)
為了確定模型預(yù)測(cè)和涌現(xiàn)世界表征之間的因果關(guān)系,即棋盤狀態(tài)是否確實(shí)影響了網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,研究人員進(jìn)行了一組干預(yù)(intervention)試驗(yàn),并測(cè)量由此產(chǎn)生的影響程度。
給定來(lái)自O(shè)thello-GPT的一組激活,用探針預(yù)測(cè)棋盤狀態(tài),記錄相關(guān)聯(lián)的移動(dòng)預(yù)測(cè),然后修改激活,讓探針預(yù)測(cè)更新的棋盤狀態(tài)。

干預(yù)操作包括將某個(gè)位置的棋子從白色變成黑色等,一個(gè)小的修改就會(huì)導(dǎo)致模型結(jié)果發(fā)現(xiàn)內(nèi)部表征能夠可靠地完成預(yù)測(cè),即內(nèi)部表征與模型預(yù)測(cè)之間存在因果影響。
可視化
除了干預(yù)實(shí)驗(yàn)驗(yàn)證內(nèi)部表征的有效性外,研究人員還將預(yù)測(cè)結(jié)果可視化,比如說(shuō)對(duì)于棋盤上的每個(gè)棋子,可以詢問(wèn)模型如果用干預(yù)技術(shù)將該棋子改變,模型的預(yù)測(cè)結(jié)果將如何變化,對(duì)應(yīng)預(yù)測(cè)結(jié)果的顯著性。
然后根據(jù)當(dāng)前棋盤狀態(tài)的top1預(yù)測(cè)的顯著性對(duì)牌進(jìn)行著色可視化,因?yàn)槔L制出來(lái)的圖是基于網(wǎng)絡(luò)的潛空間而輸入,所以也可以叫做潛在顯著性圖(latent saliency map)。

可以看到,在合成和錦標(biāo)賽數(shù)據(jù)集上訓(xùn)練的Othello-GPTs的top1預(yù)測(cè)的潛顯著性圖中都展現(xiàn)出了清晰的模式。
合成版Othello-GPT在合法操作位置中顯示出了更高的顯著性值,非法操作的顯著性值明顯更低,稍微有點(diǎn)經(jīng)驗(yàn)的棋手都能看出模型的意圖;
錦標(biāo)賽版的顯著圖更復(fù)雜,雖然合法操作位置的顯著性值比較高,但其他位置也顯示出較高的顯著性,可能是因?yàn)閵W賽羅高手考慮更多的是全局特征。































