偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI官宣開源Transformer Debugger!不用寫代碼,人人可以破解LLM黑箱

人工智能
研究人員于是在訓(xùn)練期間「重采樣」這些死神經(jīng)元,允許模型代表給定的自動編碼器隱藏層維度的更多特征,從而產(chǎn)生更好的結(jié)果。

AGI真的越來越近了!

為了確保人類不被AI殺死,在解密神經(jīng)網(wǎng)絡(luò)/Transfomer黑箱這一方面,OpenAI從未停下腳步。

去年5月,OpenAI團隊發(fā)布了一個令人震驚的發(fā)現(xiàn):GPT-4竟可以解釋GPT-2的三十萬神經(jīng)元!

網(wǎng)友紛紛驚呼,智慧原來是這個樣子。

圖片圖片

而就在剛剛,OpenAI超級對齊團隊負責(zé)人又正式官宣,要開源內(nèi)部一直使用的大殺器——Transformer調(diào)試器(Transformer Debugger)。

簡之,研究者可以用TDB工具分析Transformer的內(nèi)部結(jié)構(gòu),從而對小模型的特定行為進行調(diào)查。

圖片圖片

也就是說,有了這個TDB工具,未來它就可以幫我們剖析和分析AGI了!

圖片圖片

Transformer調(diào)試器將稀疏自動編碼器,與OpenAI開發(fā)的「自動可解釋性」——即用大模型自動解釋小模型,技術(shù)相結(jié)合。

鏈接:OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

圖片圖片

論文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

值得一提的是,研究人員不用寫代碼,就能快速探索LLM的內(nèi)部構(gòu)造。

比如,它可以回答「為什么模型會輸出token A而不是token B」,「為什么注意力頭H會關(guān)注token T」之類的問題。

圖片圖片

因為TDB能支持神經(jīng)元和注意力頭,所以就可以讓研究人員通過消融單個神經(jīng)元來干預(yù)前向傳遞,并觀察發(fā)生的具體變化。

不過根據(jù)Jan Leike的說法,這個工具現(xiàn)在還只是一個早期的版本,OpenAI放出來是希望更多的研究人員能夠用上,并且在現(xiàn)有基礎(chǔ)上進一步改進。

圖片圖片

項目地址:https://github.com/openai/transformer-debugger

工作原理

要理解這個Transformer Debugger的工作原理,需要回顧OpenAI在2023年5月份放出的一份和對齊有關(guān)的研究。

圖片

TDB工具是基于此前發(fā)布的兩項研究,不會發(fā)布論文

簡單來說,OpenAI希望用參數(shù)更大能力更強的模型(GPT-4)去自動分析小模型(GPT-2)的行為,解釋它的運行機制。

圖片圖片

當(dāng)時OpenAI研究的初步結(jié)果是,參數(shù)比較少的模型容易被理解,但是隨著模型參數(shù)變大,層數(shù)增加,解釋的效果會暴降。

圖片圖片

當(dāng)時OpenAI在研究中稱,限于GPT-4本身設(shè)計就不是用來解釋小模型行為的,所以整體上對于GPT-2的解釋成果還很差。

圖片圖片

未來需要開發(fā)出能夠更好地解釋模型行為的算法和工具。

而現(xiàn)在開源的Transformer Debugger,就是OpenAI在之后這一年的階段性成果。

而這個「更好的工具」——Transformer Debugger,就是將「稀疏自動編碼器」結(jié)合進這個「用大模型解釋小模型」的技術(shù)線路中去。

然后再將之前OpenAI在可解釋性研究中用GPT-4解釋小模型的過程零代碼化,從而大大降低了研究人員上手的門檻。

GPT-2 Small被看穿了

在GitHub項目主頁,OpenAI團隊成員通過視頻介紹了最新Transformer調(diào)試器工具。

與Python調(diào)試器類似,TDB可以讓你逐步查看語言模型輸出、跟蹤重要激活并分析上游激活。

進入TDB主頁,首先是「提示」一欄輸入——提示和感興趣的token:

Mary and Johon went to the store, Johon gave a drink to....

那么接下來,就是做一個「下一詞」的預(yù)測,需要輸入目標token,以及干擾性的token。

最后提交后,便可以看到系統(tǒng)給出的預(yù)測下一詞候選的對數(shù)。

下面的「節(jié)點表」是TDB的核心部分。這里的每一行都對應(yīng)一個節(jié)點,也就是激活一個模型組件。

圖片圖片

如果要了解對某個特定提示中非常重要的注意力頭的功能,直接點擊組件的名稱。

然后TDB會打開「神經(jīng)元瀏覽器 」頁面,頂部會顯示之前的提示詞。

圖片圖片

這里能看到淺藍色和粉色的token。每個對應(yīng)顏色的token之下,從后續(xù)標記到這個token的注意力會讓一個大范數(shù)向量(large norm vector)被寫入后續(xù)token中。

圖片圖片

在另外兩個視頻中,研究人員介紹了TDB的概念,以及其在理解回路中的應(yīng)用。與此同時,他還演示了TDB如何定性地再現(xiàn)論文中的一個發(fā)現(xiàn)。

OpenAI自動可解釋性研究

簡單來說,OpenAI自動可解釋性研究的思路是讓GPT-4對神經(jīng)元的行為進行自然語言解釋,然后把這個過程應(yīng)用到GPT-2中。

這何以成為可能?首先,我們需要「解剖」一下LLM。

像大腦一樣,它們由「神經(jīng)元」組成,它們會觀察文本中的某些特定模式,這就會決定整個模型接下來要說什么。

比如,如果給出這么一個prompt,「哪些漫威超級英雄擁有最有用的超能力?」 「漫威超級英雄神經(jīng)元」可能就會增加模型命名漫威電影中特定超級英雄的概率。

OpenAI的工具就是利用這種設(shè)定,把模型分解為單獨的部分。

第一步:使用GPT-4生成解釋

首先,找一個GPT-2的神經(jīng)元,并向GPT-4展示相關(guān)的文本序列和激活。

然后,讓GPT-4根據(jù)這些行為,生成一個可能的解釋。

比如,在下面的例子中GPT-4就認為,這個神經(jīng)元與電影、人物和娛樂有關(guān)。

圖片圖片

第二步:使用GPT-4進行模擬

接著,讓GPT-4根據(jù)自己生成的解釋,模擬以此激活的神經(jīng)元會做什么。

圖片圖片

第三步:對比打分

最后,將模擬神經(jīng)元(GPT-4)的行為與實際神經(jīng)元(GPT-2)的行為進行比較,看看GPT-4究竟猜得有多準。

圖片圖片

還有局限

通過評分,OpenAI的研究者衡量了這項技術(shù)在神經(jīng)網(wǎng)絡(luò)的不同部分都是怎樣的效果。對于較大的模型,這項技術(shù)的解釋效果就不佳,可能是因為后面的層更難解釋。

圖片圖片

目前,絕大多數(shù)解釋評分都很低,但研究者也發(fā)現(xiàn),可以通過迭代解釋、使用更大的模型、更改所解釋模型的體系結(jié)構(gòu)等方法,來提高分數(shù)。

現(xiàn)在,OpenAI正在開源「用GPT-4來解釋GPT-2中全部307,200個神經(jīng)元」結(jié)果的數(shù)據(jù)集和可視化工具,也通過OpenAI API公開了市面上現(xiàn)有模型的解釋和評分的代碼,并且呼吁學(xué)界開發(fā)出更好的技術(shù),產(chǎn)生得分更高的解釋。

此外,團隊還發(fā)現(xiàn),越大的模型,解釋的一致率也越高。其中,GPT-4最接近人類,但依然有不小的差距。

圖片圖片

以下是不同層神經(jīng)元被激活的例子,可以看到,層數(shù)越高,就越抽象。

圖片圖片

圖片圖片

圖片圖片

圖片圖片

稀疏自動編碼器設(shè)置

OpenAI使用的的稀疏自動編碼器是一個在輸入端具有偏置的模型,還包括一個用于編碼器的具有偏置和ReLU的線性層,以及另一個用于解碼器的線性層和偏置。

研究人員發(fā)現(xiàn)偏置項對自動編碼器的性能非常重要,他們將輸入和輸出中應(yīng)用的偏差聯(lián)系起來,結(jié)果相當(dāng)于從所有激活中減去固定偏差。

研究人員使用Adam優(yōu)化器訓(xùn)練自動編碼器,以使用MSE重建Transformer的MLP激活。使用MSE損耗可以避免多語義性的挑戰(zhàn),用損失加上L1懲罰項來鼓勵稀疏性。

在訓(xùn)練自動編碼器時,有幾個原則非常重要。

首先是規(guī)模。在更多數(shù)據(jù)上訓(xùn)練自動編碼器會使特征主觀上“更清晰”且更具可解釋性。所以O(shè)penAI為自動編碼器使用了80億個訓(xùn)練點。

其次,在訓(xùn)練過程中,一些神經(jīng)元會停止激活,即使在大量數(shù)據(jù)點上也是如此。

研究人員于是在訓(xùn)練期間「重采樣」這些死神經(jīng)元,允許模型代表給定的自動編碼器隱藏層維度的更多特征,從而產(chǎn)生更好的結(jié)果。

判斷指標

怎樣判斷自己的方法是否有效?在機器學(xué)習(xí)中可以簡單地用loss作為標準,但在這里就不太容易找到類似的參考。

比如尋找一個基于信息的指標,這樣可以在某種意義上說,最好的分解是最小化自動編碼器和數(shù)據(jù)總信息的分解。

——但事實上,總信息通常與主觀特征可解釋性或激活稀疏性無關(guān)。

最終,研究人員使用了了幾個附加指標的組合:

- 手動檢查:特征是否看起來可以解釋?

- 特征密度:實時特征數(shù)量和觸發(fā)它們的token的百分比是一個非常有用的指導(dǎo)。

- 重建損失:衡量自動編碼器重建MLP激活的程度。最終目標是解釋MLP層的功能,因此MSE損耗應(yīng)該很低。

- 玩具模型:使用一個已經(jīng)非常了解的模型,可以清晰地評估自動編碼器的性能。

不過研究人員也表示,希望從Transformer上訓(xùn)練的稀疏自動編碼器中,為字典學(xué)習(xí)解決方案確定更好的指標。

參考資料:

https://twitter.com/janleike/status/1767347608065106387?s=20

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-03-13 08:03:44

LLM人工智能技術(shù)

2024-12-05 08:30:00

2025-02-21 15:18:20

2023-12-01 14:34:42

AnthropicAILLM

2024-03-12 12:17:06

AI數(shù)據(jù)

2024-08-01 09:30:00

2024-11-27 14:30:46

2024-05-08 14:12:40

Redis軟件開源

2024-03-12 13:14:40

2024-09-11 14:40:00

OpenAI奧特曼

2024-02-05 13:34:16

模型訓(xùn)練

2018-04-17 11:47:06

if代碼參數(shù)

2024-05-15 10:38:55

OpenAIGPT-4oIlya

2023-07-25 14:08:41

羊駝模型

2025-04-01 09:46:08

2024-08-06 14:07:40

2024-04-02 11:37:59

2023-08-17 13:35:44

OpenAI收購

2023-06-30 09:00:00

Falcon LLM開源

2024-04-03 13:05:20

數(shù)據(jù)訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號