OpenAI震撼研究:用GPT-4解釋30萬神經(jīng)元,原來AI的黑盒要AI自己去打開
沒想到,打開AI黑盒這件事,可能還要靠AI自己來實(shí)現(xiàn)了。
OpenAI的最新研究來了一波大膽嘗試:
讓GPT-4去解釋GPT-2的行為模式。
結(jié)果顯示,超過1000個(gè)神經(jīng)元的解釋得分在0.8以上——也就是說GPT-4能理解這些神經(jīng)元。
要知道,“AI黑箱難題”長(zhǎng)期以來是一個(gè)熱議話題,尤其是大語言模型領(lǐng)域,人類對(duì)其內(nèi)部工作原理的理解還非常有限,這種“不透明化”也進(jìn)一步引發(fā)了人類對(duì)AI的諸多擔(dān)憂。
目前推進(jìn)AI可解釋性研究的一個(gè)簡(jiǎn)單辦法,就是逐個(gè)分析大模型中的神經(jīng)元,手動(dòng)檢查以確定它們各自所代表的數(shù)據(jù)特征。
但對(duì)于規(guī)模已經(jīng)達(dá)到百億、千億級(jí)別的大規(guī)模神經(jīng)網(wǎng)絡(luò)來說,工作量和工作難度就都漲了億點(diǎn)點(diǎn)吧。
由此,OpenAI的研究人員想到,干嘛不讓AI去自動(dòng)化搞定這個(gè)大工程?
在這項(xiàng)最新的研究中,他們將GPT-4打造成了一個(gè)理解AI行為模式的工具,把GPT-2超過30萬個(gè)神經(jīng)單元都解釋了一遍,并和實(shí)際情況比對(duì)進(jìn)行評(píng)分。
最終生成的解釋數(shù)據(jù)集和工具代碼,已對(duì)外開源。
研究人員表示:未來,這種AI工具可能在改善LLM性能上發(fā)揮巨大作用,比如減少AI偏見和有害輸出。
解釋接近人類水平
具體來看,整個(gè)研究的步驟可以分為三步。
第一步,先給GPT-4一段文本,并展示GPT-2在理解這段文本時(shí)激活的神經(jīng)元情況。
然后讓GPT-4來解釋,這段文本中神經(jīng)元的激活情況。
比如示例中給出了一段漫威復(fù)聯(lián)的文本,GPT-4分析的激活神經(jīng)元為:
電影、角色和娛樂
第二步,讓GPT-4開始模擬,這些被解釋的神經(jīng)元接下來會(huì)做什么。
GPT-4給出了一段內(nèi)容。
第三步,讓GPT-2真實(shí)的神經(jīng)元激活來生成結(jié)果,然后和GPT-4模擬的結(jié)果進(jìn)行比對(duì),研究人員會(huì)對(duì)此打分。
在博客給出的示例中,GPT-4的得分為0.34.
使用這個(gè)辦法,研究人員讓GPT-4解釋了GPT-2一共307200個(gè)神經(jīng)元。
OpenAI表示,使用這一基準(zhǔn),AI解釋的分?jǐn)?shù)能接近人類水平。
從總體結(jié)果來看,GPT-4在少數(shù)情況下的解釋得分很高,在0.8分以上。
他們還發(fā)現(xiàn),不同層神經(jīng)元被激活的情況,更高層的會(huì)更抽象。
此外,團(tuán)隊(duì)還總結(jié)了如下幾點(diǎn)結(jié)論:
- 如果讓GPT-4重復(fù)解釋,它的得分能更高
- 如果使用更強(qiáng)大的模型來解釋,得分也會(huì)上升
- 用不同的激活函數(shù)訓(xùn)練模型,能提高解釋分?jǐn)?shù)
總結(jié)來看就是,雖然GPT-4目前的表現(xiàn)一般,但是這個(gè)方法和思路的提升空間還有很大。
團(tuán)隊(duì)也強(qiáng)調(diào),現(xiàn)在在GPT-2上的表現(xiàn)都不太好,如果換成更大、更復(fù)雜的模型,表現(xiàn)也會(huì)比較堪憂。
同時(shí)這種模式也能適用于聯(lián)網(wǎng)的LLM,研究人員認(rèn)為可以通過簡(jiǎn)單調(diào)整,來弄清楚神經(jīng)元如何決策搜索內(nèi)容和訪問的網(wǎng)站。
此外他們還表示,在創(chuàng)建這個(gè)解釋系統(tǒng)時(shí)并沒有考慮商業(yè)化問題,理論上除了GPT-4,其他LLM也能實(shí)現(xiàn)類似效果。
接下來,他們打算解決研究中的這幾個(gè)問題:
- AI神經(jīng)元行為十分復(fù)雜,但GPT-4給的解釋非常簡(jiǎn)單,所以有些復(fù)雜行為還無法解釋;
- 希望最終自動(dòng)找到并解釋復(fù)雜的整個(gè)神經(jīng)回路,神經(jīng)元和注意力頭一起工作;
- 目前只解釋了神經(jīng)元的行為,但沒解釋行為背后的機(jī)制;
- 整個(gè)過程算力消耗巨大。
網(wǎng)友:快進(jìn)到AI創(chuàng)造AI
意料之中,這項(xiàng)研究馬上在網(wǎng)絡(luò)上引發(fā)熱議。
大家的腦洞畫風(fēng)be like:“AI教人類理解AI?!?/p>
“AI教人類關(guān)掉AI中存在風(fēng)險(xiǎn)的神經(jīng)元?!?/p>
還有人開始暢想,AI理解AI會(huì)快速發(fā)展為AI訓(xùn)練AI(已經(jīng)開始了),然后再過不久就是AI創(chuàng)造新的AI了。
當(dāng)然這也引發(fā)了不少擔(dān)憂,畢竟GPT-4本身不還是個(gè)黑盒嘛。
人類拿著自己不理解的東西,讓它解釋另一個(gè)自己不理解的東西,這個(gè)風(fēng)險(xiǎn)emm……
這項(xiàng)研究由OpenAI負(fù)責(zé)對(duì)齊的團(tuán)隊(duì)提出。
他們表示,這部分工作是他們對(duì)齊研究的第三大支柱的一部分:
我們想要實(shí)現(xiàn)自動(dòng)化對(duì)齊。這種想法一個(gè)值得思考的方面是,它可能隨著AI的發(fā)展而擴(kuò)展更多。隨著未來AI模型變得越來越智能,我們也能找到對(duì)AI更好的解釋。
論文地址:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
參考鏈接:
[1]https://openai.com/research/language-models-can-explain-neurons-in-language-models
[2]https://www.globalvillagespace.com/tech/openais-tool-explains-language-model-behavior/