OpenAI用GPT-4解釋了GPT-2三十萬(wàn)個(gè)神經(jīng)元：智慧原來(lái)是這個(gè)樣子

作者：機(jī)器之心 2023-05-10 14:54:23

這就是 GPT 的「抽象」，和人類的抽象不太一樣。

雖然 ChatGPT 似乎讓人類正在接近重新創(chuàng)造智慧，但迄今為止，我們從來(lái)就沒(méi)有完全理解智能是什么，不論自然的還是人工的。

認(rèn)識(shí)智慧的原理顯然很有必要，如何理解大語(yǔ)言模型的智力？OpenAI 給出的解決方案是：?jiǎn)枂?wèn) GPT-4 是怎么說(shuō)的。

5 月 9 日，OpenAI 發(fā)布了最新研究，其使用 GPT-4 自動(dòng)進(jìn)行大語(yǔ)言模型中神經(jīng)元行為的解釋，獲得了很多有趣的結(jié)果。

可解釋性研究的一種簡(jiǎn)單方法是首先了解 AI 模型各個(gè)組件（神經(jīng)元和注意力頭）在做什么。傳統(tǒng)的方法是需要人類手動(dòng)檢查神經(jīng)元，以確定它們代表數(shù)據(jù)的哪些特征。這個(gè)過(guò)程很難擴(kuò)展，將它應(yīng)用于具有數(shù)百或數(shù)千億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)的成本過(guò)于高昂。

所以 OpenAI 提出了一種自動(dòng)化方法 —— 使用 GPT-4 來(lái)生成神經(jīng)元行為的自然語(yǔ)言解釋并對(duì)其進(jìn)行評(píng)分，并將其應(yīng)用于另一種語(yǔ)言模型中的神經(jīng)元 —— 此處他們選擇了 GPT-2 為實(shí)驗(yàn)樣本，并公開(kāi)了這些 GPT-2 神經(jīng)元解釋和分?jǐn)?shù)的數(shù)據(jù)集。

論文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
GPT-2 神經(jīng)元圖：https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
代碼與數(shù)據(jù)集：https://github.com/openai/automated-interpretability

這項(xiàng)技術(shù)讓人們能夠利用 GPT-4 來(lái)定義和自動(dòng)測(cè)量 AI 模型的可解釋性這個(gè)定量概念：它用來(lái)衡量語(yǔ)言模型使用自然語(yǔ)言壓縮和重建神經(jīng)元激活的能力。由于定量的特性，我們現(xiàn)在可以衡量理解神經(jīng)網(wǎng)絡(luò)計(jì)算目標(biāo)的進(jìn)展了。

OpenAI 表示，利用他們?cè)O(shè)立的基準(zhǔn)，用 AI 解釋 AI 的分?jǐn)?shù)能達(dá)到接近于人類的水平。

OpenAI 聯(lián)合創(chuàng)始人 Greg Brockman 也表示，我們邁出了使用 AI 進(jìn)行自動(dòng)化對(duì)齊研究的重要一步。

具體方法

使用 AI 解釋 AI 的方法包括在每個(gè)神經(jīng)元上運(yùn)行三個(gè)步驟：

步驟一：用 GPT-4 生成解釋

給定一個(gè) GPT-2 神經(jīng)元，通過(guò)向 GPT-4 展示相關(guān)文本序列和激活來(lái)生成對(duì)其行為的解釋。

模型生成的解釋：對(duì)電影、角色和娛樂(lè)的引用。

步驟二：使用 GPT-4 進(jìn)行模擬

再次使用 GPT-4，模擬被解釋的神經(jīng)元會(huì)做什么。

步驟三：對(duì)比

根據(jù)模擬激活與真實(shí)激活的匹配程度對(duì)解釋進(jìn)行評(píng)分 —— 在這個(gè)例子上，GPT-4 的得分為 0.34。

主要發(fā)現(xiàn)

使用自己的評(píng)分方法，OpenAI 開(kāi)始衡量他們的技術(shù)對(duì)網(wǎng)絡(luò)不同部分的效果，并嘗試針對(duì)目前解釋不清楚的部分改進(jìn)技術(shù)。例如，他們的技術(shù)對(duì)較大的模型效果不佳，可能是因?yàn)楹竺娴膶痈y解釋。

OpenAI 表示，雖然他們的絕大多數(shù)解釋得分不高，但他們相信自己現(xiàn)在可以使用 ML 技術(shù)來(lái)進(jìn)一步提高他們產(chǎn)生解釋的能力。例如，他們發(fā)現(xiàn)以下方式有助于提高分?jǐn)?shù)：

迭代解釋。他們可以通過(guò)讓 GPT-4 想出可能的反例，然后根據(jù)其激活情況修改解釋來(lái)提高分?jǐn)?shù)。
使用更大的模型來(lái)進(jìn)行解釋。隨著解釋模型（explainer model）能力的提升，平均得分也會(huì)上升。然而，即使是 GPT-4 給出的解釋也比人類差，這表明還有改進(jìn)的余地。
改變被解釋模型（explained model）的架構(gòu)。用不同的激活函數(shù)訓(xùn)練模型提高了解釋分?jǐn)?shù)。

OpenAI 表示，他們正在將 GPT-4 編寫的對(duì) GPT-2 中的所有 307,200 個(gè)神經(jīng)元的解釋的數(shù)據(jù)集和可視化工具開(kāi)源。同時(shí)，他們還提供了使用 OpenAI API 上公開(kāi)可用的模型進(jìn)行解釋和評(píng)分的代碼。他們希望研究界能夠開(kāi)發(fā)出新的技術(shù)來(lái)生成更高分的解釋，同時(shí)開(kāi)發(fā)出更好的工具來(lái)通過(guò)解釋探索 GPT-2。

他們發(fā)現(xiàn)，有超過(guò) 1000 個(gè)神經(jīng)元的解釋得分至少為 0.8 分，這意味著根據(jù) GPT-4，它們占據(jù)了神經(jīng)元的大部分頂級(jí)激活行為。這些得到很好解釋的神經(jīng)元中的大多數(shù)都不是很有趣。然而，他們也發(fā)現(xiàn)了許多有趣但 GPT-4 并不理解的神經(jīng)元。OpenAI 希望隨著解釋的改進(jìn)，他們可能會(huì)迅速發(fā)現(xiàn)對(duì)模型計(jì)算的有趣的定性理解。

以下是一些不同層神經(jīng)元被激活的例子，更高的層更抽象：

看起來(lái)，GPT 理解的概念和人類不太一樣？

OpenAI 未來(lái)工作

目前，該方法還存在一些局限性，OpenAI 希望在未來(lái)的工作中可以解決這些問(wèn)題：

該方法專注于簡(jiǎn)短的自然語(yǔ)言解釋，但神經(jīng)元可能具有非常復(fù)雜的行為，因而用簡(jiǎn)潔地語(yǔ)言無(wú)法描述；
OpenAI 希望最終自動(dòng)找到并解釋整個(gè)神經(jīng)回路實(shí)現(xiàn)復(fù)雜的行為，神經(jīng)元和注意力頭一起工作。目前的方法只是將神經(jīng)元的行為解釋為原始文本輸入的函數(shù)，而沒(méi)有說(shuō)明其下游影響。例如，一個(gè)在周期（period）上激活的神經(jīng)元可以指示下一個(gè)單詞應(yīng)該以大寫字母開(kāi)頭，或者增加句子計(jì)數(shù)器；
OpenAI 解釋了神經(jīng)元的這種行為，卻沒(méi)有試圖解釋產(chǎn)生這種行為的機(jī)制。這意味著即使是得高分的解釋在非分布（out-of-distribution）文本上也可能表現(xiàn)很差，因?yàn)樗鼈冎皇敲枋隽艘环N相關(guān)性；
整個(gè)過(guò)程算力消耗極大。

最終，OpenAI 希望使用模型來(lái)形成、測(cè)試和迭代完全一般的假設(shè)，就像可解釋性研究人員所做的那樣。此外，OpenAI 還希望將其最大的模型解釋為一種在部署前后檢測(cè)對(duì)齊和安全問(wèn)題的方法。然而，在這之前，還有很長(zhǎng)的路要走。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI用GPT-4解釋了GPT-2三十萬(wàn)個(gè)神經(jīng)元：智慧原來(lái)是這個(gè)樣子

具體方法

主要發(fā)現(xiàn)

OpenAI 未來(lái)工作