OpenAI公開破解GPT-4思維的新方法,Ilya也參與了!
OpenAI研究如何破解GPT-4思維,公開超級對齊團(tuán)隊工作,Ilya Sutskever也在作者名單之列。

該研究提出了改進(jìn)大規(guī)模訓(xùn)練稀疏自編碼器的方法,并成功將GPT-4的內(nèi)部表征解構(gòu)為1600萬個可理解的特征。
由此,復(fù)雜語言模型的內(nèi)部工作變得更加可理解。

其實(shí),早在6個月前,研究就已經(jīng)開始進(jìn)行了:

OpenAI將其公開后,前超級對齊團(tuán)隊成員、論文一作前來轉(zhuǎn)發(fā)分享:
我們引入了一種基于TopK激活函數(shù)的新稀疏自編碼器訓(xùn)練技術(shù)棧,消除了特征縮減問題,并允許直接設(shè)置L0。
我們發(fā)現(xiàn)這種方法在均方誤差/L0邊界上表現(xiàn)良好。即使在1600萬的規(guī)模下,也幾乎沒有失活的潛在單元(latent)。

同樣在坐著名單里的、此前在OpenAI超級對齊團(tuán)隊的Ilya同盟Jan Leike(就是從OpenAI憤而離職剛剛加入Anthropic的RLHF發(fā)明者之一)也表示:
這是一項(xiàng)重大的進(jìn)步!稀疏自編碼器是目前用來真正理解模型內(nèi)部思維的最好的方法。

更有意思的是,不久前Anthropic發(fā)了一項(xiàng)類似的工作。
成功從Claude 3.0 Sonnet的中間層提取了數(shù)百萬個特征,為其計算過程中的內(nèi)部狀態(tài)提供了一個大致的概念性圖。

于是有網(wǎng)友就開麥了,工作牛是牛,但OpenAI是不是有點(diǎn)太著急了,論文鏈接沒有指向Arxiv,分析似乎也沒有那么深入。
是不是為了回應(yīng)Anthropic的研究以及Jan Leike出走的事兒,誰知道呢?(doge)

回歸正題,OpenAI超級對齊團(tuán)隊是如何想法子破解GPT-4思維的?
在OpenAI新公布研究中再見Ilya的名字
目前,語言模型神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作原理仍是個“黑盒”,無法被完全理解。
為了理解和解釋神經(jīng)網(wǎng)絡(luò),首先需要找到對神經(jīng)計算有用的基本構(gòu)件。
然鵝,神經(jīng)網(wǎng)絡(luò)中的激活通常表現(xiàn)出不可預(yù)測和復(fù)雜的模式,且每次輸入幾乎總會引發(fā)很密集的激活。而現(xiàn)實(shí)世界中其實(shí)很稀疏,在任何給定的情境中,人腦只有一小部分相關(guān)神經(jīng)元會被激活。

由此,研究人員開始研究稀疏自編碼器,這是一種能在神經(jīng)網(wǎng)絡(luò)中識別出對生成特定輸出至關(guān)重要的少數(shù)“特征”的技術(shù),類似于人在分析問題時腦海中的那些關(guān)鍵概念。
它們的特征展示出稀疏的激活模式,這些模式自然地與人類易于理解的概念對齊,即使沒有直接的可解釋性激勵。
不過,現(xiàn)有的稀疏自編碼器訓(xùn)練方法在大規(guī)模擴(kuò)展時會面臨重建與稀疏性權(quán)衡、latent失活等問題。
在OpenAI超級對齊團(tuán)隊的這項(xiàng)研究中,他們推出了一種基于TopK激活函數(shù)的新稀疏自編碼器(SAE)訓(xùn)練技術(shù)棧,消除了特征縮小問題,能夠直接設(shè)定L0(直接控制網(wǎng)絡(luò)中非零激活的數(shù)量)。
該方法在均方誤差(MSE)與L0評估指標(biāo)上表現(xiàn)優(yōu)異,即使在1600萬規(guī)模的訓(xùn)練中,幾乎不產(chǎn)生失活的潛在單元(latent)。
具體來看,他們使用GPT-2 small和GPT-4系列模型的殘差流作為自編碼器的輸入,選取網(wǎng)絡(luò)深層(接近輸出層)的殘差流,如GPT-4的5/6層、GPT-2 small的第8層。
并使用之前工作中提出的基線ReLU自編碼器架構(gòu),編碼器通過ReLU激活獲得稀疏latent z,解碼器從z中重建殘差流。損失函數(shù)包括重建MSE損失和L1正則項(xiàng),用于促進(jìn)latent稀疏性。

然后,團(tuán)隊提出使用TopK激活函數(shù)代替?zhèn)鹘y(tǒng)L1正則項(xiàng)。TopK在編碼器預(yù)激活上只保留最大的k個值,其余清零,從而直接控制latent稀疏度k。

不需要L1正則項(xiàng),避免了L1導(dǎo)致的激活收縮問題。實(shí)驗(yàn)證明,TopK相比ReLU等激活函數(shù),在重建質(zhì)量和稀疏性之間有更優(yōu)的權(quán)衡。

此外,自編碼器訓(xùn)練時容易出現(xiàn)大量latent永遠(yuǎn)不被激活(失活)的情況,導(dǎo)致計算資源浪費(fèi)。
團(tuán)隊的解決方案包括兩個關(guān)鍵技術(shù):
- 將編碼器權(quán)重初始化為解碼器權(quán)重的轉(zhuǎn)置,使latent在初始化時可激活。
- 添加輔助重建損失項(xiàng),模擬用top-kaux個失活latent進(jìn)行重建的損失。
如此一來,即使是1600萬latent的大規(guī)模自編碼器,失活率也只有7%。
團(tuán)隊還提出了多重TopK損失函數(shù)的改進(jìn)方案,提高了高稀疏情況下的泛化能力,并且探討了兩種不同的訓(xùn)練策略對latent數(shù)量的影響,這里就不過多展開了。

為了證明該方法的可擴(kuò)展性,團(tuán)隊訓(xùn)練了上述提到的一個具有1600萬個latent的稀疏自編碼器,并在GPT-4模型的激活上處理了40億個token。
在GPT-4激活上處理40億token
接下來,評估自編碼器質(zhì)量的關(guān)鍵在于提取出的特征是否對下游應(yīng)用任務(wù)有用,而不僅僅是優(yōu)化重建損失和稀疏性。
因此,團(tuán)隊提出了幾種評估自編碼器質(zhì)量的新方法,包括:
- 下游損失(Downstream Loss):評估自編碼器重建的latent對語言模型性能的影響。
- 探測損失(Probe Loss):檢查自編碼器是否能夠恢復(fù)我們認(rèn)為可能發(fā)現(xiàn)的特征。
- 可解釋性(Explainability):評估自編碼器latent的激活是否能夠通過簡單且精確的解釋來理解。
- 剔除稀疏性(Ablation sparsity):評估移除個別latent對下游預(yù)測的影響。
實(shí)驗(yàn)發(fā)現(xiàn),TopK自編碼器在下游損失上的改進(jìn)幅度超過了重建MSE的改進(jìn)。

探測損失隨latent數(shù)量增加而改善,但在某些區(qū)間會先升后降。

此外,研究人員發(fā)現(xiàn)精確度和召回率在latent數(shù)量較大、稀疏度適中時最優(yōu)。

TopK模型相比ReLU模型有更高的召回率,能更好地壓制虛假激活。

剔除稀疏性方面(見上圖6 b),團(tuán)隊發(fā)現(xiàn)自編碼器latent的影響較為稀疏,遠(yuǎn)小于直接ablating殘差流通道。但當(dāng)稀疏度k過高時,影響的稀疏性會下降。
最后,論文一作表示稀疏自編碼器的問題仍然遠(yuǎn)未解決,這項(xiàng)研究中的SAE只捕獲了GPT-4行為的一小部分,即使看起來單義的latent也可能難以精確解釋。而且,從表現(xiàn)優(yōu)異的SAE到更好地理解模型的行為,還需要大量的工作。
關(guān)于這項(xiàng)研究的更多細(xì)節(jié),感興趣的家人可以查看原論文。
OpenAI還公開發(fā)布了完整源代碼和針對GPT-2的多個小規(guī)模自編碼器模型權(quán)重。還發(fā)布了一個在線可視化工具,用于查看包括這個1600萬latent GPT-4自編碼器在內(nèi)的多個模型的激活特征。
OpenAI的:https://cdn.openai.com/papers/sparse-autoencoders.pdf
Anthropic的:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
參考鏈接:
[1]https://x.com/OpenAI/status/1798762092528586945
[2]https://openai.com/index/extracting-concepts-from-gpt-4/
[3]https://news.ycombinator.com/item?id=40599749
[4]https://x.com/janleike/status/1798792652042744158
[5]https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html





































