偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型中的知識(shí)存儲(chǔ),到底是怎么回事

發(fā)布于 2025-6-4 06:03
瀏覽
0收藏

1. 引言

大型語言模型(LLMs)在訓(xùn)練過程中從龐大的知識(shí)語料庫(如維基百科)中獲取了大量的事實(shí)知識(shí),并在各種自然語言任務(wù)中展現(xiàn)出卓越的性能。因此,LLMs 常被視為支撐知識(shí)導(dǎo)向任務(wù)的知識(shí)庫。然而,要有效利用這些模型中的知識(shí),需要深入理解 LLMs 存儲(chǔ)和管理事實(shí)知識(shí)的機(jī)制。這種理解對(duì)于模型編輯等任務(wù)至關(guān)重要,這些任務(wù)涉及修改模型中嵌入的知識(shí)。

當(dāng)前的研究主要集中在研究 LLMs 中嵌入的知識(shí)。這些工作將知識(shí)視為三元組 (s, r, o),包括頭實(shí)體(主語,s)、尾實(shí)體(賓語,o)和它們之間的關(guān)系 r。研究人員探索了語言模型如何在其參數(shù)中封裝知識(shí)。

大模型中的知識(shí)存儲(chǔ),到底是怎么回事-AI.x社區(qū)

例如,Dai 等人采用知識(shí)歸因方法,識(shí)別出表達(dá)事實(shí)知識(shí)的特定神經(jīng)元,而 Meng 等人使用因果追蹤發(fā)現(xiàn)主語與 MLP 模塊之間存在強(qiáng)因果關(guān)系。

然而,這些研究主要從實(shí)體的角度調(diào)查 LLMs 中的知識(shí)。如果我們從關(guān)系的角度來處理相同的知識(shí),可能會(huì)得到完全不同的觀察結(jié)果。理論上,一條知識(shí)包括實(shí)體和它們之間的關(guān)系;缺少任何一個(gè),知識(shí)就是不完整的。因此,在這種情況下,實(shí)體和關(guān)系應(yīng)該是等價(jià)的,這也是當(dāng)前許多模型編輯工作的前提,因?yàn)樾枰谀P蛥?shù)中修改知識(shí)。

盡管如此,目前的研究還沒有探討這種等價(jià)性是否成立。為了填補(bǔ)這一空白,本文調(diào)查了實(shí)體和關(guān)系之間的差異。為了探索這種潛在的等價(jià)性,研究者采用了模型編輯技術(shù),這是一種用于更新或糾正語言模型中新的或錯(cuò)誤知識(shí)的技術(shù)。

研究目標(biāo)是通過修改實(shí)體或關(guān)系知識(shí)來確定這些變化是否會(huì)產(chǎn)生一致的結(jié)果,并從兩個(gè)角度觀察效果。理想情況下,這些效果應(yīng)該是相同的,因?yàn)榫庉嫷闹R(shí)涉及同一條信息。

2. 相關(guān)工作

隨著事實(shí)信息的不斷演變,存儲(chǔ)在大型語言模型(LLMs)中的知識(shí)可能會(huì)變得過時(shí)或不正確。因此,迫切需要及時(shí)更新 LLMs 中不恰當(dāng)?shù)闹R(shí),同時(shí)保留其他有價(jià)值的知識(shí)。最近,這個(gè)問題引起了研究人員的廣泛關(guān)注。

雖然參數(shù)高效微調(diào)和增量學(xué)習(xí)技術(shù)提供了修改 LLMs 的途徑,但需要注意的是,這些方法可能容易過擬合,并且在應(yīng)用于具有極大參數(shù)規(guī)模的 LLMs 時(shí)可能會(huì)產(chǎn)生巨大的計(jì)算成本。為了解決這些問題,Sinitsin 等人提出了模型編輯(Model Editing)的概念,旨在高效準(zhǔn)確地改變模型中存儲(chǔ)的事實(shí)知識(shí)。

目前,主要有三種類型的模型編輯方法:

  • 基于記憶的方法:這些技術(shù)利用額外的可訓(xùn)練參數(shù)來存儲(chǔ)記憶或?qū)W習(xí) LLMs 中知識(shí)更新所需的調(diào)整(Δ)。
  • 定位-編輯方法:這些方法采用因果中介分析來定位 LLMs 中的知識(shí)神經(jīng)元,然后修改這些識(shí)別出的區(qū)域。本文主要探討這種知識(shí)定位方法。
  • 上下文內(nèi)知識(shí)編輯方法:這些方法是一種免訓(xùn)練的范式,通過在輸入上下文中連接演示來實(shí)現(xiàn)知識(shí)編輯。

3. 背景與方法

3.1 任務(wù)定義

大模型中的知識(shí)存儲(chǔ),到底是怎么回事-AI.x社區(qū)

3.2 模型編輯方法

大模型中的知識(shí)存儲(chǔ),到底是怎么回事-AI.x社區(qū)

3.3 定位關(guān)系知識(shí)

因果追蹤

大模型中的知識(shí)存儲(chǔ),到底是怎么回事-AI.x社區(qū)

截?cái)嘁蚬治?/h4>

大模型中的知識(shí)存儲(chǔ),到底是怎么回事-AI.x社區(qū)

4. 實(shí)驗(yàn)

為了研究知識(shí)如何存儲(chǔ)在模型參數(shù)中,研究者提出了以下研究問題(RQs):

  • RQ1:關(guān)系知識(shí)存儲(chǔ)在哪里?它是否像實(shí)體知識(shí)一樣存儲(chǔ)在 MLPs 中?
  • RQ2:無論存儲(chǔ)位置如何,關(guān)系和實(shí)體知識(shí)在知識(shí)三元組中是否同等重要?

4.1 實(shí)驗(yàn)設(shè)置

在實(shí)驗(yàn)中,研究者使用 GPT-2 XL(1.5B)和 GPT-J(6B)作為基礎(chǔ)語言模型。實(shí)驗(yàn)在四個(gè) NVIDIA RTX A6000 GPU 和十個(gè) NVIDIA GeForce RTX 3090 GPU 上進(jìn)行。評(píng)估指標(biāo)包括可靠性和泛化性。

可靠性量化編輯過程的可靠性,可靠性越高表示編輯越成功。為了衡量可靠性,研究者評(píng)估編輯準(zhǔn)確性如下:

$ M_{rel} = E_{(x,y^) \sim D}[1_{f(x;θ^(x,y^)) = y^}] $

,泛化性衡量編輯后模型的預(yù)測(cè)在各種輸入或上下文中的泛化能力:

$ M_{gen} = E_{(\tilde{x}) \sim N(x)}[1_{f(\tilde{x};θ^) = f(x;θ^) = y^*}] $

其中 指重新表述的文本提示,N(x) 表示等價(jià)于 x 的重新表述提示集。

4.2 RQ1:關(guān)系的因果分析

研究者進(jìn)行了因果追蹤分析,以確定關(guān)系知識(shí)在模型參數(shù)中的位置,結(jié)果如圖 2 所示。通過在提示的不同位置和不同模型組件(如單個(gè)狀態(tài)、MLP 層和注意力層)之間改變中介,計(jì)算了 1207 個(gè)事實(shí)陳述的平均間接效應(yīng)(AIE)。結(jié)果顯示,與先前的發(fā)現(xiàn)一致,最后一個(gè)標(biāo)記的最后幾層存在高 AIE 分?jǐn)?shù)。

大模型中的知識(shí)存儲(chǔ),到底是怎么回事-AI.x社區(qū)

這表明恢復(fù)這些層中 MLP 的隱藏狀態(tài)可以恢復(fù)大部分必要信息。此外,研究者觀察到故意損壞的關(guān)系標(biāo)記的早期層也存在高 AIE 分?jǐn)?shù),強(qiáng)調(diào)了這些早期層在預(yù)測(cè)合理性方面的重要性。

同樣,研究者注意到最后一個(gè)損壞標(biāo)記的中間注意力層存在顯著的 AIE。研究者發(fā)現(xiàn),通過知識(shí)三元組中的關(guān)系 r 識(shí)別的知識(shí)存儲(chǔ)位置與 MLP 層和注意力層都有很強(qiáng)的相關(guān)性,如圖 3 所示。

大模型中的知識(shí)存儲(chǔ),到底是怎么回事-AI.x社區(qū)

這一結(jié)論與先前通過實(shí)體定位識(shí)別較低 MLP 層中知識(shí)存儲(chǔ)的工作不同。研究者發(fā)現(xiàn),通過關(guān)系定位的知識(shí)表達(dá)與較高的 MLP 層和中上層注意力層密切相關(guān)。當(dāng)探索模型知識(shí)表達(dá)從實(shí)體視角到關(guān)系視角時(shí),知識(shí)表達(dá)的因果位置在模型中發(fā)生了顯著變化。

這表明模型參數(shù)中的知識(shí)存儲(chǔ)位置是復(fù)雜的,不能簡(jiǎn)單地通過單一視角的因果追蹤來確定,假設(shè)知識(shí)被隔離在特定的模型層中。因此,研究者認(rèn)為,通過這種定位來修改相應(yīng)的模型參數(shù)以控制知識(shí)的表達(dá)是不合理的。

4.3 RQ2:探究等價(jià)性

在假設(shè)實(shí)體和關(guān)系視角在知識(shí)三元組中在邏輯上等價(jià)的前提下,如圖 3 所示,實(shí)體知識(shí)和關(guān)系知識(shí)被認(rèn)為是可互換的?;谶@一假設(shè),研究者假設(shè)通過改變關(guān)系知識(shí)來修改實(shí)體知識(shí)在理論上是可能的。

為了驗(yàn)證這一假設(shè),研究者應(yīng)用模型編輯技術(shù)從關(guān)系和實(shí)體角度修改語言模型中的知識(shí),并觀察效果是否相同。表1展示了應(yīng)用基于關(guān)系的模型編輯方法后,從關(guān)系和實(shí)體兩個(gè)角度的評(píng)估結(jié)果。

表1:編輯關(guān)系知識(shí)后的性能

方法

實(shí)體知識(shí)


關(guān)系知識(shí)



可靠性

泛化性

可靠性

泛化性

GPT-2 XL





FT

23.92

25.44

98.79

79.03

KN

22.53

24.61

97.52

76.16

MEND

22.33

24.63

100.0

83.24

ROME

27.92

28.12

99.99

84.47

MEMIT

24.15

24.63

91.36

76.24

GPT-J





MEND

15.51

17.99

100.0

81.52

ROME

30.95

31.87

100.0

95.97

MEMIT

18.92

19.37

100.0

88.50

與研究者的假設(shè)相反,結(jié)果令人驚訝地發(fā)現(xiàn),實(shí)體的評(píng)估分?jǐn)?shù)遠(yuǎn)遠(yuǎn)落后于關(guān)系的評(píng)估分?jǐn)?shù)。編輯關(guān)系知識(shí)在關(guān)系方面取得了高指標(biāo),表明這些編輯方法是有效的。然而,實(shí)體知識(shí)的結(jié)果明顯較低,這表明編輯關(guān)系并不能有效地改變實(shí)體知識(shí)。這是令人困惑的,因?yàn)橥蝗M中的實(shí)體和關(guān)系定義了一條知識(shí)。理論上,改變?nèi)M的任何部分都應(yīng)該改變整個(gè)三元組,這意味著它們應(yīng)該是等價(jià)的。

表2展示了應(yīng)用基于實(shí)體的編輯方法后,從關(guān)系和實(shí)體角度的評(píng)估結(jié)果。

表2:通過編輯實(shí)體知識(shí)的性能

方法

實(shí)體知識(shí)


關(guān)系知識(shí)



可靠性

泛化性

可靠性

泛化性

GPT-2 XL





ROME

99.93

96.6

96.12

74.46

MEMIT

93.88

79.6

97.28

76.01

GPT-J





ROME

99.99

99.49

91.37

74.52

MEMIT

99.87

95.08

92.36

74.20

表2中的結(jié)果顯示,評(píng)估結(jié)果相對(duì)穩(wěn)定,波動(dòng)較小。關(guān)系知識(shí)的可靠性有所提高,但泛化性指標(biāo)顯著下降。這些發(fā)現(xiàn)表明,從實(shí)體角度進(jìn)行模型編輯可能會(huì)改變知識(shí)片段之間的關(guān)系信息。然而,這些變化是不一致的。

上述發(fā)現(xiàn)表明,編輯實(shí)體知識(shí)和關(guān)系知識(shí)并不完全等價(jià)。

5. 結(jié)論

本文揭示了LLMs中的關(guān)系知識(shí)不僅編碼在MLP層中,還顯著地編碼在注意力模塊中。這一發(fā)現(xiàn)與之前假設(shè)知識(shí)主要存儲(chǔ)在MLP權(quán)重中的觀點(diǎn)形成對(duì)比。研究者的分析表明,實(shí)體和關(guān)系知識(shí)在LLMs中是分開存儲(chǔ)的,突出了知識(shí)存儲(chǔ)機(jī)制的復(fù)雜性。

這些見解對(duì)于改進(jìn)模型可解釋性和開發(fā)先進(jìn)的基于知識(shí)的應(yīng)用至關(guān)重要。此外,研究者的發(fā)現(xiàn)為未來在LLM相關(guān)任務(wù)(如模型編輯)的研究和開發(fā)提供了新的視角。具體來說:

  • 知識(shí)存儲(chǔ)的復(fù)雜性:研究結(jié)果表明,LLMs中的知識(shí)存儲(chǔ)機(jī)制比之前認(rèn)為的更為復(fù)雜。實(shí)體和關(guān)系知識(shí)并不簡(jiǎn)單地存儲(chǔ)在相同的位置或以相同的方式表示。這意味著在設(shè)計(jì)知識(shí)編輯或提取算法時(shí),需要考慮這種復(fù)雜性。
  • 模型編輯的挑戰(zhàn):研究發(fā)現(xiàn),編輯實(shí)體知識(shí)和關(guān)系知識(shí)并不完全等價(jià)。這對(duì)當(dāng)前的模型編輯技術(shù)提出了挑戰(zhàn),因?yàn)樵S多現(xiàn)有方法假設(shè)可以通過修改一個(gè)方面(如實(shí)體)來影響另一個(gè)方面(如關(guān)系)。未來的模型編輯方法需要更細(xì)致地考慮知識(shí)的不同方面。
  • 注意力機(jī)制的重要性:研究結(jié)果強(qiáng)調(diào)了注意力模塊在存儲(chǔ)關(guān)系知識(shí)方面的重要性。這表明在分析和修改LLMs中的知識(shí)時(shí),不能僅僅關(guān)注MLP層,還需要考慮注意力機(jī)制的作用。
  • 模型解釋的新方向:這項(xiàng)研究為理解LLMs如何表示和處理知識(shí)提供了新的視角。這可能會(huì)引導(dǎo)新的模型解釋方法,幫助研究者更好地理解這些復(fù)雜模型的內(nèi)部工作原理。
  • 知識(shí)表示的多樣性:研究發(fā)現(xiàn)實(shí)體和關(guān)系知識(shí)可能以不同的方式存儲(chǔ)和表示。這暗示了LLMs中知識(shí)表示的多樣性,可能需要更復(fù)雜的方法來全面理解和操作模型中的知識(shí)。

這項(xiàng)研究不僅挑戰(zhàn)了現(xiàn)有的關(guān)于LLMs中知識(shí)存儲(chǔ)的假設(shè),還為未來的研究指明了方向。它強(qiáng)調(diào)了需要更細(xì)致、多角度的方法來理解和操作這些復(fù)雜模型中的知識(shí)。這些見解可能會(huì)推動(dòng)更有效的模型編輯技術(shù)、更準(zhǔn)確的知識(shí)提取方法,以及更深入的模型可解釋性研究。

本文轉(zhuǎn)載自??芝士AI吃魚??,作者:芝士AI吃魚

已于2025-6-4 10:21:53修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦