ACL2025 | 傳統(tǒng)符號(hào)語言傳遞知識(shí)太低效?探索LLM高效參數(shù)遷移可行性
論文第一作者譚宇喬來自中國科學(xué)院自動(dòng)化研究所的自然語言處理和知識(shí)工程研究組,導(dǎo)師為何世柱老師。目前研究方向主要在利用大語言模型參數(shù)知識(shí)增強(qiáng)大模型能力。
1 跨規(guī)模參數(shù)知識(shí)遷移 PKT 的全面分析
人類的思維是非透明的,沒有繼承的記憶,因此需要通過語言交流的環(huán)境來學(xué)習(xí)。人類的知識(shí)傳遞長期依賴符號(hào)語言:從文字、數(shù)學(xué)公式到編程代碼,我們通過符號(hào)系統(tǒng)將知識(shí)編碼、解碼。但這種方式存在天然瓶頸,比如信息冗余、效率低下等。
現(xiàn)如今,大語言模型(LLM)就主要模仿這一套范式來學(xué)習(xí)和傳遞知識(shí)。然而,與人腦不可知和不透明的特性不同,開源 LLM 的可訪問參數(shù)和信息流則像一個(gè)透明的大腦,直接編碼了事實(shí)知識(shí),已有的研究對(duì)其進(jìn)行了系統(tǒng)分析、精確定位和有效轉(zhuǎn)移。因此研究人員提出疑問:大模型能否像《阿凡達(dá)》中的人類和納威人之間建立傳遞知識(shí)的練習(xí)?其中在天然存在的較大 LLM 和較小 LLM 對(duì)之間展開,將參數(shù)知識(shí)作為媒介。
最近,中國科學(xué)院自動(dòng)化所提出對(duì) Parametric Knowledge Transfer (PKT,參數(shù)知識(shí)遷移) 的全面分析。一句話總結(jié):跨規(guī)模大模型之間的表現(xiàn)相似和參數(shù)結(jié)構(gòu)相似度都極低,這對(duì)實(shí)現(xiàn)有效的 PKT 提出了極大的挑戰(zhàn)。
- 論文標(biāo)題:Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models
- 論文地址:https://arxiv.org/abs/2505.14436
- Github 地址:https://github.com/Trae1ounG/Neural_Incompatibility
2 新的 Pre-Align PKT 范式:定位后對(duì)齊 LaTen
論文首先通過簡單的前置實(shí)驗(yàn),挖掘出參數(shù)空間的對(duì)齊是實(shí)現(xiàn)參數(shù)知識(shí)遷移的必要條件?,F(xiàn)有的參數(shù)對(duì)齊方法 Seeking 通過梯度定位部分較大 LLM 參數(shù)以適配較小 LLM 張量形狀,將其初始化為 LoRA 矩陣通過后續(xù)微調(diào)實(shí)現(xiàn)遷移,稱之為后對(duì)齊參數(shù)遷移方法(Post-Align PKT)。論文為了更全面探索 PKT 是否可行,根據(jù)對(duì)齊時(shí)機(jī)提出先對(duì)齊知識(shí)遷移(Pre-Align PKT)新范式,采用定位后對(duì)齊(Locate-then-Align,LaTen)方法實(shí)現(xiàn)參數(shù)對(duì)齊。
圖表 1:展示了基于語言的知識(shí)遷移和基于參數(shù)的知識(shí)遷移范式的差異
該方法的核心理念是首先通過神經(jīng)元級(jí)別的歸因分析,識(shí)別出與特定任務(wù)相關(guān)的參數(shù),然后利用訓(xùn)練得當(dāng)?shù)某W(wǎng)絡(luò),將較大 LLM 的知識(shí)映射到較小 LLM 上。
具體而言,LaTen 方法分為兩個(gè)階段:
- 知識(shí)提?。和ㄟ^分析大模型的參數(shù),識(shí)別出與目標(biāo)任務(wù)相關(guān)的知識(shí)。這一過程利用靜態(tài)神經(jīng)元?dú)w因方法,計(jì)算出每個(gè)神經(jīng)元在任務(wù)中的重要性,從而選擇出最具信息量的參數(shù)進(jìn)行遷移。
- 參數(shù)對(duì)齊:一旦確定了重要參數(shù),接下來通過輕量級(jí)的超網(wǎng)絡(luò)進(jìn)行對(duì)齊,確保這些參數(shù)能夠有效整合到小型模型中。
- 參數(shù)注入:這一過程強(qiáng)調(diào)在對(duì)齊后直接注入?yún)?shù),減少了后續(xù)訓(xùn)練所需的資源和時(shí)間。
通過上述流程,就可以將較大模型中的參數(shù)知識(shí)轉(zhuǎn)換為在較小模型中可受用的知識(shí)進(jìn)而進(jìn)行注入,以避免參數(shù)空間的差異性導(dǎo)致的性能丟失。
3 對(duì)齊實(shí)驗(yàn)分析
在實(shí)驗(yàn)部分,研究者針對(duì)多個(gè)基準(zhǔn)數(shù)據(jù)集,涵蓋世界知識(shí)(MMLU),數(shù)學(xué)推理(GSM8K)和代碼能力(HumanEval 和 MBPP)進(jìn)行了詳細(xì)評(píng)估。
圖表 2:展示 Post-Align PKT 和 Pre-Align PKT 在不同數(shù)據(jù)集上的性能表現(xiàn)
實(shí)驗(yàn)結(jié)論:
- 對(duì)于 Post-Align PKT,論文將其同利用 SVD 從模型自身獲取 LoRA 的 PiSSA 方法對(duì)比,結(jié)果發(fā)現(xiàn) PiSSA 在相同設(shè)置下優(yōu)于 Seeking,證明從較大模型抽取的參數(shù)知識(shí)不如利用模型自身知識(shí)作為 LoRA 初始化,進(jìn)一步懷疑其可行性。
- 對(duì)于 Pre-Align PKT,結(jié)果顯示,只需要極少的訓(xùn)練步數(shù)和數(shù)據(jù)開銷,LaTen 能有效取得性能提升。但是 Pre-Align PKT 通過訓(xùn)練實(shí)現(xiàn)參數(shù)對(duì)齊的方式受到極大限制,無法超越較大 LLM 的能力上界,同時(shí)訓(xùn)練不太穩(wěn)定,沒有明顯收斂。
此外,論文從另一個(gè)方面來驗(yàn)證目前階段的 PKT 是否有效。既然假設(shè)遷移的參數(shù)知識(shí)中包含了有用的特定任務(wù)的知識(shí),那么在特定任務(wù)上表現(xiàn)更好的模型,理應(yīng)在遷移后能讓小模型的性能更好。因此,研究者在代碼任務(wù)上開展了這一探索實(shí)驗(yàn):
圖表 3:基于更強(qiáng)的較大 LLM 向較小 LLM 傳遞知識(shí),左圖為 Post-Aligh PKT 實(shí)驗(yàn)結(jié)果,右圖為 Pre-Align PKT 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果證明了兩種 PKT 在這種設(shè)置下的失敗,讓人疑惑為什么跨規(guī)模 PKT 無法有效實(shí)現(xiàn)?
4 為什么跨規(guī)模 PKT 失???
PKT 的核心任務(wù)在于對(duì)齊(Align),不管是通過后續(xù)訓(xùn)練還是提前通過超網(wǎng)絡(luò)實(shí)現(xiàn),是否能有效實(shí)現(xiàn)對(duì)齊是 PKT 成功的關(guān)鍵。從現(xiàn)有實(shí)驗(yàn)結(jié)果來看,PKT 并沒有有效實(shí)現(xiàn)對(duì)齊,那么阻礙的關(guān)鍵在哪?
論文從表現(xiàn)相似度(representation similarity)和參數(shù)相似度(parametric similarity)出發(fā),分析跨規(guī)模大模型在行為方式和內(nèi)部參數(shù)結(jié)構(gòu)的相似度是否會(huì)導(dǎo)致跨規(guī)模 PKT 的失敗,稱為神經(jīng)不兼容性(Neuron Incompatibility)。
圖表 4:跨規(guī)模大模型之間的表現(xiàn)相似度分析
對(duì)于表現(xiàn)相似度的分析,論文采用了中心核對(duì)齊(Centered Kernel Alignment, CKA)方法,該方法基于 Hilbert-Schmidt 獨(dú)立性準(zhǔn)則(HSIC),用于計(jì)算神經(jīng)網(wǎng)絡(luò)中特征表示的相似性。該指標(biāo)評(píng)估了兩個(gè)模型之間行為的相似性,可以視為大語言模型的行為相似性。
如圖 4 所示,Llama2-7B 和 13B 之間的相似性較低,尤其是在多頭自注意力(MHSA)模塊中,該模塊在信息整合中扮演著至關(guān)重要的角色。有趣的是,上投影層的相似性較高,這可能是因?yàn)樗鼈冏鳛殛P(guān)鍵記憶,捕捉特定的輸入模式,而這些模式通常在不同模型間是一致的??缫?guī)模大模型之間的低相似性也解釋了為何從同一模型衍生的 LoRA 表現(xiàn)更好,因?yàn)樗c模型的內(nèi)在行為更為貼合。證明跨規(guī)模大語言模型之間的表示相似性較弱是導(dǎo)致神經(jīng)不兼容性的關(guān)鍵因素之一,這使得理想的參數(shù)知識(shí)轉(zhuǎn)移成功變得困難。
對(duì)于參數(shù)結(jié)構(gòu)相似度的分析,論文進(jìn)一步基于參數(shù)結(jié)構(gòu)相似性進(jìn)行深入分析,以了解其對(duì)性能的影響。如圖 5 所示,比較了 (即第 l 層的 LoRA 參數(shù))與
和
(即
)在上投影和下投影模塊中的表現(xiàn)。
首先,Seeking 和 PiSSA 的結(jié)果模式完全相反。在 Seeking 中, 和
之間的平均相似度降至 0,表明
沒有保留任何來自
的有意義信息。這一缺陷導(dǎo)致了次優(yōu)性能。
相比之下,PiSSA 利用奇異值分解(SVD)捕捉 LoRA 的重要參數(shù),與原始權(quán)重保持更高的相似性,并與 建立了正交關(guān)系,從而在學(xué)習(xí)新技能時(shí)更為有效。研究表明,參數(shù)結(jié)構(gòu)相似性在進(jìn)一步微調(diào)中扮演著關(guān)鍵角色。具體來說,
與
之間的相似度顯著影響模型適應(yīng)新任務(wù)和執(zhí)行參數(shù)對(duì)齊的能力。低參數(shù)相似度成為導(dǎo)致神經(jīng)不兼容性的重要因素。在多頭自注意力模塊中同樣觀察到了相同的模式。
5 總結(jié)與展望:理想的 PKT 尚待實(shí)現(xiàn)
人類從牙牙學(xué)語到學(xué)貫古今,通過語言和文字在歷史長河中不斷汲取知識(shí),通過吸收和迭代實(shí)現(xiàn)知識(shí)的傳承。
然而,我?;孟肽軐?shí)現(xiàn),類似科幻小說中三體人直接通過腦電波傳遞所有知識(shí),或利用一張鏈接床就能把人類的意識(shí)輸入到納威人體內(nèi),這是一種更理想的知識(shí)傳遞方式,而開放的大模型參數(shù)正有可能實(shí)現(xiàn)這一點(diǎn)。
通過將 PKT 根據(jù) Align 進(jìn)行劃分,我們完成了對(duì)現(xiàn)有階段 PKT 的全面研究,找出了實(shí)驗(yàn)結(jié)果欠佳的背后是不同規(guī)模大模型之間參數(shù)知識(shí)本質(zhì)上的行為和結(jié)構(gòu)的差異。
但仍期望,在未來大模型之間的交流不再局限于語言這種有損的壓縮方式,而去嘗試更高效直接的遷移方法。
語言,或許是人類知識(shí)的起點(diǎn),但不一定是大模型的終點(diǎn)。