LLM工業(yè)級自進化:北郵與騰訊AI Lab提出MoE-CL架構(gòu),解決大模型持續(xù)學(xué)習(xí)核心痛點
在工業(yè)級大語言模型(LLM)應(yīng)用中,動態(tài)適配任務(wù)與保留既有能力的 “自進化” 需求日益迫切。真實場景中,不同領(lǐng)域語言模式差異顯著,LLM 需在學(xué)習(xí)新場景合規(guī)規(guī)則的同時,不丟失舊場景的判斷能力。這正是大模型自進化核心訴求,即 “自主優(yōu)化跨任務(wù)知識整合,適應(yīng)動態(tài)環(huán)境而無需大量外部干預(yù)”。
為解決此問題,北郵百家 AI 團隊與騰訊 AI Lab 團隊提出參數(shù)高效的對抗性混合專家架構(gòu) MoE-CL,專門用于 LLM 的自進化持續(xù)指令微調(diào)。其核心設(shè)計在于 “解耦 LoRA 專家” 與 “GAN 對抗降噪” 的結(jié)合:為每個任務(wù)配置專屬 LoRA 專家以保留任務(wù)特定知識,避免參數(shù)更新相互干擾;同時設(shè)置共享 LoRA 專家,通過生成對抗網(wǎng)絡(luò)(GAN)中的任務(wù)感知鑒別器抑制無關(guān)噪聲,確??缛蝿?wù)知識高效且精準(zhǔn)傳遞,最終實現(xiàn) “知識保留” 與 “跨任務(wù)泛化” 的平衡,這也是 LLM 自進化的核心邏輯。
從實驗效果來看,MoE-CL 的自進化能力已在實際場景與基準(zhǔn)測試中得到驗證。在騰訊真實業(yè)務(wù)場景 A/B 測試中,它將人工介入成本降低 15.3%;在公開 MTL5 跨域基準(zhǔn)與工業(yè)級 Tencent3 基準(zhǔn)測試中,其平均準(zhǔn)確率優(yōu)于現(xiàn)有主流方法,且在不同任務(wù)訓(xùn)練順序下保持穩(wěn)定,證明其無需人工調(diào)整即可適配任務(wù)動態(tài)變化。

- 論文標(biāo)題: Self-Evolving LLMs via Continual Instruction Tuning
- 論文鏈接: https://arxiv.org/abs/2509.18133
- 代碼倉庫:https://github.com/BAI-LAB/MoE-CL
01 引言
在數(shù)字經(jīng)濟蓬勃發(fā)展的當(dāng)下,海量文本數(shù)據(jù)如潮水般涌入互聯(lián)網(wǎng)平臺。例如,新聞資訊的快速更新、電商平臺的海量評論等多源異構(gòu)數(shù)據(jù)每日激增,面臨跨領(lǐng)域、高時效、強精度的多重挑戰(zhàn)。若采用傳統(tǒng)方案,為每種文本類型單獨訓(xùn)練模型,將消耗巨大的計算資源與人力成本;而使用單一模型處理全領(lǐng)域文本,又因數(shù)據(jù)分布差異導(dǎo)致性能失衡,難以滿足業(yè)務(wù)需求。在此背景下,亟需一種既能高效處理新任務(wù),又能保留舊任務(wù)知識的通用技術(shù)方案。為此,我們提出 MoE-CL 大模型混合專家(MoE)持續(xù)學(xué)習(xí)架構(gòu),致力于打破傳統(tǒng)方法的局限,以實現(xiàn)多領(lǐng)域文本任務(wù)的高效協(xié)同處理。使得大模型具備自進化能力:動態(tài)適應(yīng)訓(xùn)練數(shù)據(jù),自主優(yōu)化跨任務(wù)知識整合。
02 方法
混合專家持續(xù)學(xué)習(xí)(MoE-CL)框架聚焦多任務(wù)學(xué)習(xí)中的知識積累與任務(wù)適應(yīng)難題。其核心采用 Transformer 塊的 LoRA 增強技術(shù),重點優(yōu)化前饋神經(jīng)網(wǎng)絡(luò)(FFN)層,通過引入低秩矩陣降低參數(shù)更新量與計算成本,同時提升學(xué)習(xí)效率。
MoE-CL 將 LoRA 專家分為任務(wù)特定與任務(wù)共享兩類:前者專攻特定任務(wù)知識,后者提取跨任務(wù)通用信息。結(jié)合生成對抗網(wǎng)絡(luò)(GAN)分離任務(wù)特定與共享信息,確保模型獲取高質(zhì)量共享知識。
架構(gòu)上,N 層 LoRA 增強的 Transformer 塊級聯(lián)提取信息,最終由門控網(wǎng)絡(luò)融合兩類信息,為任務(wù)預(yù)測提供支撐。這種設(shè)計使模型既能滿足任務(wù)特異性需求,又能利用任務(wù)共性,實現(xiàn)高效持續(xù)學(xué)習(xí)。

圖 1:MoE-CL 的整體框架。MoE-CL 通過采用帶有任務(wù)感知判別器的對抗性 MoE-LoRA 架構(gòu),緩解了災(zāi)難性遺忘問題。MoE-CL 主要由兩部分組成,任務(wù)感知判別器優(yōu)化和指令調(diào)整優(yōu)化。
2.1 任務(wù)感知判別器優(yōu)化
任務(wù)感知判別器作為 MoE-CL 框架中的關(guān)鍵組件,其核心功能是識別任務(wù)標(biāo)簽。在 Transformer 塊中,設(shè)第 i 個前饋層的輸入向量為
,針對任務(wù) t,MoE-CL 通過 LoRA 技術(shù)分別生成任務(wù)共享表示
與任務(wù)特定表示
,具體計算如下:

其中,
為 LoRA 模塊的運算函數(shù),作用于大語言模型中已凍結(jié)的參數(shù);
和
分別對應(yīng)任務(wù)共享 LoRA 專家與任務(wù) t 專屬 LoRA 專家的可學(xué)習(xí)參數(shù),實現(xiàn)知識的分離與共享。
基于上述表示,任務(wù)感知判別器通過 softmax 函數(shù)
預(yù)測任務(wù)標(biāo)簽
:

其中,
為任務(wù)分類器的學(xué)習(xí)參數(shù),通過訓(xùn)練優(yōu)化以提升標(biāo)簽預(yù)測準(zhǔn)確性。
在生成對抗網(wǎng)絡(luò)(GAN)模塊中,為確保任務(wù)共享信息的質(zhì)量,模型通過交叉熵?fù)p失函數(shù)
計算預(yù)測標(biāo)簽
與真實標(biāo)簽
之間的差異,從而構(gòu)建損失函數(shù)
:

通過最小化
,模型能夠有效分離任務(wù)特定信息與共享信息,促使任務(wù)共享專家學(xué)習(xí)到更具泛化性的知識,進而提升 MoE-CL 框架在多任務(wù)場景下的性能表現(xiàn)。
2.2 指令調(diào)整優(yōu)化
指令微調(diào)階段,MoE-CL 通過加權(quán)組合任務(wù)共享表示
與任務(wù)特定表示
進行任務(wù) t 的預(yù)測。二者經(jīng)門控網(wǎng)絡(luò)
自動生成的權(quán)重系數(shù)
進行線性插值,得到 Transformer 模塊第 i 層的輸出向量:

輸入多層感知器后輸出預(yù)測結(jié)果
,結(jié)合真實標(biāo)簽
通過交叉熵函數(shù)
計算預(yù)測損失
。
為強化任務(wù)共享信息的泛化能力,MoE-CL 將生成對抗損失
與預(yù)測損失融合,形成最終優(yōu)化目標(biāo):

其中,超參數(shù) α∈(0,1) 用于平衡兩種損失權(quán)重。通過最小化
,模型在保留任務(wù)特異性知識的同時,最大化跨任務(wù)知識遷移效果。
03 實驗
我們在 MTL5 和 Tencent3 兩個評測基準(zhǔn)上進行了實驗,并將我們的方法與幾種具有代表性的持續(xù)學(xué)習(xí)方法進行比較,以展示 MoE-CL 的有效性。
3.1 主實驗結(jié)果
MTL5 和 Tencent3 評測基準(zhǔn)上的實驗結(jié)果如圖 2,3 所示,有以下結(jié)論:

Tencent3 評測基準(zhǔn)上的實驗結(jié)果,使用騰訊混元作為基座模型。粗體和斜體表示根據(jù)主要評估指標(biāo)準(zhǔn)確率的最優(yōu)和次優(yōu)。
- 泛化能力與穩(wěn)定性突出:相比所有基線方法,MoE-CL 平均準(zhǔn)確率顯著提升,且方差極小,在復(fù)雜任務(wù)中展現(xiàn)出優(yōu)異的泛化能力與穩(wěn)定性;
- 知識遷移優(yōu)勢顯著:MoE-CL 在正反向遷移上表現(xiàn)穩(wěn)定,較 MoCL 更不易受后續(xù)任務(wù)影響,驗證了生成對抗網(wǎng)絡(luò)集成至混合 LoRA 專家網(wǎng)絡(luò)的有效性;
- 魯棒性表現(xiàn)出色:面對不同任務(wù)序列順序,MoE-CL 通過分離共享與特定任務(wù)專家的架構(gòu)設(shè)計,在 MTL5 和 Tencent3 基準(zhǔn)測試中展現(xiàn)出極強的魯棒性 ,遠(yuǎn)超其他基線方法。
3.2 驗證生成對抗網(wǎng)絡(luò)的有效性
為驗證對抗性 MoE-LoRA 架構(gòu)對災(zāi)難性遺忘的抑制效果,本文構(gòu)建了不含生成對抗網(wǎng)絡(luò)(GAN)的 MoE-CL 對比版本。實驗結(jié)果(圖 4)顯示,含 GAN 的 MoE 專家架構(gòu)在持續(xù)學(xué)習(xí)任務(wù)中平均性能顯著優(yōu)于無 GAN 版本。這是因為 GAN 能夠精準(zhǔn)將特定任務(wù)信息分配至對應(yīng)低秩適配器專家,有效規(guī)避任務(wù)間知識干擾,尤其在反向遷移(BwT)指標(biāo)上表現(xiàn)突出,有力證明了 GAN 在防止災(zāi)難性遺忘方面的關(guān)鍵作用。

圖 4:生成對抗網(wǎng)絡(luò)對 MoE-CL 的影響。三個指標(biāo)都是數(shù)值越大表明性能越好。
3.3 離線 A/B 測試
在騰訊真實文本分類任務(wù)中,模型依據(jù)置信度得分自動判定內(nèi)容樣本類別:超出閾值的樣本被直接標(biāo)記為合規(guī)(白樣本)或不合規(guī)(黑樣本),無需人工介入。剔除率作為核心評估指標(biāo),直觀反映自動分類樣本占比,剔除率越高,意味著人工成本越低。
為驗證 MoE-CL 的實際應(yīng)用價值,研究團隊開展離線 A/B 測試,對比其與生產(chǎn)算法的剔除率表現(xiàn)。實驗數(shù)據(jù)(圖 5)顯示,在任務(wù) A 和任務(wù) B 場景下,MoE-CL 均實現(xiàn)顯著突破。其中,任務(wù) A 場景中 MoE-CL 剔除率高達(dá) 28.8%,較基線算法提升 15.3%,直接降低了同等比例的人工介入工作量,切實為業(yè)務(wù)場景帶來降本增效的商業(yè)價值。

通過剔除率衡量的離線 A/B 測試。
04 總結(jié)
混合專家持續(xù)學(xué)習(xí)框架 MoE-CL 通過三大核心設(shè)計破局:專屬任務(wù)專家防止災(zāi)難性遺忘,任務(wù)共享專家促進跨任務(wù)知識遷移,生成對抗網(wǎng)絡(luò)保障共享信息質(zhì)量。三者協(xié)同運作,使模型高效適應(yīng)新任務(wù),實現(xiàn)大模型持續(xù)學(xué)習(xí)中的自進化。





































