偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2025 | 給AI裝上「智能升級插件」!阿里安全-清華大學(xué)D-MoLE讓模型在持續(xù)學(xué)習(xí)中動態(tài)進(jìn)化

人工智能 新聞
近日,阿里巴巴集團(tuán)安全部-交互內(nèi)容安全團(tuán)隊與清華大學(xué)針對持續(xù)多模態(tài)指令微調(diào)的聯(lián)合研究成果被機器學(xué)習(xí)頂級會議 ICML 2025 收錄。本屆 ICML 共收到 12,107 篇投稿,錄用率為 26.9%。

本文第一作者為清華大學(xué)計算機系的碩士二年級研究生葛晨笛,研究方向為多模態(tài)大語言模型、自動機器學(xué)習(xí)和圖機器學(xué)習(xí)。主要合作者為來自阿里巴巴集團(tuán)安全部的樊珈珮、黃龍濤和薛暉。通訊作者為清華大學(xué)的朱文武教授、王鑫副研究員。

近日,阿里巴巴集團(tuán)安全部-交互內(nèi)容安全團(tuán)隊與清華大學(xué)針對持續(xù)多模態(tài)指令微調(diào)的聯(lián)合研究成果被機器學(xué)習(xí)頂級會議 ICML 2025 收錄。本屆 ICML 共收到 12,107 篇投稿,錄用率為 26.9%。

圖片

  • 論文標(biāo)題:Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning
  • 論文地址:https://arxiv.org/abs/2506.11672
  • 代碼鏈接:https://github.com/gcd19/D-MoLE

一、研究背景

多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs) 通過結(jié)合視覺、語音等模態(tài)編碼器與文本生成模型,展現(xiàn)出處理多模態(tài)數(shù)據(jù)的強大能力。然而,在實際應(yīng)用中,預(yù)訓(xùn)練的 MLLM 會隨著用戶需求和任務(wù)類型的變化,不斷面臨新的適配要求。如果直接針對新任務(wù)進(jìn)行微調(diào),模型往往會出現(xiàn)災(zāi)難性遺忘(Catastrophic Forgetting),即丟失之前掌握的能力。

因此,如何讓 MLLM 持續(xù)地適應(yīng)新任務(wù),同時保留過去的知識,成為一個核心挑戰(zhàn),這一問題被稱為「持續(xù)多模態(tài)指令微調(diào)」(Continual Multimodal Instruction Tuning, CMIT)。

目前有關(guān)CMIT 的研究剛剛起步。常用的持續(xù)學(xué)習(xí)策略包括基于經(jīng)驗回放(replay) 和參數(shù)正則化的方法,但這些方法最初設(shè)計是針對較小規(guī)模、單模態(tài)模型的。在多模態(tài)大模型的場景下,這些固定架構(gòu)的策略面臨著兩個新出現(xiàn)的挑戰(zhàn):

  • 任務(wù)架構(gòu)沖突:不同任務(wù)對模型不同層次有不同的依賴程度,統(tǒng)一固定的結(jié)構(gòu)難以實現(xiàn)理想的適配效果。

為此,我們在 preliminary study 中具體量化了這一現(xiàn)象,發(fā)現(xiàn)在多模態(tài)任務(wù)的持續(xù)學(xué)習(xí)中,不同任務(wù)在模型的 Transformer 層具有明顯不同的敏感程度。以視覺任務(wù)為例,部分任務(wù)對視覺編碼器的較淺層依賴更多,而另一些任務(wù)則明顯依賴語言模型的更深層。這表明簡單的統(tǒng)一架構(gòu)適配策略很難同時滿足所有任務(wù)的需求,易導(dǎo)致部分層的參數(shù)冗余而另一部分層的參數(shù)更新不足。

圖片

  • 模態(tài)不均衡:不同任務(wù)對圖像、文本等不同模態(tài)的依賴程度差別較大,容易導(dǎo)致訓(xùn)練過程中各模態(tài)更新程度的不平衡。

同樣在 preliminary study 中,我們跟蹤分析了模型在訓(xùn)練不同任務(wù)時,視覺和文本模態(tài)的參數(shù)更新幅度變化,結(jié)果清晰顯示,有些任務(wù)以文本模態(tài)更新為主,而另一些則明顯偏重視覺模態(tài)更新。這種模態(tài)依賴的不均衡性導(dǎo)致部分模態(tài)模塊的優(yōu)化不足,整體性能受到影響。

圖片

為了應(yīng)對這些挑戰(zhàn),本研究團(tuán)隊提出了一種新的持續(xù)多模態(tài)指令微調(diào)框架D-MoLE,打破了傳統(tǒng)模型結(jié)構(gòu)固定的思路,允許模型在參數(shù)預(yù)算受控的條件下,根據(jù)任務(wù)需求動態(tài)地調(diào)整模型架構(gòu)。具體而言,D-MoLE 能夠按需在關(guān)鍵層引入額外的參數(shù)模塊(LoRA 專家),精準(zhǔn)地緩解任務(wù)架構(gòu)沖突;同時,通過引入基于梯度的持續(xù)學(xué)習(xí)課程策略,自動平衡不同模態(tài)模塊的更新比例,使得各模態(tài)能夠獲得更加均衡的優(yōu)化。

二、論文摘要

持續(xù)的多模態(tài)指令微調(diào)(Continual Multimodal Instruction Tuning, CMIT) 對于多模態(tài)大語言模型(MLLM) 適應(yīng)不斷變化的任務(wù)需求至關(guān)重要。然而,目前主流方法大多依賴固定的模型架構(gòu),難以靈活應(yīng)對新任務(wù),因為它們的模型容量在設(shè)計之初就被限定住了。

我們提出一種在參數(shù)預(yù)算受限條件下進(jìn)行架構(gòu)動態(tài)調(diào)整的方法,用于提升模型在持續(xù)學(xué)習(xí)過程中的適應(yīng)能力。這個方向此前幾乎沒有被探索,但它同時帶來了兩個關(guān)鍵挑戰(zhàn):其一,不同任務(wù)對模型的層級結(jié)構(gòu)有不同的依賴,容易引發(fā)「架構(gòu)沖突」;其二,不同任務(wù)對視覺和文本等模態(tài)的依賴強度不一,可能導(dǎo)致訓(xùn)練過程中的「模態(tài)不均衡」。

為此,我們提出了D-MoLE(Dynamic Mixture of Curriculum LoRA Experts) 方法,在有限參數(shù)預(yù)算下實現(xiàn)模型架構(gòu)的按需演化,從而持續(xù)適配新任務(wù),同時保留已有知識。

具體來說,D-MoLE 包含兩個核心模塊:一個是動態(tài)按層專家分配器,用于識別當(dāng)前任務(wù)最需要適配的關(guān)鍵層并分配 LoRA 專家;另一個是基于梯度的跨模態(tài)課程機制,根據(jù)當(dāng)前任務(wù)對不同模態(tài)的學(xué)習(xí)難度,動態(tài)調(diào)整語言模型與模態(tài)編碼器的更新比例,從而緩解模態(tài)不均衡問題。

實驗結(jié)果表明,D-MoLE 在多個任務(wù)的持續(xù)學(xué)習(xí)評估中表現(xiàn)優(yōu)異,在平均指標(biāo)(AVG) 上相較當(dāng)前最強基線提升約 15%。據(jù)我們了解,這是首個從模型架構(gòu)演化的角度系統(tǒng)研究 MLLM 持續(xù)學(xué)習(xí)問題的工作。

三、方法解讀

D-MoLE 框架的核心思想在于通過動態(tài)調(diào)整模型結(jié)構(gòu)和學(xué)習(xí)策略,以應(yīng)對持續(xù)學(xué)習(xí)中的任務(wù)架構(gòu)沖突和模態(tài)不平衡問題。整體框架如論文圖 3(下圖) 所示,主要包含動態(tài)分層專家分配器和基于梯度的跨模態(tài)持續(xù)課程兩大核心組件。

圖片

動態(tài)分層專家分配器(Dynamic Layer-Wise Expert Allocator) 與常規(guī) MoLE 的區(qū)別

常規(guī)的LoRA 專家混合(Mixture of LoRA Experts, MoLE) 方法通常是將多個 LoRA 模塊(視為「專家」) 集成到模型中,并使用一個路由機制來為不同的輸入選擇性地激活部分專家。D-MoLE 在此基礎(chǔ)上,針對持續(xù)學(xué)習(xí)的特性進(jìn)行了關(guān)鍵創(chuàng)新。我們可以從其核心運作公式(即論文中的公式 2)來理解其獨特性:

圖片


該公式描述了在學(xué)習(xí)第 t 個新任務(wù)時,模型第 1 層的輸出是如何構(gòu)成的。它主要包含三部分:

  • 基礎(chǔ)知識(圖片):這是模型第圖片層原始預(yù)訓(xùn)練權(quán)重 圖片對輸入圖片的處理結(jié)果。它代表模型的通用能力,在持續(xù)學(xué)習(xí)中保持不變。
  • 歷史經(jīng)驗的動態(tài)調(diào)用(圖片):這代表模型從過去已學(xué)習(xí)的任務(wù)(任務(wù) 1 到 t?1) 中提取的相關(guān)知識。
  • 圖片是過去第圖片個任務(wù)的 LoRA 專家(一種小型的、可訓(xùn)練的適配器模塊) 在第圖片層的輸出。


  • 圖片標(biāo)記了過去任務(wù)圖片時第圖片層是否真的分配了這樣一個 LoRA 專家。


  • 圖片是一個門控函數(shù),它會判斷當(dāng)前輸入圖片與歷史任務(wù)圖片的相關(guān)性,從而決定該歷史專家的激活程度。這意味著模型能智能地、有選擇地重用最相關(guān)的歷史經(jīng)驗。
  • 新知識的學(xué)習(xí)圖片:這部分是專門為當(dāng)前新任務(wù)圖片學(xué)習(xí)的內(nèi)容。
  • 圖片是為當(dāng)前任務(wù)圖片在第圖片層新分配并訓(xùn)練的 LoRA 專家的輸出。


  • 圖片標(biāo)記了當(dāng)前新任務(wù)圖片是否在第圖片層分配了新的 LoRA 專家。這個決策是動態(tài)的,基于對新任務(wù)的分析,而非預(yù)設(shè)。

核心思想:這種設(shè)計的核心在于動態(tài)和選擇性。模型不是簡單地累積所有知識,也不是為每個新任務(wù)都重新調(diào)整所有層。而是:

  • 保留通用基礎(chǔ):凍結(jié)大部分預(yù)訓(xùn)練參數(shù)。
  • 按需適配新任務(wù):通過「零成本代理評估」(快速分析任務(wù)對各層的影響),D-MoLE 僅在對新任務(wù)最關(guān)鍵的層 (即圖片的層) 動態(tài)引入新的、輕量化的 LoRA 專家進(jìn)行針對性學(xué)習(xí)。
  • 情境化利用舊經(jīng)驗:通過門控機制,模型可以根據(jù)當(dāng)前輸入數(shù)據(jù)的特性,智能地激活那些最相關(guān)的歷史 LoRA 專家,實現(xiàn)有效知識遷移,同時避免不相關(guān)歷史經(jīng)驗的干擾。

這種策略使得模型能夠在參數(shù)預(yù)算受控的情況下,高效地適應(yīng)新任務(wù),同時最大限度地保留和利用過往的知識。

基于梯度的跨模態(tài)持續(xù)課程(Gradient-Based Inter-Modal Continual Curriculum)

該模塊用于解決「模態(tài)不平衡」問題。在多模態(tài)學(xué)習(xí)中,不同任務(wù)對圖像、文本等不同模態(tài)的依賴程度各異。

  • 核心思想:D-MoLE 不再對所有模態(tài)一視同仁。它首先通過「零成本代理評估」分別判斷整個視覺編碼器和整個語言模型對當(dāng)前新任務(wù)的整體「敏感度」或「學(xué)習(xí)難度」。
  • 預(yù)算動態(tài)分配:基于評估出的各模態(tài)「學(xué)習(xí)難度」,此模塊會動態(tài)地調(diào)整分配給視覺和語言部分的參數(shù)預(yù)算(即允許放置多少新的 LoRA 專家)?!笇W(xué)習(xí)難度」更大(即對任務(wù)更敏感、更需要調(diào)整) 的模態(tài)會獲得更多的參數(shù)預(yù)算。
  • 協(xié)同工作:這個分配好的、針對不同模態(tài)的預(yù)算,會進(jìn)一步指導(dǎo)「動態(tài)分層專家分配器」具體在哪些層、為哪個模態(tài)放置 LoRA 專家。

整體流程(簡化版)

當(dāng)一個新任務(wù)到來時,D-MoLE 的工作流程大致如下:

  • 快速評估:首先,模型用少量新任務(wù)的數(shù)據(jù)樣本進(jìn)行一次「演練」(即零成本代理評估),快速了解這個新任務(wù)對模型哪些層、哪些模態(tài)(視覺/語言) 的挑戰(zhàn)比較大。
  • 動態(tài)預(yù)算:基于上述評估結(jié)果,「跨模態(tài)持續(xù)課程」模塊會決定在這個新任務(wù)上,應(yīng)該給視覺部分多一點「學(xué)習(xí)資源」(參數(shù)預(yù)算),還是給語言部分多一點。挑戰(zhàn)大的模態(tài)會分到更多預(yù)算。
  • 精準(zhǔn)部署新專家:「動態(tài)分層專家分配器」拿著各個模態(tài)分到的預(yù)算,在各自模態(tài)內(nèi)部,把新的 LoRA 專家模塊(可訓(xùn)練的小型網(wǎng)絡(luò)結(jié)構(gòu)) 安裝到那些在步驟 1 中被識別為對新任務(wù)「最敏感」或「最關(guān)鍵」的層上。
  • 舊知識導(dǎo)航:訓(xùn)練一個輕量級的「導(dǎo)航員」(自編碼器路由),它能判斷當(dāng)前新任務(wù)的輸入數(shù)據(jù)和以前哪個老任務(wù)最像。
  • 針對性訓(xùn)練:開始正式學(xué)習(xí)新任務(wù)。此時,模型的絕大部分原始參數(shù)和為老任務(wù)安裝的 LoRA 專家都保持「凍結(jié)」?fàn)顟B(tài),只有剛剛為新任務(wù)精準(zhǔn)部署上的那些新 LoRA 專家才參與訓(xùn)練。在訓(xùn)練時,步驟 4 的「導(dǎo)航員」會喚醒與當(dāng)前輸入最匹配的那些「舊專家」,讓它們也貢獻(xiàn)一部分智慧,幫助新專家學(xué)得更好更快。
  • 推理應(yīng)用:學(xué)習(xí)完畢后,當(dāng)模型處理新的多模態(tài)輸入時,「導(dǎo)航員」會再次判斷輸入數(shù)據(jù)和哪個(或哪些) 任務(wù)最相關(guān),然后激活相應(yīng)的 LoRA 專家(可能是新任務(wù)的,也可能是相關(guān)的舊任務(wù)的) 來共同完成任務(wù)。

通過這一系列動態(tài)和自適應(yīng)的策略,D-MoLE 旨在讓多模態(tài)大模型在持續(xù)學(xué)習(xí)新知識時,既能學(xué)得好、學(xué)得快,又能有效減少對舊知識的遺忘。

四、實驗結(jié)果

研究團(tuán)隊構(gòu)建了一個包含視覺問答(VQA)、圖像描述(Image Captioning) 和視覺定位(Visual Grounding) 三大類共 9 個數(shù)據(jù)集的持續(xù)多模態(tài)指令微調(diào)(CMIT) 基準(zhǔn)。實驗采用的預(yù)訓(xùn)練 MLLM 是 InternVL2-2B。評估指標(biāo)主要包括:

  • AVG:模型在所有任務(wù)上,在整個持續(xù)學(xué)習(xí)過程中的平均性能。
  • Last:模型在學(xué)完所有任務(wù)后,在各個任務(wù)上的最終性能。
  • BWT(Backward Transfer):向后遷移,衡量學(xué)習(xí)新任務(wù)后,舊任務(wù)性能的下降程度(越接近 0 越好,負(fù)值越大表示遺忘越嚴(yán)重)。

圖片

主要結(jié)果對比

如上表所示,D-MoLE 在 AVG、Last 和 BWT 三個關(guān)鍵指標(biāo)上均顯著優(yōu)于所有對比的基線方法。與表現(xiàn)次優(yōu)的 O-LORA 方法相比,D-MoLE 在 AVG 指標(biāo)上平均提升了約 15.08%,在 Last 指標(biāo)上提升了約 20.14%,在 BWT 指標(biāo)上更是將平均遺忘從 -21.31% 大幅改善至 -1.49%。這充分證明了 D-MoLE 在持續(xù)學(xué)習(xí)過程中的任務(wù)適應(yīng)能力和抗遺忘能力。傳統(tǒng)的持續(xù)學(xué)習(xí)方法如 LwF-LORA 和 EWC-LORA,即使結(jié)合了參數(shù)高效微調(diào)技術(shù) LoRA,在 CMIT 場景下表現(xiàn)不佳,遺忘嚴(yán)重。而一些基于 LoRA 專家混合(MoLE-based) 的方法(如 Dense MoLE, Sparse MoLE, MoLA) 雖有改進(jìn),但效果仍不如 D-MoLE,這凸顯了 D-MoLE 動態(tài)架構(gòu)調(diào)整和課程學(xué)習(xí)策略的優(yōu)越性。

通用能力評估

為了檢驗?zāi)P驮诔掷m(xù)學(xué)習(xí)后是否保持了通用多模態(tài)能力,研究團(tuán)隊在三個通用的MLLM 評測基準(zhǔn) MME、MMMU 和 POPE 上對學(xué)完所有 9 個任務(wù)后的模型進(jìn)行了評估。

圖片

結(jié)果如上表所示,與直接對每個任務(wù)進(jìn)行順序微調(diào)(Seq-FT) 和 O-LORA 相比,D-MoLE 在這些通用能力測試中表現(xiàn)更好,更接近原始預(yù)訓(xùn)練模型(Zero-Shot) 的水平。這表明 D-MoLE 在適應(yīng)新任務(wù)的同時,能更好地保持模型原有的基礎(chǔ)能力。

消融實驗

圖片

為了驗證D-MoLE 中各個組件的有效性,研究團(tuán)隊進(jìn)行了一系列消融實驗:

  • v1(僅微調(diào) LLM) 和 v2(僅微調(diào)視覺編碼器):結(jié)果顯示,單單更新一個模態(tài)效果很差,說明多模態(tài)協(xié)同適應(yīng)的重要性。
  • v3(移除跨模態(tài)課程):性能有所下降,表明基于梯度的模態(tài)難度評估和預(yù)算動態(tài)分配是有效的。
  • v4(移除動態(tài)分層專家分配器,均勻分配 LoRA):性能大幅下降,證明了根據(jù)任務(wù)敏感度動態(tài)分配 LoRA 專家到關(guān)鍵層對于緩解架構(gòu)沖突和提升性能至關(guān)重要。

這些結(jié)果清晰地表明 D-MoLE 的每個精心設(shè)計的組件都對其優(yōu)越性能做出了貢獻(xiàn)。

訓(xùn)練效率

圖片

盡管D-MoLE 引入了零成本代理評估和動態(tài)分配機制,但其總訓(xùn)練時間(12.40 小時) 與 vanilla LoRA 微調(diào)(Seq-FT, 13.15 小時) 相當(dāng),甚至略優(yōu),并快于其他一些復(fù)雜的持續(xù)學(xué)習(xí)方法(如 MOLA, 23.03 小時)。這是因為 D-MoLE 通過選擇性地在關(guān)鍵層插入 LoRA 模塊,而不是在所有層都插入,從而減少了實際參與訓(xùn)練的參數(shù)量和反向傳播的計算量。零成本代理評估本身計算開銷很?。s占總訓(xùn)練時間的 1.45%)。

五、業(yè)務(wù)應(yīng)用

D-MoLE 可以用于提升阿里安全多模態(tài)審核大模型在交互內(nèi)容安全場景下的持續(xù)適應(yīng)能力。具體而言,模型需要同時支持多個平臺的圖文審核,而不同平臺的審核規(guī)則存在差異,且會隨著時間不斷變化。

借助 D-MoLE,模型能夠在不影響原有能力的前提下,快速適配新的平臺或規(guī)則,只需引入少量參數(shù)即可完成擴(kuò)展,無需重復(fù)訓(xùn)練整個模型。這有助于降低運維成本,提升模型在多任務(wù)、多平臺環(huán)境中的靈活性與長期可用性。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2020-04-01 23:06:44

阿里安全

2024-03-13 12:30:16

2022-11-11 15:16:36

機器學(xué)習(xí)開源

2023-05-04 07:39:33

2021-01-12 15:11:01

AI 數(shù)據(jù)人工智能

2024-12-02 11:16:48

2021-01-12 11:06:44

阿里巴巴AI人機交互

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2013-09-27 17:29:16

清華大學(xué)IT運維RIIL

2011-10-26 10:57:56

EqualLogic戴爾存儲

2021-09-10 22:33:10

人臉識別漏洞安全

2020-03-27 13:33:21

阿里安全AIAI模型

2024-10-11 17:22:44

2010-03-09 16:11:10

虛擬化vmware

2025-05-07 13:49:19

模型AI架構(gòu)

2020-08-13 10:00:56

AI 數(shù)據(jù)人工智能

2024-11-08 09:20:00

2025-01-15 13:40:00

點贊
收藏

51CTO技術(shù)棧公眾號