多模態(tài)大模型持續(xù)學習系列研究,綜述+Benchmark+方法+Codebase一網打盡!
本系列工作核心作者: 郭海洋(自動化所博士生)、 朱飛 (中科院香港院AI中心AP)、 曾繁虎 (自動化所碩士生)、 劉文卓 (自動化所博士生)、 趙宏博 (自動化所博士生)。通訊作者為自動化所博士生導師張煦堯研究員和劉成林研究員。團隊長期從事人工智能研究,成果發(fā)表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等國際頂級會議與期刊。
近年來,生成式 AI 和多模態(tài)大模型在各領域取得了令人矚目的進展。然而,在現實世界應用中,動態(tài)環(huán)境下的數據分布和任務需求不斷變化,大模型如何在此背景下實現持續(xù)學習成為了重要挑戰(zhàn)。為了應對這一問題,中國科學院自動化研究所聯合中國科學院香港院 AI 中心系統性地研究了生成式 AI 和多模態(tài)大模型的持續(xù)學習,提出了一系列綜述、方法、Benchmark 和 Codebase,為相關領域的研究者和實踐者提供了全面支持。
生成式 AI 的持續(xù)學習綜述
論文:Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

- 論文鏈接:https://arxiv.org/pdf/2506.13045
- 項目主頁:https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models
研究動機:以大模型為代表的生成式 AI 模型的快速發(fā)展讓現代智能系統具備了理解和生成復雜內容的能力,甚至在部分領域達到了接近人類的表現。然而,這些模型依舊面臨著“災難性遺忘”問題,即在學習新任務時,往往會導致已學任務性能的顯著下降。為解決這一挑戰(zhàn),大量的研究提出了多種方法以增強生成式 AI 在實際應用中的適應性和擴展性。本文系統性地綜述了生成式 AI 的持續(xù)學習方法,涵蓋大語言模型(LLMs)、多模態(tài)大語言模型(MLLMs)、視覺語言動作模型(VLA)和擴散模型(Diffusion Models)。

圖 1:生成式 AI 中的持續(xù)學習示意圖
研究內容:本文圍繞生成式 AI 的持續(xù)學習問題,系統性地綜述了不同模型的訓練目標、應用場景及技術方法。研究涵蓋大語言模型在理解與生成中的知識保留與任務適應、多模態(tài)大模型處理跨模態(tài)數據時的抗遺忘能力、視覺語言動作模型在機器人動態(tài)環(huán)境中的行為遷移與適應,以及擴散模型針對個性化生成需求的增量學習。這些模型的持續(xù)學習方法主要包括架構擴展、正則化和回放策略,旨在平衡新任務學習與舊任務性能的保持。此外,研究還探討了評估指標(整體性能、遺忘程度、泛化能力)和未來方向(高效機制、強化學習范式、多模態(tài)擴展等),為生成式 AI 的持續(xù)學習提供了全面參考。

圖 2:持續(xù)學習方法分類圖
多模態(tài)大模型持續(xù)學習:Benchmark 與方法
傳統的持續(xù)學習任務多聚焦于單模態(tài)場景,如圖像或文本分類,但隨著應用需求的復雜化,多模態(tài)任務逐漸成為核心。為此,我們提出了一系列新的 Benchmark 和方法,旨在推動多模態(tài)大模型持續(xù)學習的發(fā)展。
論文 1:[ACL 2025] HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

- 論文鏈接:https://arxiv.org/pdf/2503.12941
- 代碼鏈接:https://github.com/Ghy0501/HiDe-LLaVA
- 數據鏈接:https://huggingface.co/datasets/HaiyangGuo/UCIT
研究動機:本文認為當前的多模態(tài)大模型的持續(xù)學習面臨兩大關鍵挑戰(zhàn):一是現有評測基準普遍存在與預訓練數據重疊的問題,導致評估結果失真;二是傳統方法難以平衡新任務學習與舊任務遺忘之間的矛盾。為此,本研究提出構建全新的 UCIT 評測基準,通過嚴格的 zero-shot 篩選機制,構建了全新的無信息泄露風險數據集。同時創(chuàng)新性地提出層次化解耦學習策略,旨在解決持續(xù)指令微調中的災難性遺忘問題,為多模態(tài)大模型的持續(xù)學習提供可靠的評估框架和解決方案。
研究方法:本文通過 CKA 相似性分析揭示了模型不同層級的任務特性差異:頂層具有任務特異性,其余層則保持任務通用性。基于此,本文提出的 HiDe-LLaVA 采用分層處理機制:在頂層引入多模態(tài)錨點驅動的動態(tài)專家選擇模塊,實現任務自適應;在其余層采用參數融合策略保留跨任務共享知識。實驗結果表明,該方法可以有效緩解模型的災難性遺忘現象,并且有效平衡了模型性能與計算資源效率。
目前該研究已被 ACL 2025 主會接收,相關代碼及數據已全部開源。

圖 3:HiDe-LLaVA 模型框架示意圖。
論文 2:[ICCV 2025] Federated Continual Instruction Tuning

- 論文鏈接:https://arxiv.org/pdf/2503.12897
- 代碼鏈接:https://github.com/Ghy0501/FCIT
- 數據鏈接:https://huggingface.co/datasets/MLLM-CL/FCIT
研究動機:當前多模態(tài)大模型的指令微調面臨集中訓練成本高、實用性差的問題,而現有聯邦學習方案在動態(tài)環(huán)境中難以實現持續(xù)學習與知識保留的平衡。為此,本文首次提出 聯邦連續(xù)指令微調(FCIT)基準,以解決分布式環(huán)境下持續(xù)學習的關鍵挑戰(zhàn)。FCIT 基準包含同質(各客戶端學習相同任務)和異質(各客戶端學習不同任務)兩種現實場景,通過 4 種實驗設置和 12 個精選數據集,全面評估模型在非獨立同分布數據和災難性遺忘情況下的表現,為多模態(tài)大模型的聯邦持續(xù)學習研究提供標準化評測框架。

圖 4:FCIT 設定示意圖
研究方法:為應對 FCIT 中的挑戰(zhàn),我們提出了 DISCO 框架,結合了 動態(tài)知識梳理(DKO) 和 子空間選擇激活(SSA) 兩種策略。DKO 利用全局服務器的動態(tài)緩存,存儲并組織任務特定的參數,減少任務間和階段間的沖突;SSA 則通過匹配輸入特征與動態(tài)緩存中的任務子空間,選擇性激活相關輸出,同時過濾無關信息。實驗結果表明,DISCO 在解決數據異質性和災難性遺忘方面顯著提升了模型性能,全面超越現有方法,并在 FCIT 基準上取得了最好的表現。
目前該研究已被 ICCV 2025 接收,相關代碼及數據已全部開源。
論文 3:[EMNLP 2025] ModalPrompt: Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models

- 論文鏈接:https://arxiv.org/pdf/2410.05849
- 代碼鏈接:https://github.com/AuroraZengfh/ModalPrompt
研究動機:為緩解多模態(tài)大模型持續(xù)學習任務中的災難性遺忘現象,本文認為現有解決方案存在顯著局限性:基于數據回放的方法面臨隱私泄露風險和存儲成本壓力,而模型擴展策略則不可避免地引發(fā)計算資源的線性增長。值得注意的是,當前研究尚未充分探索多模態(tài)數據在持續(xù)學習中的協同監(jiān)督潛力。而當前領域內缺乏專門針對多模態(tài)特性的持續(xù)學習框架,因此需要開發(fā)一種既能利用圖像-文本雙重監(jiān)督、又能避免計算膨脹的新方法,以實現高效且隱私安全的知識持續(xù)積累。

圖 5:ModalPrompt 模型框架示意圖
研究方法:本文提出 ModalPrompt 框架,利用多模態(tài)監(jiān)督,通過構建任務特定的圖像文本原型提示,結合雙模態(tài)引導提示選擇和多任務提示融合機制,實現了在無回放數據的情況下有效保留舊任務知識并提升新任務性能。此外,該方法通過動態(tài)提示選擇降低計算復雜度,使推理速度提升 1.42 倍,同時顯著減少存儲和訓練成本。
目前該研究已被 EMNLP 2025 主會接收,相關代碼已全部開源。
論文 4. MLLM-CL: Continual Learning for Multimodal Large Language Models

- 論文鏈接:https://arxiv.org/pdf/2506.05453
- 代碼鏈接:https://github.com/bjzhb666/MLLM-CL
- 數據鏈接:https://huggingface.co/datasets/Impression2805/MLLM-CL
研究動機:本文認為現有的多模態(tài)大模型連續(xù)指令微調評測基準主要關注獨立同分布(IID)場景下的領域知識評估,缺乏對模型基礎能力(如 OCR、數學推理等)在非 IID 場景下的系統性評測。為此,本文提出了一個新的多模態(tài)大模型持續(xù)學習基準 MLLM-CL,涵蓋領域持續(xù)學習(DCL) 和能力持續(xù)學習(ACL) 兩種設置,分別針對同分布(IID)和非同分布(non-IID)場景下的領域知識和基礎能力學習進行評估。

圖 6:MLLM-CL 基準示意圖
研究方法:為解決災難性遺忘問題,本文提出了 MR-LoRA,通過領域或能力特定的 LoRA 模塊實現參數隔離,避免任務間干擾,并設計了基于 MLLM 自身的多模態(tài)理解能力的路由選擇器,僅需少量樣本微調即可精準匹配輸入與最優(yōu)專家模塊。實驗表明,該方法在領域持續(xù)學習(DCL)和能力持續(xù)學習(ACL)任務上顯著優(yōu)于傳統回放或模型擴展方法。
論文 5. LLaVA-c: Continual Improved Visual Instruction Tuning

- 論文鏈接:https://arxiv.org/pdf/2506.08666
研究動機:多模態(tài)大模型(如 LLaVA-1.5)在連續(xù)指令微調中面臨的兩大核心挑戰(zhàn):首先,傳統的多任務聯合訓練存在任務平衡困難(需人工調整數據比例)和擴展成本高(新增任務需全量重訓練)的固有缺陷;其次,現有持續(xù)學習方法雖能增量學習新任務,但普遍存在 "基礎模型退化" 現象——模型過度擬合任務特定指令(如強制單字回答),喪失處理多樣化指令的通用能力。

圖 7:LLaVA-c 模型框架示意圖
研究方法:本文提出了 LLaVA-c,通過兩個核心技術改進 LLaVA-1.5 模型:1)譜感知鞏固(SAC),基于奇異值分解的模型融合策略有效克服新舊知識沖突,相比傳統的模型混合策略提升了任務兼容性;2)無監(jiān)督查詢正則化(UIR),通過約束未標注文本指令的特征空間偏移(L2 距離損失)防止基礎模型退化,在零額外標注成本下保持指令跟隨能力。本文在預訓練和指令微調兩階段上都驗證了所提出方法的有效性,在通用評價基準和下游任務指標上均取得了最優(yōu)的性能,并且首次實現持續(xù)學習效果超越多任務聯合訓練。
多模態(tài)大模型持續(xù)學習:代碼倉庫
論文:MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark

- 論文鏈接:https://arxiv.org/pdf/2508.07307
- 代碼倉庫:https://github.com/Ghy0501/MCITlib
研究動機:隨著多模態(tài)大模型持續(xù)學習研究的蓬勃發(fā)展,各類創(chuàng)新方法和評估基準不斷涌現,但研究社區(qū)始終缺乏一個系統化、標準化的開發(fā)與評測平臺。為填補這一關鍵空白,我們推出了 MCITlib,一個開源的多模態(tài)持續(xù)指令微調代碼倉庫。MCITlib 集成了當前領域內 8 種主流算法,精心挑選了兩個高質量基準(UCIT 和 DCL),有效避免信息泄露,為研究者提供了一個統一、公平的實驗環(huán)境,便于全面評估不同方法的優(yōu)劣。

圖 8:開源代碼倉庫 MCITlib
未來,MCITlib 也將持續(xù)進行更新,擴展更多模型、任務和評測維度,為多模態(tài)大模型持續(xù)學習研究提供堅實助力。
總結與展望
賦予以多模態(tài)大模型為代表的生成式 AI 持續(xù)學習的能力是邁向人工智能通用化的重要一步。我們希望通過系統的綜述、完善的 Benchmark、前沿的方法和開源的工具,能夠為這一領域的研究者和應用開發(fā)者提供更多支持。未來,我們團隊將繼續(xù)深耕多模態(tài)大模型持續(xù)學習領域,探索更廣泛的應用場景,持續(xù)推動該領域技術的發(fā)展與創(chuàng)新。




























