一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述
強(qiáng)化學(xué)習(xí)(RL)是一種用于解決序列決策問(wèn)題的重要機(jī)器學(xué)習(xí)范式,然而,RL依賴于大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,跨任務(wù)泛化能力方面的局限性。隨著持續(xù)學(xué)習(xí)(CL)的興起,持續(xù)強(qiáng)化學(xué)習(xí)(CRL)作為一種有前景的研究方向應(yīng)運(yùn)而生,旨在通過(guò)使智能體能夠持續(xù)學(xué)習(xí)、適應(yīng)新任務(wù)并保留先前獲得的知識(shí),來(lái)解決這些局限性。
文章對(duì)CRL進(jìn)行了全面的考察,重點(diǎn)關(guān)注其核心概念、挑戰(zhàn)和方法,提出了一種新的CRL方法分類體系,從知識(shí)存儲(chǔ)和/或轉(zhuǎn)移的角度將它們分為四種類型。
一、CRL總覽
A. 定義(Definition)
- CRL的定義:CRL是強(qiáng)化學(xué)習(xí)(RL)的擴(kuò)展,強(qiáng)調(diào)智能體在動(dòng)態(tài)、多任務(wù)環(huán)境中持續(xù)學(xué)習(xí)、適應(yīng)和保留知識(shí)的能力。
- 與傳統(tǒng)RL的區(qū)別:傳統(tǒng)RL通常專注于單一任務(wù),而CRL強(qiáng)調(diào)在任務(wù)序列中保持和提升泛化能力。
- 與多任務(wù)RL(MTRL)和遷移RL(TRL)的關(guān)系:
MTRL:同時(shí)處理多個(gè)任務(wù),任務(wù)集固定且已知。
TRL:將知識(shí)從源任務(wù)遷移到目標(biāo)任務(wù),加速目標(biāo)任務(wù)的學(xué)習(xí)。
CRL:任務(wù)通常按順序到達(dá),環(huán)境持續(xù)變化,目標(biāo)是積累知識(shí)并快速適應(yīng)新任務(wù)。
B. 挑戰(zhàn)(Challenges)
- CRL面臨的主要挑戰(zhàn):在可塑性(plasticity)、穩(wěn)定性(stability)和可擴(kuò)展性(scalability)之間實(shí)現(xiàn)三角平衡。
穩(wěn)定性:避免災(zāi)難性遺忘,保持對(duì)舊任務(wù)的性能。
可塑性:學(xué)習(xí)新任務(wù)的能力,以及利用先前知識(shí)提高新任務(wù)性能的能力。
可擴(kuò)展性:在資源有限的情況下學(xué)習(xí)多個(gè)任務(wù)的能力。
C. 度量標(biāo)準(zhǔn)(Metrics)
- 傳統(tǒng)RL的度量:通常使用累積獎(jiǎng)勵(lì)或成功率來(lái)衡量智能體的性能。
- CRL的度量:
平均性能(Average Performance):智能體在所有已學(xué)習(xí)任務(wù)上的整體性能。
遺忘(Forgetting):智能體在后續(xù)訓(xùn)練后對(duì)舊任務(wù)性能的下降程度。
轉(zhuǎn)移(Transfer):智能體利用先前任務(wù)知識(shí)提高未來(lái)任務(wù)性能的能力,包括前向轉(zhuǎn)移和后向轉(zhuǎn)移。
D. 任務(wù)(Tasks)
- 導(dǎo)航任務(wù):在二維狀態(tài)空間中使用離散動(dòng)作集,智能體探索未知環(huán)境以到達(dá)目標(biāo)。
- 控制任務(wù):涉及三維狀態(tài)空間和離散動(dòng)作集,智能體使用控制命令達(dá)到特定目標(biāo)狀態(tài)。
- 視頻游戲:狀態(tài)空間通常為圖像,動(dòng)作為離散,智能體執(zhí)行復(fù)雜控制以實(shí)現(xiàn)目標(biāo)。
E. 基準(zhǔn)測(cè)試(Benchmarks)
- CRL基準(zhǔn)測(cè)試:如CRL Maze、Lifelong Hanabi、Continual World等,這些基準(zhǔn)測(cè)試在任務(wù)數(shù)量、任務(wù)序列長(zhǎng)度和觀察類型等方面有所不同。
F. 場(chǎng)景設(shè)置(Scenario Settings)
- CRL場(chǎng)景分類:
終身適應(yīng)(Lifelong Adaptation):智能體在任務(wù)序列上訓(xùn)練,僅在新任務(wù)上評(píng)估性能。
非平穩(wěn)性學(xué)習(xí)(Non-Stationarity Learning):任務(wù)在獎(jiǎng)勵(lì)函數(shù)或轉(zhuǎn)移函數(shù)上有所不同,智能體在所有任務(wù)上評(píng)估性能。
任務(wù)增量學(xué)習(xí)(Task Incremental Learning):任務(wù)在獎(jiǎng)勵(lì)和轉(zhuǎn)移函數(shù)上顯著不同,智能體在所有任務(wù)上評(píng)估性能。
任務(wù)無(wú)關(guān)學(xué)習(xí)(Task-Agnostic Learning):智能體在沒(méi)有任務(wù)標(biāo)簽或身份的情況下訓(xùn)練,需要推斷任務(wù)變化。
二、CRL分類
系統(tǒng)地回顧了持續(xù)強(qiáng)化學(xué)習(xí)(CRL)領(lǐng)域的主要方法,并提出了一種新的分類體系,將CRL方法按照所存儲(chǔ)和/或轉(zhuǎn)移的知識(shí)類型分為四大類:基于策略的(Policy-focused)、基于經(jīng)驗(yàn)的(Experience-focused)、基于動(dòng)態(tài)的(Dynamic-focused)和基于獎(jiǎng)勵(lì)的(Reward-focused)方法。
A. 基于策略的方法
這是最主流的一類方法,強(qiáng)調(diào)對(duì)策略函數(shù)或價(jià)值函數(shù)的存儲(chǔ)與復(fù)用,分為三個(gè)子類:
1)策略重用(Policy Reuse)
- 保留并重用先前任務(wù)的完整策略。
- 常見(jiàn)做法:使用舊策略初始化新策略(如MAXQINIT、ClonEx-SAC)。
- 高級(jí)方法:使用任務(wù)組合(如布爾代數(shù))實(shí)現(xiàn)零樣本泛化(如SOPGOL)。
- 可擴(kuò)展性較差,但知識(shí)遷移能力強(qiáng)。
2)策略分解(Policy Decomposition)
- 將策略分解為共享組件和任務(wù)特定組件。
- 方法包括:
因子分解(如PG-ELLA、LPG-FTW)
多頭網(wǎng)絡(luò)(如OWL、DaCoRL)
模塊化結(jié)構(gòu)(如SANE、CompoNet)
層次化結(jié)構(gòu)(如H-DRLN、HLifeRL、MPHRL)
- 優(yōu)點(diǎn):結(jié)構(gòu)清晰、可擴(kuò)展性強(qiáng)、適合復(fù)雜任務(wù)。
3)策略合并(Policy Merging)
- 將多個(gè)策略合并為一個(gè)模型,節(jié)省存儲(chǔ)資源。
- 技術(shù)手段包括:
蒸餾(如P&C、DisCoRL)
超網(wǎng)絡(luò)(如HN-PPO)
掩碼(如MASKBLC)
正則化(如EWC、Online-EWC、TRAC)
- 優(yōu)點(diǎn):節(jié)省內(nèi)存、適合資源受限場(chǎng)景。
B. 基于經(jīng)驗(yàn)的方法
強(qiáng)調(diào)對(duì)歷史經(jīng)驗(yàn)的存儲(chǔ)與復(fù)用,類似于經(jīng)驗(yàn)回放機(jī)制,分為兩類:
1)直接回放(Direct Replay)
- 使用經(jīng)驗(yàn)緩沖區(qū)保存舊任務(wù)數(shù)據(jù)(如CLEAR、CoMPS、3RL)。
- 優(yōu)點(diǎn):簡(jiǎn)單有效,適合任務(wù)邊界明確的場(chǎng)景。
- 缺點(diǎn):內(nèi)存消耗大,存在隱私風(fēng)險(xiǎn)。
2)生成回放(Generative Replay)
- 使用生成模型(如VAE、GAN)合成舊任務(wù)經(jīng)驗(yàn)(如RePR、SLER、S-TRIGGER)。
- 優(yōu)點(diǎn):節(jié)省內(nèi)存,適合任務(wù)邊界模糊或資源受限場(chǎng)景。
- 缺點(diǎn):生成質(zhì)量影響性能。
C. 基于動(dòng)態(tài)的方法(Dynamic-focused Methods)
通過(guò)建模環(huán)境動(dòng)態(tài)(狀態(tài)轉(zhuǎn)移函數(shù))來(lái)適應(yīng)非平穩(wěn)環(huán)境,分為兩類:
1)直接建模(Direct Modeling)
- 顯式學(xué)習(xí)環(huán)境轉(zhuǎn)移函數(shù)(如MOLe、LLIRL、HyperCRL)。
- 優(yōu)點(diǎn):適合需要長(zhǎng)期規(guī)劃的任務(wù)。
- 缺點(diǎn):建模復(fù)雜,計(jì)算開(kāi)銷大。
2)間接建模(Indirect Modeling)
- 使用潛變量或抽象表示推斷環(huán)境變化(如LILAC、3RL、Continual-Dreamer)。
- 優(yōu)點(diǎn):更靈活,適合任務(wù)邊界不明確或動(dòng)態(tài)變化的環(huán)境。
- 常與內(nèi)在獎(jiǎng)勵(lì)機(jī)制結(jié)合使用。
D. 基于獎(jiǎng)勵(lì)的方法(Reward-focused Methods)
通過(guò)修改或重塑獎(jiǎng)勵(lì)函數(shù)來(lái)促進(jìn)知識(shí)遷移和探索,常見(jiàn)方法包括:
- 獎(jiǎng)勵(lì)塑形(Reward Shaping):如SR-LLRL、基于時(shí)序邏輯的塑形方法。
- 內(nèi)在獎(jiǎng)勵(lì)(Intrinsic Rewards):如IML、Reactive Exploration,通過(guò)好奇心驅(qū)動(dòng)探索。
- 逆強(qiáng)化學(xué)習(xí)(IRL):如ELIRL,從專家演示中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。
- 大模型輔助獎(jiǎng)勵(lì)設(shè)計(jì):如MT-Core,使用大語(yǔ)言模型生成任務(wù)相關(guān)的內(nèi)在獎(jiǎng)勵(lì)。
https://arxiv.org/pdf/2506.21872
A Survey of Continual Reinforcement Learning
本文轉(zhuǎn)載自??PaperAgent??
