偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述

發(fā)布于 2025-7-10 07:22
瀏覽
0收藏

強(qiáng)化學(xué)習(xí)(RL)是一種用于解決序列決策問(wèn)題的重要機(jī)器學(xué)習(xí)范式,然而,RL依賴于大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,跨任務(wù)泛化能力方面的局限性。隨著持續(xù)學(xué)習(xí)(CL)的興起,持續(xù)強(qiáng)化學(xué)習(xí)(CRL)作為一種有前景的研究方向應(yīng)運(yùn)而生,旨在通過(guò)使智能體能夠持續(xù)學(xué)習(xí)、適應(yīng)新任務(wù)并保留先前獲得的知識(shí),來(lái)解決這些局限性。

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

文章對(duì)CRL進(jìn)行了全面的考察,重點(diǎn)關(guān)注其核心概念、挑戰(zhàn)和方法,提出了一種新的CRL方法分類體系,從知識(shí)存儲(chǔ)和/或轉(zhuǎn)移的角度將它們分為四種類型。

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

一、CRL總覽

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

A. 定義(Definition)

  • CRL的定義:CRL是強(qiáng)化學(xué)習(xí)(RL)的擴(kuò)展,強(qiáng)調(diào)智能體在動(dòng)態(tài)、多任務(wù)環(huán)境中持續(xù)學(xué)習(xí)、適應(yīng)和保留知識(shí)的能力。
  • 與傳統(tǒng)RL的區(qū)別:傳統(tǒng)RL通常專注于單一任務(wù),而CRL強(qiáng)調(diào)在任務(wù)序列中保持和提升泛化能力。
  • 與多任務(wù)RL(MTRL)和遷移RL(TRL)的關(guān)系

MTRL:同時(shí)處理多個(gè)任務(wù),任務(wù)集固定且已知。

TRL:將知識(shí)從源任務(wù)遷移到目標(biāo)任務(wù),加速目標(biāo)任務(wù)的學(xué)習(xí)。

CRL:任務(wù)通常按順序到達(dá),環(huán)境持續(xù)變化,目標(biāo)是積累知識(shí)并快速適應(yīng)新任務(wù)。

B. 挑戰(zhàn)(Challenges)

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

  • CRL面臨的主要挑戰(zhàn):在可塑性(plasticity)、穩(wěn)定性(stability)和可擴(kuò)展性(scalability)之間實(shí)現(xiàn)三角平衡。

穩(wěn)定性:避免災(zāi)難性遺忘,保持對(duì)舊任務(wù)的性能。

可塑性:學(xué)習(xí)新任務(wù)的能力,以及利用先前知識(shí)提高新任務(wù)性能的能力。

可擴(kuò)展性:在資源有限的情況下學(xué)習(xí)多個(gè)任務(wù)的能力。

C. 度量標(biāo)準(zhǔn)(Metrics)

  • 傳統(tǒng)RL的度量:通常使用累積獎(jiǎng)勵(lì)或成功率來(lái)衡量智能體的性能。
  • CRL的度量

平均性能(Average Performance):智能體在所有已學(xué)習(xí)任務(wù)上的整體性能。

遺忘(Forgetting):智能體在后續(xù)訓(xùn)練后對(duì)舊任務(wù)性能的下降程度。

轉(zhuǎn)移(Transfer):智能體利用先前任務(wù)知識(shí)提高未來(lái)任務(wù)性能的能力,包括前向轉(zhuǎn)移和后向轉(zhuǎn)移。

D. 任務(wù)(Tasks)

  • 導(dǎo)航任務(wù):在二維狀態(tài)空間中使用離散動(dòng)作集,智能體探索未知環(huán)境以到達(dá)目標(biāo)。
  • 控制任務(wù):涉及三維狀態(tài)空間和離散動(dòng)作集,智能體使用控制命令達(dá)到特定目標(biāo)狀態(tài)。
  • 視頻游戲:狀態(tài)空間通常為圖像,動(dòng)作為離散,智能體執(zhí)行復(fù)雜控制以實(shí)現(xiàn)目標(biāo)。

E. 基準(zhǔn)測(cè)試(Benchmarks)

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

  • CRL基準(zhǔn)測(cè)試:如CRL Maze、Lifelong Hanabi、Continual World等,這些基準(zhǔn)測(cè)試在任務(wù)數(shù)量、任務(wù)序列長(zhǎng)度和觀察類型等方面有所不同。

F. 場(chǎng)景設(shè)置(Scenario Settings)

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

  • CRL場(chǎng)景分類

終身適應(yīng)(Lifelong Adaptation):智能體在任務(wù)序列上訓(xùn)練,僅在新任務(wù)上評(píng)估性能。

非平穩(wěn)性學(xué)習(xí)(Non-Stationarity Learning):任務(wù)在獎(jiǎng)勵(lì)函數(shù)或轉(zhuǎn)移函數(shù)上有所不同,智能體在所有任務(wù)上評(píng)估性能。

任務(wù)增量學(xué)習(xí)(Task Incremental Learning):任務(wù)在獎(jiǎng)勵(lì)和轉(zhuǎn)移函數(shù)上顯著不同,智能體在所有任務(wù)上評(píng)估性能。

任務(wù)無(wú)關(guān)學(xué)習(xí)(Task-Agnostic Learning):智能體在沒(méi)有任務(wù)標(biāo)簽或身份的情況下訓(xùn)練,需要推斷任務(wù)變化。

二、CRL分類

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

系統(tǒng)地回顧了持續(xù)強(qiáng)化學(xué)習(xí)(CRL)領(lǐng)域的主要方法,并提出了一種新的分類體系,將CRL方法按照所存儲(chǔ)和/或轉(zhuǎn)移的知識(shí)類型分為四大類:基于策略的(Policy-focused)、基于經(jīng)驗(yàn)的(Experience-focused)、基于動(dòng)態(tài)的(Dynamic-focused)和基于獎(jiǎng)勵(lì)的(Reward-focused)方法。

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)


A. 基于策略的方法

這是最主流的一類方法,強(qiáng)調(diào)對(duì)策略函數(shù)或價(jià)值函數(shù)的存儲(chǔ)與復(fù)用,分為三個(gè)子類:

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

1)策略重用(Policy Reuse)
  • 保留并重用先前任務(wù)的完整策略。
  • 常見(jiàn)做法:使用舊策略初始化新策略(如MAXQINIT、ClonEx-SAC)。
  • 高級(jí)方法:使用任務(wù)組合(如布爾代數(shù))實(shí)現(xiàn)零樣本泛化(如SOPGOL)。
  • 可擴(kuò)展性較差,但知識(shí)遷移能力強(qiáng)。
2)策略分解(Policy Decomposition)

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

  • 將策略分解為共享組件和任務(wù)特定組件。
  • 方法包括:

因子分解(如PG-ELLA、LPG-FTW)

多頭網(wǎng)絡(luò)(如OWL、DaCoRL)

模塊化結(jié)構(gòu)(如SANE、CompoNet)

層次化結(jié)構(gòu)(如H-DRLN、HLifeRL、MPHRL)

  • 優(yōu)點(diǎn):結(jié)構(gòu)清晰、可擴(kuò)展性強(qiáng)、適合復(fù)雜任務(wù)。
3)策略合并(Policy Merging)
  • 將多個(gè)策略合并為一個(gè)模型,節(jié)省存儲(chǔ)資源。
  • 技術(shù)手段包括:

蒸餾(如P&C、DisCoRL)

超網(wǎng)絡(luò)(如HN-PPO)

掩碼(如MASKBLC)

正則化(如EWC、Online-EWC、TRAC)

  • 優(yōu)點(diǎn):節(jié)省內(nèi)存、適合資源受限場(chǎng)景。

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

B. 基于經(jīng)驗(yàn)的方法

強(qiáng)調(diào)對(duì)歷史經(jīng)驗(yàn)的存儲(chǔ)與復(fù)用,類似于經(jīng)驗(yàn)回放機(jī)制,分為兩類:

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

1)直接回放(Direct Replay)
  • 使用經(jīng)驗(yàn)緩沖區(qū)保存舊任務(wù)數(shù)據(jù)(如CLEAR、CoMPS、3RL)。
  • 優(yōu)點(diǎn):簡(jiǎn)單有效,適合任務(wù)邊界明確的場(chǎng)景。
  • 缺點(diǎn):內(nèi)存消耗大,存在隱私風(fēng)險(xiǎn)。
2)生成回放(Generative Replay)
  • 使用生成模型(如VAE、GAN)合成舊任務(wù)經(jīng)驗(yàn)(如RePR、SLER、S-TRIGGER)。
  • 優(yōu)點(diǎn):節(jié)省內(nèi)存,適合任務(wù)邊界模糊或資源受限場(chǎng)景。
  • 缺點(diǎn):生成質(zhì)量影響性能。

C. 基于動(dòng)態(tài)的方法(Dynamic-focused Methods)

通過(guò)建模環(huán)境動(dòng)態(tài)(狀態(tài)轉(zhuǎn)移函數(shù))來(lái)適應(yīng)非平穩(wěn)環(huán)境,分為兩類:

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

1)直接建模(Direct Modeling)
  • 顯式學(xué)習(xí)環(huán)境轉(zhuǎn)移函數(shù)(如MOLe、LLIRL、HyperCRL)。
  • 優(yōu)點(diǎn):適合需要長(zhǎng)期規(guī)劃的任務(wù)。
  • 缺點(diǎn):建模復(fù)雜,計(jì)算開(kāi)銷大。
2)間接建模(Indirect Modeling)
  • 使用潛變量或抽象表示推斷環(huán)境變化(如LILAC、3RL、Continual-Dreamer)。
  • 優(yōu)點(diǎn):更靈活,適合任務(wù)邊界不明確或動(dòng)態(tài)變化的環(huán)境。
  • 常與內(nèi)在獎(jiǎng)勵(lì)機(jī)制結(jié)合使用。

D. 基于獎(jiǎng)勵(lì)的方法(Reward-focused Methods)

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

通過(guò)修改或重塑獎(jiǎng)勵(lì)函數(shù)來(lái)促進(jìn)知識(shí)遷移和探索,常見(jiàn)方法包括:

  • 獎(jiǎng)勵(lì)塑形(Reward Shaping):如SR-LLRL、基于時(shí)序邏輯的塑形方法。
  • 內(nèi)在獎(jiǎng)勵(lì)(Intrinsic Rewards):如IML、Reactive Exploration,通過(guò)好奇心驅(qū)動(dòng)探索。
  • 逆強(qiáng)化學(xué)習(xí)(IRL):如ELIRL,從專家演示中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。
  • 大模型輔助獎(jiǎng)勵(lì)設(shè)計(jì):如MT-Core,使用大語(yǔ)言模型生成任務(wù)相關(guān)的內(nèi)在獎(jiǎng)勵(lì)。

一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

https://arxiv.org/pdf/2506.21872
A Survey of Continual Reinforcement Learning

本文轉(zhuǎn)載自??PaperAgent??

已于2025-7-10 11:27:06修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦