擴散模型如何構(gòu)建新一代決策智能體？超越自回歸，同時生成長序列規(guī)劃軌跡

作者：機器之心 2024-03-11 00:20:00

來自上海交通大學的團隊撰寫的綜述論文《Diffusion Models for Reinforcement Learning: A Survey》梳理了擴散模型在強化學習相關(guān)領(lǐng)域的應用。

設想一下，當你站在房間內(nèi)，準備向門口走去，你是通過自回歸的方式逐步規(guī)劃路徑嗎？實際上，你的路徑是一次性整體生成的。

近期的研究表明，采用擴散模型的規(guī)劃模塊能夠同時生成長序列的軌跡規(guī)劃，這更加符合人類的決策模式。此外，擴散模型在策略表征和數(shù)據(jù)合成方面也能為現(xiàn)有的決策智能算法提供更優(yōu)的選擇。

來自上海交通大學的團隊撰寫的綜述論文《Diffusion Models for Reinforcement Learning: A Survey》梳理了擴散模型在強化學習相關(guān)領(lǐng)域的應用。綜述指出現(xiàn)有強化學習算法面臨長序列規(guī)劃誤差累積、策略表達能力受限、交互數(shù)據(jù)不足等挑戰(zhàn)，而擴散模型已經(jīng)展現(xiàn)出解決強化學習問題中的優(yōu)勢，并為應對上述長期以來的挑戰(zhàn)帶來新的思路。

論文鏈接：https://arxiv.org/abs/2311.01223

項目地址：https://github.com/apexrl/Diff4RLSurvey

該綜述根據(jù)擴散模型在強化學習中扮演的角色對現(xiàn)有工作進行分類，并列舉了不同強化學習相關(guān)場景下擴散模型的成功案例。綜述最后對用擴散模型解決強化學習問題的領(lǐng)域提出未來發(fā)展方向的展望。

圖 1：擴散模型在經(jīng)典的智能體 - 環(huán)境 - 經(jīng)驗回放池循環(huán)中與以往解決方案相比起到不同作用的示意圖。

擴散模型在強化學習中扮演的角色

文章根據(jù)擴散模型在強化學習中扮演角色的不同，分類比較了擴散模型的應用方式和特點。

圖 2：擴散模型在強化學習中扮演的不同角色。

軌跡規(guī)劃

強化學習中的規(guī)劃指通過使用動態(tài)模型在想象中做決策，再選擇最大化累積獎勵的適當動作。規(guī)劃的過程通常會探索各種動作和狀態(tài)的序列，從而提升決策的長期效果。在基于模型的強化學習（MBRL）框架中，規(guī)劃序列通常以自回歸方式進行模擬，導致累積誤差。擴散模型可以同時生成多步規(guī)劃序列?，F(xiàn)有文章用擴散模型生成的目標非常多樣，包括 (s,a,r)、(s,a)、僅有 s、僅有 a 等等。為了在在線評估時生成高獎勵的軌跡，許多工作使用了有分類器或無分類器的引導采樣技術(shù)。

策略表征

擴散規(guī)劃器更近似傳統(tǒng)強化學習中的 MBRL，與之相對，將擴散模型作為策略更類似于無模型強化學習。Diffusion-QL 首先將擴散策略與 Q 學習框架結(jié)合。由于擴散模型擬合多模態(tài)分布的能力遠超傳統(tǒng)模型，擴散策略在由多個行為策略采樣的多模態(tài)數(shù)據(jù)集中表現(xiàn)良好。擴散策略與普通策略相同，通常以狀態(tài)作為條件生成動作，同時考慮最大化 Q (s,a) 函數(shù)。Diffusion-QL 等方法在擴散模型訓練時加上加權(quán)的價值函數(shù)項，而 CEP 從能量的視角構(gòu)造加權(quán)回歸目標，用價值函數(shù)作為因子，調(diào)整擴散模型學到的動作分布。

數(shù)據(jù)合成

擴散模型可以作為數(shù)據(jù)合成器，來緩解離線或在線強化學習中數(shù)據(jù)稀少的問題。傳統(tǒng)強化學習數(shù)據(jù)增強方法通常只能對原有數(shù)據(jù)進行小幅擾動，而擴散模型強大的分布擬合能力使其可以直接學習整個數(shù)據(jù)集的分布，再采樣出新的高質(zhì)量數(shù)據(jù)。

其他類型

除了以上幾類，還有一些零散的工作以其他方式使用擴散模型。例如，DVF 利用擴散模型估計值函數(shù)。LDCQ 首先將軌跡編碼到隱空間上，再在隱空間上應用擴散模型。PolyGRAD 用擴散模型學習環(huán)境動態(tài)轉(zhuǎn)移，允許策略和模型交互來提升策略學習效率。

在不同強化學習相關(guān)問題中的應用

離線強化學習

擴散模型的引入有助于離線強化學習策略擬合多模態(tài)數(shù)據(jù)分布并擴展了策略的表征能力。Diffuser 首先提出了基于分類器指導的高獎勵軌跡生成算法并啟發(fā)了大量的后續(xù)工作。同時，擴散模型也能應用在多任務與多智能體強化學習場景。

圖 3：Diffuser 軌跡生成過程和模型示意圖

在線強化學習

研究者證明擴散模型對在線強化學習中的價值函數(shù)、策略也具備優(yōu)化能力。例如，DIPO 對動作數(shù)據(jù)重標注并使用擴散模型訓練，使策略避免了基于價值引導訓練的不穩(wěn)定性；CPQL 則驗證了單步采樣擴散模型作為策略能夠平衡交互時的探索和利用。

模仿學習

模仿學習通過學習專家演示數(shù)據(jù)來重建專家行為。擴散模型的應用有助于提高策略表征能力以及學習多樣的任務技能。在機器人控制領(lǐng)域，研究發(fā)現(xiàn)擴散模型能夠在保持時序穩(wěn)定性的條件下預測閉環(huán)動作序列。Diffusion Policy 采用圖像輸入的擴散模型生成機器人動作序列。實驗表明擴散模型能夠生成有效閉環(huán)動作序列，同時保證時序一致性。

圖 4：Diffusion Policy 模型示意圖

軌跡生成

擴散模型在強化學習中的軌跡生成主要聚焦于人類動作生成以及機器人控制兩類任務。擴散模型生成的動作數(shù)據(jù)或視頻數(shù)據(jù)被用于構(gòu)建仿真模擬器或訓練下游決策模型。UniPi 訓練了一個視頻生成擴散模型作為通用策略，通過接入不同的逆動力學模型來得到底層控制命令，實現(xiàn)跨具身的機器人控制。

圖 5：UniPi 決策過程示意圖。

數(shù)據(jù)增強

擴散模型還可以直接擬合原始數(shù)據(jù)分布，在保持真實性的前提下提供多樣的動態(tài)擴展數(shù)據(jù)。例如，SynthER 和 MTDiff-s 通過擴散模型生成了訓練任務的完整環(huán)境轉(zhuǎn)移信息并將其應用于策略的提升，且結(jié)果顯示生成數(shù)據(jù)的多樣程度以及準確性都優(yōu)于歷史方法。

圖 6：MTDiff 進行多任務規(guī)劃和數(shù)據(jù)增強的示意圖

未來展望

生成式仿真環(huán)境

如圖 1 所示，現(xiàn)有研究主要利用擴散模型來克服智能體和經(jīng)驗回放池的局限性，利用擴散模型增強仿真環(huán)境的研究比較少。Gen2Sim 利用文生圖擴散模型在模擬環(huán)境中生成多樣化的可操作物體來提高機器人精密操作的泛化能力。擴散模型還有可能在仿真環(huán)境中生成狀態(tài)轉(zhuǎn)移函數(shù)、獎勵函數(shù)或多智能體交互中的對手行為。

加入安全約束

通過將安全約束作為模型的采樣條件，基于擴散模型的智能體可以做出滿足特定約束的決策。擴散模型的引導采樣允許通過學習額外的分類器來不斷加入新的安全約束，而原模型的參數(shù)保持不變，從而節(jié)省額外的訓練開銷。

檢索增強生成

檢索增強生成技術(shù)能夠通過訪問外部數(shù)據(jù)集增強模型能力，在大語言模型上得到廣泛的應用。通過檢索與智能體當前狀態(tài)相關(guān)的軌跡并輸入到模型中，基于擴散的決策模型在這些狀態(tài)下的性能同樣可能得到提升。如果檢索數(shù)據(jù)集不斷更新，智能體有可能在不重新訓練的情況下表現(xiàn)出新的行為。

組合多種技能

與分類器引導或無分類器引導相結(jié)合，擴散模型可以組合多種簡單技能來完成復雜任務。離線強化學習中的早期結(jié)果也表明擴散模型可以共享不同技能之間的知識，從而有可能通過組合不同技能實現(xiàn)零樣本遷移或持續(xù)學習。

表格

圖 7：相關(guān)論文匯總分類表格。

責任編輯：張燕妮來源：機器之心

模型論文

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擴散模型如何構(gòu)建新一代決策智能體？超越自回歸，同時生成長序列規(guī)劃軌跡

擴散模型在強化學習中扮演的角色

在不同強化學習相關(guān)問題中的應用

未來展望

表格

擴散模型如何構(gòu)建新一代決策智能體？超越自回歸，同時生成長序列規(guī)劃軌跡