「大模型+強(qiáng)化學(xué)習(xí)」最新綜述!港中文深圳130余篇論文:詳解四條主流技術(shù)路線
強(qiáng)化學(xué)習(xí)(RL)通過與環(huán)境交互的試錯(cuò)反饋來優(yōu)化順序決策問題。
雖然RL在允許大量試錯(cuò)的復(fù)雜電子游戲環(huán)境中實(shí)現(xiàn)了超越人類的決策能力(例如王者榮耀,Dota 2等),但很難在包含大量自然語言和視覺圖像的現(xiàn)實(shí)復(fù)雜應(yīng)用中落地,原因包括但不限于:數(shù)據(jù)獲取困難、樣本利用率低、多任務(wù)學(xué)習(xí)能力差、泛化性差、稀疏獎(jiǎng)勵(lì)等。
大語言模型(LLM),通過在海量數(shù)據(jù)集上的訓(xùn)練,展現(xiàn)了超強(qiáng)的多任務(wù)學(xué)習(xí)、通用世界知識(shí)目標(biāo)規(guī)劃以及推理能力。以ChatGPT為代表的LLM已經(jīng)被廣泛應(yīng)用到各種現(xiàn)實(shí)領(lǐng)域中,包括但不限于:機(jī)器人、醫(yī)療、教育、法律等。
在此背景下,LLM可以提高強(qiáng)化學(xué)習(xí)在例如多任務(wù)學(xué)習(xí)、樣本利用率、任務(wù)規(guī)劃等方面的能力,幫助提高強(qiáng)化學(xué)習(xí)在復(fù)雜應(yīng)用下的學(xué)習(xí)表現(xiàn),例如自然語言指令跟隨、談判、自動(dòng)駕駛等。
為此,來自香港中文大學(xué)(深圳)的團(tuán)隊(duì)調(diào)研了130余篇大語言模型及視覺-語言模型(VLM)在輔助強(qiáng)化學(xué)習(xí)(LLM-enhanced RL)方面的最新研究進(jìn)展,形成了該領(lǐng)域的綜述文章一篇,目前以預(yù)印版形式上傳到arXiv網(wǎng)站,期望能為各位研究人員和工程人員提供一定的技術(shù)參考。
論文鏈接:https://arxiv.org/abs/2404.00282
該綜述總結(jié)了LLM-enhanced RL的主要技術(shù)框架、特性以及四種主要技術(shù)路線;并分析了未來該方向的機(jī)會(huì)與挑戰(zhàn)。
下面針對(duì)文章主要內(nèi)容概括介紹,詳細(xì)內(nèi)容請參閱英文綜述論文。
LLM-enhanced RL 框架
LLM-enhanced RL 定義:指利用已預(yù)訓(xùn)練、內(nèi)含知識(shí)(knowledge-inherent)的AI模型的多模態(tài)(multi-modal)信息處理、生成、推理等能力來輔助RL范式的各種方法。
主要特性(Characteristics):
1. 多模態(tài)信息理解(multi-modal information understanding)
2. 多任務(wù)學(xué)習(xí)和泛化(multi-task learning and generalization)
3. 樣本利用率的提高(improved sample efficiency)
4. 長期軌跡規(guī)劃能力(long-horizon handling)
5. 獎(jiǎng)勵(lì)信號(hào)生成能力(reward signal generation)
LLM的主要角色分類
1. 信息處理者(information processor):包括1)文字和視覺表征提取;2)復(fù)雜自然語言翻譯。
2. 獎(jiǎng)勵(lì)設(shè)計(jì)者(reward designer):即隱式獎(jiǎng)勵(lì)模型與顯式獎(jiǎng)勵(lì)模型(獎(jiǎng)勵(lì)函數(shù)代碼生成)。
3. 決策者(decision-maker):包含直接決策與間接輔助決策兩種。
4. 生成者(generator):即1)世界模型中的軌跡生成和2)強(qiáng)化學(xué)習(xí)中的策略(行為)解釋生成。
LLM 作為信息處理者(LLM as Information Processor)
在富含文字和視覺信息的環(huán)境中,深度強(qiáng)化學(xué)習(xí)(deep RL)通常需要同時(shí)學(xué)習(xí)多模態(tài)的信息處理和決策控制策略,因此學(xué)習(xí)效率大幅下降。且不規(guī)范、多變的自然語言和視覺信息往往會(huì)對(duì)代理學(xué)習(xí)產(chǎn)生大量干擾。
LLM在此情況下可以(1)有效表征提取,加速下游神經(jīng)網(wǎng)絡(luò)學(xué)習(xí);(2)自然語言翻譯,將不規(guī)范、冗余復(fù)雜的自然語言指令和環(huán)境信息翻譯為規(guī)范的任務(wù)語言,幫助代理過濾無效信息。
LLM 作為獎(jiǎng)勵(lì)設(shè)計(jì)者(LLM as Reward Designer)
獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)和有效獎(jiǎng)勵(lì)信號(hào)生成一直是強(qiáng)化學(xué)習(xí)在復(fù)雜任務(wù)或者稀疏獎(jiǎng)勵(lì)環(huán)境下的兩大難題。
大模型可以通過以下兩種方式緩解該問題
1. 隱式獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì):利用上下文理解能力、推理能力和知識(shí),通過任務(wù)prompt或文字-視覺對(duì)齊的方式生成獎(jiǎng)勵(lì)。
2. 顯式獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì):通過輸入環(huán)境規(guī)范信息,LLM生成可執(zhí)行獎(jiǎng)勵(lì)函數(shù)代碼(例如 Python 等),顯式地邏輯計(jì)算獎(jiǎng)勵(lì)函數(shù)的各個(gè)部分,且可以根據(jù)評(píng)估自主修正。
LLM 作為決策者(LLM as Decision-Maker)
在決策問題中,大模型可以作為:
1. 直接決策者:Decision Transformer在離線強(qiáng)化學(xué)習(xí)中展現(xiàn)了巨大的潛力,大語言模型可視作增強(qiáng)版的大型預(yù)訓(xùn)練Transformer模型,利用本身強(qiáng)大的時(shí)序建模能力和自然語言理解能力解決離線強(qiáng)化學(xué)習(xí)的長期決策問題。
2. 間接決策者:作為一個(gè)指導(dǎo)者,結(jié)合預(yù)訓(xùn)練專家知識(shí)和任務(wù)理解能力,生成動(dòng)作候選(action candidates),縮小動(dòng)作選擇范圍;或者生成參考策略(reference policy)指導(dǎo)RL策略更新。
LLM 作為生成者(LLM as Generator)
在基于模型的強(qiáng)化學(xué)習(xí)(model-based RL)中,LLM可以作為多模態(tài)世界模型(world model),結(jié)合自身知識(shí)和建模能力來生成高質(zhì)量長期軌跡或者學(xué)習(xí)世界狀態(tài)轉(zhuǎn)移表征。
在可解釋強(qiáng)化學(xué)習(xí)中,大模型可以通過理解軌跡、環(huán)境與任務(wù),根據(jù)prompt自動(dòng)生成代理的自然語言行為解釋,增加用戶在調(diào)用、調(diào)優(yōu)RL模型時(shí)的理解。
討論(Discussion)
LLM-enhanced RL的未來潛在應(yīng)用包括但不限于:
1. 機(jī)器人:利用多模態(tài)理解能力和推理能力,LLM-enhanced RL可以提升人-機(jī)器的交互效率;幫助機(jī)器人理解人類需求邏輯;提高任務(wù)決策和規(guī)劃能力。
2. 自動(dòng)駕駛:自動(dòng)駕駛使用強(qiáng)化學(xué)習(xí)做復(fù)雜動(dòng)態(tài)場景下的決策問題,涉及多傳感器數(shù)據(jù)與道路規(guī)范、行人舉止等。大模型可以幫助強(qiáng)化學(xué)習(xí)處理多模態(tài)信息以及設(shè)計(jì)綜合獎(jiǎng)勵(lì)函數(shù),例如安全、效率、乘客舒適度等。
3. 電力系統(tǒng)能量管理:在能量系統(tǒng)中,運(yùn)營者或者用戶使用強(qiáng)化學(xué)習(xí)來高效管理多種能力的使用、轉(zhuǎn)換和存儲(chǔ)等,其中涉及高不確定性的可再生能源。大模型可以幫助設(shè)計(jì)多目標(biāo)函數(shù)與提高樣本利用效率。
LLM-enhanced方向的潛在機(jī)會(huì):
1. 在強(qiáng)化學(xué)習(xí)方面:目前的工作都集中在通用強(qiáng)化學(xué)習(xí),而針對(duì)特定強(qiáng)化學(xué)習(xí)分支的工作較少,包括多代理強(qiáng)化學(xué)習(xí)、安全強(qiáng)化學(xué)習(xí)、遷移強(qiáng)化學(xué)習(xí)和可解釋強(qiáng)化學(xué)習(xí)等。
2. 在大模型方面:目前的工作大部分僅僅是使用prompt技術(shù),而檢索增強(qiáng)生成(RAG)技術(shù)和API、工具調(diào)用能力可以顯著提高LLM在特定情況下的表現(xiàn)。
LLM-enhanced RL 的挑戰(zhàn):
1. 對(duì)大模型的能力依賴:大模型的能力決定了強(qiáng)化學(xué)習(xí)代理學(xué)習(xí)到的策略,大模型固有的偏見、幻覺等問題也會(huì)影響代理的能力。
2. 交互效率:目前大模型的計(jì)算開銷較大、交互效率慢,在在線強(qiáng)化學(xué)習(xí)中會(huì)影響代理與環(huán)境的交互速度。
3. 道德、倫理問題:實(shí)際人-機(jī)器的應(yīng)用中,大模型的道德、倫理等問題需要被認(rèn)真考慮。
總結(jié)
該綜述文章系統(tǒng)總結(jié)了大模型在輔助強(qiáng)化學(xué)習(xí)方面的最近研究進(jìn)展,定義了LLM-enhanced RL這樣一類方法,并總結(jié)了大模型在其中的四種主要角色及其方法,最后討論了未來的潛在應(yīng)用、機(jī)會(huì)與挑戰(zhàn),希望能給未來該方向的研究者一定啟發(fā)。
1. 信息處理者:大模型為強(qiáng)化學(xué)習(xí)代理提取觀測表征和規(guī)范語言,提高樣本利用效率。
2. 獎(jiǎng)勵(lì)設(shè)計(jì)者:在復(fù)雜或無法量化的任務(wù)中,大模型利用知識(shí)和推理能力設(shè)計(jì)復(fù)雜獎(jiǎng)勵(lì)函數(shù)和生成獎(jiǎng)勵(lì)信號(hào)。
3. 決策者:大模型直接生成動(dòng)作或間接生成動(dòng)作建議,提高強(qiáng)化學(xué)習(xí)探索效率。
4. 生成者:大模型被用于:(1)作為高保真多模態(tài)世界模型減少現(xiàn)實(shí)世界學(xué)習(xí)成本及(2)生成代理行為的自然語言解釋。