清北聯(lián)合出品!一篇Survey整明白「Transformer+強化學習」的來龍去脈
Transformer模型自發(fā)布后,很快就成了自然語言處理和計算機視覺領域在有監(jiān)督學習設置下的主流神經(jīng)架構。
雖然Transformer的熱潮已經(jīng)開始席卷強化學習領域,但由于RL本身的特性,例如需要進行獨特的特征、架構設計等,當前Transformer與強化學習的結合并不順利,其發(fā)展路線也缺乏相關論文進行貫穿性地總結。
最近來自清華大學、北京大學、騰訊的研究人員聯(lián)手發(fā)表了一篇關于Transformer與強化學習結合的調(diào)研論文,系統(tǒng)性地回顧了在強化學習中使用Transformer的動機和發(fā)展歷程。

論文鏈接:https://arxiv.org/pdf/2301.03044.pdf
文章中對現(xiàn)有的相關工作成果進行分類,并對每個子領域進行深入討論,最后還總結了該研究方向的未來前景。
Transformer配RL
強化學習(RL)為序列決策(sequential decision-making)提供了一個數(shù)學化的形式,可以讓模型自動獲得智能行為。
RL為基于學習的控制提供了一個通用框架,隨著深度神經(jīng)網(wǎng)絡的引入,深度強化學習(DRL)的通用性在近年來也取得了巨大的進展,但樣本效率問題阻礙了DRL在現(xiàn)實世界中的廣泛應用。
為了解決這個問題,一個有效的機制是在DRL框架中引入inductive bias,其中比較重要的是函數(shù)近似器架構的選擇(the choice of function approximator architectures),例如DRL智能體的神經(jīng)網(wǎng)絡的參數(shù)化。
然而,與監(jiān)督學習(SL)中的架構設計相比,在DRL中選擇架構設計的問題仍然沒有得到充分的探討,大多數(shù)現(xiàn)有的關于RL架構的工作是由(半)監(jiān)督學習社區(qū)的成功所激發(fā)的。
例如,處理DRL中基于圖像的高維輸入的常見做法是引入卷積神經(jīng)網(wǎng)絡(CNN);處理部分可觀察性的另一種常見做法是引入遞歸神經(jīng)網(wǎng)絡(RNN)。
近年來,Transformer架構在廣泛的SL任務中徹底改變了學習范式,并表現(xiàn)出比CNN和RNN更優(yōu)越的性能,比如Transformer架構能夠對較長的依賴關系進行建模,并具有出色的可擴展性。
受SL成功啟發(fā),行業(yè)內(nèi)對在強化學習中應用Transformer的興趣激增,最早可以追溯到2018年的一篇論文,其中自注意機制被用于結構化狀態(tài)表示的關系推理。
之后,許多研究人員開始試圖將自注意力應用于表示學習,以提取實體之間的關系,從而可以更好地進行策略學習。

除了狀態(tài)表示學習外,先前的工作還用Transformer來捕捉多步驟的時間依賴性,以處理部分可觀察性問題。
最近,離線RL由于其利用離線大規(guī)模數(shù)據(jù)集的能力而受到關注,相關研究結果也表明,Transformer架構可以直接作為序列決策的模型,并可推廣到多個任務和領域。
這篇調(diào)研論文的目的是介紹Transformers in Reinforcement Learning領域(TransformRL)。

盡管Transformer已經(jīng)被認為是目前大多數(shù)SL研究的基礎模型,但它在RL社區(qū)的探索仍然較少。事實上,與SL領域相比,在RL中使用Transformer作為函數(shù)近似器需要解決一些不同的問題:
1. RL智能體的訓練數(shù)據(jù)通常是當前策略的函數(shù),這在Transformer學習的過程中會引起不平穩(wěn)性(non-stationarity)。
2. 現(xiàn)有的RL算法通常對訓練過程中的設計選擇高度敏感,包括網(wǎng)絡架構和容量等。
3. 基于Transformer的架構經(jīng)常受到高計算和內(nèi)存成本的影響,也就是說訓練和推理起來既慢又貴。
比如在一些游戲中的人工智能案例中,樣本生成的效率在很大程度上影響了訓練性能,取決于RL策略網(wǎng)絡和價值網(wǎng)絡的計算成本。
TransformRL的未來
論文中簡要回顧了Transformers for RL的進展情況,其優(yōu)勢主要包括:
1. Transformers可以作為RL中的一個powerful模塊,比如作為一個表示模塊或世界模型;
2. Transformer可以作為一個序列決策器;
3. Transformer可以提升跨任務和領域的泛化性能。
鑒于Transformer在更廣泛的人工智能社區(qū)都表現(xiàn)出強大的性能,研究人員認為將Transformer和RL結合起來是一個有前途的研究方向,下面是一些關于該方向的未來前景和開放性問題。
結合強化學習和(自)監(jiān)督學習
追溯TransformRL的發(fā)展,可以發(fā)現(xiàn)其訓練方法同時涵蓋了RL和(自)監(jiān)督學習。
當作為一個在傳統(tǒng)RL框架下訓練的表示模塊時,Transformer架構的優(yōu)化通常是不穩(wěn)定的。當使用Transformer通過序列建模來解決決策問題時,(自)監(jiān)督學習范式可以消除deadly triad problem。
在(自)監(jiān)督學習的框架下,策略的性能深受離線數(shù)據(jù)質(zhì)量的約束,利用(exploitation)和探索(exploration)之間的明確權衡不復存在,因此在Transformer學習中結合RL和(自)監(jiān)督學習時,可能會學到更好的策略。
一些工作已經(jīng)嘗試了監(jiān)督預訓練和RL參與的微調(diào)方案,但在相對固定的策略下,探索會受到限制,這也是有待解決的瓶頸問題之一。
另外,沿著這條路線,用于性能評估的任務也相對簡單,Transfomer是否可以將這種(自)監(jiān)督學習擴展到更大的數(shù)據(jù)集、更復雜的環(huán)境和現(xiàn)實世界的應用也值得進一步探索。
此外,研究人員希望未來的工作能夠提供更多的理論和經(jīng)驗見解,以確定在哪些條件下這種(自)監(jiān)督學習有望表現(xiàn)良好。

通過Transformer連接在線和離線學習
踏入離線RL是TransformRL的一個里程碑,但實際上,利用Transformer來捕捉?jīng)Q策序列中的依賴關系并抽象出策略,主要是與所使用的相當多的離線數(shù)據(jù)的支持分不開的。
然而,對于一些決策任務來說,在實際應用中擺脫在線框架是不可行的。
一方面,在某些任務中獲得專家數(shù)據(jù)并不那么容易;另一方面,有些環(huán)境是開放式的(如Minecraft),這意味著策略必須不斷調(diào)整,以處理在線互動過程中未見的任務。
因此,研究人員認為把在線學習和離線學習連接在一起是必要的。
Decision Transformer之后的大多數(shù)研究進展都集中在離線學習框架上,一些工作試圖采用離線預訓練和在線微調(diào)的范式。然而,在線微調(diào)中的分布轉變?nèi)匀淮嬖谟陔x線RL算法中,研究人員期望通過對Decision Transformer進行一些特殊設計來解決這個問題。
此外,如何從頭開始訓練一個在線Decision Transformer是一個有趣的開放性問題。
為Decision-making問題量身定做的Transformer結構
目前Decision Transformer系列方法中的Transformer結構主要是vanilla Transformer,它最初是為文本序列設計的,可能具有一些不適合決策問題的性質(zhì)。
例如,對軌跡序列采用vanilla的自注意力機制是否合適?決策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以區(qū)分?
此外,由于在不同的Decision Transformer算法中,將軌跡表示為序列的變體有很多,如何從中選擇,仍缺乏系統(tǒng)的研究。
例如,在行業(yè)中部署此類算法時,如何選擇穩(wěn)健的hindsight信息?
并且vanilla Transformer也是一個計算成本巨大的結構,這使得它在訓練和推理階段都很昂貴,而且內(nèi)存占用率很高,也限制了它捕獲依賴關系的長度。
為了緩解這些問題,NLP中的一些工作改進了Transformer的結構,但類似的結構是否可以用于決策問題也值得探討。
用Transformer實現(xiàn)更多的通用智能體
論文中對通用智能體(generalist agents)Transformers的回顧已經(jīng)顯示了Transformers作為一種通用策略的潛力。
事實上,Transformer的設計允許使用類似處理blocks的方式來處理多種模態(tài)(如圖像、視頻、文本和語音),并展示了對超大容量網(wǎng)絡和巨大數(shù)據(jù)集的出色可擴展性。
最近的工作也在訓練能夠執(zhí)行多模態(tài)和跨領域任務的智能體上取得了重大進展。
不過,鑒于這些智能體是在大規(guī)模的數(shù)據(jù)集上進行訓練的,目前還不能確定它們是否只是記住了數(shù)據(jù)集,以及它們是否能進行有效的泛化。
因此,如何學習到一個能夠在沒有強假設(strong assumption)的情況下對未見過的任務進行泛化的智能體仍然是一個值得研究的問題。
此外,研究人員也很好奇,Transformer是否足夠強大到可以用來學習一個可用于不同任務和場景的通用世界模型。
RL for Transformers
雖然文章中已經(jīng)討論了RL如何從Transformer模型中受益,但反過來說,用RL來提升Transformer訓練仍然是一個有趣的開放性問題,還沒有被很好地探索過。
可以看到,最近來自人類反饋的強化學習(RLHF)可以學習到一個獎勵模型,并使用RL算法對Transformer進行微調(diào),以使語言模型與人類意圖相一致。
在未來,研究人員認為RL可以成為一個有用的工具,進一步完善Transformer在其他領域的表現(xiàn)。


































