LLM搶人血案:強化學習天才被挖空,一朝淪為「無人區(qū)」!
最近,斯坦福的AI+CS博士Joseph Suarez發(fā)表了對強化學習的歷史回顧。
結(jié)果,在??上火了!目前,已有38.2萬閱讀。

封面可謂醒目:一條曲線線先是快速上升,然后平緩爬升,最后卻急轉(zhuǎn)直下 ,暗喻RL領(lǐng)域的研究前途不妙!
從歷史角度看,強化學習發(fā)生了什么?為什么到現(xiàn)在它才真正開始起飛?
他提供了獨特的個人視角。

師出名門
2019年, 他本科畢業(yè)于斯坦福大學計算機科學專業(yè)人工智能方向。
2018年,他利用休學期在OpenAI完成6個月實習,期間正式發(fā)布Neural MMO首個公開版本。
更早之前,他曾在李飛飛課題組、吳恩達實驗室參與過研究項目。
大約從2017年,他開始從事強化學習。
當時,他在麻省理工學院Phillip Isola實驗室攻讀博士,開始創(chuàng)建開源計算研究平臺Neural MMO。
他的研究聚焦于推動現(xiàn)代基于智能體的學習方法向更復雜、更具認知真實性的環(huán)境拓展。

后來,這個項目后來成為他整個博士生畢業(yè)論文的的主題。

論文鏈接:https://jsuarez5341.github.io/static/jsuarez_phd_thesis.pdf
這也為他PufferLib的工作奠定了基礎(chǔ)。

當時,各大實驗室也在做從零開始、非語言模型的強化學習RL。
事實上,這是當時大多數(shù)工作的重點:多智能體(multiagent)剛剛興起,所有核心算法剛剛發(fā)布。
AlphaGo讓研究者已經(jīng)看到了強化學習的潛力。OpenAI Five正在開發(fā)中,當時他恰好在OpenAI實習,所以親眼看到了一些工作。

OpenAI的DoTA(Dota 2)項目,則完全讓他信服RL的神奇。

論文鏈接:https://cdn.openai.com/dota-2.pdf
你如果不玩這款游戲,難以想象這個問題有多復雜。
你不會相信人們居然把打DoTA當成愛好。它和圍棋并非完全一樣,無法直接比較,但它確實涉及許多圍棋中沒有的、與現(xiàn)實世界相關(guān)的推理類型。
比如,高低級策略、控制、團隊協(xié)調(diào)和心智理論(theory of mind),這些只是其中幾個例子。

而OpenAI用1.68億參數(shù)的網(wǎng)絡(luò),在約1000個GPU上訓練,打敗了頂尖職業(yè)選手。

現(xiàn)在,用64到128個H100 GPU,你也能做到。
而且還不止一個結(jié)果。還有AlphaStar、Capture the Flag、Emergent Tool Use……

在訓練過程中,AlphaStar最終被選中與職業(yè)選手MaNa對抗的智能體(黑點)其策略與競爭對手(彩點)的演化過程。每個彩點代表AlphaStar聯(lián)賽中的一位競爭對手
短短時間內(nèi),有好幾個主要的RL展示項目。那么,既然潛力這么明顯,領(lǐng)域肯定會繼續(xù)前進,對吧……對吧???
為什么RL衰落了
從2019年到2022年的,有些工作繼續(xù)在進行,但強化學習明顯在走下坡路。
盡管那幾年論文更多了,但沒有多少像2017-2019年那種水平的持久突破。究竟發(fā)生了什么?
首要的因素是學術(shù)短視。
整個領(lǐng)域集體決定了一套標準,卻沒有實際理由。在這些標準下,幾乎不可能出現(xiàn)什么進步。
由于歷史原因,Agent57成為了最常見的基準,共包含57款雅達利游戲。

由于任務(wù)結(jié)果波動大,需要運行所有游戲(理想情況下,每款游戲使用多個種子)。同時,學界決定x軸應該是樣本數(shù),而不是實際運行時間(墻鐘時間)。
背后的想法是,這更接近現(xiàn)實世界的學習,許多問題受限于采樣率。而且你不用擔心不同論文的硬件設(shè)置。
然而,顯而易見的問題是沒有限制硬件使用量,可以通過投入更多計算資源來提升基準成績。因此,研究變得愈加耗時,以至于單個游戲的單獨運行可能需要耗費數(shù)周的GPU時間。
因為學術(shù)界對工程很排斥,代碼基底也慢得可怕。更不用說有限的預算……
所以,你最終需要1萬GPU小時,在利用率不到5%的情況下運行一組消融實驗(ablations)。
這樣的研究方式根本行不通,跟好的科學更不沾邊。
要是沒有上萬小時的GPU算力,很多人干脆不做消融實驗就直接發(fā)論文——難怪那時候的研究成果基本無法復現(xiàn)。
另外,學界追名逐利。
大語言模型(LLMs)出現(xiàn)了。
人們經(jīng)常問他為什么討厭LLM。他真的不討厭。他討厭的是,它們從其他領(lǐng)域吸走了99%的天才,而不是更合理的80%。
他眼看著最有才華的同事一個個離開RL研究領(lǐng)域,被雇去研究LLM。這很難去責怪他們。做RL太糟了。那是艱苦、殘酷的工作,對抗一套似乎專門設(shè)計來阻礙真正進步。
在一般深度學習中你習以為常的基本東西,甚至2015年的東西,在RL中都不存在。
超參數(shù)沒道理,模型無法擴展,簡單的任務(wù)也無法順利轉(zhuǎn)移。
盡管他們有證據(jù)證明RL能在DoTA和圍棋之類的驚人問題上奏效,但日常工作的感覺就是絕望。
現(xiàn)在的RL重蹈覆轍
緩慢的實驗周期、過度優(yōu)化的評價體系、遲緩的開發(fā)進度……這一切聽起來是否耳熟?
現(xiàn)代RL研究不知怎么花了數(shù)十億美元,卻再現(xiàn)了最初扼殺RL發(fā)展的混亂局面,重蹈覆轍。
David Peterson對此非常認同:強化學習莫名其妙地多次重蹈覆轍,上一次是時序差分。

這一次它會走得更遠,畢竟有利可圖……但效率極低。
看著該領(lǐng)域重新陷入前人多年前就已經(jīng)克服的困境,同時為各種概念創(chuàng)造新的術(shù)語,令人啼笑皆非。
「多輪RL」意思是「不只是賭博機問題」(not a bandit)。這幾乎涵蓋了全部的RL新研究,除了某些小眾理論研究。
「長期規(guī)劃」(Long horizons)也不是新東西,這也不是讓問題變得如此困難的全貌。
當前對早期RL研究的充滿了不信任,Joseph Suarez表示理解——
因為許多發(fā)表的內(nèi)容確實存在問題。
另尋他路
Joseph Suarez還在堅持用小模型從零開始的RL。
只是現(xiàn)在,這不再是衰落的舊勢力,他們在以驚人速度突破。
那么,什么改變了?
完成博士學位后,他決定完全從學界的隨意的標準中解放出來,從頭重建RL。
標準是墻鐘訓練時間,性能工程將和算法工作一樣重要。
他花幾個月時間拆除所有慢的基礎(chǔ)設(shè)施,目標是每秒數(shù)百萬步的吞吐,而不是幾千。
起初,這只是現(xiàn)有方法的加速版本。這對解決行業(yè)中因成本過高而難以實施的問題已綽綽有余。
但這還不止——這個過程實際上讓他們能夠以前所未有的速度開展高質(zhì)量研究。當你可以運行1000倍的實驗時,無需過于精巧的方法論;當所有選項都可以測試時,也無需小心翼翼地挑選變量。

最新基準測試顯示,在單個RTX 5090上,強化學習庫PufferLib 3.0的訓練速度最高可達每秒400萬步
一年前,你需要RL博士學位和幾周到幾個月來處理每個新問題。如果你沒有經(jīng)驗,耗時就更長了?,F(xiàn)在,新手程序員在幾天內(nèi)讓RL在新問題上運行。不是超級難的問題——那些還是需要點經(jīng)驗。但比之前好多了。
他們走在正確方向的跡象:他們在簡單環(huán)境上的實驗能泛化到更難環(huán)境。
他們認為之前的batch size和特定退化超參數(shù)是罪魁禍首。不是100%——肯定有些技術(shù)只有在更難問題上才見效。
但他們現(xiàn)在有足夠多在幾分鐘內(nèi)運行的技術(shù),開發(fā)周期還是很快。
下一步:他們計劃能用現(xiàn)有東西解決有價值的問題。
只要能建快模擬器,RL大多能工作。嘿,在很多問題上,它開箱即用。
長期來看,他們會回到舊的樣本效率研究。但他們還是會從至少保持flop效率的角度接近它。不再讓GPU在5%利用率下跑批量大小8的200萬參數(shù)網(wǎng)絡(luò)。































