Andrej Karpathy再次看衰強化學習:獎勵函數(shù)非常可疑,RL環(huán)境才是最重要的
AK再次看衰RL本身,當然指的是長期來看。

剛剛Prime Intellect公司開源了一個叫Environments Hub的平臺,簡單來說Environments Hub是一個開源的的強化學習環(huán)境(RL environments)平臺,強化學習環(huán)境被認為是下一波人工智能進步的關鍵瓶頸,但大型實驗室正在將其鎖定。

環(huán)境是Agent學習的地方,它們定義了世界、規(guī)則以及狀態(tài) → 動作 → 獎勵的反饋循環(huán)。從編程/數(shù)學任務到游戲和多輪對話評估,一切都可以被視為環(huán)境。沒有它們,強化學習就只是數(shù)學,沒有任何交互可言。
詳細內(nèi)容看這里:https://www.primeintellect.ai/blog/environments
AK非??春眠@個項目,以下是AK的觀點:
在預訓練(pretraining)時代,最重要的是互聯(lián)網(wǎng)文本。你主要需要一個大規(guī)模、多樣化、高質(zhì)量的互聯(lián)網(wǎng)文檔集合來供模型學習。
在監(jiān)督微調(diào)(supervised finetuning)時代,關鍵則變成了對話。人們會雇傭合同工來為問題創(chuàng)建答案,有點像你在 Stack Overflow / Quora 等網(wǎng)站上看到的那樣,但更專注于大型語言模型(LLM)的應用場景。
以上兩者都不會消失(在AK看來),但在當下的強化學習時代,核心要素變成了環(huán)境。與前兩者不同,環(huán)境給了大型語言模型一個真正進行交互的機會——采取行動、觀察結果等等。這意味著你有望做到比統(tǒng)計性的專家模仿好得多。并且,環(huán)境既可以用于模型訓練,也可以用于評估。但和以前一樣,現(xiàn)在的核心問題是需要一個大規(guī)模、多樣化、高質(zhì)量的環(huán)境集合,作為供大型語言模型練習的習題。
在某些方面,這讓AK想起了 OpenAI 的第一個項目(Gym),它正是一個希望在相同框架下構建大量環(huán)境集合的框架,但這遠在大型語言模型出現(xiàn)之前。所以當時的環(huán)境都是一些簡單的學術控制任務,比如車桿平衡、ATARI 游戲等。
環(huán)境具有這樣的特性:一旦框架的骨架搭建完成,原則上社區(qū)和行業(yè)就可以在許多不同領域并行推進,這非常令人興奮。
最后的想法——就個人和長期來看,AK十分看好環(huán)境和智能體交互(agentic interactions),但特別不看好強化學習本身。獎勵函數(shù)非??梢?,而且AK認為人類學習時并不使用強化學習(也許在某些運動任務上會用,但在解決智力問題時不會)。人類使用的是不同學習范式,這些范式在能力和樣本效率上要強大得多,但它們尚未被(在AI領域)真正地發(fā)明出來并規(guī)模化。盡管已經(jīng)存在一些早期的草圖和想法。


舉一個例子,系統(tǒng)提示詞學習(system prompt learning)這個概念,它將更新從權重轉(zhuǎn)移到詞元/上下文(tokens/contexts),然后可以選擇性地通過一個獨立的、有點像睡眠的過程,將學習成果蒸餾到權重中。


































