偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化學(xué)習(xí)的“GPT-3 時刻”即將到來 原創(chuàng)

發(fā)布于 2025-8-29 09:27
瀏覽
0收藏

編者按: 強(qiáng)化學(xué)習(xí)能否像?GPT-3?改變自然語言處理那樣,通過大規(guī)模擴(kuò)展實(shí)現(xiàn)質(zhì)的飛躍?為什么強(qiáng)化學(xué)習(xí)至今仍困在“先預(yù)訓(xùn)練,再微調(diào)”的傳統(tǒng)模式中?為什么即使是最先進(jìn)的?RL?模型,一旦脫離訓(xùn)練環(huán)境就變得如此脆弱?

無論是自動駕駛、機(jī)器人控制,還是復(fù)雜系統(tǒng)優(yōu)化,我們都需要能夠快速適應(yīng)新任務(wù)、具備真正泛化能力的智能體。然而當(dāng)前的 RL 模型就像是“高分低能”的應(yīng)試選手 —— 在熟悉的測試環(huán)境中表現(xiàn)優(yōu)異,但面對真實(shí)世界的復(fù)雜性時卻束手無策。

本文提出了 replication training 范式,為強(qiáng)化學(xué)習(xí)的規(guī)?;瘮U(kuò)展指明了全新方向。作者不再拘泥于傳統(tǒng)的游戲環(huán)境或仿真場景,而是大膽提議讓 AI 復(fù)制現(xiàn)有的軟件產(chǎn)品。它利用了互聯(lián)網(wǎng)上豐富的軟件資源,提供了客觀明確的評估標(biāo)準(zhǔn),同時訓(xùn)練了 AI 在長周期項(xiàng)目中保持穩(wěn)定輸出的能力。

作者 | Matthew Barnett, Tamay Besiroglu, Ege Erdil

編譯 | 岳揚(yáng)

GPT-3 證明了,僅僅通過擴(kuò)大語言模型的規(guī)模,就能帶來強(qiáng)大的、task-agnostic(譯者注:模型不依賴特定任務(wù)的設(shè)計或微調(diào),就能處理多種不同類型的任務(wù)。)、few-shot(譯者注:模型僅需極少量示例,就能快速理解并執(zhí)行新任務(wù)。)的性能,其表現(xiàn)通常優(yōu)于經(jīng)過精心微調(diào)的模型。在 GPT-3 出現(xiàn)之前,要達(dá)到最先進(jìn)的性能,首先需要在大型通用文本語料庫上對模型進(jìn)行預(yù)訓(xùn)練,然后再針對特定任務(wù)進(jìn)行微調(diào)。

如今的強(qiáng)化學(xué)習(xí)同樣困在類似 GPT-3 之前的范式里。我們首先是對大模型進(jìn)行預(yù)訓(xùn)練,然后在高度專業(yè)化的環(huán)境中,對特定任務(wù)進(jìn)行精細(xì)的微調(diào)。但這種方法的根本局限在于:由此獲得的能力難以泛化,導(dǎo)致性能“脆弱”(brittle performance) ——?模型一旦脫離訓(xùn)練期間接觸的精確語境,性能便會迅速退化。

強(qiáng)化學(xué)習(xí)的“GPT-3 時刻”即將到來-AI.x社區(qū)

我們認(rèn)為強(qiáng)化學(xué)習(xí)(RL)即將迎來其“GPT-3 時刻”。相比在有限數(shù)量的訓(xùn)練場景或任務(wù)設(shè)置上微調(diào)模型,我們預(yù)計該領(lǐng)域?qū)⑥D(zhuǎn)向在數(shù)千個多樣化環(huán)境上進(jìn)行大規(guī)模訓(xùn)練。有效實(shí)施這一做法將催生出具有 few-shot、task-agnostic 能力的 RL 模型,能夠快速適應(yīng)全新的任務(wù)。但實(shí)現(xiàn)這一點(diǎn)需要訓(xùn)練環(huán)境在規(guī)模和多樣性上遠(yuǎn)超當(dāng)前任何的可用資源。

01 究竟需要多少 RL 資源?

當(dāng)前的 RL 數(shù)據(jù)集相對較小。例如,DeepSeek-R1 在大約 60 萬個數(shù)學(xué)問題上進(jìn)行了訓(xùn)練,這相當(dāng)于人類連續(xù)努力六年的工作量(假設(shè)每個任務(wù)耗時五分鐘完成)。相比之下,重建 GPT-3 那包含 3000 億 token 的訓(xùn)練語料庫,若按人類平均書寫速度計算,需要大約數(shù)萬年的寫作時間。

需要說明的是,要達(dá)到與當(dāng)前前沿模型預(yù)訓(xùn)練預(yù)算相當(dāng)?shù)?RL 計算支出,按人類完成相同任務(wù)所需時長來衡量,可能需要大約上萬年。 DeepSeek-R1 在 RL 階段使用了約 6e23 FLOP 的計算量[1],按人類效率折算,對應(yīng)約 6 年的時長。假設(shè)未來的訓(xùn)練任務(wù)使用與 DeepSeek-R1 相似的訓(xùn)練輪次(epochs)和組大小(group sizes),將此擴(kuò)展至約 6e26 FLOP 意味著需要人類約 6000 年的工作時長。

尚不確定未來的強(qiáng)化學(xué)習(xí)訓(xùn)練會需要更大的還是更小的組規(guī)模(group sizes)、抑或是更多的訓(xùn)練輪次(epochs),尤其是隨著任務(wù)分布多樣性的增加。我們在這方面缺乏足夠的數(shù)據(jù),因此精確估算等效的人類工作時間仍很困難,盡管 1 萬年左右似乎是一個較為合理的數(shù)量級。

這一過程要求模型完成的工作量,其規(guī)??膳c Windows Server 2008、GTA V 或 Red Hat Linux 7.1 等大型項(xiàng)目相當(dāng) —— 每個項(xiàng)目估計都需要約 1 萬年的累計人類工作量。

將強(qiáng)化學(xué)習(xí)(RL)擴(kuò)展到這一規(guī)模在經(jīng)濟(jì)上是高效的。由于算力成本在總訓(xùn)練成本中占據(jù)主導(dǎo)地位,將強(qiáng)化學(xué)習(xí)的規(guī)模提升到與預(yù)訓(xùn)練預(yù)算相當(dāng)?shù)乃?,能在不明顯增加總成本的情況下帶來大幅的性能提升。 然而,要實(shí)現(xiàn)這一目標(biāo),就必須大規(guī)模擴(kuò)展強(qiáng)化學(xué)習(xí)環(huán)境(RL environments)的體量,同時確保任務(wù)能夠?qū)崿F(xiàn)自動化評估。這很可能需要開發(fā)新的構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境的方法。

02 Replication training

想象一下,每次當(dāng)你想要通過下一個詞預(yù)測方法(next-token prediction)預(yù)訓(xùn)練語言模型時,都必須親手創(chuàng)建整個訓(xùn)練語料庫。顯然,這極其不切實(shí)際。因此,我們轉(zhuǎn)而利用海量的現(xiàn)有內(nèi)容 —— 如書籍、學(xué)術(shù)論文、博客帖子和 Reddit 討論內(nèi)容來構(gòu)建訓(xùn)練語料庫。

同樣,我們推測,RL(強(qiáng)化學(xué)習(xí))領(lǐng)域的“GPT-3 時刻”將主要依托于一種稱為 replication training 的新范式來實(shí)現(xiàn)。 該范式要求 AI 復(fù)制現(xiàn)有的軟件產(chǎn)品或其內(nèi)部特定功能。實(shí)現(xiàn)復(fù)雜的哈希與加密算法的簡單命令行工具是較為理想的初期目標(biāo),這種方案可以輕松擴(kuò)展到更復(fù)雜的軟件,例如網(wǎng)站、專業(yè)軟件和游戲。

每項(xiàng)復(fù)制任務(wù)(replication tasks)均包含詳細(xì)的說明規(guī)范和用于參考的實(shí)現(xiàn)方案。其核心思想是,AI 模型經(jīng)過訓(xùn)練后能夠生成與用于參考的實(shí)現(xiàn)方案完全一致的方案。這種清晰直接的方法極大地簡化了評估過程,因?yàn)樵u分標(biāo)準(zhǔn)客觀且明確:生成的實(shí)現(xiàn)方案的行為要么與用于參考的實(shí)現(xiàn)方案完全一致,要么就是不一致。

盡管這些復(fù)制任務(wù)(replication tasks)可能與日常的軟件工程活動有所不同,但它們專門針對當(dāng)前 AI 系統(tǒng)難以掌握的關(guān)鍵能力。例如,復(fù)制一個復(fù)雜的算法(如依據(jù)詳細(xì)規(guī)范進(jìn)行開發(fā)的、包含萬行量級代碼的加密/解密 CLI 工具),要求模型必須做到:

  • 準(zhǔn)確閱讀并深度理解詳細(xì)指令。
  • 一絲不茍且精確無誤地執(zhí)行指令。
  • 能夠發(fā)現(xiàn)早期錯誤并可靠地恢復(fù)。
  • 在長時間周期(相當(dāng)于人類數(shù)月時間的開發(fā)工作量)內(nèi)保持穩(wěn)定輸出 —— 在此過程中,質(zhì)量優(yōu)劣完全由功能正確性直接判定。
  • 在遇到困難時展現(xiàn)出韌性,而非草率止步于看起來“差不多能用”的方案。

我們預(yù)測,replication training 將成為 AI 領(lǐng)域的下一個范式,因?yàn)樗樠恿宋覀冊?AI 發(fā)展過程中已觀察到的趨勢 —— 利用海量的現(xiàn)有人類生成數(shù)據(jù)來創(chuàng)建新任務(wù)。就像自然語言一樣,軟件在互聯(lián)網(wǎng)上同樣資源豐富。因此,replication training 提供了一種可擴(kuò)展的途徑,能高效生成復(fù)雜任務(wù),推動我們實(shí)現(xiàn)可端到端完成完整軟件項(xiàng)目的 AI。

然而,這種方法也面臨著幾項(xiàng)挑戰(zhàn)。編寫有效且全面的測試仍然是一項(xiàng)非同小可的任務(wù),需要大量的工程投入。此外,復(fù)制任務(wù)(replication tasks)本身具有一定的人造性,因?yàn)榫_復(fù)制現(xiàn)有軟件并非日常軟件工程的典型工作(盡管在軟件移植、遺留系統(tǒng)重構(gòu)、凈室重新實(shí)現(xiàn)【譯者注:clean-room reimplementations,指在嚴(yán)格隔離原始代碼知識的前提下,僅通過分析功能規(guī)范或外部行為,重新實(shí)現(xiàn)與原有軟件功能相同的程序。該過程需確保開發(fā)團(tuán)隊(duì)從未接觸過原始源代碼,以避免法律上的版權(quán)/專利侵權(quán)風(fēng)險?!浚┑葓鼍爸写_有其例。

盡管存在這些挑戰(zhàn),但我們認(rèn)為 replication training 為將強(qiáng)化學(xué)習(xí)環(huán)境(RL environments)擴(kuò)展到實(shí)現(xiàn)有意義泛化所需的龐大規(guī)模提供了一條清晰明確的路徑。它很可能將成為解鎖強(qiáng)化學(xué)習(xí)“GPT-3 時刻”的關(guān)鍵,為達(dá)成穩(wěn)健的、task-agnostic 的性能提供所需的數(shù)萬年量級的經(jīng)驗(yàn)積累。

replication training 會是解鎖 full automation of labor(譯者注:通過 AI / 機(jī)器人系統(tǒng)實(shí)現(xiàn)人類所有勞動形式的自動化替代,達(dá)到無需人類直接參與即可完成經(jīng)濟(jì)生產(chǎn)活動的終極狀態(tài)。)的終極范式嗎?對此我們持懷疑態(tài)度。雖然它能催生可在精確設(shè)計規(guī)范下自主完成高復(fù)雜度軟件項(xiàng)目的系統(tǒng),但我們推測,這些能力仍將遜色于人類所具備的開放式能力。即便 AI 成為高級編程專家,它們在狹窄的軟件領(lǐng)域之外的高層管理(譯者注:high-level management,指組織架構(gòu)中涉及戰(zhàn)略決策、資源分配和跨部門協(xié)調(diào)的頂層管理職能。)與自主規(guī)劃(agentic planning)方面也未必能勝任。

然而,正如我們需要先發(fā)明預(yù)訓(xùn)練,才能邁向 replication training,replication training 仍可作為通往下一范式的橋梁。我們對這一新范式的未來潛力充滿期待。

END

本期互動內(nèi)容 ??

?您預(yù)測 RL 領(lǐng)域的“GPT-3時刻”會在什么時間節(jié)點(diǎn)出現(xiàn)?3 年內(nèi)、5-10 年,還是更久?請分享您的判斷依據(jù)。

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。

原文鏈接:

https://www.mechanize.work/blog/the-upcoming-gpt-3-moment-for-rl/

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦