改變強(qiáng)化學(xué)習(xí)范式，Meta新作呼應(yīng)Sutton「經(jīng)驗(yàn)時(shí)代」預(yù)言

2025-10-14 08:59:00

從數(shù)據(jù)時(shí)代到經(jīng)驗(yàn)時(shí)代，怎么平滑過渡？Meta提出了新見解。

前段時(shí)間，圖靈獎(jiǎng)得主 Richard Sutton 與谷歌 RL 大佬 David Silver 合作撰寫的《Welcome to the Era of Experience（歡迎來到經(jīng)驗(yàn)時(shí)代）》引發(fā)了廣泛關(guān)注。他們?cè)谖闹兄赋觯祟悢?shù)據(jù)已接近極限，AI 智能體若想突破天花板，必須像人類和動(dòng)物一樣，通過與環(huán)境持續(xù)互動(dòng)生成「經(jīng)驗(yàn)流」，并通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自主提升。也就是說，AI 智能體將迎來「經(jīng)驗(yàn)時(shí)代」，這是重大的范式轉(zhuǎn)變。

然而，在許多環(huán)境中，基于經(jīng)驗(yàn)數(shù)據(jù)使用強(qiáng)化學(xué)習(xí)來訓(xùn)練智能體仍然面臨挑戰(zhàn)。一方面，這些環(huán)境往往缺乏可驗(yàn)證或密集的獎(jiǎng)勵(lì)信號(hào) —— 尤其是在開放式場(chǎng)景中（例如網(wǎng)頁環(huán)境通常不會(huì)返回明確的任務(wù)反饋）；另一方面，智能體可能需要在長時(shí)間跨度內(nèi)進(jìn)行低效的探索與泛化，例如跨多輪的工具使用或復(fù)雜交互流程。

目前大多數(shù)語言智能體采用監(jiān)督微調(diào)（SFT）從專家示范中學(xué)習(xí)，以避免依賴獎(jiǎng)勵(lì)信號(hào)。雖然這種方法訓(xùn)練高效，但缺乏環(huán)境交互，無法從失敗中學(xué)習(xí)或主動(dòng)探索，同時(shí)對(duì)高質(zhì)量專家數(shù)據(jù)依賴強(qiáng)、成本高、泛化性有限。因此，一個(gè)關(guān)鍵問題浮出水面：如何讓智能體在沒有外部獎(jiǎng)勵(lì)的情況下，從自身經(jīng)驗(yàn)中學(xué)習(xí)成長？

上周末，一篇來自 META 超級(jí)智能實(shí)驗(yàn)室（MSL）、FAIR、俄亥俄州立大學(xué)的研究為該問題提供了一種解法。

他們創(chuàng)新性地嘗試使用一種介于模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的中間范式來解決上述問題，它被稱為「早期經(jīng)驗(yàn)」：智能體不僅從人工整理的數(shù)據(jù)中學(xué)習(xí)，還從自身在環(huán)境中執(zhí)行動(dòng)作后產(chǎn)生的未來狀態(tài)中學(xué)習(xí)。這些未來狀態(tài)代表著智能體的「自身經(jīng)驗(yàn)」，可以被轉(zhuǎn)化為監(jiān)督信號(hào)，使其能夠直接從行動(dòng)后果中成長，而無需依賴外部獎(jiǎng)勵(lì)。

在這個(gè)范式中，研究人員探索了兩種使用此類數(shù)據(jù)的策略：

隱式的世界建模，它使用收集到的狀態(tài)作為環(huán)境動(dòng)態(tài)策略的基礎(chǔ)；
自我反思，智能體從其次優(yōu)行為中學(xué)習(xí)，以改進(jìn)推理和決策。

基于這一方法，Meta 成功地將智能體完成任務(wù)的成功率提升了 9.6%，分布外泛化能力提升了 9.4%。這為后續(xù) RL 繼續(xù)突破人類天花板鋪了一條快速通道。

論文標(biāo)題：Agent Learning via Early Experience
論文鏈接：https://arxiv.org/abs/2510.08558

方法概覽

為了幫助大家理解早期經(jīng)驗(yàn)范式，研究者在論文中給出了一個(gè)例子：想象一個(gè)語言智能體要學(xué)習(xí)如何在網(wǎng)頁上預(yù)訂航班。在傳統(tǒng)的模仿學(xué)習(xí)中，它只能看到專家成功預(yù)訂的示范過程。而在「早期經(jīng)驗(yàn)范式」中，智能體還會(huì)探索當(dāng)它點(diǎn)擊不同的按鈕或錯(cuò)誤填寫表單時(shí)會(huì)發(fā)生什么，觀察錯(cuò)誤提示、頁面跳轉(zhuǎn)以及其他結(jié)果。這些觀察會(huì)成為無需顯式獎(jiǎng)勵(lì)的學(xué)習(xí)信號(hào)。從專家軌跡出發(fā)，智能體在每一個(gè)訪問到的狀態(tài)下都會(huì)嘗試提出自己的行動(dòng)，通過探索來收集額外的環(huán)境反饋。

下圖 2 展示了兩種「早期經(jīng)驗(yàn)」方法：

隱式世界建模（左圖）通過為專家軌跡添加替代動(dòng)作及其預(yù)測(cè)的下一個(gè)狀態(tài)，使策略在部署前就能夠內(nèi)化環(huán)境的轉(zhuǎn)移動(dòng)態(tài)。
自我反思（右圖）則在專家動(dòng)作的基礎(chǔ)上加入智能體自生成的解釋 c_1，讓策略學(xué)會(huì)推理并修正自身決策。

這兩種方法都使用由初始策略（LLM）提出的替代動(dòng)作。替代動(dòng)作的數(shù)量（K）是一個(gè)超參數(shù)；為簡(jiǎn)潔起見，圖中僅展示了一個(gè)示例。

隱式世界建模

作者將世界建模表述為一項(xiàng)輔助預(yù)測(cè)任務(wù)，它能幫助智能體從自身早期經(jīng)驗(yàn)中內(nèi)化環(huán)境動(dòng)態(tài)。在本文的設(shè)定中，狀態(tài)完全以自然語言來表示，這使作者能夠?qū)⑾乱粻顟B(tài)預(yù)測(cè)建模為標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)目標(biāo)。受先前關(guān)于將 LLM 訓(xùn)練為世界模型的研究的啟發(fā)，他們使用從 rollout 數(shù)據(jù)集 D_rollout 中獲得的下一個(gè)狀態(tài)，作為語言智能體策略 π_θ 的直接訓(xùn)練信號(hào)。

例如，在網(wǎng)上預(yù)訂航班時(shí)，模型可能會(huì)預(yù)測(cè)輸入無效日期后的頁面狀態(tài)，并從文本錯(cuò)誤信息中學(xué)習(xí)，將其作為下一狀態(tài)的自然語言表示。這種設(shè)計(jì)無需單獨(dú)的模塊，并且自然地融入了大型語言模型的微調(diào)范式。

這一訓(xùn)練目標(biāo)鼓勵(lì)模型去捕捉環(huán)境行為中的規(guī)律，包括常見的狀態(tài)轉(zhuǎn)移、附帶效應(yīng)以及無效動(dòng)作的結(jié)果。不同于推理時(shí)用于規(guī)劃的顯式世界模型，本文中的隱式建模方式將預(yù)測(cè)信號(hào)直接整合進(jìn)策略學(xué)習(xí)中，作為監(jiān)督學(xué)習(xí)或后續(xù)優(yōu)化前的輕量級(jí)「預(yù)熱」階段。

這種方法讓智能體能夠接觸到多樣的、非專家的行為數(shù)據(jù)，從而提升對(duì)分布變化的魯棒性，并減少對(duì)脆弱的專家軌跡的依賴。實(shí)踐中，rollout 數(shù)據(jù)的規(guī)模通常比專家數(shù)據(jù)集 D_expert 大一個(gè)數(shù)量級(jí)。作者采用兩階段訓(xùn)練流程：首先利用 L_IWM（隱式世界建模）來學(xué)習(xí)環(huán)境的粗略動(dòng)態(tài)，然后在 D_expert 上進(jìn)行微調(diào)（即 L_IL 階段）。

自我反思

作者將「自我反思」形式化為一種機(jī)制，使智能體能夠從自身的探索結(jié)果中學(xué)習(xí)。與僅依賴專家的狀態(tài) — 動(dòng)作對(duì)不同，智能體在每個(gè)狀態(tài)下會(huì)將專家動(dòng)作與從自身策略中采樣得到的替代動(dòng)作進(jìn)行比較，并根據(jù)它們產(chǎn)生的后續(xù)狀態(tài)，用自然語言生成解釋，說明為何專家的選擇更優(yōu)。這些解釋比單純的專家動(dòng)作提供了更豐富、可遷移的監(jiān)督信號(hào)，借助大語言模型在語言處理方面的優(yōu)勢(shì)，使智能體能夠內(nèi)化可在不同任務(wù)間泛化的決策原則。

在實(shí)踐中，作者將自我反思數(shù)據(jù)集 D_refl 與專家數(shù)據(jù)集 D_expert 混合，并使用標(biāo)準(zhǔn)的「下一個(gè) token 預(yù)測(cè)」損失進(jìn)行訓(xùn)練。在自我反思訓(xùn)練數(shù)據(jù)上會(huì)生成鏈?zhǔn)剿季S鏈推理，而在 D_expert 中，只要專家軌跡自帶推理過程，作者就保留原有的思維鏈思維文本。這種聯(lián)合訓(xùn)練方式在示范數(shù)據(jù)帶來的扎實(shí)決策信號(hào)與探索數(shù)據(jù)帶來的對(duì)比性洞見之間實(shí)現(xiàn)了平衡。

從這兩類數(shù)據(jù)中同時(shí)學(xué)習(xí)，有助于模型超越機(jī)械模仿，發(fā)展出更具泛化性的決策準(zhǔn)則。例如，在 WebShop 環(huán)境中，專家動(dòng)作是「點(diǎn)擊 15 美元的藍(lán)色襯衫」，而替代動(dòng)作可能是「點(diǎn)擊 30 美元的紅色襯衫」。模型生成的反思可能是：「雖然紅色襯衫符合顏色偏好，但它超出了查詢中指定的 20 美元預(yù)算限制；藍(lán)色襯衫同時(shí)滿足了風(fēng)格要求和預(yù)算約束?！惯@樣的訓(xùn)練教會(huì)模型在決策中優(yōu)先考慮約束條件，這種經(jīng)驗(yàn)可以泛化到其他任務(wù)和情境中。

下圖展示了作者在不同環(huán)境中使用的提示模板。

隱式世界建模與自我反思遵循相同的核心原則：都將智能體自身的動(dòng)作及其導(dǎo)致的未來狀態(tài)轉(zhuǎn)化為可擴(kuò)展的監(jiān)督信號(hào)，從而訓(xùn)練出更具泛化能力的語言智能體策略。

實(shí)驗(yàn)結(jié)果

Meta 列出了基準(zhǔn)測(cè)試的結(jié)果，所有數(shù)值均為成功率（%）。Prompt 表示指令調(diào)優(yōu)模型的性能表現(xiàn)。IWM 和 SR 分別代表隱式世界建模與自我反思。

可見，在幾乎所有場(chǎng)景和兩種模型規(guī)模下，早期經(jīng)驗(yàn)的提升效果都優(yōu)于模仿學(xué)習(xí)。隱式世界建模（IWM）在結(jié)構(gòu)化模擬器和交易類網(wǎng)站中表現(xiàn)穩(wěn)定，自我反思（SR）則在需要多步驟推理和約束滿足的任務(wù)中進(jìn)步最大。

分布外評(píng)估結(jié)果（%）。綠色部分顯示了相較于模仿學(xué)習(xí)的改進(jìn)情況。Prompt 表示指令模型的性能表現(xiàn)。IWM 和 SR 分別指隱性世界建模和自我反思。

在分布外（OOD）數(shù)據(jù)集環(huán)境中，盡管所有任務(wù)上的分?jǐn)?shù)均有所下降，但早期經(jīng)驗(yàn)方法始終可以顯著減小差距。這表明將自身訓(xùn)練結(jié)果轉(zhuǎn)化為監(jiān)督信息，能有效幫助策略適應(yīng)演示數(shù)據(jù)未覆蓋的場(chǎng)景。

綜上所述，從早期經(jīng)驗(yàn)開始訓(xùn)練始終能獲得更高的后強(qiáng)化學(xué)習(xí)上限。而且在某些場(chǎng)景中，這種性能差距會(huì)隨著訓(xùn)練而持續(xù)擴(kuò)大。

Meta 認(rèn)為，早期經(jīng)驗(yàn)在人類數(shù)據(jù)時(shí)代與經(jīng)驗(yàn)時(shí)代之間起到了中期訓(xùn)練橋梁的作用。它產(chǎn)生的策略即使沒有獎(jiǎng)勵(lì)也能表現(xiàn)出色，并放大了后續(xù)強(qiáng)化學(xué)習(xí)的益處。在相同的強(qiáng)化學(xué)習(xí)方案下，早期經(jīng)驗(yàn)開始時(shí)就能實(shí)現(xiàn)更高的最終性能。這些結(jié)果表明，一旦 RL 基礎(chǔ)設(shè)施在新環(huán)境中可用，早期的經(jīng)驗(yàn)可以立即解鎖進(jìn)一步的收益，而無需從頭開始重新訓(xùn)練。

更多內(nèi)容請(qǐng)參閱論文原文。

責(zé)任編輯：張燕妮來源：機(jī)器之心