偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

改變強(qiáng)化學(xué)習(xí)范式,Meta新作呼應(yīng)Sutton「經(jīng)驗(yàn)時(shí)代」預(yù)言

新聞
從數(shù)據(jù)時(shí)代到經(jīng)驗(yàn)時(shí)代,怎么平滑過渡?Meta提出了新見解。

前段時(shí)間,圖靈獎(jiǎng)得主 Richard Sutton 與谷歌 RL 大佬 David Silver 合作撰寫的《Welcome to the Era of Experience(歡迎來到經(jīng)驗(yàn)時(shí)代)》引發(fā)了廣泛關(guān)注。他們?cè)谖闹兄赋觯祟悢?shù)據(jù)已接近極限,AI 智能體若想突破天花板,必須像人類和動(dòng)物一樣,通過與環(huán)境持續(xù)互動(dòng)生成「經(jīng)驗(yàn)流」,并通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自主提升。也就是說,AI 智能體將迎來「經(jīng)驗(yàn)時(shí)代」,這是重大的范式轉(zhuǎn)變。

然而,在許多環(huán)境中,基于經(jīng)驗(yàn)數(shù)據(jù)使用強(qiáng)化學(xué)習(xí)來訓(xùn)練智能體仍然面臨挑戰(zhàn)。一方面,這些環(huán)境往往缺乏可驗(yàn)證或密集的獎(jiǎng)勵(lì)信號(hào) —— 尤其是在開放式場(chǎng)景中(例如網(wǎng)頁環(huán)境通常不會(huì)返回明確的任務(wù)反饋);另一方面,智能體可能需要在長時(shí)間跨度內(nèi)進(jìn)行低效的探索與泛化,例如跨多輪的工具使用或復(fù)雜交互流程。

目前大多數(shù)語言智能體采用監(jiān)督微調(diào)(SFT)從專家示范中學(xué)習(xí),以避免依賴獎(jiǎng)勵(lì)信號(hào)。雖然這種方法訓(xùn)練高效,但缺乏環(huán)境交互,無法從失敗中學(xué)習(xí)或主動(dòng)探索,同時(shí)對(duì)高質(zhì)量專家數(shù)據(jù)依賴強(qiáng)、成本高、泛化性有限。因此,一個(gè)關(guān)鍵問題浮出水面:如何讓智能體在沒有外部獎(jiǎng)勵(lì)的情況下,從自身經(jīng)驗(yàn)中學(xué)習(xí)成長?

上周末,一篇來自 META 超級(jí)智能實(shí)驗(yàn)室(MSL)、FAIR、俄亥俄州立大學(xué)的研究為該問題提供了一種解法。

他們創(chuàng)新性地嘗試使用一種介于模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的中間范式來解決上述問題,它被稱為「早期經(jīng)驗(yàn)」:智能體不僅從人工整理的數(shù)據(jù)中學(xué)習(xí),還從自身在環(huán)境中執(zhí)行動(dòng)作后產(chǎn)生的未來狀態(tài)中學(xué)習(xí)。這些未來狀態(tài)代表著智能體的「自身經(jīng)驗(yàn)」,可以被轉(zhuǎn)化為監(jiān)督信號(hào),使其能夠直接從行動(dòng)后果中成長,而無需依賴外部獎(jiǎng)勵(lì)。

在這個(gè)范式中,研究人員探索了兩種使用此類數(shù)據(jù)的策略:

  • 隱式的世界建模,它使用收集到的狀態(tài)作為環(huán)境動(dòng)態(tài)策略的基礎(chǔ);
  • 自我反思,智能體從其次優(yōu)行為中學(xué)習(xí),以改進(jìn)推理和決策。

基于這一方法,Meta 成功地將智能體完成任務(wù)的成功率提升了 9.6%,分布外泛化能力提升了 9.4%。這為后續(xù) RL 繼續(xù)突破人類天花板鋪了一條快速通道。

  • 論文標(biāo)題:Agent Learning via Early Experience
  • 論文鏈接:https://arxiv.org/abs/2510.08558

方法概覽

為了幫助大家理解早期經(jīng)驗(yàn)范式,研究者在論文中給出了一個(gè)例子:想象一個(gè)語言智能體要學(xué)習(xí)如何在網(wǎng)頁上預(yù)訂航班。在傳統(tǒng)的模仿學(xué)習(xí)中,它只能看到專家成功預(yù)訂的示范過程。而在「早期經(jīng)驗(yàn)范式」中,智能體還會(huì)探索當(dāng)它點(diǎn)擊不同的按鈕或錯(cuò)誤填寫表單時(shí)會(huì)發(fā)生什么,觀察錯(cuò)誤提示、頁面跳轉(zhuǎn)以及其他結(jié)果。這些觀察會(huì)成為無需顯式獎(jiǎng)勵(lì)的學(xué)習(xí)信號(hào)。從專家軌跡出發(fā),智能體在每一個(gè)訪問到的狀態(tài)下都會(huì)嘗試提出自己的行動(dòng),通過探索來收集額外的環(huán)境反饋。

下圖 2 展示了兩種「早期經(jīng)驗(yàn)」方法:

  • 隱式世界建模(左圖)通過為專家軌跡添加替代動(dòng)作及其預(yù)測(cè)的下一個(gè)狀態(tài),使策略在部署前就能夠內(nèi)化環(huán)境的轉(zhuǎn)移動(dòng)態(tài)。
  • 自我反思(右圖)則在專家動(dòng)作的基礎(chǔ)上加入智能體自生成的解釋 c_1,讓策略學(xué)會(huì)推理并修正自身決策。

這兩種方法都使用由初始策略(LLM)提出的替代動(dòng)作。替代動(dòng)作的數(shù)量(K)是一個(gè)超參數(shù);為簡(jiǎn)潔起見,圖中僅展示了一個(gè)示例。

隱式世界建模

作者將世界建模表述為一項(xiàng)輔助預(yù)測(cè)任務(wù),它能幫助智能體從自身早期經(jīng)驗(yàn)中內(nèi)化環(huán)境動(dòng)態(tài)。在本文的設(shè)定中,狀態(tài)完全以自然語言來表示,這使作者能夠?qū)⑾乱粻顟B(tài)預(yù)測(cè)建模為標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)目標(biāo)。受先前關(guān)于將 LLM 訓(xùn)練為世界模型的研究的啟發(fā),他們使用從 rollout 數(shù)據(jù)集 D_rollout 中獲得的下一個(gè)狀態(tài),作為語言智能體策略 π_θ 的直接訓(xùn)練信號(hào)。

例如,在網(wǎng)上預(yù)訂航班時(shí),模型可能會(huì)預(yù)測(cè)輸入無效日期后的頁面狀態(tài),并從文本錯(cuò)誤信息中學(xué)習(xí),將其作為下一狀態(tài)的自然語言表示。這種設(shè)計(jì)無需單獨(dú)的模塊,并且自然地融入了大型語言模型的微調(diào)范式。

這一訓(xùn)練目標(biāo)鼓勵(lì)模型去捕捉環(huán)境行為中的規(guī)律,包括常見的狀態(tài)轉(zhuǎn)移、附帶效應(yīng)以及無效動(dòng)作的結(jié)果。不同于推理時(shí)用于規(guī)劃的顯式世界模型,本文中的隱式建模方式將預(yù)測(cè)信號(hào)直接整合進(jìn)策略學(xué)習(xí)中,作為監(jiān)督學(xué)習(xí)或后續(xù)優(yōu)化前的輕量級(jí)「預(yù)熱」階段。

這種方法讓智能體能夠接觸到多樣的、非專家的行為數(shù)據(jù),從而提升對(duì)分布變化的魯棒性,并減少對(duì)脆弱的專家軌跡的依賴。實(shí)踐中,rollout 數(shù)據(jù)的規(guī)模通常比專家數(shù)據(jù)集 D_expert 大一個(gè)數(shù)量級(jí)。作者采用兩階段訓(xùn)練流程:首先利用 L_IWM(隱式世界建模)來學(xué)習(xí)環(huán)境的粗略動(dòng)態(tài),然后在 D_expert 上進(jìn)行微調(diào)(即 L_IL 階段)。

自我反思

作者將「自我反思」形式化為一種機(jī)制,使智能體能夠從自身的探索結(jié)果中學(xué)習(xí)。與僅依賴專家的狀態(tài) — 動(dòng)作對(duì)不同,智能體在每個(gè)狀態(tài)下會(huì)將專家動(dòng)作與從自身策略中采樣得到的替代動(dòng)作進(jìn)行比較,并根據(jù)它們產(chǎn)生的后續(xù)狀態(tài),用自然語言生成解釋,說明為何專家的選擇更優(yōu)。這些解釋比單純的專家動(dòng)作提供了更豐富、可遷移的監(jiān)督信號(hào),借助大語言模型在語言處理方面的優(yōu)勢(shì),使智能體能夠內(nèi)化可在不同任務(wù)間泛化的決策原則。

在實(shí)踐中,作者將自我反思數(shù)據(jù)集 D_refl 與專家數(shù)據(jù)集 D_expert 混合,并使用標(biāo)準(zhǔn)的「下一個(gè) token 預(yù)測(cè)」損失進(jìn)行訓(xùn)練。在自我反思訓(xùn)練數(shù)據(jù)上會(huì)生成鏈?zhǔn)剿季S鏈推理,而在 D_expert 中,只要專家軌跡自帶推理過程,作者就保留原有的思維鏈思維文本。 這種聯(lián)合訓(xùn)練方式在示范數(shù)據(jù)帶來的扎實(shí)決策信號(hào)與探索數(shù)據(jù)帶來的對(duì)比性洞見之間實(shí)現(xiàn)了平衡。

從這兩類數(shù)據(jù)中同時(shí)學(xué)習(xí),有助于模型超越機(jī)械模仿,發(fā)展出更具泛化性的決策準(zhǔn)則。例如,在 WebShop 環(huán)境中,專家動(dòng)作是「點(diǎn)擊 15 美元的藍(lán)色襯衫」,而替代動(dòng)作可能是「點(diǎn)擊 30 美元的紅色襯衫」。模型生成的反思可能是:「雖然紅色襯衫符合顏色偏好,但它超出了查詢中指定的 20 美元預(yù)算限制;藍(lán)色襯衫同時(shí)滿足了風(fēng)格要求和預(yù)算約束?!惯@樣的訓(xùn)練教會(huì)模型在決策中優(yōu)先考慮約束條件,這種經(jīng)驗(yàn)可以泛化到其他任務(wù)和情境中。

下圖展示了作者在不同環(huán)境中使用的提示模板。

隱式世界建模與自我反思遵循相同的核心原則:都將智能體自身的動(dòng)作及其導(dǎo)致的未來狀態(tài)轉(zhuǎn)化為可擴(kuò)展的監(jiān)督信號(hào),從而訓(xùn)練出更具泛化能力的語言智能體策略。

實(shí)驗(yàn)結(jié)果

Meta 列出了基準(zhǔn)測(cè)試的結(jié)果,所有數(shù)值均為成功率(%)。Prompt 表示指令調(diào)優(yōu)模型的性能表現(xiàn)。IWM 和 SR 分別代表隱式世界建模與自我反思。

可見,在幾乎所有場(chǎng)景和兩種模型規(guī)模下,早期經(jīng)驗(yàn)的提升效果都優(yōu)于模仿學(xué)習(xí)。隱式世界建模(IWM)在結(jié)構(gòu)化模擬器和交易類網(wǎng)站中表現(xiàn)穩(wěn)定,自我反思(SR)則在需要多步驟推理和約束滿足的任務(wù)中進(jìn)步最大。

分布外評(píng)估結(jié)果(%)。綠色部分顯示了相較于模仿學(xué)習(xí)的改進(jìn)情況。Prompt 表示指令模型的性能表現(xiàn)。IWM 和 SR 分別指隱性世界建模和自我反思。

在分布外(OOD)數(shù)據(jù)集環(huán)境中,盡管所有任務(wù)上的分?jǐn)?shù)均有所下降,但早期經(jīng)驗(yàn)方法始終可以顯著減小差距。這表明將自身訓(xùn)練結(jié)果轉(zhuǎn)化為監(jiān)督信息,能有效幫助策略適應(yīng)演示數(shù)據(jù)未覆蓋的場(chǎng)景。

綜上所述,從早期經(jīng)驗(yàn)開始訓(xùn)練始終能獲得更高的后強(qiáng)化學(xué)習(xí)上限。而且在某些場(chǎng)景中,這種性能差距會(huì)隨著訓(xùn)練而持續(xù)擴(kuò)大。

Meta 認(rèn)為,早期經(jīng)驗(yàn)在人類數(shù)據(jù)時(shí)代與經(jīng)驗(yàn)時(shí)代之間起到了中期訓(xùn)練橋梁的作用。它產(chǎn)生的策略即使沒有獎(jiǎng)勵(lì)也能表現(xiàn)出色,并放大了后續(xù)強(qiáng)化學(xué)習(xí)的益處。在相同的強(qiáng)化學(xué)習(xí)方案下,早期經(jīng)驗(yàn)開始時(shí)就能實(shí)現(xiàn)更高的最終性能。這些結(jié)果表明,一旦 RL 基礎(chǔ)設(shè)施在新環(huán)境中可用,早期的經(jīng)驗(yàn)可以立即解鎖進(jìn)一步的收益,而無需從頭開始重新訓(xùn)練。

更多內(nèi)容請(qǐng)參閱論文原文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-29 16:33:24

2021-06-11 09:28:04

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-06-30 09:08:00

2025-09-28 08:58:55

2025-10-11 04:00:00

2024-09-23 08:30:00

AI模型

2024-11-01 09:39:26

強(qiáng)化學(xué)習(xí)AI

2024-09-18 10:37:00

強(qiáng)化學(xué)習(xí)AI模型

2025-09-09 09:09:00

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2024-08-09 14:51:00

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2025-08-20 09:15:00

2022-06-25 21:38:36

AI模型

2022-07-24 19:24:32

機(jī)器學(xué)習(xí)預(yù)訓(xùn)練模型機(jī)器人

2025-04-18 10:01:41

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)