偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM 與強(qiáng)化學(xué)習(xí)的新范式:Agentic RL 研究綜述

人工智能
Agentic RL 是一種將 LLM 視為可學(xué)習(xí)的策略,通過強(qiáng)化學(xué)習(xí)提升其作為智能體與環(huán)境交互并實(shí)現(xiàn)長期目標(biāo)的能力的框架。除了提示工程 (Prompt Engineering) 和有監(jiān)督微調(diào) (Supervised Fine-Tuning, SFT) 外,強(qiáng)化學(xué)習(xí)在提升智能體性能方面扮演著關(guān)鍵角色。強(qiáng)化學(xué)習(xí)正在用于改進(jìn)智能體的六項(xiàng)核心能力:推理、工具使用、記憶、規(guī)劃、自我改進(jìn)和感知。

引言

本文旨在解讀并整理一篇關(guān)于大模型 (LLM) 領(lǐng)域備受關(guān)注的研究——“基于 LLM 的智能體強(qiáng)化學(xué)習(xí) (Agentic Reinforcement Learning, Agentic RL)概覽” [1]。該綜述引用了500 多篇文獻(xiàn),內(nèi)容豐富,本文將聚焦于其中我個(gè)人認(rèn)為重要的議題。希望這篇總結(jié)能為那些對(duì) Agentic RL 感興趣,或想了解通過強(qiáng)化學(xué)習(xí) (RL) 提升 LLM 能力最新進(jìn)展的讀者提供參考。

三句話總結(jié)

  • Agentic RL 是一種將 LLM 視為可學(xué)習(xí)的策略,通過強(qiáng)化學(xué)習(xí)提升其作為智能體與環(huán)境交互并實(shí)現(xiàn)長期目標(biāo)的能力的框架。
  • 除了提示工程 (Prompt Engineering) 和有監(jiān)督微調(diào) (Supervised Fine-Tuning, SFT) 外,強(qiáng)化學(xué)習(xí)在提升智能體性能方面扮演著關(guān)鍵角色。
  • 強(qiáng)化學(xué)習(xí)正在用于改進(jìn)智能體的六項(xiàng)核心能力:推理、工具使用、記憶、規(guī)劃、自我改進(jìn)和感知。

LLM 與強(qiáng)化學(xué)習(xí)的發(fā)展趨勢

在深入探討 Agentic RL 之前,我們先簡單回顧一下強(qiáng)化學(xué)習(xí)如何應(yīng)用于 LLM。

偏好微調(diào)

自 2022 年 11 月 ChatGPT 發(fā)布以來,LLM 對(duì)話系統(tǒng)迅速普及。LLM 通常通過大規(guī)模網(wǎng)絡(luò)語料庫進(jìn)行預(yù)訓(xùn)練,并通過有監(jiān)督學(xué)習(xí)的指令微調(diào)來學(xué)習(xí)如何響應(yīng)人類指令。然而,僅憑這些,LLM 有時(shí)會(huì)產(chǎn)生不符合人類偏好或倫理不當(dāng)?shù)幕貜?fù),因此研究人員開始利用強(qiáng)化學(xué)習(xí)進(jìn)行偏好微調(diào),使 LLM 的回復(fù)更符合人類喜好。典型的例子是基于人類反饋的強(qiáng)化學(xué)習(xí) (Reinforcement Learning from Human Feedback, RLHF),它通過學(xué)習(xí)人類反饋的獎(jiǎng)勵(lì)模型來為 LLM 的回復(fù)提供獎(jiǎng)勵(lì)并進(jìn)行優(yōu)化。此外,還有使用 AI 反饋的 RLAIF (Reinforcement Learning from AI Feedback),以及諸如 DPO [3] 等不依賴獎(jiǎng)勵(lì)模型或強(qiáng)化學(xué)習(xí)直接學(xué)習(xí)偏好的方法。本文將這些偏好微調(diào)方法統(tǒng)稱為基于偏好的強(qiáng)化微調(diào) (Preference-Based Reinforcement Fine-Tuning, PBRFT),并將其歸類為傳統(tǒng)強(qiáng)化學(xué)習(xí)。

推理能力的提升

早期,強(qiáng)化學(xué)習(xí)主要應(yīng)用于 LLM 的偏好微調(diào)。然而,2024 年 9 月,OpenAI 發(fā)布了首個(gè)推理模型——OpenAI o1。根據(jù)系統(tǒng)卡片 [4] 報(bào)告,o1 通過強(qiáng)化學(xué)習(xí)提升了其深思熟慮并得出答案的能力。盡管具體的實(shí)現(xiàn)方法未公開,但 2025 年 1 月發(fā)布的 DeepSeek-R1 展示了強(qiáng)化學(xué)習(xí)能顯著提高LLM 的推理和泛化能力。它采用了一種不需要價(jià)值評(píng)估模型的 GRPO 強(qiáng)化學(xué)習(xí)算法,并針對(duì)具有確定性答案的問題使用可驗(yàn)證的基于規(guī)則的獎(jiǎng)勵(lì),從而減少了獎(jiǎng)勵(lì)模型并降低了學(xué)習(xí)成本。這標(biāo)志著強(qiáng)化學(xué)習(xí)的應(yīng)用從傳統(tǒng)的“對(duì)齊目標(biāo)”擴(kuò)展到“能力提升目標(biāo)”,最終促成了本文的主題——Agentic RL 的發(fā)展。

工具使用性能的提升

據(jù)報(bào)道,2025 年2 月發(fā)布的 ChatGPT 的 Deep Research(一項(xiàng)利用網(wǎng)絡(luò)搜索生成報(bào)告的功能)也應(yīng)用了強(qiáng)化學(xué)習(xí) [5]。

此外,OpenAI o1 的后續(xù)模型 o3,除了推理能力外,在何時(shí)以及如何使用工具方面,工具使用性能也通過強(qiáng)化學(xué)習(xí)得到了提升 [6]。

綜上所述,強(qiáng)化學(xué)習(xí)在 LLM 上的應(yīng)用已從偏好微調(diào)擴(kuò)展到提升 LLM 的推理能力和作為智能體的工具使用性能?;谶@些歷史背景,本文接下來將介紹 Agentic RL。

何謂 Agentic RL?

首先,引用本論文中對(duì)Agentic RL 的定義:

圖像:Agentic RL 定義圖示圖像:Agentic RL 定義圖示

Agentic RL 指的是一種范式,它將 LLM 視為嵌入在順序決策循環(huán)中的“可學(xué)習(xí)策略”,而非以優(yōu)化單一輸出一致性或基準(zhǔn)性能為目標(biāo)的靜態(tài)條件生成模型。在此框架下,通過強(qiáng)化學(xué)習(xí)賦予模型規(guī)劃、推理、工具使用、記憶保持和自我反思等自主智能體能力,使其能夠在部分可觀測的動(dòng)態(tài)環(huán)境中自發(fā)產(chǎn)生長期的認(rèn)知和對(duì)話行為。

換言之,Agentic RL 可以理解為:將 LLM 視為一個(gè)自主行動(dòng)的智能體,并通過強(qiáng)化學(xué)習(xí)來提升其與環(huán)境交互并實(shí)現(xiàn)長期目標(biāo)的能力。

為了更深入理解,我們來比較一下 Agentic RL 與傳統(tǒng) PBRFT 的區(qū)別。

PBRFT 與 Agentic RL 的比較

由于強(qiáng)化學(xué)習(xí)是基于馬爾可夫決策過程 (Markov Decision Process) 框架進(jìn)行形式化的,因此我們將從這個(gè)角度對(duì)傳統(tǒng)的 PBRFT 和 Agentic RL 進(jìn)行比較。下表總結(jié)了兩者的差異:

圖像:PBRFT 與 Agentic RL 比較表格圖像:PBRFT 與 Agentic RL 比較表格

狀態(tài) (State)

在傳統(tǒng)的 PBRFT中,情節(jié)的初始狀態(tài)  僅由一個(gè)用戶提示構(gòu)成,模型響應(yīng)后情節(jié)即刻結(jié)束 (時(shí)間跨度 )。相比之下,在 Agentic RL 中,智能體在環(huán)境中的每個(gè)時(shí)間步  會(huì)接收到狀態(tài)  的觀測值 。狀態(tài)和觀測會(huì)根據(jù)智能體的行動(dòng)而變化,并隨時(shí)間推移而演變 (時(shí)間跨度 )。

例如,對(duì)于一個(gè)研究智能體,通過網(wǎng)絡(luò)搜索獲得的外部信息就構(gòu)成了觀測。在 Agentic RL 中,狀態(tài)也可以理解為上下文。

行動(dòng)(Action)

傳統(tǒng) PBRFT 的行動(dòng)僅限于文本輸出。然而,在 Agentic RL 中,行動(dòng)空間擴(kuò)展為文本生成 () 和環(huán)境操作 ()兩種。

例如,對(duì)于一個(gè)操作圖形用戶界面 (GUI) 的智能體,文本生成可能對(duì)應(yīng)于向人類或其他智能體發(fā)送消息,或者生成思維鏈 (Chain-of-Thought, CoT);而環(huán)境操作則對(duì)應(yīng)于點(diǎn)擊、滾動(dòng)或填寫表單等 GUI 動(dòng)作。

轉(zhuǎn)移函數(shù) (Transition)

在傳統(tǒng)的 PBRFT 中,由于一次行動(dòng)(文本生成)后情節(jié)即刻結(jié)束,因此不存在狀態(tài)轉(zhuǎn)移。相比之下,在 Agentic RL 中,狀態(tài)會(huì)根據(jù)概率轉(zhuǎn)移函數(shù)  在每個(gè)步驟中變化。例如,當(dāng)智能體采取向人類提問的行動(dòng)時(shí),由于人類的回答不總是確定的,因此下一個(gè)狀態(tài)會(huì)隨機(jī)變化。

獎(jiǎng)勵(lì) (Reward)

傳統(tǒng)的 PBRFT 僅對(duì)一次輸出的好壞給予標(biāo)量獎(jiǎng)勵(lì) ,沒有中間反饋。而 Agentic RL 除了任務(wù)完成時(shí)的獎(jiǎng)勵(lì)外,還可以在中間步驟適時(shí)提供部分獎(jiǎng)勵(lì)。例如,可以對(duì)子目標(biāo)的達(dá)成、工具的正確使用、單元測試的通過、數(shù)學(xué)定理證明的部分進(jìn)展等給予部分獎(jiǎng)勵(lì),從而學(xué)習(xí)包含中間過程的復(fù)雜任務(wù)。獎(jiǎng)勵(lì)不僅可以是人類或 AI 反饋模型(獎(jiǎng)勵(lì)模型)的評(píng)估值,還可以是基于規(guī)則的可驗(yàn)證獎(jiǎng)勵(lì) (Verifiable Rewards) 或模擬器內(nèi)的分?jǐn)?shù)等多種設(shè)計(jì)。### 目標(biāo)函數(shù) (Objective)

傳統(tǒng) PBRFT 的目標(biāo)函數(shù)  是最大化單步的期望獎(jiǎng)勵(lì)。而 Agentic RL 則是最大化折扣累積獎(jiǎng)勵(lì)  的長期優(yōu)化問題。智能體需要學(xué)習(xí)一種考慮未來收益的策略,這要求它選擇短期內(nèi)可能不利但長期有利的行動(dòng)。

這兩種方法都利用強(qiáng)化學(xué)習(xí)來提高 LLM 的性能,但它們?cè)跐撛诩僭O(shè)、任務(wù)結(jié)構(gòu)和決策粒度上存在根本性差異。下圖展示了從 PBRFT 到 Agentic RL 在各個(gè)要素上的范式轉(zhuǎn)變。

圖像:PBRFT 到 Agentic RL 的范式轉(zhuǎn)變圖像:PBRFT 到 Agentic RL 的范式轉(zhuǎn)變

智能體的核心能力與通過強(qiáng)化學(xué)習(xí)進(jìn)行的優(yōu)化

在 Agentic RL 中,關(guān)鍵在于賦予 LLM 智能體何種能力,以及如何通過強(qiáng)化學(xué)習(xí)來優(yōu)化這些能力。本文提到了以下六項(xiàng)核心能力。下面將介紹如何通過強(qiáng)化學(xué)習(xí)來提升這些能力。。

  • 推論 (Reasoning)
  • 工具使用 (Tool Use)
  • 記憶 (Memory)
  • 規(guī)劃 (Planning)
  • 自我改進(jìn) (Self-Improvement)
  • 感知 (Perception)

圖像:智能體核心能力圖示圖像:智能體核心能力圖示

推論(Reasoning)

推論是指從給定信息中邏輯地得出結(jié)論的過程。傳統(tǒng)的 LLM 已經(jīng)通過 Chain-of-Thought (CoT) 提示等技術(shù)具備了推論能力,但最近,利用強(qiáng)化學(xué)習(xí)提升 LLM 推論能力的研究正在取得進(jìn)展。DeepSeek-R1 極大地加速了這一趨勢。它通過采用無需價(jià)值函數(shù)模型的 GRPO 和針對(duì)單一答案任務(wù)的基于規(guī)則獎(jiǎng)勵(lì)的效率優(yōu)化,廣泛展示了強(qiáng)化學(xué)習(xí)增強(qiáng)推論能力的效果。然而,由于其實(shí)現(xiàn)是封閉的,這給可復(fù)現(xiàn)的比較驗(yàn)證和進(jìn)一步研究帶來了障礙。DAPO [7] 的出現(xiàn)解決了這一問題。它在 DeepSeek-R1 一半的學(xué)習(xí)步數(shù)下達(dá)到了相似的性能,最重要的是,DAPO 完全開源了算法、代碼和數(shù)據(jù)集,為推論模型的強(qiáng)化學(xué)習(xí)研究提供了可復(fù)現(xiàn)和擴(kuò)展的環(huán)境,這是一項(xiàng)重要貢獻(xiàn)。

推論模型的研究除了進(jìn)一步提升推論能力外,還需解決“過度思考 (overthinking)”的問題。過度思考會(huì)導(dǎo)致響應(yīng)用戶的時(shí)間過長,甚至可能因?yàn)樯钏际鞈]而反而降低準(zhǔn)確性。

Qwen3 [8] 為了在單一模型中實(shí)現(xiàn)用于復(fù)雜多步推論的“思考模式 (thinking mode)”和用于快速響應(yīng)的“非思考模式 (non-thinking mode)”,結(jié)合了強(qiáng)化學(xué)習(xí) (RL) 和有監(jiān)督微調(diào) (SFT),并進(jìn)行了以下四階段學(xué)習(xí)。有趣的是,通過思考模式的學(xué)習(xí),模型自然地獲得了“思考預(yù)算 (thinking budget)”機(jī)制,用戶可以以 token 數(shù)的形式指定分配給推論的計(jì)算資源。

  • 第一階段:Long-CoT 冷啟動(dòng) (SFT)**:通過 SFT 讓模型學(xué)習(xí)基本的推論模式。
  • 第二階段:推論強(qiáng)化學(xué)習(xí) (Reasoning RL)**:通過 RL 提升在高級(jí)復(fù)雜推論任務(wù)(如數(shù)學(xué)和編程)中的性能。
  • 第三階段:思考模式融合 (SFT)**:通過 SFT學(xué)習(xí)遵循用戶指令,例如 /think 和 /no_think。
  • 第四階段:通用強(qiáng)化學(xué)習(xí) (General RL)**:針對(duì)一般任務(wù)(如指令遵循、格式遵守、智能體能力等),調(diào)整模型響應(yīng)以符合用戶偏好。

圖像:Qwen3 技術(shù)報(bào)告圖示圖像:Qwen3 技術(shù)報(bào)告圖示

Qwen3 Technical Report (https://arxiv.org/abs/2505.09388)

此外,第二階段的推論強(qiáng)化學(xué)習(xí) (Reasoning RL) 為了穩(wěn)定學(xué)習(xí),設(shè)計(jì)了滿足以下條件的數(shù)據(jù)集。特別是第二和第三點(diǎn)給我留下了深刻印象,似乎在推論強(qiáng)化學(xué)習(xí)中難度設(shè)置非常重要。

  • 未在冷啟動(dòng)階段使用。
  • 對(duì)于冷啟動(dòng)模型而言是可學(xué)習(xí)的。
  • 盡可能具有挑戰(zhàn)性。
  • 涵蓋廣泛的子領(lǐng)域。

工具使用 (Tool Use)

工具使用指智能體調(diào)用并活用外部信息源、API、計(jì)算資源等的能力。這包括通過搜索引擎獲取信息、使用計(jì)算器或執(zhí)行代碼、向其他模型發(fā)送查詢等,即與任務(wù)完成所需的所有外部工具進(jìn)行交互。通過強(qiáng)化學(xué)習(xí),智能體能夠從試錯(cuò)中學(xué)會(huì)“何時(shí)、使用哪個(gè)工具、如何使用”。其發(fā)展大致分為三個(gè)階段。

圖像:工具使用發(fā)展圖示圖像:工具使用發(fā)展圖示

ReAct 形式的工具使用

在智能體工具使用的早期階段,人們嘗試了基于提示的方法,如 ReAct [9],以及通過 SFT 模仿學(xué)習(xí)工具使用過程來獲得工具使用能力的 Toolformer [10]。然而,模仿學(xué)習(xí)難以泛化到未曾學(xué)過的未知工具,缺乏靈活性。此外,準(zhǔn)備工具使用歷史數(shù)據(jù)的成本也較高,因此,研究人員開始嘗試使用強(qiáng)化學(xué)習(xí),通過基于結(jié)果的方式學(xué)習(xí)工具使用策略。

工具集成型強(qiáng)化學(xué)習(xí) (Tool-Integrated RL)

在下一個(gè)階段,工具使用被深度整合到 LLM 的認(rèn)知循環(huán)中,并出現(xiàn)了能夠跨越多個(gè)回合使用工具的智能體系統(tǒng)。智能體根據(jù)獎(jiǎng)勵(lì),通過強(qiáng)化學(xué)習(xí)來學(xué)習(xí)在何種情境下調(diào)用何種工具以及如何利用所獲得的信息。

例如,ReTool [11] 沒有像 DeepSeek-R1 那樣對(duì)復(fù)雜的數(shù)學(xué)問題進(jìn)行基于文本的強(qiáng)化學(xué)習(xí),而是通過強(qiáng)化學(xué)習(xí)提升了將 Python 代碼解釋器作為工具使用的能力,從而提高了正確率。這項(xiàng)研究首先通過 SFT 學(xué)習(xí)了基本的工具使用能力,然后通過強(qiáng)化學(xué)習(xí),利用對(duì)最終答案的正確獎(jiǎng)勵(lì)來學(xué)習(xí)工具使用策略。

圖像:ReTool:LLM 中戰(zhàn)略性工具使用的強(qiáng)化學(xué)習(xí)圖示圖像:ReTool:LLM 中戰(zhàn)略性工具使用的強(qiáng)化學(xué)習(xí)圖示

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs (https://arxiv.org/abs/2504.11536)

幾乎同期發(fā)布的 ARTIST [12] 也采用了類似的方法,但 ARTIST 不僅針對(duì)數(shù)學(xué)任務(wù),還在 BFCL v3 和 τ-bench等需要多步函數(shù)調(diào)用的基準(zhǔn)測試中進(jìn)行了評(píng)估。它在這些任務(wù)中通過反復(fù)進(jìn)行推理和工具使用來生成最終答案,并通過強(qiáng)化學(xué)習(xí),利用最終答案的正確獎(jiǎng)勵(lì)以及工具調(diào)用成功獎(jiǎng)勵(lì)來學(xué)習(xí)何時(shí)以及如何更好地使用工具。

圖像:ARTIST:通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn) LLM 的智能體推理和工具集成圖示圖像:ARTIST:通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn) LLM 的智能體推理和工具集成圖示

Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning (https://arxiv.org/abs/2505.01441)

上述利用強(qiáng)化學(xué)習(xí)進(jìn)行工具集成型推理的方法,不僅在研究領(lǐng)域,據(jù)說也已應(yīng)用于 ChatGPT 的 Deep Research 和 OpenAI o3 等商業(yè)系統(tǒng)的微調(diào)中(具體應(yīng)用方法不明)。

長期、多步的工具使用

未來的研究方向包括長期步驟中的工具協(xié)作,以及通過組合多個(gè)工具來解決復(fù)雜任務(wù)。

DeepSeek 發(fā)布的 GRPO 是一種對(duì)數(shù)學(xué)問題等一問一答型任務(wù)有效的強(qiáng)化學(xué)習(xí)算法,但它將一系列行動(dòng)作為一個(gè)整體進(jìn)行評(píng)估,因此在多步任務(wù)中難以判斷每個(gè)步驟的好壞,這是一個(gè)挑戰(zhàn)。

GiGPO [13] 為了解決這個(gè)問題,采用了一種名為 Group-in-Group Policy Optimization (GiGPO) 的方法,它在情節(jié)級(jí)別和步驟級(jí)別兩個(gè)分組結(jié)構(gòu)中計(jì)算優(yōu)勢值 (advantage,即衡量行動(dòng)好壞的標(biāo)準(zhǔn))。

圖像:GiGPO:用于 LLM 智能體訓(xùn)練的組內(nèi)組策略優(yōu)化圖示圖像:GiGPO:用于 LLM 智能體訓(xùn)練的組內(nèi)組策略優(yōu)化圖示

Group-in-Group Policy Optimization for LLM Agent Training (https://arxiv.org/abs/2505.10978)

內(nèi)存(長期與短期記憶)

內(nèi)存是指智能體保持和重用過去獲得的信息和經(jīng)驗(yàn)的能力。由于 LLM 自身的上下文窗口有限,智能體若要長期運(yùn)行,就需要利用外部記憶(如知識(shí)庫或?qū)υ挌v史)。針對(duì)這一挑戰(zhàn),傳統(tǒng)方法包括使用檢索增強(qiáng)生成 (Retrieval-Augmented Generation, RAG) 進(jìn)行搜索和參考,以及通過將對(duì)話歷史全部填入提示來擴(kuò)展上下文窗口。然而,靜態(tài)檢索策略和手動(dòng)設(shè)計(jì)的記憶更新可能無法針對(duì)特定任務(wù)優(yōu)化信息檢索和遺忘。Agentic RL 通過強(qiáng)化學(xué)習(xí)來學(xué)習(xí)記憶哪些信息以及回憶什么信息。

RAG 形式的內(nèi)存

作為通過強(qiáng)化學(xué)習(xí)優(yōu)化 RAG 形式搜索機(jī)制的方法,Tan et al. (2025) [14] 提出的反射式記憶管理 (Reflective Memory Management, RMM) 中的追溯反射 (Retrospective Reflection) 是一個(gè)典型例子。該方法旨在解決傳統(tǒng) RAG 的問題,即“搜索方法是固定的,不會(huì)根據(jù)對(duì)話上下文進(jìn)行優(yōu)化”。其步驟如下:

  1. 重排序器 (Reranker) 會(huì)篩選出由檢索器 (Retriever) 搜索到的記憶候選。
  2. LLM 在利用這些記憶生成響應(yīng)時(shí),會(huì)自我評(píng)估實(shí)際引用了哪些記憶。
  3. 對(duì)被引用的記憶給予正面獎(jiǎng)勵(lì) (+1),對(duì)未被引用的記憶給予負(fù)面獎(jiǎng)勵(lì) (-1),并更新重排序器的參數(shù)。

通過這一系列在線強(qiáng)化學(xué)習(xí) (Online RL) 處理,重排序器能夠通過對(duì)話持續(xù)學(xué)習(xí),更準(zhǔn)確地選擇“LLM 真正需要的記憶”。

圖像:RMM:長期個(gè)性化對(duì)話智能體的反射式記憶管理圖示圖像:RMM:長期個(gè)性化對(duì)話智能體的反射式記憶管理圖示

In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents (https://arxiv.org/abs/2503.08026)

上述例子展示了利用強(qiáng)化學(xué)習(xí)改善 RAG 搜索機(jī)制,而 Memory-R1 [15] 則利用強(qiáng)化學(xué)習(xí)來管理智能體的外部記憶。 Memory-R1 引入了兩個(gè)智能體:“記憶管理器 (Memory Manager)”和“回答智能體 (Answer Agent)”。記憶管理器學(xué)習(xí)“添加 (ADD)”、“更新 (UPDATE)”、“刪除 (DELETE)”和“不操作 (NOOP)”等記憶操作,而回答智能體則從檢索到的記憶中選擇最相關(guān)的記憶來生成答案。這兩個(gè)智能體的學(xué)習(xí)都使用了強(qiáng)化學(xué)習(xí),其中記憶管理器的學(xué)習(xí)方法尤其值得關(guān)注。記憶管理器不會(huì)因其自身的行動(dòng)獲得獎(jiǎng)勵(lì),而是根據(jù)回答智能體能否生成正確答案這一最終結(jié)果獲得獎(jiǎng)勵(lì),從而學(xué)習(xí)最優(yōu)的記憶操作策略。這種自身的行動(dòng)影響其他智能體的行動(dòng),并根據(jù)其結(jié)果進(jìn)行學(xué)習(xí)的方式,是強(qiáng)化學(xué)習(xí)所獨(dú)有的,我認(rèn)為這是一項(xiàng)有趣的研究。

圖像:Memory-R1:通過強(qiáng)化學(xué)習(xí)增強(qiáng)大模型智能體管理和利用記憶的能力圖示圖像:Memory-R1:通過強(qiáng)化學(xué)習(xí)增強(qiáng)大模型智能體管理和利用記憶的能力圖示

Memory-R1: EnhancingLarge Language Model Agents to Manage and Utilize Memories via Reinforcement Learning (https://arxiv.org/abs/2508.19828)

Token 層級(jí)內(nèi)存

這是一種不依賴 RAG 等外部記憶,而是 LLM 自身具備可學(xué)習(xí)記憶的方法。

MemAgent [16] 的目標(biāo)是讓 LLM 能夠處理非常長的文本(數(shù)百萬個(gè) token)。就像人類閱讀長篇文章時(shí)會(huì)做筆記一樣,MemAgent 將文本分塊并按順序閱讀,同時(shí)將必要信息寫入固定長度的“記憶”中以理解內(nèi)容。這種記憶管理(即在有限的上下文長度中記憶什么)通過最終任務(wù)的成功獎(jiǎng)勵(lì)由強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化。MemAgent 的機(jī)制本身很有用,并且實(shí)驗(yàn)結(jié)果表明有強(qiáng)化學(xué)習(xí)的 MemAgent 比沒有強(qiáng)化學(xué)習(xí)的 MemAgent 性能有所提升,這證實(shí)了強(qiáng)化學(xué)習(xí)的有效性。

圖像:MemAgent:通過多對(duì)話 RL 記憶智能體重塑長上下文 LLM 圖示圖像:MemAgent:通過多對(duì)話 RL 記憶智能體重塑長上下文 LLM 圖示

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent (https://arxiv.org/abs/2507.02259)

規(guī)劃 (Planning)

規(guī)劃是指制定一系列行動(dòng)以達(dá)成目標(biāo)的能力。這是人類解決問題的核心技能,對(duì)于 LLM 智能體來說,“何時(shí)、做什么、以何種順序做” 的決策至關(guān)重要。早期的 LLM 智能體并非直接回答給定任務(wù),而是嘗試采用例如 ReAct 等提示方法,讓 LLM 自身逐步生成 CoT 和行動(dòng)候選。然而,這些基于提示技巧或少樣本示例的靜態(tài)規(guī)劃難以適應(yīng)新情況,也難以通過試錯(cuò)來改進(jìn)策略。強(qiáng)化學(xué)習(xí)為此問題提供了一種途徑,即通過經(jīng)驗(yàn)學(xué)習(xí)規(guī)劃策略。

RAP [17] 通過蒙特卡洛樹搜索 (Monte Carlo Tree Search, MCTS) 實(shí)現(xiàn)了超越 CoT 的規(guī)劃能力。傳統(tǒng)的 CoT 生成線性思維過程,而 RAP 將 LLM 視作世界模型,利用MCTS 生成基于樹的思維過程(狀態(tài))。通過預(yù)先探索選擇獎(jiǎng)勵(lì)最高的推理路徑,RAP 實(shí)現(xiàn)了更魯棒的規(guī)劃,盡管推理時(shí)間有所增加。每個(gè)推理步驟的獎(jiǎng)勵(lì)(評(píng)估值)采用了行動(dòng)似然度、狀態(tài)置信度、自我評(píng)估以及與目標(biāo)的接近程度等多個(gè)指標(biāo)。盡管這不涉及微調(diào),因此沒有使用強(qiáng)化學(xué)習(xí),但仍值得關(guān)注。

圖像:RAP:語言模型推理即世界模型規(guī)劃圖示圖像:RAP:語言模型推理即世界模型規(guī)劃圖示

Reasoningwith Language Model is Planning with World Model (https://arxiv.org/abs/2305.14992)---

自我改進(jìn) / 反思 (Self-Improvement / Reflection)

自我改進(jìn)是指智能體回顧自身輸出或行動(dòng),糾正錯(cuò)誤并優(yōu)化策略的能力。LLM 通過提供自我反思和自我驗(yàn)證的提示也可以提高回答準(zhǔn)確率,但 Agentic RL 將其集成到智能體的內(nèi)部循環(huán)中,并通過學(xué)習(xí)進(jìn)行優(yōu)化。

KnownSelf [18] 使得智能體在執(zhí)行任務(wù)時(shí),能夠自主回顧當(dāng)前情況,并根據(jù)自身狀態(tài),如“這個(gè)任務(wù)很簡單,可以快速完成 (Fastthinking)”、“有點(diǎn)難,先停下來重新思考 (Slow thinking)”、“我的能力無法解決,需要利用外部知識(shí) (Knowledgeable thinking)”,自適應(yīng)地切換思考過程和知識(shí)利用方式。

具體來說,它首先通過 SFT 學(xué)習(xí)將智能體生成的行動(dòng)分類到三種思考模式中,然后通過 DPO (Direct Preference Optimization) 方法,使用兩組響應(yīng)對(duì)數(shù)據(jù)集進(jìn)行偏好微調(diào)。通過這個(gè)過程,KnownSelf 在 ALFWorld (智能體在家庭環(huán)境中操作物體) 任務(wù)和 WebShop (根據(jù)指令在網(wǎng)站上購物) 任務(wù)中都顯示出性能提升。

圖像:KnownSelf:智能體的知識(shí)自我意識(shí)圖示圖像:KnownSelf:智能體的知識(shí)自我意識(shí)圖示

Agentic Knowledgeable Self-awareness (https://arxiv.org/abs/2504.03553)

雖然方向略有不同于自我反思,但無需人工干預(yù)即可讓智能體自主學(xué)習(xí)的自我改進(jìn)研究也在進(jìn)展。

Absolute Zero [19] 是一個(gè)完全不依賴人類創(chuàng)建的任務(wù)或標(biāo)簽,LLM 自主進(jìn)行自我改進(jìn)的框架。在這個(gè)框架中,LLM 扮演兩個(gè)角色:提議者 (Proposer) 負(fù)責(zé)提出問題,解決者 (Solver) 負(fù)責(zé)解決問題。解決者只有在解決提議者生成的問題并獲得正確答案時(shí)才能獲得獎(jiǎng)勵(lì) 1。而提議者則在提出使解決者獎(jiǎng)勵(lì)變小的問題時(shí)獲得高獎(jiǎng)勵(lì),即 。然而,如果問題過難或過易,則不利于自我改進(jìn),因此當(dāng)  等于 0 或 1 時(shí),提議者的獎(jiǎng)勵(lì)也為 0。這讓我聯(lián)想到了 GAN (Generative Adversarial Network) 的結(jié)構(gòu)。

圖像:Absolute Zero:零數(shù)據(jù)增強(qiáng)自博弈推理圖示圖像:Absolute Zero:零數(shù)據(jù)增強(qiáng)自博弈推理圖示

Absolute Zero: ReinforcedSelf-play Reasoning with Zero Data (https://arxiv.org/abs/2505.03335)

TTRL [20] 旨在通過在推理時(shí)(測試時(shí))利用自我演化來提高性能,而無需正解標(biāo)簽數(shù)據(jù)。具體來說,LLM 自身會(huì)生成多個(gè)回答,然后多數(shù)投票選擇得票最高的預(yù)測作為正解,從而創(chuàng)建偽正解數(shù)據(jù)。TTRL 將偽正解標(biāo)簽與模型預(yù)測是否一致作為獎(jiǎng)勵(lì),并通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,從而在無需人工標(biāo)注的情況下提升模型的推理能力。僅從這一點(diǎn)來看,這似乎只是在微調(diào)模型,使其更容易選擇高票回答(即使概率分布更集中)。但實(shí)驗(yàn)表明,經(jīng)過 TTRL 在特定數(shù)學(xué)任務(wù)上訓(xùn)練的模型,在其他不同的數(shù)學(xué)任務(wù)上也表現(xiàn)出性能提升,證實(shí)了其泛化能力的提高。

圖片圖片

TTRL: Test-Time Reinforcement Learning (https://arxiv.org/abs/2504.16084)

感知 (Perception)

感知是指智能體理解和識(shí)別文本以外模態(tài)(圖像、音頻、真實(shí)世界傳感器數(shù)據(jù)等)的能力。受 LLM 推理增強(qiáng)強(qiáng)化學(xué)習(xí)成功的啟發(fā),研究人員正在努力將這些成果應(yīng)用到多模態(tài)學(xué)習(xí)中。

Vision-R1 [21] 旨在利用多模態(tài)大模型 (Multimodal Large Language Model, MLLM) 同時(shí)理解圖像和文本,并在數(shù)學(xué)幾何問題等復(fù)雜視覺推理任務(wù)中復(fù)現(xiàn)類似人類的深度思考過程。它采用了類似于 DeepSeek-R1 的方法,利用強(qiáng)化學(xué)習(xí)提升數(shù)學(xué)問題的推理能力,但其特點(diǎn)是結(jié)合了“DeepSeek-R1 的模仿學(xué)習(xí)”和“逐步思考抑制訓(xùn)練”兩個(gè)階段的學(xué)習(xí)。

  • 第一階段:模態(tài)橋接 (Modality Bridging) 和模仿學(xué)習(xí):通過 MLLM 將視覺信息轉(zhuǎn)換為詳細(xì)的文本描述,然后將這些文本傳遞給 DeepSeek-R1,使其輸出詳細(xì)的 CoT。接著,將 DeepSeek-R1 的 CoT 作為正解標(biāo)簽,對(duì) MLLM 進(jìn)行模仿學(xué)習(xí),使其能夠穩(wěn)定地生成基于視覺信息的 CoT。
  • 第二階段:逐步思考抑制訓(xùn)練:由于在第一階段結(jié)束后,CoT 越長性能越差,因此在第二階段中,通過限制思考長度并逐步增加,同時(shí)利用強(qiáng)化學(xué)習(xí)提升包括視覺信息在內(nèi)的推理能力,進(jìn)行逐步思考抑制訓(xùn)練。

圖像:Vision-R1:激勵(lì)多模態(tài)大模型推理能力圖示圖像:Vision-R1:激勵(lì)多模態(tài)大模型推理能力圖示

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models (https://arxiv.org/abs/2503.06749)

OPENTHINKIMG [22] 利用強(qiáng)化學(xué)習(xí)來學(xué)習(xí)如何使用視覺工具解決視覺問題。

具體來說,VLM接收?qǐng)D像和文本作為輸入,并通過操作諸如讀取圖表數(shù)值的 OCR 工具、放大圖像局部區(qū)域的縮放工具等視覺工具,來解決視覺問題。模型在環(huán)境中自由使用工具,將工具的使用結(jié)果作為視覺信息輸入,并通過最大化最終任務(wù)的對(duì)錯(cuò)獎(jiǎng)勵(lì)來更新策略。其中,將工具的視覺輸出直接作為模型下一個(gè)判斷依據(jù)這一點(diǎn)非常重要,這使得模型能夠理解自身行動(dòng)在視覺上會(huì)產(chǎn)生何種結(jié)果,從而做出更明智的工具選擇。

圖像:OPENTHINKIMG:通過視覺工具強(qiáng)化學(xué)習(xí)學(xué)習(xí)思考圖像圖示圖像:OPENTHINKIMG:通過視覺工具強(qiáng)化學(xué)習(xí)學(xué)習(xí)思考圖像圖示

OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning (https://arxiv.org/abs/2505.08617)

Visual Planning [23] 旨在讓模型像人類一樣在腦海中構(gòu)思地圖或模擬家具擺放,通過圖像而非語言來制定任務(wù)計(jì)劃。模型從當(dāng)前的圖像狀態(tài)生成多個(gè)下一圖像狀態(tài)的候選,并根據(jù)前后狀態(tài)的差異通過規(guī)則推斷出行動(dòng)(如果是導(dǎo)航任務(wù),則上下左右移動(dòng)方向?qū)儆谛袆?dòng))。通過重復(fù)這一步驟,并在接近目標(biāo)時(shí)給予獎(jiǎng)勵(lì),模型能夠以圖像為基礎(chǔ)學(xué)習(xí)達(dá)成目標(biāo)的行動(dòng)計(jì)劃。

圖像:Visual Planning:讓我們只用圖像思考圖示圖像:Visual Planning:讓我們只用圖像思考圖示

Visual Planning: Let’s Think Only with Images (https://arxiv.org/abs/2505.11409)

主要應(yīng)用領(lǐng)域與代表性方法

Agentic RL 已開始應(yīng)用于各種任務(wù)領(lǐng)域,本文列舉了以下應(yīng)用領(lǐng)域。本節(jié)將介紹強(qiáng)化學(xué)習(xí)在各個(gè)智能體領(lǐng)域中的應(yīng)用方式,并提供代表性的方法和研究實(shí)例。

  • 搜索與調(diào)研智能體 (Search & Research Agents)
  • 代碼智能體 (Code Agents)
  • 數(shù)學(xué)智能體 (Math Agents)
  • GUI 智能體 (GUI Agents)
  • 多智能體系統(tǒng) (Multi-Agents)
  • 其他 (視覺、具身智能體) (Vision, Embodied Agents)

圖像:Agentic RL 應(yīng)用領(lǐng)域圖示圖像:Agentic RL 應(yīng)用領(lǐng)域圖示

搜索與調(diào)研智能體

搜索與調(diào)研智能體旨在利用外部知識(shí)庫和網(wǎng)絡(luò)搜索引擎,為用戶的問題或調(diào)研請(qǐng)求提供準(zhǔn)確而全面的答案。

RAG (Retrieval-Augmented Generation) 廣泛用于賦予 LLM 搜索能力,但對(duì)于需要交替進(jìn)行搜索和推理的復(fù)雜多輪任務(wù),不進(jìn)行學(xué)習(xí)的基于提示的方法存在局限性。因此,利用強(qiáng)化學(xué)習(xí)端到端地直接優(yōu)化查詢生成、搜索和推理的研究正在取得進(jìn)展。

其中一項(xiàng)主要研究是,在 RAG 基礎(chǔ)上,利用網(wǎng)絡(luò)搜索 API,通過強(qiáng)化學(xué)習(xí)優(yōu)化查詢生成和多階段推理的方法。

search-R1 [24] 引入了 <think>(思考)、<search>(搜索查詢)、<information>(搜索結(jié)果)和 <answer>(回答)這四個(gè)特殊 token。它通過 PPO 或 GRPO 等強(qiáng)化學(xué)習(xí)算法,學(xué)習(xí)多次迭代思考和搜索,最終給出答案的過程。它將思考、搜索查詢和回答分別視為行動(dòng),并將最終答案是否正確作為獎(jiǎng)勵(lì),從而提升了搜索和推理兩種能力。此外,它通過避免對(duì) <information>(搜索結(jié)果)進(jìn)行損失計(jì)算,從而避免了學(xué)習(xí)搜索結(jié)果本身,這有助于學(xué)習(xí)的穩(wěn)定性和性能提升。

圖像:search-R1:通過強(qiáng)化學(xué)習(xí)訓(xùn)練 LLM 進(jìn)行推理并利用搜索引擎圖示圖像:search-R1:通過強(qiáng)化學(xué)習(xí)訓(xùn)練 LLM 進(jìn)行推理并利用搜索引擎圖示

Search-R1: Training LLMs to Reason and Leverage SearchEngines with Reinforcement Learning (https://arxiv.org/abs/2503.09516)

search-R1 的一個(gè)挑戰(zhàn)是,當(dāng)搜索輪數(shù)增加時(shí),單次學(xué)習(xí)所需時(shí)間會(huì)大幅增加,從學(xué)習(xí)效率的角度來看,需要將智能體的搜索輪數(shù)限制在 10 次以內(nèi)。

ASearcher [25] 是 search-R1 的進(jìn)一步發(fā)展。它通過構(gòu)建一個(gè)將智能體行動(dòng)與模型學(xué)習(xí)完全分離的異步學(xué)習(xí)系統(tǒng),從而在并行處理多個(gè)搜索任務(wù)時(shí)提高了學(xué)習(xí)效率。這使得智能體能夠?qū)W習(xí)長達(dá) 128 輪的長時(shí)間探索。

圖像:ASearcher:超越十輪:通過大規(guī)模異步強(qiáng)化學(xué)習(xí)解鎖長時(shí)序智能體搜索圖示圖像:ASearcher:超越十輪:通過大規(guī)模異步強(qiáng)化學(xué)習(xí)解鎖長時(shí)序智能體搜索圖示

Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL (https://arxiv.org/abs/2508.07976)

上述直接利用外部網(wǎng)絡(luò)搜索 API 的方法存在兩個(gè)問題:一是網(wǎng)絡(luò)文檔質(zhì)量可能會(huì)成為噪聲,導(dǎo)致學(xué)習(xí)不穩(wěn)定;二是學(xué)習(xí)所需的 API 調(diào)用成本高昂。

ZeroSearch [26] 在有效利用外部搜索引擎的能力學(xué)習(xí)方面與上述方法相似,但其最大特點(diǎn)在于,在學(xué)習(xí)過程中完全不使用實(shí)際的搜索引擎(如 Google)。將 search-R1 和 ZeroSearch 的圖進(jìn)行比較,會(huì)發(fā)現(xiàn)在執(zhí)行智能體動(dòng)作的 Rollout 模塊中,搜索引擎被替換為 SimulationLLM。通過這種方式,它利用另一個(gè) LLM 模擬搜索引擎的行為,并在模擬環(huán)境中學(xué)習(xí) LLM 的搜索和推理能力。結(jié)果表明,ZeroSearch 能夠在遠(yuǎn)低于實(shí)際搜索引擎學(xué)習(xí)模型的成本下,實(shí)現(xiàn)同等甚至更優(yōu)的性能。LLM 能否模擬搜索引擎這一點(diǎn)讓人有些疑問,但它能成功運(yùn)作令人覺得不可思議,我認(rèn)為這是一項(xiàng)有趣的研究。

圖像:ZeroSearch:在不搜索的情況下激勵(lì) LLM 的搜索能力圖示圖像:ZeroSearch:在不搜索的情況下激勵(lì) LLM 的搜索能力圖示

ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching (https://arxiv.org/abs/2505.04588)

代碼智能體

代碼智能體是指專門用于編碼任務(wù)的智能體,如 OpenAI的 Codex 和 Anthropic 的 Claude Code。本文將代碼智能體任務(wù)大致分為三類:單輪代碼生成、多輪代碼改進(jìn)和軟件工程自動(dòng)化。本文將重點(diǎn)關(guān)注能夠自主進(jìn)行軟件工程的更具挑戰(zhàn)性的智能體研究。

軟件工程是一個(gè)涉及讀取、修改、添加代碼,以及利用外部工具(編譯器、Linter、版本控制、Shell)和通過測試驗(yàn)證結(jié)果等復(fù)雜且長期分步的任務(wù)。在這種場景下,智能體能力至關(guān)重要,因此利用強(qiáng)化學(xué)習(xí)提升智能體能力的研究正在取得進(jìn)展。

SWE-RL [27] 構(gòu)建了一個(gè)強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,它從 GitHub 的 460 萬個(gè)公開倉庫中,按時(shí)間順序收集了 issue、pull request 和 review comments。

這項(xiàng)研究的關(guān)鍵在于,它無需復(fù)雜的模擬器或執(zhí)行環(huán)境,而是通過 Python 的 difflib.SequenceMatcher 類(用于計(jì)算字符串差異的相似度)來計(jì)算智能體生成的修正代碼  與人類編寫的正確代碼  之間的獎(jiǎng)勵(lì)。這使得對(duì)海量數(shù)據(jù)進(jìn)行輕量級(jí)且可擴(kuò)展的強(qiáng)化學(xué)習(xí)成為可能。

此外,SWE-RL 還表明,盡管它僅在軟件錯(cuò)誤修復(fù)這一特定任務(wù)上進(jìn)行了訓(xùn)練,其在訓(xùn)練過程中獲得的推理能力卻能提升在數(shù)學(xué)、通用編碼和語言理解等完全不同領(lǐng)域的任務(wù)的性能。

圖像:SWE-RL:通過開放軟件進(jìn)化的強(qiáng)化學(xué)習(xí)推進(jìn) LLM 推理圖示圖像:SWE-RL:通過開放軟件進(jìn)化的強(qiáng)化學(xué)習(xí)推進(jìn) LLM 推理圖示

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution (https://arxiv.org/abs/2502.18449)

SWE-RL 不需要代碼執(zhí)行環(huán)境,而另一些研究則利用實(shí)際的代碼執(zhí)行環(huán)境進(jìn)行強(qiáng)化學(xué)習(xí)。

Qwen3 Coder [28] 通過搭建代碼執(zhí)行環(huán)境,利用測試結(jié)果和錯(cuò)誤信息等可驗(yàn)證的獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí),以提升編碼能力。在代碼執(zhí)行環(huán)境方面,它利用阿里云構(gòu)建了可并行執(zhí)行 2 萬個(gè)獨(dú)立環(huán)境的系統(tǒng),從而實(shí)現(xiàn)了大規(guī)模的強(qiáng)化學(xué)習(xí)。最終,它在處理軟件工程任務(wù)的 SWE-Bench Verified 基準(zhǔn)測試中,達(dá)到了開源模型中的最高水平性能。

圖像:Qwen3-Coder:世界中的智能體編碼圖示圖像:Qwen3-Coder:世界中的智能體編碼圖示

Qwen3-Coder: Agentic Coding in the World (https://qwen.ai/blog?id=d927d7d2e59d059045ce758ded34f98c0186d2d7&from=research.research-list)

數(shù)學(xué)智能體

數(shù)學(xué)推理因其符號(hào)抽象性、邏輯一致性以及需要長期演繹的性質(zhì),被認(rèn)為是評(píng)估 LLM 智能體推理能力的關(guān)鍵標(biāo)準(zhǔn)。在智能體核心能力部分介紹的許多研究中,也都關(guān)注了數(shù)學(xué)任務(wù)的性能。

rStar2-Agent [29] 針對(duì)困難數(shù)學(xué)任務(wù),通過純粹的 Agentic RL 方法,在沒有推理數(shù)據(jù) SFT 的情況下,以 14B 參數(shù)實(shí)現(xiàn)了超越 671B 的 DeepSeek-R1-Zero 的性能和學(xué)習(xí)效率。這項(xiàng)研究的特點(diǎn)在于,它像工具使用章節(jié)介紹的 ReTool 一樣,利用 Python 執(zhí)行環(huán)境作為工具進(jìn)行工具集成型推理,并引入了一種名為 “Resample on Correct (RoC)” 的技術(shù),即在多次 Rollout 生成的候選答案中,優(yōu)先采樣沒有過多工具調(diào)用錯(cuò)誤的優(yōu)質(zhì)成功案例進(jìn)行學(xué)習(xí)。

圖像:rStar2-Agent:智能體推理技術(shù)報(bào)告圖示圖像:rStar2-Agent:智能體推理技術(shù)報(bào)告圖示

rStar2-Agent: Agentic Reasoning Technical Report (https://arxiv.org/abs/2508.20722)

1Shot-RLVR [30] 證明了僅使用一個(gè)訓(xùn)練示例的強(qiáng)化學(xué)習(xí)在提升數(shù)學(xué)推理能力方面是有效的。具體而言,它對(duì)基礎(chǔ)模型 Qwen2.5-Math-1.5B 應(yīng)用一個(gè)訓(xùn)練示例,就在 MATH500 基準(zhǔn)測試中將性能從 36.0% 大幅提升到 73.6%,并在六個(gè)主要數(shù)學(xué)推理基準(zhǔn)測試中平均從 17.6% 提升到 35.7%。這表明,即使使用少量數(shù)據(jù),也能有效地激活 LLM 的推理能力,達(dá)到甚至超越使用數(shù)千個(gè)示例數(shù)據(jù)集時(shí)的性能。

圖像:1Shot-RLVR:僅用一個(gè)訓(xùn)練示例對(duì)大模型進(jìn)行推理強(qiáng)化學(xué)習(xí)圖示圖像:1Shot-RLVR:僅用一個(gè)訓(xùn)練示例對(duì)大模型進(jìn)行推理強(qiáng)化學(xué)習(xí)圖示

Reinforcement Learning for Reasoning in Large Language Models with One Training Example (https://arxiv.org/abs/2504.20571)

GUI 智能體

GUI 智能體是指能夠自主執(zhí)行網(wǎng)頁瀏覽、應(yīng)用程序操作等任務(wù)的智能體。研究早期,人們提出了利用視覺語言模型 (VLM) 輸入屏幕截圖和提示,進(jìn)行單步 GUI 操作的方法。隨后,又嘗試了基于人類 GUI 操作記錄,利用屏幕(狀態(tài))和 GUI 操作(行動(dòng))的軌跡數(shù)據(jù)進(jìn)行 GUI 操作模仿學(xué)習(xí)的方法。然而,模仿學(xué)習(xí)面臨著人類 GUI 操作記錄數(shù)據(jù)集匱乏的挑戰(zhàn)。在這種背景下,利用強(qiáng)化學(xué)習(xí)進(jìn)行基于結(jié)果的學(xué)習(xí)研究正在取得進(jìn)展。

UI-TARS [31] 實(shí)現(xiàn)了高度通用性,能夠像人類一樣僅憑GUI 屏幕截圖信息,統(tǒng)一操作 OS、Web、移動(dòng)應(yīng)用等各種 GUI 環(huán)境。它讓智能體在眾多虛擬機(jī)上實(shí)際運(yùn)行,自動(dòng)收集新的操作數(shù)據(jù)(軌跡),并從中識(shí)別失敗的操作和修正后的正確操作對(duì)。然后,利用 DPO (Direct Preference Optimization) 方法,對(duì)模型進(jìn)行調(diào)優(yōu),使其能夠“從失敗中學(xué)習(xí)”。

圖像:UI-TARS:開創(chuàng)性的自動(dòng)化 GUI 交互與原生智能體圖示圖像:UI-TARS:開創(chuàng)性的自動(dòng)化 GUI 交互與原生智能體圖示

UI-TARS: Pioneering Automated GUI Interaction with Native Agents (https://arxiv.org/abs/2501.12326)

具身智能體 (Embodied Agents)

具身智能體是指像機(jī)器人一樣,在物理環(huán)境中根據(jù)多模態(tài)信息執(zhí)行物理行動(dòng)的智能體。通常采用的方法是,通過視覺語言行動(dòng) (Vision-Language Action, VLA) 模型進(jìn)行模仿學(xué)習(xí)預(yù)訓(xùn)練,然后將預(yù)訓(xùn)練模型集成到交互式智能體中,使其與環(huán)境互動(dòng),并通過強(qiáng)化學(xué)習(xí)提高模型在各種真實(shí)世界環(huán)境中的泛化能力。VLA框架中的強(qiáng)化學(xué)習(xí)主要分為兩類:注重復(fù)雜環(huán)境中空間推理和移動(dòng)的導(dǎo)航智能體,以及專注于在多樣動(dòng)態(tài)約束下精確控制物理對(duì)象的操作智能體。

  • 導(dǎo)航智能體

對(duì)于導(dǎo)航智能體而言,規(guī)劃是其核心能力。強(qiáng)化學(xué)習(xí)被用來增強(qiáng) VLA 模型預(yù)測和優(yōu)化未來行動(dòng)序列的能力。通常的策略是,對(duì) VLA 模型進(jìn)行訓(xùn)練,使其像預(yù)訓(xùn)練模型一樣,對(duì)每一步移動(dòng)行動(dòng)給予獎(jiǎng)勵(lì)。VLN-R1 [32] 通過 SFT 和強(qiáng)化學(xué)習(xí),訓(xùn)練一個(gè)以 RGB 視頻圖像為輸入,輸出前進(jìn)、旋轉(zhuǎn)等離散動(dòng)作的模型。該模型一次輸出 6 步的行動(dòng)軌跡,并采用一種獨(dú)特的獎(jiǎng)勵(lì)設(shè)計(jì),稱為時(shí)間衰減獎(jiǎng)勵(lì) (time decay reward),即對(duì)較近期的行動(dòng)給予更高的獎(jiǎng)勵(lì)。

圖像:VLN-R1:通過強(qiáng)化微調(diào)進(jìn)行視覺語言導(dǎo)航圖示圖像:VLN-R1:通過強(qiáng)化微調(diào)進(jìn)行視覺語言導(dǎo)航圖示

  • VLN-R1: Vision-LanguageNavigation via Reinforcement Fine-Tuning (https://arxiv.org/abs/2506.17221)
  • 操作智能體

操作智能體主要用于涉及機(jī)器人手臂的任務(wù)。強(qiáng)化學(xué)習(xí)被用來增強(qiáng) VLA 模型的指令遵循能力和軌跡預(yù)測能力,特別是為了提高模型跨任務(wù)和環(huán)境的泛化性能。VLA-RL [33] 將機(jī)器人的一系列動(dòng)作生成重新構(gòu)想為人機(jī)對(duì)話。在每個(gè)時(shí)間步,機(jī)器人接收“當(dāng)前視覺信息(圖像)”和“人類指令(文本)”作為輸入,并以語言 token 形式輸出接下來要執(zhí)行的行動(dòng)。這使得強(qiáng)大的語言模型結(jié)構(gòu)能夠直接應(yīng)用于強(qiáng)化學(xué)習(xí)。

圖像:VLA-RL:通過可擴(kuò)展強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)精湛且通用的機(jī)器人操作圖示圖像:VLA-RL:通過可擴(kuò)展強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)精湛且通用的機(jī)器人操作圖示

  • VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning (https://arxiv.org/abs/2505.18719)

結(jié)語

Agentic RL 在 2025 年以來發(fā)展迅速,本文介紹的許多研究也都是在 2025 年發(fā)表的。我非常期待 Agentic RL 未來如何在進(jìn)一步提升 AI 智能體性能方面發(fā)揮作用。雖然篇幅不短,但感謝各位閱讀到最后。

引用

  1. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey??
  2. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning??
  3. Direct Preference Optimization: Your LanguageModel is Secretly a Reward Model??
  4. OpenAI o1 System Card??05. Introducing deep research??
  5. OpenAI o3 and o4-mini System Card??
  6. DAPO:An Open-Source LLM Reinforcement Learning System at Scale??
  7. Qwen3 Technical Report??09.ReAct: Synergizing Reasoning and Acting in Language Models??
  8. Toolformer: Language Models Can Teach Themselves to Use Tools??
  9. ReTool: Reinforcement Learning for Strategic Tool Use in LLMs??
  10. Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning??
  11. Group-in-Group Policy Optimization for LLM Agent Training??
  12. In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents??
  13. Memory-R1: Enhancing Large Language ModelAgents to Manage and Utilize Memories via Reinforcement Learning??
  14. MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent??
  15. Reasoning with Language Model is Planning with World Model??
  16. Agentic Knowledgeable Self-awareness??
  17. Absolute Zero: Reinforced Self-play Reasoning with Zero Data??
  18. TTRL: Test-Time Reinforcement Learning??
  19. Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models??
  20. OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning??
  21. Visual Planning:Let’s Think Only with Images??
  22. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning??
  23. Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL??
  24. ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching??
  25. SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution??
  26. Qwen3-Coder: Agentic Coding in the World??
  27. rStar2-Agent: Agentic Reasoning Technical Report??
  28. Reinforcement Learning for Reasoning in Large Language Models with One Training Example??
  29. UI-TARS: Pioneering Automated GUI Interaction with Native Agents??
  30. VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning??
  31. VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning??
責(zé)任編輯:武曉燕 來源: ChallengeHub
相關(guān)推薦

2025-09-09 09:09:00

2025-09-02 10:23:24

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2025-06-30 09:08:00

2024-10-12 17:14:12

2025-03-28 10:16:15

2025-06-30 02:25:00

2025-08-08 09:15:00

2025-05-12 08:24:01

2025-05-28 02:25:00

2021-10-11 09:51:38

谷歌人工智能強(qiáng)化學(xué)習(xí)

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2020-12-23 06:07:54

人工智能AI深度學(xué)習(xí)

2025-03-21 13:00:54

2025-06-09 09:32:35

2024-03-19 00:15:00

機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2025-10-21 09:06:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)