偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ARPO:智能體強化策略優(yōu)化,讓Agent在關(guān)鍵時刻多探索一步

人工智能 新聞
我們提出了全新的 Agentic Reinforced Policy Optimization(ARPO)方法,專為多輪交互型 LLM 智能體設(shè)計。

本文的第一作者是董冠霆,目前就讀于中國人民大學(xué)高瓴人工智能學(xué)院,博士一年級,導(dǎo)師為竇志成教授和文繼榮教授。他的研究方向主要包括大語言模型推理,多智能體強化學(xué)習(xí)、深度搜索智能體等。在國際頂級會議如 ICLR、ACL、AAAI 等發(fā)表了多篇論文,并在快手大模型應(yīng)用組、阿里通義千問組等大模型團(tuán)隊進(jìn)行實習(xí)。其代表性工作包括 AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。本文的通信作者為中國人民大學(xué)的竇志成教授與快手科技的周國睿。

在可驗證強化學(xué)習(xí)(RLVR)的推動下,大語言模型在單輪推理任務(wù)中已展現(xiàn)出不俗表現(xiàn)。然而在真實推理場景中,LLM 往往需要結(jié)合外部工具進(jìn)行多輪交互,現(xiàn)有 RL 算法在平衡模型的長程推理與多輪工具交互能力方面仍存在不足。

為此,我們提出了全新的 Agentic Reinforced Policy Optimization(ARPO)方法,專為多輪交互型 LLM 智能體設(shè)計。

ARPO 首次發(fā)現(xiàn)模型在調(diào)用外部工具后會推理不確定性(高熵)顯著增加的現(xiàn)象,并基于此引入了熵驅(qū)動的自適應(yīng) rollout 策略,增強對高熵工具調(diào)用步驟的探索。同時,通過引入優(yōu)勢歸因估計,模型能夠更有效地理解工具交互中各步驟的價值差異。在 13 個計算推理、知識推理和深度搜索等高難基準(zhǔn)上,ARPO 在僅使用一半工具調(diào)用預(yù)算的情況下,仍顯著優(yōu)于現(xiàn)有樣本級 RL 方法,為多輪推理智能體的高效訓(xùn)練提供了可擴展的新方案。

圖片

  • 論文標(biāo)題:Agentic Reinforced Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2507.19849
  • 代碼倉庫:https://github.com/dongguanting/ARPO
  • 開源數(shù)據(jù) & 模型:https://huggingface.co/collections/dongguanting/arpo-688229ff8a6143fe5b4ad8ae

目前不僅在 X 上收獲了超高的關(guān)注度,同時榮登 Huggingface Paper 日榜,周榜第一名??!

圖片

研究動機:抓住工具調(diào)用后的高熵時刻

近年來,可驗證獎勵的大規(guī)模強化學(xué)習(xí)在單輪推理任務(wù)中充分釋放了前沿大語言模型的潛力,表現(xiàn)亮眼。然而,在開放式推理場景下,LLM 不僅需要具備長程規(guī)劃與自適應(yīng)決策能力,還需與外部工具進(jìn)行動態(tài)的多輪交互。這催生了 Agentic RL 這一新范式,將訓(xùn)練從靜態(tài)求解轉(zhuǎn)向動態(tài)的智能體 - 環(huán)境推理?,F(xiàn)有 Agentic RL 方法多采用樣本級算法(如 GRPO、DAPO),在固定特殊 token 下獨立采樣完整的工具調(diào)用軌跡,并基于最終輸出獎勵模型。但這種方式常因獎勵稀疏、工具過用等問題導(dǎo)致多輪交互價值被低估,忽視了工具調(diào)用過程中每一步的細(xì)粒度行為探索。

通過對 LLM 在深度搜索任務(wù)中的 token 熵分布進(jìn)行分析,研究發(fā)現(xiàn)模型在每次工具調(diào)用后的初始生成階段熵值顯著升高,說明外部工具反饋會引入高不確定性,而這正是現(xiàn)有方法未充分利用的探索契機。

圖片圖 1:左圖展示大模型在調(diào)用工具后的高熵現(xiàn)象,右圖對比 ARPO 與基線性能

ARPO 框架:訓(xùn)練模型自主實現(xiàn)推理時的多工具調(diào)用

針對上述發(fā)現(xiàn),我們提出 Agentic Reinforced Policy Optimization(ARPO),核心思想是在高熵工具調(diào)用步驟中,自適應(yīng)地分支采樣,探索更多多樣化的推理路徑。具體來說,我們的貢獻(xiàn)如下:

  • 我們量化了 LLM 在 Agentic 推理過程中的 token 熵變化,揭示了樣本級 RL 算法在對齊 LLM 智能體方面的固有限制。
  • 我們提出了 ARPO 算法,引入基于熵的自適應(yīng) rollout 機制,在保持全局采樣的同時,在高熵工具調(diào)用步驟中鼓勵分支采樣。此外,ARPO 結(jié)合優(yōu)勢歸因估計,幫助 LLM 更好地內(nèi)化步驟級工具使用行為中的優(yōu)勢差異。
  • 除了啟發(fā)式動機,我們還從理論上論證了在 LLM 智能體訓(xùn)練中引入 ARPO 算法的合理性。
  • 在 13 個高難基準(zhǔn)上的實驗表明,ARPO 在僅使用一半工具調(diào)用訓(xùn)練預(yù)算的情況下,性能穩(wěn)定優(yōu)于主流 RL 算法,為探索 Agentic RL 提供了可行性參考與實踐啟示。

工具調(diào)用的熵變現(xiàn)象:高熵時刻與探索困境

圖片

圖 2:跨數(shù)據(jù)集分析基于 LLM 的工具使用智能體的 token 熵變化與 token 頻率分布

通過分析大型模型在結(jié)合工具執(zhí)行復(fù)雜搜索與推理任務(wù)時的 token 熵值,我們發(fā)現(xiàn)以下幾點:

1. 在每次工具調(diào)用后的前 10–50 個 token 內(nèi),熵顯著上升。

2. 在推理的初始階段,熵往往會增加,但仍低于大模型接收到工具調(diào)用反饋后的水平。

3. 搜索引擎的反饋引入的熵波動比代碼編譯器的執(zhí)行反饋更大。

這些現(xiàn)象可以歸因于外部反饋與模型內(nèi)部推理之間的 token 分布轉(zhuǎn)移,這甚至導(dǎo)致引入的推理不確定性超過原始輸入的問題。此外,搜索引擎通常提供豐富的文本內(nèi)容,而代碼編譯器輸出則由確定性的數(shù)字組成,這導(dǎo)致前者的熵波動更大。

工具設(shè)計:多樣化工具支撐 Agentic 推理

本研究聚焦于優(yōu)化基于 LLM 的工具使用智能體的訓(xùn)練算法。在梳理現(xiàn)有 Agentic RL 研究后,我們選取三類具有代表性的工具,用于實證評估 ARPO 的有效性:

  • 搜索引擎:通過執(zhí)行網(wǎng)絡(luò)搜索查詢檢索相關(guān)信息,支持本地及在線模式。
  • 網(wǎng)頁瀏覽智能體:訪問并解析搜索引擎返回的網(wǎng)頁鏈接,提取并總結(jié)關(guān)鍵信息以響應(yīng)查詢。
  • 代碼解釋器:自動執(zhí)行 LLM 生成的代碼,若執(zhí)行成功則返回結(jié)果,否則返回編譯錯誤信息。

這些工具覆蓋信息檢索、內(nèi)容解析與程序執(zhí)行等多類功能,為多輪交互與復(fù)雜推理場景提供了強有力的支撐。

ARPO 算法:利用熵信號指導(dǎo) LLM 逐步優(yōu)化工具調(diào)用

基于熵的自適應(yīng) rollout 機制

ARPO 的核心思想在于結(jié)合全局采樣與熵驅(qū)動的局部采樣,在模型工具調(diào)用后不確定性升高的階段加大探索力度,從而提升推理效果。其基于熵的自適應(yīng) rollout 機制包含四個關(guān)鍵步驟:

圖片

圖 3:ARPO 的基于熵驅(qū)動的自適應(yīng) rollout 機制,結(jié)合全局探索與局部高熵節(jié)點分支

1. Rollout 初始化 

設(shè)定全局 rollout 規(guī)模 M,首先進(jìn)行樣本級全局采樣:LLM 針對輸入問題 q 生成 N 條初始軌跡,并計算每條軌跡首個 token 的熵值,形成初始熵矩陣 圖片。剩余 M-N 條軌跡的采樣預(yù)算保留給局部采樣。

2. 熵變監(jiān)控

在每次工具調(diào)用步驟 t 后,模型會在拼接工具返回結(jié)果后繼續(xù)生成 k 個 token,并計算步驟級熵矩陣 圖片。通過圖片量化相對于初始狀態(tài)的歸一化熵變化,從而判斷當(dāng)前推理不確定性的變化趨勢。

3. 基于熵的自適應(yīng)分支

為引導(dǎo)模型在熵值顯著升高的節(jié)點進(jìn)行更深探索,定義工具調(diào)用步驟 t 的局部采樣概率:圖片

模型的分支決策如下:

圖片

該機制將探索資源自適應(yīng)分配到熵上升區(qū)域,這些區(qū)域往往蘊含更高的信息增益。

4. 終止條件

Rollout 過程持續(xù)進(jìn)行,直到分叉路徑數(shù)達(dá)到預(yù)算上限 M-N(停止分支并完成采樣)或所有路徑提前終止。若預(yù)算仍有剩余,則補充全局采樣以覆蓋更全面的推理空間。

ARPO 通過上述機制在保證計算復(fù)雜度維持在圖片 范圍內(nèi)的同時,實現(xiàn)了不確定性感知的高效探索,使大模型能夠精準(zhǔn)識別并充分利用工具調(diào)用后的高信息增益階段。

優(yōu)勢歸因估計

ARPO 的熵驅(qū)動自適應(yīng) rollout 會產(chǎn)生包含共享推理片段和分支路徑的軌跡,這啟發(fā)我們優(yōu)化策略更新方式,更好地利用步驟級工具調(diào)用信息。

兩種優(yōu)勢估計方式

1. 硬優(yōu)勢估計(Hard)

明確區(qū)分共享和分支 token,對共享部分計算平均優(yōu)勢,對分支部分單獨計算:  

對分支 token 的優(yōu)勢估計:

圖片

對共享 token 的優(yōu)勢估計:

圖片

2. 軟優(yōu)勢估計(Soft)

在策略優(yōu)化過程中隱式區(qū)分共享和分支推理鏈的 token,通過 GRPO(Group Relative Policy Optimization)在分組更新中動態(tài)調(diào)整重要性采樣比率 圖片 自然地處理了兩類 token:

圖片

其中重要性采樣比率:

圖片

當(dāng)兩個軌跡在 t 步之前共享相同 token 前綴時,它們的共享 token 具有相同的重要性權(quán)重 圖片,因此這一更新過程近似等價于硬優(yōu)勢估計,并且更優(yōu)雅。

實驗結(jié)果證明軟優(yōu)勢估計在 ARPO 訓(xùn)練中能穩(wěn)定獲得更高獎勵,故將其設(shè)為默認(rèn)優(yōu)勢估計方法。

分層獎勵設(shè)計

ARPO 的獎勵函數(shù)綜合考慮答案正確性、工具調(diào)用格式及多工具協(xié)作。 如果模型在推理中使用了搜索(<search>)和代碼(<python>)等多種工具,并保證答案正確且格式合規(guī),會獲得額外獎勵,公式如下:

圖片

其中:

圖片

通過軟優(yōu)勢估計與分層獎勵機制,ARPO 在訓(xùn)練中能更平穩(wěn)、更高效地優(yōu)化多輪工具使用策略。

實驗結(jié)果:10 + 綜合推理任務(wù)評測

為了充分評估 ARPO 的泛化性和高效性,我們考慮以下三種測試集:

? 計算型推理任務(wù):評估模型的計算推理能力,包括 AIME24,AIME25,MATH500,GSM8K,MATH。

? 知識密集型推理任務(wù):評估模型結(jié)合外部知識推理的能力,包括 WebWalker,HotpotQA,2WIKI,MisiQue,Bamboogle。

? 深度搜索任務(wù):評估模型的深度搜索能力,包括 HLE,GAIA,SimpleQA,XBench。

圖片

圖片

從實驗結(jié)果可以發(fā)現(xiàn):

  • ARPO 整體表現(xiàn)優(yōu)于主流方法:ARPO 在大部分任務(wù)上準(zhǔn)確率高于 GRPO、DAPO 等樣本級 RL 方法,在工具調(diào)用密集任務(wù)(如 GAIA、HLE)中提升幅度更明顯。  
  • 多任務(wù)保持穩(wěn)定性能:ARPO 在計算、知識與搜索任務(wù)中均保持較好的表現(xiàn),沒有明顯性能短板,驗證其跨任務(wù)的適配能力。

實驗:采樣分析與工具調(diào)用效率評估

多輪采樣能力提升模型表現(xiàn)

由于 Deepsearch 任務(wù)具有動態(tài)、多輪交互的特點,單純使用 Pass@1 指標(biāo)難以全面反映模型的工具調(diào)用潛力。我們進(jìn)一步分析了 Pass@3 和 Pass@5 指標(biāo),發(fā)現(xiàn)無論是 8B 還是 14B 規(guī)模模型,在經(jīng)過 ARPO 對齊訓(xùn)練后,均表現(xiàn)出持續(xù)提升和良好的規(guī)模效應(yīng)。其中,14B 模型在 Pass@5 指標(biāo)上表現(xiàn)尤為出色:

  • GAIA 達(dá)到 61.2%  
  • HLE 達(dá)到 24.0%  
  • XBench-DR 達(dá)到 59%

工具調(diào)用效率顯著提升

在 Agentic RL 訓(xùn)練中,工具調(diào)用次數(shù)直接影響成本。我們以 Qwen2.5-7B 模型為例,將 ARPO 與 GRPO 方法進(jìn)行對比:  

  • ARPO 在整體準(zhǔn)確率上優(yōu)于 GRPO  
  • 同時僅使用了約一半的工具調(diào)用次數(shù)

圖片

這得益于 ARPO 獨特的基于熵的自適應(yīng)采樣機制,僅在高熵工具調(diào)用步驟進(jìn)行分支采樣,極大地擴展了工具行為的探索空間,同時降低了不必要的調(diào)用。

總結(jié)與未來展望

ARPO 算法有效提升了多輪工具推理代理的性能,解決了現(xiàn)有樣本級 RL 方法在多輪交互中探索不足、泛化能力欠缺的問題。通過熵驅(qū)動自適應(yīng)采樣和優(yōu)勢歸因機制,ARPO 能夠在工具調(diào)用頻繁、推理路徑復(fù)雜的任務(wù)中實現(xiàn)更高效、更穩(wěn)定的輸出。未來,為持續(xù)提升 Agentic RL 模型的能力,仍有多個方向值得探索: 

  • 多模態(tài) Agentic RL:ARPO 目前主要針對文本推理任務(wù),在處理圖像、視頻等多模態(tài)信息方面仍有局限。未來可擴展至多模態(tài)任務(wù)中,探索模型在多模態(tài)場景下的工具調(diào)用與策略優(yōu)化。  
  • 工具生態(tài)擴展:ARPO 已經(jīng)驗證了在多工具協(xié)作任務(wù)上的潛能。未來可引入更多類型的外部工具(如代碼調(diào)試器、數(shù)據(jù)分析工具、實時 API 調(diào)用等),并通過工具使用策略優(yōu)化進(jìn)一步提升復(fù)雜任務(wù)表現(xiàn)。  
  • 大規(guī)模與實時部署:ARPO 展示了較高的訓(xùn)練效率和推理泛化性,未來可探索在更大規(guī)模模型和實時動態(tài)環(huán)境中的部署與適配,降低成本同時提升實用價值。
責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-07-04 16:46:57

智能體模型AI

2014-08-05 17:16:12

WiFi 華為

2020-02-26 08:00:02

14點遭遇真兇

2023-12-26 01:19:50

Linux網(wǎng)絡(luò)診斷

2023-08-11 07:13:58

人工智能首席信息官平臺服務(wù)

2023-12-07 14:35:15

2025-09-05 09:54:44

2013-12-16 10:58:40

2022-08-15 09:00:23

數(shù)據(jù)庫日志

2023-08-28 06:52:29

2012-06-13 10:48:01

英特爾

2025-07-28 07:00:00

2024-10-18 15:20:00

2010-11-23 09:23:53

多租戶云計算

2016-05-10 10:23:02

垂直Saas

2020-02-12 16:45:00

黑客網(wǎng)絡(luò)安全Windows

2022-02-19 23:05:19

人工智能算法核聚變

2009-12-17 08:57:28

Windows 7磁盤分區(qū)

2024-01-07 19:48:12

2020-02-02 19:53:57

數(shù)據(jù)庫數(shù)據(jù)庫優(yōu)化SQL優(yōu)化
點贊
收藏

51CTO技術(shù)棧公眾號