只需1/4預(yù)算,性能反超基線:阿里高德提出Tree-GRPO,高效破解智能體RL難題
對(duì)于大模型的強(qiáng)化學(xué)習(xí)已在數(shù)學(xué)推理、代碼生成等靜態(tài)任務(wù)中展現(xiàn)出不俗實(shí)力,而在需要與開放世界交互的智能體任務(wù)中,仍面臨「兩朵烏云」:高昂的 Rollout 預(yù)算(成千上萬的 Token 與高成本的工具調(diào)用)和極其稀疏的「只看結(jié)果」的獎(jiǎng)勵(lì)信號(hào)。
來自阿里高德的一篇最新研究論文提出了面向 Agent RL 的 Tree-GRPO 方法,將獨(dú)立的鏈?zhǔn)讲蓸痈脑鞛橹悄荏w步驟級(jí)的樹搜索。該方法通過共享前綴、一次擴(kuò)展多個(gè)分支,在相同預(yù)算下獲得更豐富的有效軌跡;更重要的是,僅憑最終獎(jiǎng)勵(lì)即可沿樹結(jié)構(gòu)回溯出過程中的偏好信號(hào),等價(jià)于隱式的步驟級(jí)偏好學(xué)習(xí)。
在 11 個(gè)知識(shí)密集型、網(wǎng)絡(luò)搜索問答任務(wù)數(shù)據(jù)集中,Tree-GRPO 在多種模型規(guī)模上更省預(yù)算、更高表現(xiàn),顯著優(yōu)于鏈?zhǔn)?RL 方法,甚至能在 1/4 預(yù)算的情況下超越 GRPO 基線,為 Agentic RL 的高效訓(xùn)練提供了新的解決思路。

- 論文標(biāo)題:Tree Search for LLM Agent Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2509.21240
- 代碼鏈接:https://github.com/AMAP-ML/Tree-GRPO

樹方法相較鏈方法的區(qū)別與優(yōu)勢(shì)
Agentic RL 的痛點(diǎn)

(左)鏈采樣,(中)token/sentence-level 樹采樣,(右)agent-level 樹采樣
在 Agentic RL 中,LLM 不再是被動(dòng)的文本生成器,而是一個(gè)在動(dòng)態(tài)環(huán)境中的自主決策智能體。在 ReAct 視角下,LLM Agent 的決策軌跡由一段連續(xù)的多步行動(dòng)構(gòu)成,在每一步中,智能體都會(huì)進(jìn)行思考(Think)、行動(dòng)(Action)、觀察(Observation)三個(gè)行為。
這樣的開放式多輪軌跡在 RL 中面臨兩點(diǎn)關(guān)鍵瓶頸:
- Rollout 采樣成本高:多回合交互的軌跡中包含成千上萬 Token 和多次 tool-calls。現(xiàn)有鏈?zhǔn)讲蓸訛橥蝗蝿?wù)反復(fù)生成多跳獨(dú)立軌跡,采樣冗余高,訓(xùn)練時(shí)間幾乎被 rollout 吞噬,且外部工具(如搜索 API)費(fèi)用不菲;
- 多輪長(zhǎng)軌跡的監(jiān)督稀疏:絕大多數(shù)方法僅能依賴最終獎(jiǎng)勵(lì)評(píng)估整條軌跡好壞,難以定位「哪一步/哪一次行動(dòng)」貢獻(xiàn)了成敗,導(dǎo)致在預(yù)算增長(zhǎng)時(shí)有效訓(xùn)練信號(hào)并未同比增加,學(xué)習(xí)過程失衡甚至出現(xiàn)訓(xùn)練崩潰。
Tree-GRPO:以「智能體步驟」為節(jié)點(diǎn)進(jìn)行樹搜索

Tree-GRPO 訓(xùn)練總覽,左上為采樣流程,右上為兩個(gè)主要優(yōu)勢(shì),下方為訓(xùn)練流程
已有的樹搜索 RL 方法通常在 Token 級(jí)或句式級(jí)別上進(jìn)行,對(duì)于有明確步驟級(jí)語義結(jié)構(gòu)的智能體來說并不適合。該團(tuán)隊(duì)提出以「智能體步驟」為樹節(jié)點(diǎn)單位的樹搜索,即每個(gè)樹節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的思考、行動(dòng)、觀察步驟。為適配現(xiàn)有 LLM 并行推理框架,我們采用「先初始化—后擴(kuò)張」的策略:
- 初始化 M 條獨(dú)立軌跡;
- 每條軌跡隨機(jī)采樣 N 個(gè)節(jié)點(diǎn),以根節(jié)點(diǎn)到采樣節(jié)點(diǎn)作為完整上下文進(jìn)行擴(kuò)張;
通過重復(fù)步驟 2 L 次,最終獲得分散在 M 棵樹的反應(yīng)軌跡。這樣的樹搜索能夠在一定的 rollout 預(yù)算下獲得更多的 Agent 軌跡。

基于樹的優(yōu)勢(shì)計(jì)算
通過樹結(jié)構(gòu)的樣本軌跡,該方法還能夠在僅憑結(jié)果獎(jiǎng)勵(lì)下構(gòu)造出 step-level 的偏好目標(biāo),形式與離線構(gòu)造 DPO 數(shù)據(jù)優(yōu)化目標(biāo)一致。
對(duì)每棵樹而言,在每個(gè)分支節(jié)點(diǎn),從葉節(jié)點(diǎn)回溯得到的獎(jiǎng)勵(lì)差值天然形成一個(gè)偏好優(yōu)化目標(biāo),而兄弟子樹的深度決定了該過程信號(hào)的粒度。

為進(jìn)一步提升 RL 訓(xùn)練中優(yōu)勢(shì)估計(jì)的穩(wěn)定性,避免因單棵樹軌跡數(shù)量過少導(dǎo)致的偏差或方差,Tree-GRPO 還對(duì)所有樹間的軌跡優(yōu)勢(shì)進(jìn)行歸一化,并將歸一化結(jié)果與原始優(yōu)勢(shì)相加,作為最終的優(yōu)勢(shì)估計(jì)。

最終的優(yōu)化目標(biāo)為:

值得注意的是,這樣的樹內(nèi) GRPO 在梯度形式上和 step-level DPO 的優(yōu)化目標(biāo)保持一致

實(shí)驗(yàn)結(jié)果:11 個(gè) Agent 問答任務(wù)評(píng)測(cè)
本文在包括 Llama3.2 和 Qwen2.5 系列的多個(gè)參數(shù)規(guī)模模型上進(jìn)行了評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明,Tree-GRPO 在所有任務(wù)上均穩(wěn)定優(yōu)于鏈?zhǔn)?RL 方法,其中多跳問答(QA)性能提升尤為顯著:在較小模型 Qwen2.5-1.5b 上有 69% 相對(duì)提升,在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分。

在 Web-Agent QA 實(shí)驗(yàn)設(shè)定中,Tree-GRPO 在各項(xiàng)指標(biāo)上也均有穩(wěn)定提升,在 GAIA 中有相對(duì) 28% 性能提升。

進(jìn)一步分析:樹搜索 RL 的更多優(yōu)勢(shì)
由于 Rollout 預(yù)算是 Agentic RL 中一個(gè)重要限制,本文在不同預(yù)算設(shè)定下進(jìn)行了實(shí)驗(yàn),結(jié)果表明 Tree-based 方法在各種設(shè)定中均穩(wěn)定優(yōu)于 Chain-based 方法,尤其是在預(yù)算極其受限情況下(每個(gè) prompt 僅 2 條完整軌跡),Tree-GRPO 相較 Chain-based 方法有 112% 提升;另外,該方法能夠在 1/4 預(yù)算情況下獲得更優(yōu)性能(36.8 vs 33.9)。

除了性能上的提升,團(tuán)隊(duì)還發(fā)現(xiàn) Tree-based 方法能夠激發(fā)模型學(xué)習(xí)到更多輪的交互次數(shù),這對(duì)于更加復(fù)雜的 Agent 任務(wù)有重要意義。

總結(jié)與未來展望
團(tuán)隊(duì)提出的 Tree-GRPO 算法給 Agentic RL 帶來了全新思路,解決了現(xiàn)有方法中 rollout 預(yù)算大、監(jiān)督信號(hào)稀疏的兩大問題。通過樹結(jié)構(gòu)的采樣和優(yōu)勢(shì)估計(jì)方法,Tree-GRPO 能夠在多輪 Agent 任務(wù)中實(shí)現(xiàn)更高效、穩(wěn)定的 RL 訓(xùn)練。
團(tuán)隊(duì)表示,樹搜索方法是一種探索與利用的權(quán)衡,如何動(dòng)態(tài)地調(diào)整 RL 訓(xùn)練中彼此的權(quán)重是優(yōu)化學(xué)習(xí)效果的重要因素。






























