偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

只需1/4預(yù)算,性能反超基線:阿里高德提出Tree-GRPO,高效破解智能體RL難題

人工智能 新聞
來自阿里高德的一篇最新研究論文提出了面向 Agent RL 的?Tree-GRPO?方法,將獨(dú)立的鏈?zhǔn)讲蓸痈脑鞛橹悄荏w步驟級(jí)的樹搜索。

對(duì)于大模型的強(qiáng)化學(xué)習(xí)已在數(shù)學(xué)推理、代碼生成等靜態(tài)任務(wù)中展現(xiàn)出不俗實(shí)力,而在需要與開放世界交互的智能體任務(wù)中,仍面臨「兩朵烏云」:高昂的 Rollout 預(yù)算(成千上萬的 Token 與高成本的工具調(diào)用)和極其稀疏的「只看結(jié)果」的獎(jiǎng)勵(lì)信號(hào)。

來自阿里高德的一篇最新研究論文提出了面向 Agent RL 的 Tree-GRPO 方法,將獨(dú)立的鏈?zhǔn)讲蓸痈脑鞛橹悄荏w步驟級(jí)的樹搜索。該方法通過共享前綴、一次擴(kuò)展多個(gè)分支,在相同預(yù)算下獲得更豐富的有效軌跡;更重要的是,僅憑最終獎(jiǎng)勵(lì)即可沿樹結(jié)構(gòu)回溯出過程中的偏好信號(hào),等價(jià)于隱式的步驟級(jí)偏好學(xué)習(xí)。

在 11 個(gè)知識(shí)密集型、網(wǎng)絡(luò)搜索問答任務(wù)數(shù)據(jù)集中,Tree-GRPO 在多種模型規(guī)模上更省預(yù)算、更高表現(xiàn),顯著優(yōu)于鏈?zhǔn)?RL 方法,甚至能在 1/4 預(yù)算的情況下超越 GRPO 基線,為 Agentic RL 的高效訓(xùn)練提供了新的解決思路。

  • 論文標(biāo)題:Tree Search for LLM Agent Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2509.21240
  • 代碼鏈接:https://github.com/AMAP-ML/Tree-GRPO

樹鏈對(duì)比.jpg

樹方法相較鏈方法的區(qū)別與優(yōu)勢(shì)

Agentic RL 的痛點(diǎn)

樹搜索.jpg

(左)鏈采樣,(中)token/sentence-level 樹采樣,(右)agent-level 樹采樣

在 Agentic RL 中,LLM 不再是被動(dòng)的文本生成器,而是一個(gè)在動(dòng)態(tài)環(huán)境中的自主決策智能體。在 ReAct 視角下,LLM Agent 的決策軌跡由一段連續(xù)的多步行動(dòng)構(gòu)成,在每一步中,智能體都會(huì)進(jìn)行思考(Think)、行動(dòng)(Action)、觀察(Observation)三個(gè)行為。

這樣的開放式多輪軌跡在 RL 中面臨兩點(diǎn)關(guān)鍵瓶頸:

  • Rollout 采樣成本高:多回合交互的軌跡中包含成千上萬 Token 和多次 tool-calls。現(xiàn)有鏈?zhǔn)讲蓸訛橥蝗蝿?wù)反復(fù)生成多跳獨(dú)立軌跡,采樣冗余高,訓(xùn)練時(shí)間幾乎被 rollout 吞噬,且外部工具(如搜索 API)費(fèi)用不菲;
  • 多輪長(zhǎng)軌跡的監(jiān)督稀疏:絕大多數(shù)方法僅能依賴最終獎(jiǎng)勵(lì)評(píng)估整條軌跡好壞,難以定位「哪一步/哪一次行動(dòng)」貢獻(xiàn)了成敗,導(dǎo)致在預(yù)算增長(zhǎng)時(shí)有效訓(xùn)練信號(hào)并未同比增加,學(xué)習(xí)過程失衡甚至出現(xiàn)訓(xùn)練崩潰。

Tree-GRPO:以「智能體步驟」為節(jié)點(diǎn)進(jìn)行樹搜索

pipeline.jpg

Tree-GRPO 訓(xùn)練總覽,左上為采樣流程,右上為兩個(gè)主要優(yōu)勢(shì),下方為訓(xùn)練流程

已有的樹搜索 RL 方法通常在 Token 級(jí)或句式級(jí)別上進(jìn)行,對(duì)于有明確步驟級(jí)語義結(jié)構(gòu)的智能體來說并不適合。該團(tuán)隊(duì)提出以「智能體步驟」為樹節(jié)點(diǎn)單位的樹搜索,即每個(gè)樹節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的思考、行動(dòng)、觀察步驟。為適配現(xiàn)有 LLM 并行推理框架,我們采用「先初始化—后擴(kuò)張」的策略:

  1. 初始化 M 條獨(dú)立軌跡;
  2. 每條軌跡隨機(jī)采樣 N 個(gè)節(jié)點(diǎn),以根節(jié)點(diǎn)到采樣節(jié)點(diǎn)作為完整上下文進(jìn)行擴(kuò)張;

通過重復(fù)步驟 2 L 次,最終獲得分散在 M 棵樹的反應(yīng)軌跡。這樣的樹搜索能夠在一定的 rollout 預(yù)算下獲得更多的 Agent 軌跡。

預(yù)算.jpg

基于樹的優(yōu)勢(shì)計(jì)算

通過樹結(jié)構(gòu)的樣本軌跡,該方法還能夠在僅憑結(jié)果獎(jiǎng)勵(lì)下構(gòu)造出 step-level 的偏好目標(biāo),形式與離線構(gòu)造 DPO 數(shù)據(jù)優(yōu)化目標(biāo)一致。

對(duì)每棵樹而言,在每個(gè)分支節(jié)點(diǎn),從葉節(jié)點(diǎn)回溯得到的獎(jiǎng)勵(lì)差值天然形成一個(gè)偏好優(yōu)化目標(biāo),而兄弟子樹的深度決定了該過程信號(hào)的粒度。

優(yōu)勢(shì)計(jì)算.jpg

為進(jìn)一步提升 RL 訓(xùn)練中優(yōu)勢(shì)估計(jì)的穩(wěn)定性,避免因單棵樹軌跡數(shù)量過少導(dǎo)致的偏差或方差,Tree-GRPO 還對(duì)所有樹間的軌跡優(yōu)勢(shì)進(jìn)行歸一化,并將歸一化結(jié)果與原始優(yōu)勢(shì)相加,作為最終的優(yōu)勢(shì)估計(jì)。

優(yōu)勢(shì)求和.jpg

最終的優(yōu)化目標(biāo)為:

優(yōu)化目標(biāo).jpg

值得注意的是,這樣的樹內(nèi) GRPO 在梯度形式上和 step-level DPO 的優(yōu)化目標(biāo)保持一致

實(shí)驗(yàn)結(jié)果:11 個(gè) Agent 問答任務(wù)評(píng)測(cè)

本文在包括 Llama3.2 和 Qwen2.5 系列的多個(gè)參數(shù)規(guī)模模型上進(jìn)行了評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明,Tree-GRPO 在所有任務(wù)上均穩(wěn)定優(yōu)于鏈?zhǔn)?RL 方法,其中多跳問答(QA)性能提升尤為顯著:在較小模型 Qwen2.5-1.5b 上有 69% 相對(duì)提升,在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分。

實(shí)驗(yàn)1.jpg

在 Web-Agent QA 實(shí)驗(yàn)設(shè)定中,Tree-GRPO 在各項(xiàng)指標(biāo)上也均有穩(wěn)定提升,在 GAIA 中有相對(duì) 28% 性能提升。

實(shí)驗(yàn)2.jpg

進(jìn)一步分析:樹搜索 RL 的更多優(yōu)勢(shì)

由于 Rollout 預(yù)算是 Agentic RL 中一個(gè)重要限制,本文在不同預(yù)算設(shè)定下進(jìn)行了實(shí)驗(yàn),結(jié)果表明 Tree-based 方法在各種設(shè)定中均穩(wěn)定優(yōu)于 Chain-based 方法,尤其是在預(yù)算極其受限情況下(每個(gè) prompt 僅 2 條完整軌跡),Tree-GRPO 相較 Chain-based 方法有 112% 提升;另外,該方法能夠在 1/4 預(yù)算情況下獲得更優(yōu)性能(36.8 vs 33.9)。

實(shí)驗(yàn)3.jpg

除了性能上的提升,團(tuán)隊(duì)還發(fā)現(xiàn) Tree-based 方法能夠激發(fā)模型學(xué)習(xí)到更多輪的交互次數(shù),這對(duì)于更加復(fù)雜的 Agent 任務(wù)有重要意義。

beyond性能.jpg

總結(jié)與未來展望

團(tuán)隊(duì)提出的 Tree-GRPO 算法給 Agentic RL 帶來了全新思路,解決了現(xiàn)有方法中 rollout 預(yù)算大、監(jiān)督信號(hào)稀疏的兩大問題。通過樹結(jié)構(gòu)的采樣和優(yōu)勢(shì)估計(jì)方法,Tree-GRPO 能夠在多輪 Agent 任務(wù)中實(shí)現(xiàn)更高效、穩(wěn)定的 RL 訓(xùn)練。

團(tuán)隊(duì)表示,樹搜索方法是一種探索與利用的權(quán)衡,如何動(dòng)態(tài)地調(diào)整 RL 訓(xùn)練中彼此的權(quán)重是優(yōu)化學(xué)習(xí)效果的重要因素。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-10-10 03:00:00

多輪智能體Tree-GRPOLLM

2025-08-14 10:25:11

2025-03-14 10:22:03

2010-09-07 17:02:39

家庭布線

2025-10-10 08:33:49

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2025-10-21 10:24:02

2024-10-12 12:30:04

2024-09-04 14:05:12

2014-02-11 10:27:21

阿里高德

2025-05-15 09:08:00

2025-07-29 02:12:00

大模型8B模型性能

2025-06-17 08:47:00

2018-03-07 10:03:40

2010-08-17 11:17:44

TMC架構(gòu)超百G

2021-11-09 11:03:56

數(shù)據(jù)模型架構(gòu)

2020-06-05 14:49:51

強(qiáng)化學(xué)習(xí)算法框架

2024-01-26 13:19:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)