偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="qjuw5"><style id="qjuw5"></style></tt>

<em id="qjuw5"></em>

<abbr id="qjuw5"></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

只需1/4預(yù)算，性能反超基線：阿里高德提出Tree-GRPO，高效破解智能體RL難題

2025-10-14 09:06:00

人工智能新聞

來自阿里高德的一篇最新研究論文提出了面向 Agent RL 的?Tree-GRPO?方法，將獨(dú)立的鏈?zhǔn)讲蓸痈脑鞛橹悄荏w步驟級(jí)的樹搜索。

對(duì)于大模型的強(qiáng)化學(xué)習(xí)已在數(shù)學(xué)推理、代碼生成等靜態(tài)任務(wù)中展現(xiàn)出不俗實(shí)力，而在需要與開放世界交互的智能體任務(wù)中，仍面臨「兩朵烏云」：高昂的 Rollout 預(yù)算（成千上萬的 Token 與高成本的工具調(diào)用）和極其稀疏的「只看結(jié)果」的獎(jiǎng)勵(lì)信號(hào)。

來自阿里高德的一篇最新研究論文提出了面向 Agent RL 的 Tree-GRPO 方法，將獨(dú)立的鏈?zhǔn)讲蓸痈脑鞛橹悄荏w步驟級(jí)的樹搜索。該方法通過共享前綴、一次擴(kuò)展多個(gè)分支，在相同預(yù)算下獲得更豐富的有效軌跡；更重要的是，僅憑最終獎(jiǎng)勵(lì)即可沿樹結(jié)構(gòu)回溯出過程中的偏好信號(hào)，等價(jià)于隱式的步驟級(jí)偏好學(xué)習(xí)。

在 11 個(gè)知識(shí)密集型、網(wǎng)絡(luò)搜索問答任務(wù)數(shù)據(jù)集中，Tree-GRPO 在多種模型規(guī)模上更省預(yù)算、更高表現(xiàn)，顯著優(yōu)于鏈?zhǔn)?RL 方法，甚至能在 1/4 預(yù)算的情況下超越 GRPO 基線，為 Agentic RL 的高效訓(xùn)練提供了新的解決思路。

論文標(biāo)題：Tree Search for LLM Agent Reinforcement Learning
論文地址：https://arxiv.org/abs/2509.21240
代碼鏈接：https://github.com/AMAP-ML/Tree-GRPO

樹鏈對(duì)比.jpg

樹方法相較鏈方法的區(qū)別與優(yōu)勢(shì)

Agentic RL 的痛點(diǎn)

樹搜索.jpg

（左）鏈采樣，（中）token/sentence-level 樹采樣，（右）agent-level 樹采樣

在 Agentic RL 中，LLM 不再是被動(dòng)的文本生成器，而是一個(gè)在動(dòng)態(tài)環(huán)境中的自主決策智能體。在 ReAct 視角下，LLM Agent 的決策軌跡由一段連續(xù)的多步行動(dòng)構(gòu)成，在每一步中，智能體都會(huì)進(jìn)行思考（Think）、行動(dòng)（Action）、觀察（Observation）三個(gè)行為。

這樣的開放式多輪軌跡在 RL 中面臨兩點(diǎn)關(guān)鍵瓶頸：

Rollout 采樣成本高：多回合交互的軌跡中包含成千上萬 Token 和多次 tool-calls。現(xiàn)有鏈?zhǔn)讲蓸訛橥蝗蝿?wù)反復(fù)生成多跳獨(dú)立軌跡，采樣冗余高，訓(xùn)練時(shí)間幾乎被 rollout 吞噬，且外部工具（如搜索 API）費(fèi)用不菲；
多輪長(zhǎng)軌跡的監(jiān)督稀疏：絕大多數(shù)方法僅能依賴最終獎(jiǎng)勵(lì)評(píng)估整條軌跡好壞，難以定位「哪一步/哪一次行動(dòng)」貢獻(xiàn)了成敗，導(dǎo)致在預(yù)算增長(zhǎng)時(shí)有效訓(xùn)練信號(hào)并未同比增加，學(xué)習(xí)過程失衡甚至出現(xiàn)訓(xùn)練崩潰。

Tree-GRPO：以「智能體步驟」為節(jié)點(diǎn)進(jìn)行樹搜索

Tree-GRPO 訓(xùn)練總覽，左上為采樣流程，右上為兩個(gè)主要優(yōu)勢(shì)，下方為訓(xùn)練流程

已有的樹搜索 RL 方法通常在 Token 級(jí)或句式級(jí)別上進(jìn)行，對(duì)于有明確步驟級(jí)語義結(jié)構(gòu)的智能體來說并不適合。該團(tuán)隊(duì)提出以「智能體步驟」為樹節(jié)點(diǎn)單位的樹搜索，即每個(gè)樹節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的思考、行動(dòng)、觀察步驟。為適配現(xiàn)有 LLM 并行推理框架，我們采用「先初始化—后擴(kuò)張」的策略：

初始化 M 條獨(dú)立軌跡；
每條軌跡隨機(jī)采樣 N 個(gè)節(jié)點(diǎn)，以根節(jié)點(diǎn)到采樣節(jié)點(diǎn)作為完整上下文進(jìn)行擴(kuò)張；

通過重復(fù)步驟 2 L 次，最終獲得分散在 M 棵樹的反應(yīng)軌跡。這樣的樹搜索能夠在一定的 rollout 預(yù)算下獲得更多的 Agent 軌跡。

預(yù)算.jpg

基于樹的優(yōu)勢(shì)計(jì)算

通過樹結(jié)構(gòu)的樣本軌跡，該方法還能夠在僅憑結(jié)果獎(jiǎng)勵(lì)下構(gòu)造出 step-level 的偏好目標(biāo)，形式與離線構(gòu)造 DPO 數(shù)據(jù)優(yōu)化目標(biāo)一致。

對(duì)每棵樹而言，在每個(gè)分支節(jié)點(diǎn)，從葉節(jié)點(diǎn)回溯得到的獎(jiǎng)勵(lì)差值天然形成一個(gè)偏好優(yōu)化目標(biāo)，而兄弟子樹的深度決定了該過程信號(hào)的粒度。

優(yōu)勢(shì)計(jì)算.jpg

為進(jìn)一步提升 RL 訓(xùn)練中優(yōu)勢(shì)估計(jì)的穩(wěn)定性，避免因單棵樹軌跡數(shù)量過少導(dǎo)致的偏差或方差，Tree-GRPO 還對(duì)所有樹間的軌跡優(yōu)勢(shì)進(jìn)行歸一化，并將歸一化結(jié)果與原始優(yōu)勢(shì)相加，作為最終的優(yōu)勢(shì)估計(jì)。

優(yōu)勢(shì)求和.jpg

最終的優(yōu)化目標(biāo)為：

優(yōu)化目標(biāo).jpg

值得注意的是，這樣的樹內(nèi) GRPO 在梯度形式上和 step-level DPO 的優(yōu)化目標(biāo)保持一致

實(shí)驗(yàn)結(jié)果：11 個(gè) Agent 問答任務(wù)評(píng)測(cè)

本文在包括 Llama3.2 和 Qwen2.5 系列的多個(gè)參數(shù)規(guī)模模型上進(jìn)行了評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明，Tree-GRPO 在所有任務(wù)上均穩(wěn)定優(yōu)于鏈?zhǔn)?RL 方法，其中多跳問答（QA）性能提升尤為顯著：在較小模型 Qwen2.5-1.5b 上有 69% 相對(duì)提升，在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分。

實(shí)驗(yàn)1.jpg

在 Web-Agent QA 實(shí)驗(yàn)設(shè)定中，Tree-GRPO 在各項(xiàng)指標(biāo)上也均有穩(wěn)定提升，在 GAIA 中有相對(duì) 28% 性能提升。

實(shí)驗(yàn)2.jpg

進(jìn)一步分析：樹搜索 RL 的更多優(yōu)勢(shì)

由于 Rollout 預(yù)算是 Agentic RL 中一個(gè)重要限制，本文在不同預(yù)算設(shè)定下進(jìn)行了實(shí)驗(yàn)，結(jié)果表明 Tree-based 方法在各種設(shè)定中均穩(wěn)定優(yōu)于 Chain-based 方法，尤其是在預(yù)算極其受限情況下（每個(gè) prompt 僅 2 條完整軌跡），Tree-GRPO 相較 Chain-based 方法有 112% 提升；另外，該方法能夠在 1/4 預(yù)算情況下獲得更優(yōu)性能（36.8 vs 33.9）。

實(shí)驗(yàn)3.jpg

除了性能上的提升，團(tuán)隊(duì)還發(fā)現(xiàn) Tree-based 方法能夠激發(fā)模型學(xué)習(xí)到更多輪的交互次數(shù)，這對(duì)于更加復(fù)雜的 Agent 任務(wù)有重要意義。

beyond性能.jpg

總結(jié)與未來展望

團(tuán)隊(duì)提出的 Tree-GRPO 算法給 Agentic RL 帶來了全新思路，解決了現(xiàn)有方法中 rollout 預(yù)算大、監(jiān)督信號(hào)稀疏的兩大問題。通過樹結(jié)構(gòu)的采樣和優(yōu)勢(shì)估計(jì)方法，Tree-GRPO 能夠在多輪 Agent 任務(wù)中實(shí)現(xiàn)更高效、穩(wěn)定的 RL 訓(xùn)練。

團(tuán)隊(duì)表示，樹搜索方法是一種探索與利用的權(quán)衡，如何動(dòng)態(tài)地調(diào)整 RL 訓(xùn)練中彼此的權(quán)重是優(yōu)化學(xué)習(xí)效果的重要因素。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 智能體模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nav id="w10ti"><strong id="w10ti"></strong></nav>

<var id="w10ti"><thead id="w10ti"></thead></var>

<pre id="w10ti"></pre>