Tree-GRPO:樹式搜索讓小模型也能玩轉(zhuǎn)多輪智能體

大家好,我是肆〇柒。當(dāng)你訓(xùn)練一個LLM智能體完成多輪網(wǎng)頁搜索任務(wù)時,是否曾因高昂的工具調(diào)用成本而猶豫?每次搜索API調(diào)用可能花費0.1美元,1000次訓(xùn)練迭代就是100美元——而更令人沮喪的是,這些成本換來的往往只是一份稀疏的、僅基于最終結(jié)果的反饋信號:模型只知道答案對錯,卻無法判斷哪一步推理或工具調(diào)用出了問題。
來自廈門大學(xué)與阿里巴巴AMAP團(tuán)隊的最新研究提出了一種名為 Tree-GRPO 的新方法,直擊這一痛點。它通過樹式搜索結(jié)構(gòu),在相同滾動預(yù)算下獲得約1.5倍的訓(xùn)練樣本;更驚人的是,僅用1/4的預(yù)算就能超越傳統(tǒng)鏈?zhǔn)綇娀瘜W(xué)習(xí)方法。這意味著什么?對于每天訓(xùn)練1000個任務(wù)的團(tuán)隊,每月可節(jié)省數(shù)千美元成本,同時獲得更強的多輪交互能力。最關(guān)鍵的是,Tree-GRPO 無需任何人工標(biāo)注的中間監(jiān)督信號——僅靠最終結(jié)果獎勵,就能自動生成細(xì)粒度的過程監(jiān)督信號。這究竟是如何做到的?讓我們一探究竟。
兩種范式的直觀對比與核心挑戰(zhàn)
想象一下:LLM智能體執(zhí)行一個多跳問答任務(wù),需要進(jìn)行4輪思考-行動-觀察的交互循環(huán)。每次交互平均消耗1000 tokens,加上工具調(diào)用成本,每個任務(wù)的訓(xùn)練成本迅速攀升。隨著任務(wù)復(fù)雜度增加,agent軌跡可達(dá)數(shù)千token,多輪交互導(dǎo)致工具調(diào)用成本高昂(如高價位搜索API)。這不僅僅是理論問題——在WebagentQA任務(wù)中,工具調(diào)用成本已成為訓(xùn)練的主要瓶頸。
更嚴(yán)峻的是,僅靠結(jié)果獎勵難以定位多輪交互中具體步驟的優(yōu)劣。就像盲人摸象,模型只知道最終答案是對是錯,卻無法分辨是哪一步思考或工具調(diào)用導(dǎo)致了成功或失敗。即使增加滾動預(yù)算生成更多軌跡,訓(xùn)練信號仍受限于有限的結(jié)果反饋,造成"高度不平衡的學(xué)習(xí)過程甚至 training collapse"。
樹式方法的破局之道
如下圖所示,樹式搜索帶來兩大革命性優(yōu)勢:
- 預(yù)算效率:通過共享共同前綴,相同預(yù)算下獲得約1.5倍的樣本量
 - 信號質(zhì)量:樹結(jié)構(gòu)自然嵌入過程監(jiān)督信號,無需額外標(biāo)注
 
鏈?zhǔn)絭s樹式采樣策略對比
看上圖左側(cè):鏈?zhǔn)椒椒槊總€任務(wù)生成獨立軌跡,存在大量重復(fù)內(nèi)容。右側(cè)樹式方法則像知識樹一樣共享共同前綴——想象10個人同時探索迷宮,鏈?zhǔn)椒椒ㄗ屗麄兏髯詮念^探索,而樹式方法讓他們共享已探索路徑,只在分叉點各自探索新路徑。這種設(shè)計使相同滾動預(yù)算下獲得約1.5倍樣本量,對多輪agent訓(xùn)練意義重大。

agent步驟級與token/sentence級樹搜索對比
下圖進(jìn)一步揭示了關(guān)鍵創(chuàng)新:Tree-GRPO不是在token級別構(gòu)建樹,而是在完整的Thought-Action-Observation步驟級別構(gòu)建樹。如上表所示,token級樹搜索在多跳QA任務(wù)中僅得22.2分,遠(yuǎn)低于agent步驟級的36.8分。這就像拆散樂高積木的完整模塊——雖然零件可以重用,但破壞了agent步驟的完整性,反而阻礙了學(xué)習(xí)性能。


agent步驟級與token/sentence級樹搜索對比
范式對比:鏈?zhǔn)絉L與樹式RL
預(yù)算效率的量化優(yōu)勢
在滾動采樣機(jī)制上,鏈?zhǔn)絉L采用獨立軌跡采樣,每個任務(wù)生成多條互不相關(guān)的完整軌跡,存在顯著冗余。而樹式RL則通過樹搜索策略,生成具有共享前綴的交錯軌跡。如下圖所示,樹式方法包含三個關(guān)鍵階段:
1. 初始化:并行生成M條獨立軌跡作為M棵樹的根
2. 采樣:從每棵樹隨機(jī)選擇N個非葉節(jié)點進(jìn)行擴(kuò)展
3. 擴(kuò)展:基于選定節(jié)點的上下文繼續(xù)生成響應(yīng),作為新分支插入樹中
Tree-GRPO訓(xùn)練流程概述
特別值得注意的是"GenerateRollout"函數(shù)的設(shè)計——它確保每次擴(kuò)展都從選定節(jié)點繼續(xù)生成完整Thought-Action-Observation步驟,而非僅生成單個token。這一設(shè)計正是保持agent步驟完整性的技術(shù)關(guān)鍵,使模型能夠在保持語義連貫性的同時有效利用滾動預(yù)算。

信號質(zhì)量的革命性突破


樹內(nèi)過程信號生成機(jī)制
如上圖所示,相比之下,樹式結(jié)構(gòu)自然嵌入了過程監(jiān)督信號。在樹的每個分支點,從各自子樹葉子反向傳播的結(jié)果獎勵差異構(gòu)成了偏好學(xué)習(xí)目標(biāo),提供不同粒度的過程信號。子樹深度決定了過程信號的粒度,而隨機(jī)擴(kuò)展策略則產(chǎn)生不同粒度的信號,使模型能夠?qū)W習(xí)中間決策過程。
想象一棵知識樹:當(dāng)模型在某個決策點(A1t)面臨選擇時,它會探索不同路徑。左邊路徑導(dǎo)致A2t→A3t,右邊路徑導(dǎo)致A2t+→A3t+。關(guān)鍵在于,即使我們只給最終結(jié)果打分,樹結(jié)構(gòu)也能自動告訴我們:在A1t點選擇右邊路徑比左邊更好。這就是"隱式步驟級偏好學(xué)習(xí)"的魔力——無需人工標(biāo)注中間步驟的優(yōu)劣,樹結(jié)構(gòu)本身就能生成細(xì)粒度訓(xùn)練信號。
訓(xùn)練穩(wěn)定性的顯著提升
如下圖所示,樹式方法不僅提升了性能,還顯著改善了訓(xùn)練穩(wěn)定性。樹式方法使平均工具調(diào)用從2.4增至3.0,表明模型更愿意探索更長的交互路徑,這對解決復(fù)雜長視野任務(wù)至關(guān)重要。


樹式vs鏈?zhǔn)絉L在獎勵和動作數(shù)量上的對比
為什么樹式方法能促進(jìn)更長交互?因為更細(xì)粒度的監(jiān)督信號使模型敢于探索更長路徑。在多跳QA任務(wù)中,模型更愿意進(jìn)行多次檢索和推理,從而解決更復(fù)雜的長視野問題。這種能力對于Webagent等真實場景尤為重要,因為現(xiàn)實世界的問題往往需要多輪交互才能解決。
Tree-GRPO:樹式范式的技術(shù)實現(xiàn)
agent步驟級樹搜索的創(chuàng)新設(shè)計
Tree-GRPO的核心創(chuàng)新在于agent步驟級樹搜索設(shè)計。與現(xiàn)有樹式RL方法將token/sentence作為節(jié)點不同,該方法將完整的Thought-Action-Observation步驟作為樹節(jié)點單位。

agent步驟級與token/sentence級樹搜索對比
為什么選擇步驟級而非token級節(jié)點? 實驗證據(jù)如上表所示:在多跳QA任務(wù)中,token級樹搜索僅得22.2分,遠(yuǎn)低于步驟級的36.8分,甚至低于鏈?zhǔn)紾RPO的31.8分。如下圖所示,agent步驟級樹搜索在整個訓(xùn)練過程中保持穩(wěn)定上升趨勢,而token/sentence級樹搜索的訓(xùn)練獎勵波動劇烈且最終崩潰。

token/sentence級與agent步驟級樹搜索的訓(xùn)練獎勵對比
這從理論和實踐兩方面驗證了兩個關(guān)鍵判斷:
1. "探索agent步驟中間分支缺乏明確目的,可能造成滾動預(yù)算浪費"
2. "token/sentence級樹結(jié)構(gòu)的信用破壞了agent步驟的完整性,反而阻礙學(xué)習(xí)性能"
樹內(nèi)與樹間優(yōu)勢估計的協(xié)同機(jī)制
Tree-GRPO創(chuàng)新性地結(jié)合了樹內(nèi)與樹間優(yōu)勢。如下表所示,這種協(xié)同機(jī)制至關(guān)重要:
- 僅使用樹內(nèi)優(yōu)勢
時,各數(shù)據(jù)集得分僅為1.1-1.7分,表明訓(xùn)練不穩(wěn)定 - 樹間優(yōu)勢
單獨使用得分為40.6-41.3分 - 兩者結(jié)合后性能顯著提升至42.4-43.7分
 

樹內(nèi)與樹間優(yōu)勢估計的消融研究
為什么僅樹內(nèi)優(yōu)勢不穩(wěn)定? 因為"樹內(nèi)rollout數(shù)量有限導(dǎo)致基線估計不可靠"——當(dāng)M=2,N=2,L=1時,每棵樹僅包含5條軌跡,難以形成穩(wěn)定的基線。而結(jié)合樹間優(yōu)勢后,基線基于全部M×(L×N+1)條軌跡計算,顯著提高了估計穩(wěn)定性。
最終優(yōu)勢估計為
,既保留了過程信號,又確保了訓(xùn)練穩(wěn)定性。
滾動預(yù)算的靈活配置
Tree-GRPO的實用亮點在于滾動預(yù)算的靈活配置。通過調(diào)整樹數(shù)量、擴(kuò)展節(jié)點數(shù)和擴(kuò)展輪數(shù),可以在探索與利用間取得平衡。

不同訓(xùn)練預(yù)算下的性能對比
最令人驚訝的發(fā)現(xiàn)是:Tree-GRPO使用1/4滾動預(yù)算即可超越鏈?zhǔn)椒椒?/span>。如上表所示,當(dāng)預(yù)算≈4/提示時,鏈?zhǔn)椒椒ǖ?1.8分;而樹式方法在預(yù)算≈2/提示時已達(dá)到31.6分,卻僅消耗1/4的工具調(diào)用成本。
這意味著什么?對于Qwen2.5-3b模型,當(dāng)鏈?zhǔn)椒椒ㄐ枰?次完整交互(4B tokens)時,樹式方法僅用1次完整交互加2次半交互(1B + 2×B/2 = 2B tokens)就能獲得更好性能。這種'預(yù)算減半,性能翻倍'的現(xiàn)象在極端預(yù)算條件下尤為明顯——當(dāng)預(yù)算≈2/提示時,樹式方法實現(xiàn)112%的性能提升!
如下表所示,參數(shù)選擇需考慮任務(wù)特性:
- 當(dāng)預(yù)算≈2/提示時,M=1, N=2, L=1(實現(xiàn)112%相對提升)
 - 當(dāng)預(yù)算≈4/提示時,M=2, N=2, L=1(16%相對提升)
 - 當(dāng)預(yù)算≈16/提示時,M=4, N=5, L=1(10%相對提升)
 

不同樹結(jié)構(gòu)的性能對比
實驗對比:11個數(shù)據(jù)集上的全面較量
多跳QA任務(wù):小模型的性能飛躍
最震撼的發(fā)現(xiàn):Tree-GRPO使小模型也能有效執(zhí)行多輪agent任務(wù)。如下表所示,Qwen2.5-1.5b模型上,Tree-GRPO在多跳QA任務(wù)中實現(xiàn)69%的相對提升,從11.3分躍升至19.1分。

單跳與多跳QA任務(wù)上的性能對比
尤為關(guān)鍵的是,"Tree-GRPO能夠成功使基礎(chǔ)模型在沒有監(jiān)督微調(diào)(SFT)的情況下采用預(yù)定義的多輪agent交互范式,盡管在極有限的滾動預(yù)算下"。這意味著什么?對于資源有限的研究團(tuán)隊,無需昂貴的SFT階段,就能讓小模型執(zhí)行復(fù)雜的多輪交互任務(wù)。
Llama-3.2-3b模型上的表現(xiàn)同樣令人印象深刻:從26.7分提升至36.8分,實現(xiàn)38%的相對提升。這證明了樹式方法的架構(gòu)普適性——無論Qwen還是Llama系列,都能從中受益。
WebagentQA任務(wù):數(shù)據(jù)限制下的突破
WebagentQA任務(wù)面臨嚴(yán)峻的數(shù)據(jù)挑戰(zhàn):訓(xùn)練數(shù)據(jù)僅有2,200個樣本,訓(xùn)練步數(shù)僅為34(約2個epoch)。這反映了"現(xiàn)有開源WebagentQA基準(zhǔn)主要是測試集,缺乏高質(zhì)量訓(xùn)練數(shù)據(jù)"的現(xiàn)實限制。
盡管如此,如下表所示,Tree-GRPO在GAIA上仍實現(xiàn)28%的平均提升。這表明樹式方法在數(shù)據(jù)有限的情況下仍能有效學(xué)習(xí)。

WebagentQA任務(wù)性能對比
然而,在BrowseComp等高度復(fù)雜任務(wù)上提升有限,這"主要受訓(xùn)練數(shù)據(jù)限制"。這種性能差異揭示了"訓(xùn)練數(shù)據(jù)與測試難度不匹配"的根本問題——測試任務(wù)要求模型執(zhí)行多達(dá)數(shù)十次的網(wǎng)頁交互,而訓(xùn)練數(shù)據(jù)無法提供相應(yīng)難度的樣本。
預(yù)算敏感性實驗:樹式方法的"低預(yù)算高效益"
預(yù)算敏感性實驗揭示了Tree-GRPO的革命性價值。如下表所示,當(dāng)滾動預(yù)算僅為2/提示時,鏈?zhǔn)絉L幾乎無法學(xué)習(xí)多輪交互行為(僅14.9分),而樹式方法實現(xiàn)112%的相對提升(達(dá)31.6分)。

不同訓(xùn)練預(yù)算下的性能對比
這種"極端預(yù)算表現(xiàn)"源于樹搜索的樣本增益效應(yīng):在相同預(yù)算下,樹式方法獲得約1.5倍樣本量。更令人驚訝的是,Tree-GRPO使用僅1/4的滾動預(yù)算即可超越鏈?zhǔn)椒椒?/span>。在Qwen2.5-3b上,當(dāng)預(yù)算≈4/提示時,鏈?zhǔn)椒椒ǖ?1.8分;而樹式方法在預(yù)算≈2/提示時已達(dá)到31.6分,卻僅消耗1/4的工具調(diào)用成本。
這在實際應(yīng)用中意義重大——對于高成本工具調(diào)用(如搜索API),樹式方法能顯著降低訓(xùn)練成本,同時提高性能。
深度技術(shù)對比:樹式方法的內(nèi)在機(jī)制
隱式步驟級偏好學(xué)習(xí)的理論證明
Tree-GRPO的理論深度體現(xiàn)在其隱式步驟級偏好學(xué)習(xí)機(jī)制上。研究證明,樹內(nèi)GRPO與步驟級DPO具有相同的梯度結(jié)構(gòu):

這意味著"intra-tree GRPO可以被解釋為隱式執(zhí)行步驟級 preference優(yōu)化,從而繼承步驟級DPO的關(guān)鍵特性,同時在在線滾動設(shè)置中運行"。
直觀理解,當(dāng)樹中某分支獲得更高獎勵時,模型會增加該分支路徑的概率,同時減少低獎勵分支的概率——這正是偏好學(xué)習(xí)的核心思想。關(guān)鍵區(qū)別在于,Tree-GRPO無需人工標(biāo)注偏好對,而是通過樹結(jié)構(gòu)"隱式生成"這些偏好信號,實現(xiàn)了"僅基于結(jié)果獎勵構(gòu)建步驟級過程信號"的突破。
為什么樹式方法能促進(jìn)更長的交互?
如下圖所示,樹式訓(xùn)練使平均工具調(diào)用從2.4增至3.0。這是因為更細(xì)粒度的監(jiān)督信號使模型敢于探索更長路徑。


樹式vs鏈?zhǔn)絉L在獎勵和動作數(shù)量上的對比
在多跳QA任務(wù)中,模型更愿意進(jìn)行多次檢索和推理,從而解決更復(fù)雜的長視野問題。這種能力對于Webagent等真實場景尤為重要,因為現(xiàn)實世界的問題往往需要多輪交互才能解決。
學(xué)習(xí)率預(yù)熱的敏感性

學(xué)習(xí)率預(yù)熱對比
學(xué)習(xí)率預(yù)熱對小模型訓(xùn)練的敏感性是另一關(guān)鍵發(fā)現(xiàn)。如上圖所示,學(xué)習(xí)率預(yù)熱是"訓(xùn)練小模型(<3B參數(shù))時的特別敏感超參數(shù)"。
具體的講:
- 對于單跳/多跳QA任務(wù),推薦使用0.285/0.5的學(xué)習(xí)率預(yù)熱比
 - 對于WebagentQA任務(wù),由于訓(xùn)練步數(shù)較少(僅34步),學(xué)習(xí)率預(yù)熱比設(shè)為0更為合適
 
樹式方法在所有學(xué)習(xí)率預(yù)熱比設(shè)置下均優(yōu)于鏈?zhǔn)椒椒ǎ宫F(xiàn)出更強的魯棒性。這驗證了理論分析:intra-tree GRPO與step-level DPO具有相同梯度結(jié)構(gòu),使模型能在更小學(xué)習(xí)率下穩(wěn)定收斂。
應(yīng)用場景決策樹
基于實驗結(jié)果,可以構(gòu)建樹式方法的應(yīng)用決策樹:
推薦使用樹式方法的場景
- 多輪交互任務(wù):如多跳QA,特別是小模型訓(xùn)練
 - 滾動預(yù)算受限的場景:token/tool call成本高
 - 僅結(jié)果獎勵可用的情況:缺乏過程監(jiān)督信號
 
如下表所示,樹式方法在小模型(1.5b)上的提升最為顯著(69%),而在大模型(14b)上也有穩(wěn)定提升(8.4%)。這表明樹式方法對小模型訓(xùn)練尤其有價值。

單跳與多跳QA任務(wù)上的性能對比
鏈?zhǔn)椒椒ㄈ杂袃?yōu)勢的場景
- 單輪簡單任務(wù):如單跳QA,樹深度有限(通常為2),過程信號收益有限
 - 滾動預(yù)算充足的場景:當(dāng)預(yù)算充足時,鏈?zhǔn)椒椒ǖ暮唵涡钥赡芨袃?yōu)勢
 - 高度并行化訓(xùn)練環(huán)境:樹搜索有一定串行依賴,可能影響訓(xùn)練吞吐量
 
在參數(shù)選擇方面,如下表所示,參數(shù)選擇需考慮預(yù)算限制:
- 預(yù)算≈2/提示:M=1, N=2, L=1(實現(xiàn)112%相對提升)
 - 預(yù)算≈4/提示:M=2, N=2, L=1(16%相對提升)
 - 預(yù)算≈16/提示:M=4, N=5, L=1(10%相對提升)
 

不同樹結(jié)構(gòu)的性能對比
值得注意的是,減少M雖節(jié)省預(yù)算,但會限制探索范圍。如(M=1,N=5,L=1)配置性能明顯下降,表明在探索與利用間取得平衡至關(guān)重要。
局限與挑戰(zhàn)
成功案例:多輪交互能力的體現(xiàn)
如下兩表所示的成功案例表明,模型能夠"通過迭代工具調(diào)用和自主信息聚合執(zhí)行多輪agent任務(wù)"。例如,在Musique數(shù)據(jù)集上,模型通過三次搜索逐步確定"Groovy Little Summer Song"的表演者、其唱片公司及公司所有者,最終正確回答問題。


樹式GRPO成功案例
關(guān)鍵在于:
1. 每次搜索都基于前次結(jié)果提出更精確的問題
2. 模型能整合分散信息形成完整推理鏈
3. 模型敢于進(jìn)行多輪交互,不因一次搜索結(jié)果不理想而放棄
失敗案例:探索不足的局限
如下表所示,模型有時"在開始時從幾個部分符合要求的候選路徑中選擇單一解決方案路徑,未進(jìn)行進(jìn)一步探索"。在Musique數(shù)據(jù)集中,模型將David Hasselhoff(演員)誤認(rèn)為Deanna Russo(實際答案),原因在于"初始選擇部分符合要求的候選路徑后,未進(jìn)行進(jìn)一步探索"。


樹式GRPO失敗案例
在后續(xù)推理中,既未重新考慮也未根據(jù)新獲取信息驗證選擇,導(dǎo)致錯誤答案。這表明模型仍缺乏反思推理和更豐富探索能力。
樹搜索的探索局限性
樹搜索的探索范圍受限于樹數(shù)量M。如下表所示,(M=1, N=5, L=1)配置的性能下降證實了這一點。減少樹數(shù)M雖節(jié)省滾動預(yù)算,但會限制探索范圍,可能導(dǎo)致模型陷入局部最優(yōu)。

不同樹結(jié)構(gòu)的性能對比
范式選擇的實踐智慧
樹式方法的核心價值總結(jié)
Tree-GRPO代表了LLMagent強化學(xué)習(xí)的范式轉(zhuǎn)變。其核心價值在于:
- "僅基于結(jié)果獎勵構(gòu)建過程信號"的革命性突破:無需額外標(biāo)注,樹結(jié)構(gòu)本身就能生成細(xì)粒度訓(xùn)練信號
 - "低預(yù)算高效益"的實用價值:用1/4預(yù)算實現(xiàn)更好性能,顯著降低訓(xùn)練成本
 - 使小模型也能有效執(zhí)行多輪agent任務(wù):Qwen2.5-1.5b在多跳QA任務(wù)中性能提升69%
 
單跳QA任務(wù)中有限的提升(1.1%-9.5%)與多跳QA任務(wù)中顯著的收益(16%-69%)形成鮮明對比,這印證了"樹深度限制(通常為2)使過程信號收益有限"的分析。而WebagentQA任務(wù)的中等提升(28%平均提升)則揭示了另一維度的挑戰(zhàn):訓(xùn)練數(shù)據(jù)與測試難度不匹配。
實踐啟示:從理論到應(yīng)用
對實踐者的啟示很簡單:如果你在訓(xùn)練需要多輪交互的LLM智能體,尤其是預(yù)算有限或使用小模型(≤3b)時,樹式方法應(yīng)成為你的首選。
- 優(yōu)先在多輪agent任務(wù)中采用樹式方法:特別是多跳QA和Webagent任務(wù)
 - 根據(jù)滾動預(yù)算靈活配置樹參數(shù):極端預(yù)算條件下樹式方法優(yōu)勢尤為明顯
 - 小模型訓(xùn)練時特別關(guān)注學(xué)習(xí)率預(yù)熱設(shè)置:如下圖所示,學(xué)習(xí)率預(yù)熱對<3B小模型特別敏感

 
學(xué)習(xí)率預(yù)熱對比
總結(jié),從"軌跡級優(yōu)化"到"過程級優(yōu)化"
隨著agent智能體在開放環(huán)境中長視野交互能力成為"下一代基礎(chǔ)模型的關(guān)鍵",Tree-GRPO所代表的樹式搜索范式將為LLM agent訓(xùn)練提供重要方向。在滾動預(yù)算與信號質(zhì)量的永恒權(quán)衡中,樹式方法找到了更優(yōu)的平衡點,為構(gòu)建真正具備agent能力的下一代語言模型鋪平道路。
對于追求高效、低成本訓(xùn)練的專業(yè)團(tuán)隊而言,樹式方法不僅是技術(shù)選擇,更是戰(zhàn)略決策——它重新定義了在有限資源下實現(xiàn)高質(zhì)量agent訓(xùn)練的可能性邊界。這不是漸進(jìn)式改進(jìn),而是范式轉(zhuǎn)變:從“軌跡級優(yōu)化”到“過程級優(yōu)化”,為下一代agent基礎(chǔ)模型訓(xùn)練提供新方向。















 
 
 















 
 
 
 