偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Tree-GRPO:樹式搜索讓小模型也能玩轉(zhuǎn)多輪智能體

人工智能
阿里巴巴AMAP與廈門大學(xué)聯(lián)合提出Tree-GRPO,通過樹式搜索將LLM智能體RL的預(yù)算效率與信號質(zhì)量雙雙提升,為小模型執(zhí)行復(fù)雜多輪任務(wù)開辟新路徑。

大家好,我是肆〇柒。當(dāng)你訓(xùn)練一個LLM智能體完成多輪網(wǎng)頁搜索任務(wù)時,是否曾因高昂的工具調(diào)用成本而猶豫?每次搜索API調(diào)用可能花費0.1美元,1000次訓(xùn)練迭代就是100美元——而更令人沮喪的是,這些成本換來的往往只是一份稀疏的、僅基于最終結(jié)果的反饋信號:模型只知道答案對錯,卻無法判斷哪一步推理或工具調(diào)用出了問題。

來自廈門大學(xué)與阿里巴巴AMAP團(tuán)隊的最新研究提出了一種名為 Tree-GRPO 的新方法,直擊這一痛點。它通過樹式搜索結(jié)構(gòu),在相同滾動預(yù)算下獲得約1.5倍的訓(xùn)練樣本;更驚人的是,僅用1/4的預(yù)算就能超越傳統(tǒng)鏈?zhǔn)綇娀瘜W(xué)習(xí)方法。這意味著什么?對于每天訓(xùn)練1000個任務(wù)的團(tuán)隊,每月可節(jié)省數(shù)千美元成本,同時獲得更強的多輪交互能力。最關(guān)鍵的是,Tree-GRPO 無需任何人工標(biāo)注的中間監(jiān)督信號——僅靠最終結(jié)果獎勵,就能自動生成細(xì)粒度的過程監(jiān)督信號。這究竟是如何做到的?讓我們一探究竟。

兩種范式的直觀對比與核心挑戰(zhàn)

想象一下:LLM智能體執(zhí)行一個多跳問答任務(wù),需要進(jìn)行4輪思考-行動-觀察的交互循環(huán)。每次交互平均消耗1000 tokens,加上工具調(diào)用成本,每個任務(wù)的訓(xùn)練成本迅速攀升。隨著任務(wù)復(fù)雜度增加,agent軌跡可達(dá)數(shù)千token,多輪交互導(dǎo)致工具調(diào)用成本高昂(如高價位搜索API)。這不僅僅是理論問題——在WebagentQA任務(wù)中,工具調(diào)用成本已成為訓(xùn)練的主要瓶頸。

更嚴(yán)峻的是,僅靠結(jié)果獎勵難以定位多輪交互中具體步驟的優(yōu)劣。就像盲人摸象,模型只知道最終答案是對是錯,卻無法分辨是哪一步思考或工具調(diào)用導(dǎo)致了成功或失敗。即使增加滾動預(yù)算生成更多軌跡,訓(xùn)練信號仍受限于有限的結(jié)果反饋,造成"高度不平衡的學(xué)習(xí)過程甚至 training collapse"。

樹式方法的破局之道

如下圖所示,樹式搜索帶來兩大革命性優(yōu)勢:

  • 預(yù)算效率:通過共享共同前綴,相同預(yù)算下獲得約1.5倍的樣本量
  • 信號質(zhì)量:樹結(jié)構(gòu)自然嵌入過程監(jiān)督信號,無需額外標(biāo)注

鏈?zhǔn)絭s樹式采樣策略對比

看上圖左側(cè):鏈?zhǔn)椒椒槊總€任務(wù)生成獨立軌跡,存在大量重復(fù)內(nèi)容。右側(cè)樹式方法則像知識樹一樣共享共同前綴——想象10個人同時探索迷宮,鏈?zhǔn)椒椒ㄗ屗麄兏髯詮念^探索,而樹式方法讓他們共享已探索路徑,只在分叉點各自探索新路徑。這種設(shè)計使相同滾動預(yù)算下獲得約1.5倍樣本量,對多輪agent訓(xùn)練意義重大。

agent步驟級與token/sentence級樹搜索對比

下圖進(jìn)一步揭示了關(guān)鍵創(chuàng)新:Tree-GRPO不是在token級別構(gòu)建樹,而是在完整的Thought-Action-Observation步驟級別構(gòu)建樹。如上表所示,token級樹搜索在多跳QA任務(wù)中僅得22.2分,遠(yuǎn)低于agent步驟級的36.8分。這就像拆散樂高積木的完整模塊——雖然零件可以重用,但破壞了agent步驟的完整性,反而阻礙了學(xué)習(xí)性能。

agent步驟級與token/sentence級樹搜索對比

范式對比:鏈?zhǔn)絉L與樹式RL

預(yù)算效率的量化優(yōu)勢

在滾動采樣機(jī)制上,鏈?zhǔn)絉L采用獨立軌跡采樣,每個任務(wù)生成多條互不相關(guān)的完整軌跡,存在顯著冗余。而樹式RL則通過樹搜索策略,生成具有共享前綴的交錯軌跡。如下圖所示,樹式方法包含三個關(guān)鍵階段:

1. 初始化:并行生成M條獨立軌跡作為M棵樹的根

2. 采樣:從每棵樹隨機(jī)選擇N個非葉節(jié)點進(jìn)行擴(kuò)展

3. 擴(kuò)展:基于選定節(jié)點的上下文繼續(xù)生成響應(yīng),作為新分支插入樹中

Tree-GRPO訓(xùn)練流程概述

特別值得注意的是"GenerateRollout"函數(shù)的設(shè)計——它確保每次擴(kuò)展都從選定節(jié)點繼續(xù)生成完整Thought-Action-Observation步驟,而非僅生成單個token。這一設(shè)計正是保持agent步驟完整性的技術(shù)關(guān)鍵,使模型能夠在保持語義連貫性的同時有效利用滾動預(yù)算。

信號質(zhì)量的革命性突破

樹內(nèi)過程信號生成機(jī)制

如上圖所示,相比之下,樹式結(jié)構(gòu)自然嵌入了過程監(jiān)督信號。在樹的每個分支點,從各自子樹葉子反向傳播的結(jié)果獎勵差異構(gòu)成了偏好學(xué)習(xí)目標(biāo),提供不同粒度的過程信號。子樹深度決定了過程信號的粒度,而隨機(jī)擴(kuò)展策略則產(chǎn)生不同粒度的信號,使模型能夠?qū)W習(xí)中間決策過程。

想象一棵知識樹:當(dāng)模型在某個決策點(A1t)面臨選擇時,它會探索不同路徑。左邊路徑導(dǎo)致A2t→A3t,右邊路徑導(dǎo)致A2t+→A3t+。關(guān)鍵在于,即使我們只給最終結(jié)果打分,樹結(jié)構(gòu)也能自動告訴我們:在A1t點選擇右邊路徑比左邊更好。這就是"隱式步驟級偏好學(xué)習(xí)"的魔力——無需人工標(biāo)注中間步驟的優(yōu)劣,樹結(jié)構(gòu)本身就能生成細(xì)粒度訓(xùn)練信號。

訓(xùn)練穩(wěn)定性的顯著提升

如下圖所示,樹式方法不僅提升了性能,還顯著改善了訓(xùn)練穩(wěn)定性。樹式方法使平均工具調(diào)用從2.4增至3.0,表明模型更愿意探索更長的交互路徑,這對解決復(fù)雜長視野任務(wù)至關(guān)重要。

樹式vs鏈?zhǔn)絉L在獎勵和動作數(shù)量上的對比

為什么樹式方法能促進(jìn)更長交互?因為更細(xì)粒度的監(jiān)督信號使模型敢于探索更長路徑。在多跳QA任務(wù)中,模型更愿意進(jìn)行多次檢索和推理,從而解決更復(fù)雜的長視野問題。這種能力對于Webagent等真實場景尤為重要,因為現(xiàn)實世界的問題往往需要多輪交互才能解決。

Tree-GRPO:樹式范式的技術(shù)實現(xiàn)

agent步驟級樹搜索的創(chuàng)新設(shè)計

Tree-GRPO的核心創(chuàng)新在于agent步驟級樹搜索設(shè)計。與現(xiàn)有樹式RL方法將token/sentence作為節(jié)點不同,該方法將完整的Thought-Action-Observation步驟作為樹節(jié)點單位。

agent步驟級與token/sentence級樹搜索對比

為什么選擇步驟級而非token級節(jié)點? 實驗證據(jù)如上表所示:在多跳QA任務(wù)中,token級樹搜索僅得22.2分,遠(yuǎn)低于步驟級的36.8分,甚至低于鏈?zhǔn)紾RPO的31.8分。如下圖所示,agent步驟級樹搜索在整個訓(xùn)練過程中保持穩(wěn)定上升趨勢,而token/sentence級樹搜索的訓(xùn)練獎勵波動劇烈且最終崩潰。

token/sentence級與agent步驟級樹搜索的訓(xùn)練獎勵對比

這從理論和實踐兩方面驗證了兩個關(guān)鍵判斷:

1. "探索agent步驟中間分支缺乏明確目的,可能造成滾動預(yù)算浪費"

2. "token/sentence級樹結(jié)構(gòu)的信用破壞了agent步驟的完整性,反而阻礙學(xué)習(xí)性能"

樹內(nèi)與樹間優(yōu)勢估計的協(xié)同機(jī)制

Tree-GRPO創(chuàng)新性地結(jié)合了樹內(nèi)與樹間優(yōu)勢。如下表所示,這種協(xié)同機(jī)制至關(guān)重要:

  • 僅使用樹內(nèi)優(yōu)勢時,各數(shù)據(jù)集得分僅為1.1-1.7分,表明訓(xùn)練不穩(wěn)定
  • 樹間優(yōu)勢單獨使用得分為40.6-41.3分
  • 兩者結(jié)合后性能顯著提升至42.4-43.7分

樹內(nèi)與樹間優(yōu)勢估計的消融研究

為什么僅樹內(nèi)優(yōu)勢不穩(wěn)定? 因為"樹內(nèi)rollout數(shù)量有限導(dǎo)致基線估計不可靠"——當(dāng)M=2,N=2,L=1時,每棵樹僅包含5條軌跡,難以形成穩(wěn)定的基線。而結(jié)合樹間優(yōu)勢后,基線基于全部M×(L×N+1)條軌跡計算,顯著提高了估計穩(wěn)定性。

最終優(yōu)勢估計為,既保留了過程信號,又確保了訓(xùn)練穩(wěn)定性。

滾動預(yù)算的靈活配置

Tree-GRPO的實用亮點在于滾動預(yù)算的靈活配置。通過調(diào)整樹數(shù)量、擴(kuò)展節(jié)點數(shù)和擴(kuò)展輪數(shù),可以在探索與利用間取得平衡。

不同訓(xùn)練預(yù)算下的性能對比

最令人驚訝的發(fā)現(xiàn)是:Tree-GRPO使用1/4滾動預(yù)算即可超越鏈?zhǔn)椒椒?/span>。如上表所示,當(dāng)預(yù)算≈4/提示時,鏈?zhǔn)椒椒ǖ?1.8分;而樹式方法在預(yù)算≈2/提示時已達(dá)到31.6分,卻僅消耗1/4的工具調(diào)用成本。

這意味著什么?對于Qwen2.5-3b模型,當(dāng)鏈?zhǔn)椒椒ㄐ枰?次完整交互(4B tokens)時,樹式方法僅用1次完整交互加2次半交互(1B + 2×B/2 = 2B tokens)就能獲得更好性能。這種'預(yù)算減半,性能翻倍'的現(xiàn)象在極端預(yù)算條件下尤為明顯——當(dāng)預(yù)算≈2/提示時,樹式方法實現(xiàn)112%的性能提升!

如下表所示,參數(shù)選擇需考慮任務(wù)特性:

  • 當(dāng)預(yù)算≈2/提示時,M=1, N=2, L=1(實現(xiàn)112%相對提升)
  • 當(dāng)預(yù)算≈4/提示時,M=2, N=2, L=1(16%相對提升)
  • 當(dāng)預(yù)算≈16/提示時,M=4, N=5, L=1(10%相對提升)

不同樹結(jié)構(gòu)的性能對比

實驗對比:11個數(shù)據(jù)集上的全面較量

多跳QA任務(wù):小模型的性能飛躍

最震撼的發(fā)現(xiàn):Tree-GRPO使小模型也能有效執(zhí)行多輪agent任務(wù)。如下表所示,Qwen2.5-1.5b模型上,Tree-GRPO在多跳QA任務(wù)中實現(xiàn)69%的相對提升,從11.3分躍升至19.1分。

單跳與多跳QA任務(wù)上的性能對比

尤為關(guān)鍵的是,"Tree-GRPO能夠成功使基礎(chǔ)模型在沒有監(jiān)督微調(diào)(SFT)的情況下采用預(yù)定義的多輪agent交互范式,盡管在極有限的滾動預(yù)算下"。這意味著什么?對于資源有限的研究團(tuán)隊,無需昂貴的SFT階段,就能讓小模型執(zhí)行復(fù)雜的多輪交互任務(wù)。

Llama-3.2-3b模型上的表現(xiàn)同樣令人印象深刻:從26.7分提升至36.8分,實現(xiàn)38%的相對提升。這證明了樹式方法的架構(gòu)普適性——無論Qwen還是Llama系列,都能從中受益。

WebagentQA任務(wù):數(shù)據(jù)限制下的突破

WebagentQA任務(wù)面臨嚴(yán)峻的數(shù)據(jù)挑戰(zhàn):訓(xùn)練數(shù)據(jù)僅有2,200個樣本,訓(xùn)練步數(shù)僅為34(約2個epoch)。這反映了"現(xiàn)有開源WebagentQA基準(zhǔn)主要是測試集,缺乏高質(zhì)量訓(xùn)練數(shù)據(jù)"的現(xiàn)實限制。

盡管如此,如下表所示,Tree-GRPO在GAIA上仍實現(xiàn)28%的平均提升。這表明樹式方法在數(shù)據(jù)有限的情況下仍能有效學(xué)習(xí)。

WebagentQA任務(wù)性能對比

然而,在BrowseComp等高度復(fù)雜任務(wù)上提升有限,這"主要受訓(xùn)練數(shù)據(jù)限制"。這種性能差異揭示了"訓(xùn)練數(shù)據(jù)與測試難度不匹配"的根本問題——測試任務(wù)要求模型執(zhí)行多達(dá)數(shù)十次的網(wǎng)頁交互,而訓(xùn)練數(shù)據(jù)無法提供相應(yīng)難度的樣本。

預(yù)算敏感性實驗:樹式方法的"低預(yù)算高效益"

預(yù)算敏感性實驗揭示了Tree-GRPO的革命性價值。如下表所示,當(dāng)滾動預(yù)算僅為2/提示時,鏈?zhǔn)絉L幾乎無法學(xué)習(xí)多輪交互行為(僅14.9分),而樹式方法實現(xiàn)112%的相對提升(達(dá)31.6分)。

不同訓(xùn)練預(yù)算下的性能對比

這種"極端預(yù)算表現(xiàn)"源于樹搜索的樣本增益效應(yīng):在相同預(yù)算下,樹式方法獲得約1.5倍樣本量。更令人驚訝的是,Tree-GRPO使用僅1/4的滾動預(yù)算即可超越鏈?zhǔn)椒椒?/span>。在Qwen2.5-3b上,當(dāng)預(yù)算≈4/提示時,鏈?zhǔn)椒椒ǖ?1.8分;而樹式方法在預(yù)算≈2/提示時已達(dá)到31.6分,卻僅消耗1/4的工具調(diào)用成本。

這在實際應(yīng)用中意義重大——對于高成本工具調(diào)用(如搜索API),樹式方法能顯著降低訓(xùn)練成本,同時提高性能。

深度技術(shù)對比:樹式方法的內(nèi)在機(jī)制

隱式步驟級偏好學(xué)習(xí)的理論證明

Tree-GRPO的理論深度體現(xiàn)在其隱式步驟級偏好學(xué)習(xí)機(jī)制上。研究證明,樹內(nèi)GRPO與步驟級DPO具有相同的梯度結(jié)構(gòu):

這意味著"intra-tree GRPO可以被解釋為隱式執(zhí)行步驟級 preference優(yōu)化,從而繼承步驟級DPO的關(guān)鍵特性,同時在在線滾動設(shè)置中運行"。

直觀理解,當(dāng)樹中某分支獲得更高獎勵時,模型會增加該分支路徑的概率,同時減少低獎勵分支的概率——這正是偏好學(xué)習(xí)的核心思想。關(guān)鍵區(qū)別在于,Tree-GRPO無需人工標(biāo)注偏好對,而是通過樹結(jié)構(gòu)"隱式生成"這些偏好信號,實現(xiàn)了"僅基于結(jié)果獎勵構(gòu)建步驟級過程信號"的突破。

為什么樹式方法能促進(jìn)更長的交互?

如下圖所示,樹式訓(xùn)練使平均工具調(diào)用從2.4增至3.0。這是因為更細(xì)粒度的監(jiān)督信號使模型敢于探索更長路徑。

樹式vs鏈?zhǔn)絉L在獎勵和動作數(shù)量上的對比

在多跳QA任務(wù)中,模型更愿意進(jìn)行多次檢索和推理,從而解決更復(fù)雜的長視野問題。這種能力對于Webagent等真實場景尤為重要,因為現(xiàn)實世界的問題往往需要多輪交互才能解決。

學(xué)習(xí)率預(yù)熱的敏感性

學(xué)習(xí)率預(yù)熱對比

學(xué)習(xí)率預(yù)熱對小模型訓(xùn)練的敏感性是另一關(guān)鍵發(fā)現(xiàn)。如上圖所示,學(xué)習(xí)率預(yù)熱是"訓(xùn)練小模型(<3B參數(shù))時的特別敏感超參數(shù)"。

具體的講:

  • 對于單跳/多跳QA任務(wù),推薦使用0.285/0.5的學(xué)習(xí)率預(yù)熱比
  • 對于WebagentQA任務(wù),由于訓(xùn)練步數(shù)較少(僅34步),學(xué)習(xí)率預(yù)熱比設(shè)為0更為合適

樹式方法在所有學(xué)習(xí)率預(yù)熱比設(shè)置下均優(yōu)于鏈?zhǔn)椒椒ǎ宫F(xiàn)出更強的魯棒性。這驗證了理論分析:intra-tree GRPO與step-level DPO具有相同梯度結(jié)構(gòu),使模型能在更小學(xué)習(xí)率下穩(wěn)定收斂。

應(yīng)用場景決策樹

基于實驗結(jié)果,可以構(gòu)建樹式方法的應(yīng)用決策樹:

推薦使用樹式方法的場景

  • 多輪交互任務(wù):如多跳QA,特別是小模型訓(xùn)練
  • 滾動預(yù)算受限的場景:token/tool call成本高
  • 僅結(jié)果獎勵可用的情況:缺乏過程監(jiān)督信號

如下表所示,樹式方法在小模型(1.5b)上的提升最為顯著(69%),而在大模型(14b)上也有穩(wěn)定提升(8.4%)。這表明樹式方法對小模型訓(xùn)練尤其有價值。

單跳與多跳QA任務(wù)上的性能對比

鏈?zhǔn)椒椒ㄈ杂袃?yōu)勢的場景

  • 單輪簡單任務(wù):如單跳QA,樹深度有限(通常為2),過程信號收益有限
  • 滾動預(yù)算充足的場景:當(dāng)預(yù)算充足時,鏈?zhǔn)椒椒ǖ暮唵涡钥赡芨袃?yōu)勢
  • 高度并行化訓(xùn)練環(huán)境:樹搜索有一定串行依賴,可能影響訓(xùn)練吞吐量

在參數(shù)選擇方面,如下表所示,參數(shù)選擇需考慮預(yù)算限制:

  • 預(yù)算≈2/提示:M=1, N=2, L=1(實現(xiàn)112%相對提升)
  • 預(yù)算≈4/提示:M=2, N=2, L=1(16%相對提升)
  • 預(yù)算≈16/提示:M=4, N=5, L=1(10%相對提升)

不同樹結(jié)構(gòu)的性能對比

值得注意的是,減少M雖節(jié)省預(yù)算,但會限制探索范圍。如(M=1,N=5,L=1)配置性能明顯下降,表明在探索與利用間取得平衡至關(guān)重要

局限與挑戰(zhàn)

成功案例:多輪交互能力的體現(xiàn)

如下兩表所示的成功案例表明,模型能夠"通過迭代工具調(diào)用和自主信息聚合執(zhí)行多輪agent任務(wù)"。例如,在Musique數(shù)據(jù)集上,模型通過三次搜索逐步確定"Groovy Little Summer Song"的表演者、其唱片公司及公司所有者,最終正確回答問題。

樹式GRPO成功案例

關(guān)鍵在于:

1. 每次搜索都基于前次結(jié)果提出更精確的問題

2. 模型能整合分散信息形成完整推理鏈

3. 模型敢于進(jìn)行多輪交互,不因一次搜索結(jié)果不理想而放棄

失敗案例:探索不足的局限

如下表所示,模型有時"在開始時從幾個部分符合要求的候選路徑中選擇單一解決方案路徑,未進(jìn)行進(jìn)一步探索"。在Musique數(shù)據(jù)集中,模型將David Hasselhoff(演員)誤認(rèn)為Deanna Russo(實際答案),原因在于"初始選擇部分符合要求的候選路徑后,未進(jìn)行進(jìn)一步探索"。

樹式GRPO失敗案例

在后續(xù)推理中,既未重新考慮也未根據(jù)新獲取信息驗證選擇,導(dǎo)致錯誤答案。這表明模型仍缺乏反思推理和更豐富探索能力。

樹搜索的探索局限性

樹搜索的探索范圍受限于樹數(shù)量M。如下表所示,(M=1, N=5, L=1)配置的性能下降證實了這一點。減少樹數(shù)M雖節(jié)省滾動預(yù)算,但會限制探索范圍,可能導(dǎo)致模型陷入局部最優(yōu)。

不同樹結(jié)構(gòu)的性能對比

范式選擇的實踐智慧

樹式方法的核心價值總結(jié)

Tree-GRPO代表了LLMagent強化學(xué)習(xí)的范式轉(zhuǎn)變。其核心價值在于:

  • "僅基于結(jié)果獎勵構(gòu)建過程信號"的革命性突破:無需額外標(biāo)注,樹結(jié)構(gòu)本身就能生成細(xì)粒度訓(xùn)練信號
  • "低預(yù)算高效益"的實用價值:用1/4預(yù)算實現(xiàn)更好性能,顯著降低訓(xùn)練成本
  • 使小模型也能有效執(zhí)行多輪agent任務(wù):Qwen2.5-1.5b在多跳QA任務(wù)中性能提升69%

單跳QA任務(wù)中有限的提升(1.1%-9.5%)與多跳QA任務(wù)中顯著的收益(16%-69%)形成鮮明對比,這印證了"樹深度限制(通常為2)使過程信號收益有限"的分析。而WebagentQA任務(wù)的中等提升(28%平均提升)則揭示了另一維度的挑戰(zhàn):訓(xùn)練數(shù)據(jù)與測試難度不匹配。

實踐啟示:從理論到應(yīng)用

對實踐者的啟示很簡單:如果你在訓(xùn)練需要多輪交互的LLM智能體,尤其是預(yù)算有限或使用小模型(≤3b)時,樹式方法應(yīng)成為你的首選。

  • 優(yōu)先在多輪agent任務(wù)中采用樹式方法:特別是多跳QA和Webagent任務(wù)
  • 根據(jù)滾動預(yù)算靈活配置樹參數(shù):極端預(yù)算條件下樹式方法優(yōu)勢尤為明顯
  • 小模型訓(xùn)練時特別關(guān)注學(xué)習(xí)率預(yù)熱設(shè)置:如下圖所示,學(xué)習(xí)率預(yù)熱對<3B小模型特別敏感

學(xué)習(xí)率預(yù)熱對比

總結(jié),從"軌跡級優(yōu)化"到"過程級優(yōu)化"

隨著agent智能體在開放環(huán)境中長視野交互能力成為"下一代基礎(chǔ)模型的關(guān)鍵",Tree-GRPO所代表的樹式搜索范式將為LLM agent訓(xùn)練提供重要方向。在滾動預(yù)算與信號質(zhì)量的永恒權(quán)衡中,樹式方法找到了更優(yōu)的平衡點,為構(gòu)建真正具備agent能力的下一代語言模型鋪平道路。

對于追求高效、低成本訓(xùn)練的專業(yè)團(tuán)隊而言,樹式方法不僅是技術(shù)選擇,更是戰(zhàn)略決策——它重新定義了在有限資源下實現(xiàn)高質(zhì)量agent訓(xùn)練的可能性邊界。這不是漸進(jìn)式改進(jìn),而是范式轉(zhuǎn)變:從“軌跡級優(yōu)化”到“過程級優(yōu)化”,為下一代agent基礎(chǔ)模型訓(xùn)練提供新方向

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-10-14 09:06:00

2025-06-06 14:17:11

模型訓(xùn)練AI

2024-08-27 00:00:01

AI應(yīng)用框架

2025-01-23 17:00:00

模型算力數(shù)據(jù)

2012-07-19 14:42:58

Windows 8微軟

2025-10-24 10:58:24

智能體大語言模型LLM

2018-02-09 15:23:35

PC游戲手游Moonlight

2017-02-06 09:28:15

2024-06-13 17:51:47

2023-04-25 10:05:56

Windows 98ChatGPT聊天機(jī)器人

2023-08-28 06:52:29

2009-02-20 10:14:00

路由器路由應(yīng)用ADSL

2024-04-01 13:11:00

AI智能體SIMA

2018-08-16 09:41:46

開源項目資源

2024-05-24 08:42:29

智能體訓(xùn)練

2024-07-10 09:37:57

2024-03-11 00:40:00

AI研究

2018-10-16 17:57:57

開源架構(gòu)

2025-06-27 15:44:35

蘋果AI模型

2025-10-13 08:14:48

點贊
收藏

51CTO技術(shù)棧公眾號