偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配

發(fā)布于 2025-10-31 07:52
瀏覽
0收藏

大型推理模型(LRMs)雖然在復(fù)雜問題求解中展現(xiàn)出強(qiáng)大能力,但現(xiàn)實(shí)任務(wù)往往需要借助外部工具并進(jìn)行長期交互?,F(xiàn)有智能體框架大多遵循預(yù)定義的工作流程,這限制了它們的自主性和全局任務(wù)完成能力。為此,來自中國人民大學(xué)、小紅書等機(jī)構(gòu)的研究者提出了 DeepAgent——一個(gè)端到端的深度推理智能體,能夠在單一連貫的推理過程中自主思考、發(fā)現(xiàn)工具并執(zhí)行動(dòng)作。通過引入自主記憶折疊機(jī)制和端到端強(qiáng)化學(xué)習(xí)訓(xùn)練方法ToolPO,DeepAgent在8個(gè)基準(zhǔn)測試中持續(xù)超越基線方法,在標(biāo)注工具和開放集工具檢索場景下均表現(xiàn)出色。這項(xiàng)工作為構(gòu)建更通用、更強(qiáng)大的真實(shí)世界智能體邁出了重要一步。

Paper: https://arxiv.org/abs/2510.21618

GitHub: https://github.com/RUC-NLPIR/DeepAgent

?? Demo演示

1?? 通用智能體任務(wù):16,000+ RapidAPI工具庫

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

DeepAgent 是一個(gè)具備可擴(kuò)展工具集的推理智能體,能夠從超過16,000個(gè)RapidAPI中搜索并使用合適的工具,以端到端的智能體推理過程解決通用任務(wù)。(注:由于ToolBench中的部分API已不可用,此演示中的API響應(yīng)由LLM模擬,以展示系統(tǒng)的正常功能。)

2?? 具身AI智能體:ALFWorld環(huán)境導(dǎo)航任務(wù)

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

DeepAgent 同樣擅長基于導(dǎo)航的任務(wù)(如網(wǎng)頁瀏覽、操作系統(tǒng)交互和具身AI),通過使用一套可插拔的多樣化動(dòng)作集(如移動(dòng)、觀察、拾取等)來完成復(fù)雜的環(huán)境交互任務(wù)。

3?? 深度研究任務(wù):專業(yè)工具集加持

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

DeepAgent 還可以作為強(qiáng)大的研究助手,配備了專門的工具來支持網(wǎng)絡(luò)搜索、網(wǎng)頁瀏覽、代碼執(zhí)行、視覺問答和文件處理等功能,幫助用戶完成深度研究任務(wù)。

研究動(dòng)機(jī):突破傳統(tǒng)智能體的局限

大型推理模型(LRMs)如OpenAI-o1、DeepSeek-R1等通過"慢思考"過程在數(shù)學(xué)、編程和科學(xué)推理等復(fù)雜領(lǐng)域展現(xiàn)了卓越的問題求解能力。然而,現(xiàn)實(shí)世界的任務(wù)往往需要外部工具的支持和長期的環(huán)境交互才能完成。

現(xiàn)有的智能體框架主要面臨以下挑戰(zhàn):

傳統(tǒng)智能體的局限性

  • 缺乏自主性:如ReAct、Plan-and-Solve等方法遵循預(yù)定義的"規(guī)劃-執(zhí)行-觀察"循環(huán),無法自主決定執(zhí)行步驟和整體流程
  • 工具預(yù)先指定:需要提前確定使用哪些工具,無法在任務(wù)執(zhí)行過程中動(dòng)態(tài)發(fā)現(xiàn)新工具
  • 記憶管理不足:缺乏全自主的交互記憶管理能力
  • 推理深度受限:每步只關(guān)注局部目標(biāo),缺乏對整個(gè)任務(wù)的全局視角

深度研究智能體的限制: 雖然Search-o1、DeepResearcher等探索了在推理過程中集成工具使用的新范式,但它們通常局限于少量預(yù)定義工具(如網(wǎng)絡(luò)搜索、頁面瀏覽、代碼執(zhí)行),這大大限制了它們在多樣化真實(shí)場景中的適用性。

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

智能體范式對比:(a)傳統(tǒng)智能體采用預(yù)定義工作流,(b)深度研究智能體可以自主調(diào)用有限工具,(c)DeepAgent——完全自主的推理智能體,能夠在連續(xù)的智能體推理過程中動(dòng)態(tài)發(fā)現(xiàn)和調(diào)用有用的工具。

DeepAgent:全自主的端到端推理智能體

為應(yīng)對上述挑戰(zhàn),我們提出了 DeepAgent,一個(gè)能夠在單一連貫的推理過程中動(dòng)態(tài)檢索和調(diào)用工具來完成整個(gè)任務(wù)的端到端深度推理智能體。

核心特性

  1. 自主工具發(fā)現(xiàn)與調(diào)用 (Autonomous Tool Search and Calling):
  • 打破傳統(tǒng)預(yù)定義工具的限制,工具不是預(yù)先檢索,而是根據(jù)需要?jiǎng)討B(tài)發(fā)現(xiàn)
  • 在推理過程中自主生成工具搜索查詢,通過密集檢索從大規(guī)模工具集中找到相關(guān)工具
  • 生成結(jié)構(gòu)化的工具調(diào)用指令,執(zhí)行后將結(jié)果反饋到推理上下文中
  • 完全釋放大型推理模型的自主潛力
  1. 自主記憶折疊機(jī)制 (Autonomous Memory Folding):
  • 使DeepAgent能夠在長期交互中徹底而穩(wěn)健地探索新工具和復(fù)雜環(huán)境
  • 可在思考過程中的任何邏輯點(diǎn)觸發(fā)記憶折疊,將先前的思考和交互歷史壓縮為結(jié)構(gòu)化記憶
  • 不僅節(jié)省token、提高推理效率,還為智能體提供"喘息"機(jī)會(huì)
  • 防止陷入錯(cuò)誤探索路徑,使其能夠重新考慮策略,提高整體成功率
  1. 腦啟發(fā)式記憶架構(gòu) (Brain-Inspired Memory Schema):
  • 情節(jié)記憶 (Episodic Memory):記錄關(guān)鍵事件、主要決策點(diǎn)和子任務(wù)完成情況,提供任務(wù)結(jié)構(gòu)的長期上下文
  • 工作記憶 (Working Memory):包含最新信息,如當(dāng)前子目標(biāo)、遇到的障礙和近期計(jì)劃,確保推理連續(xù)性
  • 工具記憶 (Tool Memory):整合所有工具相關(guān)交互,包括使用過的工具、調(diào)用方式及其有效性,幫助智能體從經(jīng)驗(yàn)中學(xué)習(xí)
  • 采用JSON格式的智能體可用數(shù)據(jù)模式,確保壓縮記憶的穩(wěn)定性和實(shí)用性
  1. ToolPO:端到端強(qiáng)化學(xué)習(xí)訓(xùn)練 (End-to-End RL Training with ToolPO):
  • LLM模擬API:利用LLM模擬真實(shí)世界API,避免訓(xùn)練過程中的不穩(wěn)定性、延遲和高成本
  • 工具調(diào)用優(yōu)勢歸因:精確地將信用分配給負(fù)責(zé)正確工具調(diào)用的特定token,提供更細(xì)粒度的學(xué)習(xí)信號
  • 全局和局部優(yōu)勢結(jié)合:既獎(jiǎng)勵(lì)最終任務(wù)成功,也獎(jiǎng)勵(lì)中間正確的工具調(diào)用
  • 確保通用工具使用的高效穩(wěn)定訓(xùn)練

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

DeepAgent框架概覽:主推理模型在統(tǒng)一的思考過程中自主發(fā)現(xiàn)工具、執(zhí)行動(dòng)作并折疊先前記憶以使用結(jié)構(gòu)化記憶重新開始。DeepAgent通過ToolPO進(jìn)行端到端訓(xùn)練,這是一種使用工具模擬器模擬大規(guī)模真實(shí)世界工具API的RL方法,并通過細(xì)粒度優(yōu)勢歸因獎(jiǎng)勵(lì)最終任務(wù)成功和正確的中間工具調(diào)用。

與傳統(tǒng)智能體框架的對比

DeepAgent與傳統(tǒng)智能體框架有著本質(zhì)區(qū)別:

  • 傳統(tǒng)工作流方法(ReAct、Plan-and-Solve):遵循固定的執(zhí)行模式,每個(gè)生成步驟只關(guān)注即時(shí)目標(biāo),缺乏全局視角
  • 深度研究智能體(Search-o1、DeepResearcher):可以自主調(diào)用工具,但局限于少量研究導(dǎo)向的工具
  • DeepAgent:完全由推理模型驅(qū)動(dòng),在連續(xù)推理中實(shí)現(xiàn)端到端任務(wù)執(zhí)行。模型保持對整個(gè)任務(wù)的全局視角,不受特定孤立操作的約束,工具根據(jù)需要?jiǎng)討B(tài)發(fā)現(xiàn)

實(shí)驗(yàn)效果

我們在廣泛的基準(zhǔn)測試中對DeepAgent進(jìn)行了全面評估,涵蓋通用工具使用任務(wù)和下游應(yīng)用兩大類別:

1. 通用工具使用任務(wù)的卓越表現(xiàn)

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

通用工具使用任務(wù)的實(shí)驗(yàn)結(jié)果

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

下游應(yīng)用任務(wù)的實(shí)驗(yàn)結(jié)果

我們在5個(gè)通用工具使用基準(zhǔn)上進(jìn)行了測試,工具規(guī)模從數(shù)十個(gè)到超過一萬個(gè):

  • ToolBench:基于16,000+真實(shí)世界API的大規(guī)?;鶞?zhǔn)
  • API-Bank:包含73個(gè)API和314個(gè)人工標(biāo)注對話的綜合基準(zhǔn)
  • RestBench(TMDB & Spotify):模擬真實(shí)REST應(yīng)用的場景
  • ToolHop:需要3-7步序列工具調(diào)用的多跳推理數(shù)據(jù)集

在這些任務(wù)中,DeepAgent展現(xiàn)出顯著優(yōu)勢:

  • 端到端推理超越工作流方法:在標(biāo)注工具任務(wù)中,DeepAgent-32B-RL在TMDB上達(dá)到89.0%的成功率,在Spotify上達(dá)到75.4%,遠(yuǎn)超最強(qiáng)32B基線的55.0%和52.6%
  • 開放集場景下的魯棒性:在需要?jiǎng)討B(tài)工具發(fā)現(xiàn)的開放集場景中優(yōu)勢更明顯。在ToolBench和ToolHop上,DeepAgent-32B-RL分別達(dá)到64.0%和40.6%的成功率,遠(yuǎn)超頂級基線的54.0%和29.0%
  • ToolPO訓(xùn)練的增益:經(jīng)過ToolPO訓(xùn)練的DeepAgent-32B-RL相比基礎(chǔ)版本,在ToolBench上提升6.0%,在Spotify上提升5.2%

2. 下游應(yīng)用任務(wù)的強(qiáng)大適應(yīng)性

我們在4個(gè)需要特定領(lǐng)域工具集的下游應(yīng)用上進(jìn)行評估:

  • ALFWorld:文本環(huán)境中的具身AI任務(wù),需要使用9個(gè)基本動(dòng)作完成目標(biāo)
  • WebShop:在線購物環(huán)境,需要通過搜索和點(diǎn)擊操作滿足用戶購物需求
  • GAIA:復(fù)雜的信息檢索基準(zhǔn),配備網(wǎng)絡(luò)搜索、頁面瀏覽、VQA、代碼執(zhí)行和文件讀取工具
  • Humanity's Last Exam (HLE):極高難度的推理問題集

關(guān)鍵發(fā)現(xiàn):

  • 自主推理范式普遍優(yōu)于工作流方法:在GAIA上,DeepAgent-32B-Base(46.7)和HiRA(42.5)顯著超越最佳工作流方法CodeAct(34.5)。在WebShop上,DeepAgent-32B-Base(32.0)大幅領(lǐng)先CodeAct(18.0)
  • 達(dá)到SOTA性能:DeepAgent-32B-RL在32B模型中表現(xiàn)最佳——GAIA得分53.3(vs. HiRA的42.5),ALFWorld成功率91.8%(vs. HiRA的84.3%)
  • 持續(xù)的訓(xùn)練收益:ToolPO訓(xùn)練使GAIA得分從46.7提升至53.3(+6.6),ALFWorld成功率從88.1%提升至91.8%(+3.7)

3. 自主工具檢索策略的有效性

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

自主工具檢索vs預(yù)檢索工具的對比分析

為比較預(yù)檢索工具與任務(wù)執(zhí)行期間自主發(fā)現(xiàn)的效果,我們進(jìn)行了對照實(shí)驗(yàn):

  • 按需動(dòng)態(tài)發(fā)現(xiàn)的優(yōu)越性:推理過程中的自主工具檢索在所有框架中均優(yōu)于預(yù)檢索工具,在大規(guī)模工具集(ToolBench的16k工具、ToolHop的3.9k工具)上優(yōu)勢最顯著
  • DeepAgent與動(dòng)態(tài)檢索的協(xié)同效應(yīng):結(jié)合自主工具檢索,DeepAgent平均得分52.6,大幅領(lǐng)先最佳工作流方法的28.5,證明DeepAgent架構(gòu)特別適合動(dòng)態(tài)工具發(fā)現(xiàn)

4. 動(dòng)作限制的擴(kuò)展性分析

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

最大動(dòng)作限制對性能的影響

隨著最大動(dòng)作次數(shù)的增加:

  • DeepAgent始終顯著優(yōu)于ReAct基線:在所有測試的動(dòng)作限制下,在WebShop和GAIA兩個(gè)數(shù)據(jù)集上均表現(xiàn)更優(yōu)
  • 更強(qiáng)的擴(kuò)展能力:隨著動(dòng)作限制增加,DeepAgent與ReAct的性能差距擴(kuò)大,特別是在WebShop上。這表明DeepAgent能夠戰(zhàn)略性地選擇有效的、與任務(wù)相關(guān)的動(dòng)作,避免限制ReAct擴(kuò)展性的浪費(fèi)性步驟

5. 不同基座模型的泛化能力

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務(wù)隨心配-AI.x社區(qū)

基于不同推理模型的性能對比

我們在不同規(guī)模的MoE推理模型上測試了DeepAgent:

  • 持續(xù)優(yōu)于工作流方法:無論是30B還是235B的MoE推理模型作為基座,DeepAgent都保持對ReAct和Plan-and-Solve的顯著性能優(yōu)勢
  • 有效的模型擴(kuò)展:所有方法都受益于從30B到235B模型的擴(kuò)展,但DeepAgent在復(fù)雜應(yīng)用任務(wù)上顯示出最大的絕對性能提升

6. 消融實(shí)驗(yàn):各組件的貢獻(xiàn)

我們通過消融實(shí)驗(yàn)驗(yàn)證了DeepAgent各組件的有效性:

  • ToolPO訓(xùn)練最為關(guān)鍵:移除ToolPO訓(xùn)練(基礎(chǔ)模型)導(dǎo)致最顯著的性能下降(從48.1降至44.3),突顯了端到端RL方法的核心作用
  • 記憶折疊的重要性:沒有記憶折疊,性能也大幅下降(平均分降至44.2),特別是在長期任務(wù)GAIA上(從53.3降至44.7)。這證實(shí)了自主記憶折疊機(jī)制對于魯棒的長期交互至關(guān)重要
  • 訓(xùn)練策略的貢獻(xiàn):移除工具模擬器和工具調(diào)用優(yōu)勢歸因都會(huì)導(dǎo)致性能下降,驗(yàn)證了工具模擬器實(shí)現(xiàn)了更穩(wěn)定的訓(xùn)練,細(xì)粒度優(yōu)勢歸因提供了精確的學(xué)習(xí)信號

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
已于2025-10-31 16:21:07修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦