偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果

發(fā)布于 2025-8-1 06:41
瀏覽
0收藏

今天分享一篇來自耶魯大學(xué)、OPPO、UW-Madison、UNC、斯坦福、字節(jié)跳動(dòng)、微軟研究院、谷歌DeepMind等眾多頂尖機(jī)構(gòu)合作的論文,題目為 AGENT KB: Leveraging Cross-Domain Experience for Agentic Problem Solving(AGENT KB:利用跨域經(jīng)驗(yàn)解決智能體問題)。

這篇文章直面當(dāng)前語言Agent的核心痛點(diǎn):即難以在不同任務(wù)和領(lǐng)域之間有效地復(fù)用和遷移經(jīng)驗(yàn),導(dǎo)致在處理復(fù)雜問題時(shí)效率低下、錯(cuò)誤頻發(fā) 。該框架通過一個(gè)創(chuàng)新的 “推理-檢索-精煉”(Reason-Retrieve-Refine) pipeline,讓智能體能夠從過去的問題解決經(jīng)驗(yàn)中學(xué)習(xí),并將成功的策略應(yīng)用到新任務(wù)中。

該方法的核心思想是構(gòu)建一個(gè)共享的知識(shí)庫(Knowledge Base),它不僅存儲(chǔ)了高層次的解題策略,還包含了詳細(xì)的執(zhí)行層面的經(jīng)驗(yàn)(其實(shí)就是一個(gè)經(jīng)驗(yàn)庫!!包括workflow級(jí)別一級(jí)step級(jí)別的經(jīng)驗(yàn)?。。。?/strong>。通過一個(gè)“教師-學(xué)生”雙階段推理模型(學(xué)生=>利用workflow級(jí)別的經(jīng)驗(yàn)提升plan效果,教師=>利用step級(jí)別經(jīng)驗(yàn)持續(xù)優(yōu)化學(xué)生plan的效果,解決任務(wù)執(zhí)行不成功的問題),AGENT KB能夠顯著提升智能體在復(fù)雜任務(wù)上的表現(xiàn)。在GAIA和SWE-bench等挑戰(zhàn)性基準(zhǔn)上,該框架能帶來高達(dá)16-19個(gè)百分點(diǎn)的性能提升。

一、概述

Title: AGENT KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

URL:?? https://arxiv.org/abs/2507.06229v2??

Authors: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou

Code:?? https://github.com/OPPO-PersonalAI/Agent-KB??

1.Motivation

當(dāng)前應(yīng)用agent時(shí),已有task的經(jīng)驗(yàn)無法遷移的其他領(lǐng)域: 當(dāng)前的語言智能體在處理新類型的任務(wù)時(shí),往往需要從零開始,無法有效利用在其他相關(guān)領(lǐng)域已經(jīng)學(xué)到的成功策略。

當(dāng)前Agent主要利用workflow級(jí)別的經(jīng)驗(yàn)(也可以說是其他Agent任務(wù)學(xué)來的的rules),沒有利用step-level(執(zhí)行層)的經(jīng)驗(yàn): 現(xiàn)有的記憶或經(jīng)驗(yàn)系統(tǒng)通常采用統(tǒng)一的檢索機(jī)制,無法區(qū)分問題解決不同階段的需求。例如,在初始規(guī)劃階段需要高層次的宏觀策略指導(dǎo),而在執(zhí)行過程中遇到問題時(shí),則需要針對(duì)性的、細(xì)粒度的糾錯(cuò)經(jīng)驗(yàn)?,F(xiàn)有系統(tǒng)缺乏這種分層檢索能力。

當(dāng)前agent沒有從失敗或者成功的trajectory抽象可泛化的經(jīng)驗(yàn)給到其他任務(wù)使用: 許多智能體系統(tǒng)僅僅是存儲(chǔ)和回放原始的執(zhí)行日志,而不是從中抽象出可泛化的、普適的解題原則。這種“死記硬背”式的復(fù)用,在新問題與舊經(jīng)驗(yàn)只有抽象原則相似而具體細(xì)節(jié)不同時(shí),往往會(huì)失效。

2.Methods

核心思想: 構(gòu)建一個(gè)跨領(lǐng)域的共享“知識(shí)大腦”(AGENT KB),讓智能體學(xué)會(huì)“舉一反三”。該方法分為兩大階段:首先,通過從各種任務(wù)的執(zhí)行日志中抽象和泛化 ,構(gòu)建一個(gè)結(jié)構(gòu)化的知識(shí)庫;然后,在解決新問題時(shí),通過一個(gè) “教師-學(xué)生” 模型,以“推理-檢索-精煉”(Reason-Retrieve-Refine)的模式從知識(shí)庫中獲取指導(dǎo)并進(jìn)行迭代優(yōu)化。

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

詳細(xì)方法和步驟:

論文提出的AGENT KB框架包含兩個(gè)核心階段:知識(shí)庫構(gòu)建 (AGENT KB Construction) 和 知識(shí)庫增強(qiáng)推理 (AGENT KB Enhanced Inference)

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

1. AGENT KB 構(gòu)建階段 (左圖部分):

數(shù)據(jù)收集與抽象: 從多個(gè)來源(如BrowseComp, HopRAG, SWE-Bench等)收集智能體解決任務(wù)時(shí)的原始執(zhí)行日志(包括成功和失敗的案例)。

經(jīng)驗(yàn)泛化: 通過自動(dòng)化(使用LLM和預(yù)設(shè)模板)和人工標(biāo)注(分析常見失敗模式)相結(jié)合的方式,將原始日志抽象成結(jié)構(gòu)化的、可泛化的“經(jīng)驗(yàn)”單元。每個(gè)經(jīng)驗(yàn)單元包含問題模式(π)、目標(biāo)(γ)、抽象后的解決方案(S)和上下文(C)等。這一步的目標(biāo)是丟棄實(shí)現(xiàn)細(xì)節(jié),保留核心的解題策略和模式。

知識(shí)庫存儲(chǔ)與索引: 將這些結(jié)構(gòu)化的經(jīng)驗(yàn)存儲(chǔ)在一個(gè)知識(shí)庫中,并進(jìn)行索引,以便快速檢索。

2. AGENT KB 增強(qiáng)推理階段 (右圖部分):該階段采用一個(gè)創(chuàng)新的 “教師-學(xué)生”雙階段推理 架構(gòu),并貫穿 “推理-檢索-精煉” (Reason-Retrieve-Refine, RRR) 的循環(huán)。

學(xué)生智能體 (Student Agent) - 宏觀規(guī)劃(利用workflow級(jí)別的經(jīng)驗(yàn)):

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

Reason (推理): 當(dāng)接收到一個(gè)新任務(wù)時(shí),學(xué)生智能體首先對(duì)問題進(jìn)行初步分析。

Retrieve (檢索): 基于初步分析,從AGENT KB中檢索高層次的、與工作流相關(guān)的經(jīng)驗(yàn)?zāi)J剑╓orkflow-level patterns),相當(dāng)于尋找解決類似問題的“大綱”或“模板”。

Refine (精煉): 結(jié)合檢索到的經(jīng)驗(yàn),形成一個(gè)初始的、結(jié)構(gòu)化的行動(dòng)計(jì)劃。

執(zhí)行與教師介入: 執(zhí)行智能體按照學(xué)生制定的計(jì)劃開始執(zhí)行任務(wù)。執(zhí)行完畢后(無論成功或失?。?,其執(zhí)行軌跡(log)會(huì)被提交給教師智能體。

教師智能體 (Teacher Agent) - 微觀糾錯(cuò)(利用step級(jí)別的經(jīng)驗(yàn)指導(dǎo)運(yùn)行):

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

Reason (推理): 教師智能體分析執(zhí)行軌跡,定位其中可能存在的錯(cuò)誤、低效或不精確的步驟。

Retrieve (檢索): 針對(duì)這些具體問題,從AGENT KB中檢索細(xì)粒度的、與具體執(zhí)行步驟相關(guān)的經(jīng)驗(yàn)(Step-level patterns),相當(dāng)于查找“糾錯(cuò)手冊(cè)”或“最佳實(shí)踐”。

Refine (精煉): 教師智能體將這些細(xì)粒度的經(jīng)驗(yàn)整合成具體的、有針對(duì)性的指導(dǎo)意見,并反饋給學(xué)生智能體。

迭代優(yōu)化: 學(xué)生智能體接收到教師的反饋后,會(huì)更新其計(jì)劃并進(jìn)行第二輪嘗試,從而實(shí)現(xiàn)性能的迭代提升。

3.Conclusion

顯著提升智能體性能: AGENT KB框架在多個(gè)基準(zhǔn)測(cè)試(GAIA和SWE-bench)和多種基礎(chǔ)模型(GPT-4.1, Claude-3.7等)上都取得了顯著的性能提升。例如,在GAIA高難度任務(wù)上,Claude-3.7的成功率從38.46%提升至57.69%;在SWE-bench代碼修復(fù)任務(wù)上,成功率提升了12.0個(gè)百分點(diǎn)。

GAIA表現(xiàn)提升不錯(cuò):

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

SWE表現(xiàn)也還可以:

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

驗(yàn)證了分層經(jīng)驗(yàn)框架的有效性: “教師-學(xué)生”模型和雙階段的“推理-檢索-精煉”流程被證明是有效的。學(xué)生智能體負(fù)責(zé)宏觀規(guī)劃,教師智能體負(fù)責(zé)微觀糾錯(cuò),二者互補(bǔ),共同提升了問題解決的質(zhì)量和魯棒性。

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

實(shí)現(xiàn)了可泛化的跨域知識(shí)遷移: 通過將原始經(jīng)驗(yàn)抽象為通用模式,AGENT KB成功地讓智能體能夠?qū)⒃谝粋€(gè)領(lǐng)域?qū)W到的知識(shí)應(yīng)用到另一個(gè)看似不同的領(lǐng)域,打破了經(jīng)驗(yàn)孤島(當(dāng)時(shí)好像沒有這塊的消融?。縆B里面是用的哪個(gè)領(lǐng)域的知識(shí)呢??)。

4. Limitation

可擴(kuò)展性問題: 隨著知識(shí)庫中經(jīng)驗(yàn)條目的增多(從數(shù)千到數(shù)百萬),當(dāng)前的檢索機(jī)制(基于相似度計(jì)算)可能會(huì)面臨性能瓶頸,檢索延遲會(huì)增加,影響實(shí)時(shí)應(yīng)用。

知識(shí)質(zhì)量與過時(shí)問題: 自動(dòng)生成的經(jīng)驗(yàn)可能包含難以察覺的細(xì)微缺陷。同時(shí),系統(tǒng)缺乏一個(gè)自動(dòng)“淘汰”或更新過時(shí)、低效策略的機(jī)制,可能導(dǎo)致知識(shí)庫中積累次優(yōu)解。

跨域遷移的邊界: 當(dāng)兩個(gè)領(lǐng)域的結(jié)構(gòu)相似性很低時(shí),知識(shí)遷移的效果會(huì)大打折扣。此外,框架的效果可能受限于預(yù)訓(xùn)練大模型本身的能力,對(duì)模型未充分學(xué)習(xí)過的冷門或?qū)I(yè)領(lǐng)域可能表現(xiàn)不佳。

知識(shí)覆蓋不完整: 當(dāng)前知識(shí)庫的領(lǐng)域覆蓋仍然有限,在處理需要深度融合多個(gè)領(lǐng)域?qū)I(yè)知識(shí)的交叉學(xué)科任務(wù)時(shí),可能會(huì)因知識(shí)的缺失而導(dǎo)致推理錯(cuò)誤。

5 Future Work

發(fā)展因果推理框架: 不僅知道某個(gè)策略有效,還要理解“為什么”有效。通過將經(jīng)驗(yàn)分解為因果鏈,智能體可以更靈活地組合因果片段來創(chuàng)造全新的解決方案。

集成持續(xù)學(xué)習(xí)機(jī)制: 將AGENT KB從靜態(tài)知識(shí)庫變?yōu)橐粋€(gè)動(dòng)態(tài)演化的系統(tǒng)。系統(tǒng)可以根據(jù)部署后的實(shí)際效果自動(dòng)更新和優(yōu)化知識(shí)庫中的策略。

探索跨智能體知識(shí)遷移的理論基礎(chǔ): 借鑒領(lǐng)域自適應(yīng)、元學(xué)習(xí)等理論,為經(jīng)驗(yàn)的可遷移性建立形式化框架,從而實(shí)現(xiàn)更精準(zhǔn)、更可靠的知識(shí)檢索與遷移。

二、詳細(xì)內(nèi)容

1.AGENT KB不同組件的消融結(jié)果

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

image-20250714114854925

說明: 該表展示了移除AGENT KB中不同組件(如學(xué)生代理、教師代理、推理模塊、檢索模塊、精煉模塊或使用原始工作流)后,在GAIA和SWE-bench上的性能表現(xiàn)。

總結(jié)1: 移除學(xué)生代理或教師代理都會(huì)導(dǎo)致性能下降,同時(shí)refine的移除導(dǎo)致整體準(zhǔn)確率下降6.06個(gè)百分點(diǎn),說明細(xì)粒度錯(cuò)誤糾正的必要性。

總結(jié)2: 檢索模塊的移除也導(dǎo)致顯著的性能下降,表明知識(shí)接地對(duì)AGENT KB的有效性至關(guān)重要。

2.Agent KB相關(guān)詳細(xì)信息

1) Data template

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

2 )KB知識(shí)的來源

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

3)一些Experimence Example

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

4)生成KB的prompt

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

3 .Case Study

1)Student Agent的Plan的refine過程

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

2)Teacher Agent繼續(xù)利用step級(jí)別的經(jīng)驗(yàn)來refine

AgentKB|卷不動(dòng)Agent了?給你的Agent加個(gè)“經(jīng)驗(yàn)包”,提升復(fù)雜任務(wù)Agent效果-AI.x社區(qū)

三、總結(jié)

亮點(diǎn)1: 構(gòu)建了可泛化、可遷移的跨域經(jīng)驗(yàn)知識(shí)庫(AGENT KB),讓智能體學(xué)會(huì)“舉一反三”從已有執(zhí)行經(jīng)驗(yàn)中學(xué)習(xí)。 通過將原始Agent執(zhí)行日志“抽象化”,提取出通用的問題解決模式和策略。這使得智能體能夠從一個(gè)龐大的、集體共享的知識(shí)庫中學(xué)習(xí),打破了以往智能體之間“經(jīng)驗(yàn)無法互通”的壁壘。

亮點(diǎn)2: “教師-學(xué)生”雙階段推理框架,有效模擬了專家學(xué)徒式的學(xué)習(xí)過程。 這種架構(gòu)將復(fù)雜的解題過程分解為宏觀規(guī)劃(學(xué)生利用workflow經(jīng)驗(yàn))和微觀糾錯(cuò)(教師利用step級(jí)別執(zhí)行經(jīng)驗(yàn))兩個(gè)階段,每個(gè)階段使用不同的經(jīng)驗(yàn)粒度進(jìn)行檢索和精煉。這比單一的檢索增強(qiáng)范式更加精細(xì)和高效,尤其擅長(zhǎng)處理需要多步復(fù)雜推理的任務(wù)。

亮點(diǎn)3: 在GAIA以及SWE-bench兩個(gè)非常難的任務(wù)上取得非常大的效果的提升。 論文在GAIA(通用AI助手)和SWE-bench(軟件工程)這兩個(gè)不同領(lǐng)域的權(quán)威基準(zhǔn)上都取得了SOTA級(jí)別的性能提升。同時(shí),該框架也可以應(yīng)用在多種不同的LLM任務(wù)上。

? 產(chǎn)業(yè)應(yīng)用價(jià)值: AGENT KB為構(gòu)建能夠持續(xù)學(xué)習(xí)和自我進(jìn)化的企業(yè)級(jí)AI系統(tǒng)提供了現(xiàn)實(shí)可行的藍(lán)圖。

企業(yè)知識(shí)沉淀: 可用于構(gòu)建企業(yè)內(nèi)部的“專家智能體”,將資深員工的解題經(jīng)驗(yàn)和工作流沉淀為結(jié)構(gòu)化知識(shí),供新員工或其他AI助手學(xué)習(xí),減少重復(fù)性試錯(cuò),加速新員工培訓(xùn)。

自動(dòng)化工作流優(yōu)化: 在軟件開發(fā)、客戶支持、數(shù)據(jù)分析等領(lǐng)域,可以利用AGENT KB自動(dòng)收集和優(yōu)化最佳實(shí)踐工作流,構(gòu)建更智能、更可靠的自動(dòng)化工具。

轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly

標(biāo)簽
已于2025-8-1 11:19:47修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦