ScaleMCP: 結(jié)合RAG技術(shù)增強(qiáng)MCP工具管理能力
1. 為什么要提出ScaleMCP
隨著大型語(yǔ)言模型(LLMs)與工具學(xué)習(xí)技術(shù)的突飛猛進(jìn),智能體已能動(dòng)態(tài)對(duì)接各類外部工具與API。
1.1 MCP協(xié)議的誕生
模型上下文協(xié)議(MCP)的誕生,為L(zhǎng)LM與外部工具、數(shù)據(jù)源及提示詞建立了標(biāo)準(zhǔn)化橋梁。MCP是由Anthropic推出的一項(xiàng)開放協(xié)議,為大型語(yǔ)言模型(LLM)與外部工具、數(shù)據(jù)及提示的交互提供標(biāo)準(zhǔn)化框架。
開發(fā)者可借助MCP服務(wù)器開放工具與數(shù)據(jù)接口,或開發(fā)連接這些服務(wù)的AI應(yīng)用(MCP客戶端),大幅降低AI系統(tǒng)獲取外部資源的復(fù)雜度。
MCP也存在潛在的安全隱患,包括惡意代碼注入、越權(quán)訪問、憑證泄露及鑒權(quán)缺陷等。當(dāng)前協(xié)議暫不支持無服務(wù)器架構(gòu),因其依賴客戶端-服務(wù)器的有狀態(tài)通信,但實(shí)時(shí)推送與采樣功能頗具優(yōu)勢(shì)。
MCP已成為L(zhǎng)LM智能體工具鏈的事實(shí)標(biāo)準(zhǔn),OpenAI、Google等模型巨頭與Cursor、Cline等AI平臺(tái)均已全面接入。
1.2 LLM調(diào)用工具
大型語(yǔ)言模型天然存在工具調(diào)用數(shù)量的硬性約束。過多的工具組合的復(fù)雜調(diào)用邏輯會(huì)削弱模型的決策能力,而OpenAI等廠商的API限制(單次最多128個(gè)工具)更是雪上加霜。
為此,有研究創(chuàng)新性地采用了無需Finetune的RAG方案,通過向量數(shù)據(jù)庫(kù)動(dòng)態(tài)加載所需工具。更智能的代理式RAG則賦予LLM自主搜索能力,徹底顛覆了傳統(tǒng)靜態(tài)檢索模式。
早期GPT模型對(duì)這種動(dòng)態(tài)檢索的適配性欠佳。直接使用廠商預(yù)置嵌入(如OpenAI)效果有限,需針對(duì)性優(yōu)化檢索器。當(dāng)前工具檢索技術(shù)百花齊放,既有經(jīng)典關(guān)鍵詞匹配,也有新興的向量圖譜融合方案。
當(dāng)前主流LLM工具調(diào)用機(jī)制包括:
- MOLoRA架構(gòu)
- 高效樹狀方法
- 多智能體協(xié)同構(gòu)建的工具-指令數(shù)據(jù)集
1.3 現(xiàn)有LLM調(diào)用工具的局限
盡管現(xiàn)有研究在工具選擇與LLM調(diào)用方面取得進(jìn)展,仍存在三大瓶頸:
- 其一,現(xiàn)行框架尚未將MCP納入工具選擇體系;
- 其二,當(dāng)前方案依賴人工維護(hù)單一工具庫(kù),通過手動(dòng)更新保持工具定義與存儲(chǔ)系統(tǒng)的同步,這種模式不僅容易出錯(cuò),還存在代碼冗余;
- 其三,現(xiàn)有方法將工具選擇與LLM調(diào)用流程割裂,既制約了智能體的自主性,也無法支持多輪對(duì)話中的動(dòng)態(tài)工具檢索。
普華永道提出ScaleMCP創(chuàng)新方案,通過自動(dòng)同步的MCP工具存儲(chǔ)系統(tǒng),實(shí)現(xiàn)智能體在多輪交互中動(dòng)態(tài)發(fā)現(xiàn)并裝備工具。該系統(tǒng)以MCP服務(wù)器為唯一信源,采用CRUD機(jī)制自動(dòng)同步更新。
2. 什么是ScaleMCP?
2.1 ScaleMCP架構(gòu)
ScaleMCP:一種面向MCP服務(wù)器(工具)的LLM智能體工具選擇創(chuàng)新方案,其核心包含自動(dòng)同步的工具存儲(chǔ)索引系統(tǒng),以及賦予智能體自主調(diào)用權(quán)限的現(xiàn)代RAG架構(gòu)。
ScaleMCP自動(dòng)索引Pipeline與LLM智能體調(diào)用機(jī)制。自動(dòng)同步工具索引管道會(huì)讀取當(dāng)前作為唯一事實(shí)來源(single source of truth)的MCP服務(wù)器工具,將其哈希值與MCP存儲(chǔ)系統(tǒng)的哈希值進(jìn)行比對(duì),并對(duì)存儲(chǔ)索引執(zhí)行增刪改查(CRUD)操作。
在LLM智能體調(diào)用流程中,當(dāng)用戶提出問題后,LLM智能體會(huì)并行調(diào)用5次"MCP檢索工具"(每次針對(duì)一個(gè)目標(biāo)檢索工具),將相關(guān)的MCP服務(wù)器(工具)整合至上下文環(huán)境。在檢索到相關(guān)MCP后,LLM智能體決定并行調(diào)用5個(gè)MCP服務(wù)器,各MCP服務(wù)器將返回工具響應(yīng)。最終,LLM智能體通過對(duì)MCP服務(wù)器響應(yīng)的推理分析,向用戶返回成功的最終答案。
借助LLM原生函數(shù)調(diào)用能力,ScaleMCP使智能體能夠自如調(diào)度數(shù)千個(gè)MCP服務(wù)器,其底層工具庫(kù)會(huì)實(shí)時(shí)自動(dòng)同步可用服務(wù)資源,實(shí)現(xiàn)工具生態(tài)的智能自治。
2.2 ScaleMCP自動(dòng)同步索引Pipeline
工具存儲(chǔ)方案可靈活適配不同應(yīng)用場(chǎng)景:
- 向量數(shù)據(jù)庫(kù)與向量檢索最為常見
- 圖數(shù)據(jù)庫(kù)
- 混合圖RAG方案
- 傳統(tǒng)詞條匹配
例如,獨(dú)立部署的MCP服務(wù)器適合采用可彈性擴(kuò)展的向量數(shù)據(jù)庫(kù);存在拓?fù)潢P(guān)聯(lián)的MCP集群則可通過圖數(shù)據(jù)庫(kù)維護(hù)依賴關(guān)系。
ScaleMCP通過智能同步管道實(shí)現(xiàn)動(dòng)態(tài)索引更新,以MCP服務(wù)器為權(quán)威數(shù)據(jù)源,自動(dòng)感知工具庫(kù)的增刪改操作。
系統(tǒng)會(huì)全量獲取MCP工具特征,基于名稱、描述、參數(shù)生成SHA-256哈希指紋。通過比對(duì)新舊哈希值實(shí)現(xiàn)增量更新:匹配則保持現(xiàn)狀,失配則采用存儲(chǔ)適配器(如向量嵌入函數(shù)、圖結(jié)構(gòu)構(gòu)建器或詞條索引器)完成數(shù)據(jù)遷移,其中向量嵌入可選TDWA算法。
2.3 ScaleMCP大模型調(diào)用方案
為實(shí)現(xiàn)大模型調(diào)用時(shí)的彈性工具選擇,為智能體配備了專屬M(fèi)CP檢索工具,使其通過關(guān)鍵詞精準(zhǔn)定位目標(biāo)服務(wù)器。
、
如上圖所示(案例中該工具被調(diào)用5次,分別輸入5組上市公司凈利相關(guān)關(guān)鍵詞),系統(tǒng)會(huì)自動(dòng)將匹配的MCP服務(wù)器加載至模型上下文,并通過函數(shù)調(diào)用實(shí)現(xiàn)所述的工具綁定。
智能體識(shí)別新工具后,可并行發(fā)起調(diào)用獲取響應(yīng),最終整合多路反饋生成用戶答案。
該設(shè)計(jì)的精妙之處在于:當(dāng)首次檢索未果時(shí),智能體會(huì)自主發(fā)起重試;還能智能管理多輪對(duì)話的工具記憶,動(dòng)態(tài)判斷何時(shí)需要新增服務(wù)器。MCP服務(wù)器的核心價(jià)值,在于其標(biāo)準(zhǔn)化的調(diào)用協(xié)議和豐富的生態(tài)連接能力。
3. 效果評(píng)估
3.1 數(shù)據(jù)集構(gòu)建
為驗(yàn)證ScaleMCP的性能,構(gòu)建了包含5000家企業(yè)財(cái)務(wù)指標(biāo)MCP服務(wù)器的大規(guī)模真實(shí)數(shù)據(jù)集,并配套了用戶查詢及預(yù)期工具調(diào)用的測(cè)試實(shí)例。該數(shù)據(jù)集既能逼真模擬智能體與工具的財(cái)務(wù)指標(biāo)交互場(chǎng)景,又兼具成本效益與可復(fù)現(xiàn)性優(yōu)勢(shì)。
3.1.1 工具構(gòu)建
我們以財(cái)富1000強(qiáng)企業(yè)為基礎(chǔ),為每家公司定制了五款標(biāo)準(zhǔn)化工具:
- 實(shí)時(shí)股價(jià)查詢
- 歷史股價(jià)追蹤
- 分析師目標(biāo)價(jià)獲取
- 營(yíng)收數(shù)據(jù)查詢
- 凈利潤(rùn)統(tǒng)計(jì)
基于開源的yfinance Python庫(kù)實(shí)現(xiàn)這套工具集。該API僅限學(xué)術(shù)研究使用,不適用于商業(yè)場(chǎng)景。所有工具均通過程序化模板自動(dòng)生成,其名稱、描述和參數(shù)結(jié)構(gòu)均采用公司名稱、股票代碼等元數(shù)據(jù)智能填充。
工具開發(fā)全程未使用大語(yǔ)言模型。通過fast-mcp開源框架,部署了5000個(gè)符合MCP標(biāo)準(zhǔn)的服務(wù)節(jié)點(diǎn)。
3.1.2 工具文檔增強(qiáng)
為優(yōu)化工具在向量空間的表征效果,采用LLM為每類工具生成0-10個(gè)自然語(yǔ)言問句模板。通過替換公司名稱、股票代碼等變量,在保持語(yǔ)義一致性的前提下,創(chuàng)造出多樣化的查詢表達(dá)。這種文檔增強(qiáng)策略有效模擬了真實(shí)場(chǎng)景中的用戶查詢模式,顯著提升了密集檢索和結(jié)果排序的適配性。
3.1.3 用戶查詢實(shí)例生成
除工具文檔內(nèi)置的合成問題外,還專門設(shè)計(jì)了一套獨(dú)立用戶查詢來評(píng)估檢索效果與智能體推理能力。這些查詢雖參照工具模板設(shè)計(jì),但更貼近真實(shí)用戶提問場(chǎng)景,常包含隱含邏輯或多步推理需求。
采用集約化生成策略——每個(gè)工具生成約100個(gè)基礎(chǔ)查詢模板,再適配到全部1000家企業(yè),在保證評(píng)估集規(guī)模與多樣性的同時(shí),顯著降低了LLM推理成本。最終構(gòu)建的14萬條查詢實(shí)例,全面覆蓋了不同企業(yè)、工具及表達(dá)方式下的各類財(cái)務(wù)場(chǎng)景。
3.2 MCP向量數(shù)據(jù)庫(kù)檢索效果
估了五種嵌入模型(包括OpenAI和Amazon等主流方案)在MCP工具文檔檢索中的表現(xiàn)?;?,000臺(tái)MCP服務(wù)器的數(shù)據(jù)集,采用拼接存儲(chǔ)策略測(cè)試六種搜索配置:從純向量搜索到基于GPT-4o的智能重排序。通過調(diào)整合成問題數(shù)量(0/5/10)并測(cè)量K=1/5/10時(shí)的核心指標(biāo),最終聚焦K=5和三種代表性模型展示關(guān)鍵發(fā)現(xiàn)。
3.2.1 結(jié)果精要
- 向量檢索遇挫:所有模型MAP(Mean Average Precision,平均精度均值)值僅0.5左右,印證多跳查詢中單一向量難以兼顧多重工具意圖的固有缺陷
- 重排序破局:Cohere交叉編碼器提升顯著,GPT-4o+VertexAI組合創(chuàng)下0.94召回率紀(jì)錄
- 數(shù)據(jù)增強(qiáng)有效:嵌入10個(gè)合成問題的配置持續(xù)提升各方案表現(xiàn)
3.2.2 深度洞察
傳統(tǒng)向量檢索在多跳場(chǎng)景的"近視"問題凸顯——當(dāng)單個(gè)查詢涉及3-12個(gè)關(guān)聯(lián)工具(如"營(yíng)收+凈利潤(rùn)")時(shí),單一向量如同管中窺豹。這催生了ScaleMCP框架的創(chuàng)新設(shè)計(jì):
- 智能體賦能:通過分解查詢+迭代檢索的"分而治之"策略突破瓶頸
- 效能權(quán)衡:LLM重排序雖效果拔群(如Claude方案MAP@10達(dá)0.59),但計(jì)算成本高昂
- 未來方向:探索ScaleMCP動(dòng)態(tài)檢索能否以"輕量化"實(shí)現(xiàn)媲美重排序的精度
3.3 智能體能力評(píng)估實(shí)驗(yàn)
基于DeepEval框架,對(duì)10款大語(yǔ)言模型智能體在工具檢索與調(diào)用任務(wù)中的端到端表現(xiàn)進(jìn)行全面測(cè)評(píng)。參測(cè)模型包括OpenAI家族的gpt-4.1、gpt-4o、gpt-4o-mini、gpt-o4-mini,以及Anthropic的Claude 3.7 Sonnet。
測(cè)試采用三種檢索方案:
- BM25文本檢索基準(zhǔn)
- TDWA(Tool Document Weighted Average)向量搜索
- 結(jié)合Cohere reranker(v3-english)的向量搜索增強(qiáng)方案
實(shí)驗(yàn)固定檢索量k=5,通過OpenAI標(biāo)準(zhǔn)函數(shù)調(diào)用接口傳遞檢索結(jié)果。工具索引采用實(shí)驗(yàn)一最優(yōu)配置:TDWA(var-2)方案配合每個(gè)工具10個(gè)合成問題,嵌入模型選用OpenAI text-embedding-3-large。
上表展示了k=5時(shí)采用串聯(lián)策略的智能體表現(xiàn),其中"向量搜索+Cohere重排"方案使用v3-english版重排器。
工具正確率:評(píng)估智能體是否精準(zhǔn)調(diào)用工具、輸入?yún)?shù)有效且正確解析輸出。
任務(wù)完成度:則衡量最終響應(yīng)是否滿足用戶需求,通過預(yù)期與實(shí)際輸出的匹配度計(jì)算,反映整體解決方案的有效性。
3.3.1 核心結(jié)果
上表對(duì)比了6款代表模型在三種檢索模式下的表現(xiàn):
- gpt-o3在增強(qiáng)檢索方案下斬獲94.4%的任務(wù)完成率,雖工具正確率僅36.1%,但展現(xiàn)出色的結(jié)果生成能力
- gpt-4o-mini以54.0%工具正確率和86.7%任務(wù)完成率實(shí)現(xiàn)最佳平衡
- 大模型gpt-4.1/gpt-4o表現(xiàn)穩(wěn)健,Claude 3.7 Sonnet工具正確率墊底(23.1%)
- 重排方案使多數(shù)模型任務(wù)完成率突破80%,但工具正確率普遍在23%-54%區(qū)間
3.3.2 深度洞察
當(dāng)前智能體存在"高分低能"現(xiàn)象:在需要推斷12個(gè)工具的復(fù)雜查詢中,gpt-o3雖達(dá)成94.4%任務(wù)完成率,但工具正確率僅36.1%;而gpt-4o-mini在兩項(xiàng)指標(biāo)上更均衡(54.0%/86.7%)。這表明LLM可不依賴精確工具調(diào)用就能生成流暢答案。
上表顯示在K=5檢索量下各方案表現(xiàn)(SQ=10),其中TDWA方案采用兩種權(quán)重分配:
- var1均衡分配名稱/描述/參數(shù)/問題權(quán)重
- var2側(cè)重問題描述
多跳查詢場(chǎng)景尤其凸顯現(xiàn)有局限——靜態(tài)檢索范式(即便搭配Cohere重排器)制約了智能體的迭代推理能力。當(dāng)前主流的固定上下文窗口和單次調(diào)用機(jī)制,缺乏動(dòng)態(tài)修正能力。
ScaleMCP框架創(chuàng)新性地引入檢索增強(qiáng)規(guī)劃循環(huán),支持智能體多輪工具搜索與策略調(diào)整。未來將整合Anthropic的"think"等反思模塊,通過結(jié)合主動(dòng)搜索與審慎推理,提升高風(fēng)險(xiǎn)場(chǎng)景下復(fù)雜工具鏈的可靠性與透明度。
3.4 TDWA加權(quán)效果測(cè)評(píng)
3.4.1 測(cè)評(píng)方案
通過固定每個(gè)工具生成10個(gè)合成問題(SQ=10),對(duì)比三種文檔存儲(chǔ)策略:
- Concat-直接拼接工具組件
- TDWA var-I-加權(quán)系數(shù)[0.2,0.2,0.2,0.4];
- TDWA var-2-加權(quán)系數(shù)[0.2,0.3,0,0.5]。
權(quán)重分配體現(xiàn)各組件在向量嵌入中的影響力:工具名稱(20%)、功能描述(20-30%)、參數(shù)結(jié)構(gòu)(0-20%)、合成問題(40-50%)。測(cè)試采用稠密向量檢索、BM25及包含Cohere(v3-english)、GPT-4o和Claude 3.7的重排序流程,全部基于OpenAI text-embedding-3-large生成嵌入向量,評(píng)估K=1/5/10時(shí)的檢索效果。
3.4.2 實(shí)驗(yàn)結(jié)果
上表匯總了K=5時(shí)的核心數(shù)據(jù)(完整結(jié)果如下表)。
- 基礎(chǔ)向量檢索中,Concat策略的NDCG(0.634)和Recall(0.912)表現(xiàn)最優(yōu)。
- 但引入重排序后,TDWA var-2在Cohere和Claude模型下展現(xiàn)出競(jìng)爭(zhēng)力,其重排序后的MAP@5多項(xiàng)指標(biāo)反超Concat,表明該加權(quán)方案能提升大規(guī)模候選集的相關(guān)性排序質(zhì)量。
- LLM重排序(GPT-4o/Claude 3.7)始終帶來最大性能提升,其中Claude+Concat組合斬獲最佳NDCG(0.672)和MAP(0.539),GPT-4o+Concat保持最高Recall(0.912)。
3.4.3 實(shí)驗(yàn)洞察
雖然TDWA在原始檢索中未超越Concat,但這不否定其價(jià)值。
- 優(yōu)勢(shì)可能源于數(shù)據(jù)集特性:包含股票代碼等關(guān)鍵詞的工具名稱,與用戶查詢存在天然語(yǔ)義重疊。
- 評(píng)估使用的合成查詢與工具內(nèi)嵌問題采用相同生成方式,可能導(dǎo)致向量空間表征過度擬合。
TDWA的核心優(yōu)勢(shì)在于可精細(xì)調(diào)控各組件語(yǔ)義權(quán)重。TDWA var-2通過弱化參數(shù)、強(qiáng)化描述與合成問題的設(shè)計(jì),在重排序環(huán)節(jié)表現(xiàn)亮眼,證明結(jié)構(gòu)化加權(quán)能與評(píng)分模型形成互補(bǔ)增強(qiáng)。這也揭示合成問題對(duì)準(zhǔn)確率的突出貢獻(xiàn)。
存儲(chǔ)策略的選擇需結(jié)合具體場(chǎng)景:Concat適合標(biāo)準(zhǔn)測(cè)試環(huán)境,而TDWA在復(fù)雜實(shí)際場(chǎng)景中更具可解釋性與適應(yīng)性。后續(xù)將探索基于查詢特征動(dòng)態(tài)調(diào)整的自適應(yīng)加權(quán)機(jī)制,并引入真實(shí)用戶查詢進(jìn)行驗(yàn)證。
本文轉(zhuǎn)載自?????大語(yǔ)言模型論文跟蹤?????,作者:HuggingAGI
