偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="i9pid"><menu id="i9pid"></menu></rt>

<del id="i9pid"><ul id="i9pid"></ul></del>

<thead id="i9pid"></thead>

<nav id="i9pid"><strong id="i9pid"></strong></nav>

<ruby id="i9pid"><tt id="i9pid"></tt></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

多Agent思想顯著提升小模型工具調(diào)用能力

發(fā)布于 2025-1-13 11:02

瀏覽

0收藏

今天分享一篇阿里的利用Agent思想做工具調(diào)用的文章，標(biāo)題為《Small LLMs Are Weak Tool Learners: A Multi-LLM Agent》。其提出的多LLM代理微調(diào)框架，將工具調(diào)用拆解為三個agent（Planner、Caller、Summarizer），并結(jié)合一個二階段的微調(diào)策略。對比單個LLM表現(xiàn)更為出色，性能也更為穩(wěn)定，并且能夠超過像ChatGPT、GPT4等閉源模型，證明了多agent思路在工具調(diào)用上的有效性。

除了工具調(diào)用，或許本文的方法也可以拓展到問答的其他場景，大家可以參考。

Title: Small LLMs Are Weak Tool Learners: A Multi-LLM Agent URL:?? https://arxiv.org/abs/2401.07324??

Code：?? https://github.com/X-PLUG/Multi-LLM-Agent??

Authors: Weizhou Shen, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang, Fei Huang

1.Motivation

多Agent思想顯著提升小模型工具調(diào)用能力-AI.x社區(qū)

? 外部工具（例如APIs, 函數(shù)）的使用要求LLM不僅要了解用戶查詢并準(zhǔn)確生成答案，而且要擅長任務(wù)計劃、工具調(diào)用和結(jié)果總結(jié)。

? 單個LLM特別是Small LLMs調(diào)用外部工具（例如APIs, 函數(shù)）的能力以及自主完成各種任務(wù)時表現(xiàn)不太好。

? 之前的研究方法主要探索如何訓(xùn)練并提高單個LLMs的能力，利用多LLM來提高上述能力的工作并不多。

2.Methods

論文通過提出一個新穎的多LLM框架來解決問題，該框架將任務(wù)規(guī)劃、工具調(diào)用和結(jié)果總結(jié)的能力分解為計劃者、調(diào)用者和總結(jié)者三個組件。每個組件由專注于特定能力的單個LLM實現(xiàn)，并與其他LLM合作完成任務(wù)。此外，論文引入了一個兩階段訓(xùn)練范式，首先在整個數(shù)據(jù)集上對背景LLM進(jìn)行微調(diào)，其次使用微調(diào)過的LLM對上述三個組件進(jìn)行初始化，然后再在相應(yīng)的子任務(wù)上進(jìn)行持續(xù)的微調(diào)。

2.1 詳細(xì)方法和步驟:

? 首先，對整個數(shù)據(jù)集進(jìn)行微調(diào)，為主干LLM提供對任務(wù)的全面理解，而不區(qū)分子任務(wù)。

? 然后，使用微調(diào)過的LLM實例化規(guī)劃者、調(diào)用者和總結(jié)者，分別對應(yīng)子任務(wù)繼續(xù)微調(diào)。

? 這種模塊化框架促進(jìn)了單個組件的更新，并且有可能使用更小型的LLMs來構(gòu)建每個能力。

? 在各種工具使用基準(zhǔn)測試中，該多LLM框架超越了傳統(tǒng)的單LLM方法，突出了其在工具學(xué)習(xí)上的高效性和優(yōu)勢。

多Agent思想顯著提升小模型工具調(diào)用能力-AI.x社區(qū)

Figure 2: An illustration of how α-UMi works to complete a task.

規(guī)劃器（Planner）：α-UMi 框架中的規(guī)劃器組件負(fù)責(zé)生成任務(wù)執(zhí)行的邏輯和計劃。它根據(jù)當(dāng)前系統(tǒng)狀態(tài)和用戶指令來決定下一步的操作。規(guī)劃器的輸出包括一個理由（Rationale）和一個決策，決策可能是：

? “Next: Caller”：指示調(diào)用者（Caller）組件進(jìn)行下一步操作。

? “Next: Summarizer”：如果已經(jīng)收集到足夠的信息，指示總結(jié)器（Summarizer）組件生成最終答案。

? “Next: Give up”：如果認(rèn)為任務(wù)無法解決，決定放棄執(zhí)行。

調(diào)用者（Caller）：根據(jù)規(guī)劃器的指示和理由，調(diào)用者組件負(fù)責(zé)調(diào)用具體的工具或 API。它根據(jù)規(guī)劃器提供的邏輯生成合法且有用的請求，并從工具中獲取觀察結(jié)果（Observation）。

總結(jié)器（Summarizer）：一旦規(guī)劃器決定已經(jīng)有足夠的信息來解決用戶指令，它會指示總結(jié)器生成最終的答案?？偨Y(jié)器根據(jù)執(zhí)行軌跡和用戶指令來構(gòu)建最終的回復(fù)，提供給用戶。

2.2 訓(xùn)練方法

多Agent思想顯著提升小模型工具調(diào)用能力-AI.x社區(qū)

α-UMi 采用了全局到局部漸進(jìn)式微調(diào)（Global-to-Local Progressive Fine-Tuning，簡稱 GLPFT）策略，用于有效訓(xùn)練多 LLM 系統(tǒng)，它分為兩個主要階段：

1)全局微調(diào)（Global Fine-tuning）：

? 在這個階段，首先對一個基礎(chǔ)的大型語言模型（LLM backbone）進(jìn)行微調(diào)，使用的是整個訓(xùn)練數(shù)據(jù)集，而不區(qū)分子任務(wù)，微調(diào)的目標(biāo)是讓模型獲得對整個工具學(xué)習(xí)任務(wù)的綜合理解。

? 經(jīng)過全局微調(diào)后，基礎(chǔ) LLM 被訓(xùn)練成能夠依次輸出理由（rationale）、動作（action）和答案（answer）。

2)局部微調(diào)（Local Fine-tuning）：

? 原始的訓(xùn)練數(shù)據(jù)集被重新組織，形成針對每個 LLM 角色（規(guī)劃器、調(diào)用者和總結(jié)器）的特定數(shù)據(jù)集。

? 接著，分別對規(guī)劃器、調(diào)用者和總結(jié)器進(jìn)行進(jìn)一步的微調(diào)，以增強(qiáng)它們在各自子任務(wù)中的具體能力。

? 在局部微調(diào)階段，基礎(chǔ) LLM 被復(fù)制成三個獨(dú)立的模型，每個模型專注于一個特定的子任務(wù)，每個子任務(wù)的專家模型（規(guī)劃器、調(diào)用者和總結(jié)器）能夠在其專門的任務(wù)上進(jìn)行優(yōu)化，從而提高整體框架的性能。

總結(jié)：GLPFT 策略通過分階段的微調(diào)方法，使得每個組件模型能夠在其專門的任務(wù)上達(dá)到更高的性能，同時保持了整個系統(tǒng)的協(xié)同工作能力。這種策略有效地提高了模型在工具學(xué)習(xí)任務(wù)中的表現(xiàn)，并充分利用了每個小型 LLM 的潛力。

3.Conclusion

? 在工具使用的任務(wù)中，本文提出的多LLM代理微調(diào)框架表現(xiàn)出色，能夠超過像ChatGPT、GPT4等閉源模型，證明了多agent思路在工具調(diào)用上的有效性。

二、詳細(xì)內(nèi)容

1.實驗表現(xiàn)

多Agent思想顯著提升小模型工具調(diào)用能力-AI.x社區(qū)

實驗設(shè)置：

?Model Size = 7B / 13B：指的是模型的參數(shù)數(shù)量，7B 表示 70 億參數(shù)，13B 表示 130 億參數(shù)。

?Multi-LLM one-stage：在單一階段直接對規(guī)劃器、調(diào)用者和總結(jié)器進(jìn)行微調(diào)的多 LLM 模型。

?α-UMi w/o reuse / w/ reuse：α-UMi 框架的不同版本，其中一個版本在微調(diào)過程中重用了用戶指令集（w/ reuse），另一個版本沒有（w/o reuse）。

實驗結(jié)論：

1)利用α-UMi框架對7B/13B左右的模型微調(diào)，效果能超過GPT-4：α-UMi 框架在多個評估指標(biāo)上超越了傳統(tǒng)的單一大型語言模型（如 ChatGPT 和 GPT-4），特別是在規(guī)劃器準(zhǔn)確率（Plan ACC）和 Rouge-L 分?jǐn)?shù)（R-L）方面，α-UMi 有了顯著的改進(jìn)。

2)模型越大，效果越好：使用 13B 參數(shù)模型的 α-UMi 版本在大多數(shù)指標(biāo)上表現(xiàn)優(yōu)于 7B 參數(shù)版本，這表明更大的模型容量可以帶來更好的性能。然而，值得注意的是，即使是 7B 參數(shù)的 α-UMi 也能在某些情況下超越 13B 參數(shù)的單一大型語言模型，這強(qiáng)調(diào)了 α-UMi 框架設(shè)計的有效性。

3)多階段微調(diào)比單階段微調(diào)效果更好：與單階段微調(diào)的多 LLM（Multi-LLM one-stage）和多任務(wù)微調(diào)的單一大型語言模型（Single-LLM multi-task）相比，α-UMi 展現(xiàn)了更好的性能，說明 GLPFT 策略在提升模型性能方面的有效性。

4)添加用戶指令數(shù)據(jù)效果更佳：α-UMi w/ reuse（重用用戶指令的版本）在大多數(shù)指標(biāo)上優(yōu)于 α-UMi w/o reuse（不重用用戶指令的版本），這表明在微調(diào)過程中重用用戶指令可以幫助模型更好地學(xué)習(xí)和適應(yīng)任務(wù)需求。

綜上所述，α-UMi 框架通過其模塊化設(shè)計和漸進(jìn)式微調(diào)策略，在工具學(xué)習(xí)任務(wù)上展現(xiàn)了顯著的性能提升，特別是在任務(wù)規(guī)劃和結(jié)果總結(jié)方面。此外，該框架的有效性不受模型大小的限制，即使是小型模型也能通過合作達(dá)到高性能。

2.ToolBench上的詳細(xì)表現(xiàn)

多Agent思想顯著提升小模型工具調(diào)用能力-AI.x社區(qū)

Table 2: Results of real-time evaluation on ToolBench

主要結(jié)論：

1)α-UMi 框架效果非常不錯：

? α-UMi（使用 7B 模型）在多數(shù)測試組中的通過率（Pass）和勝利率（Win）都超過了 ChatGPT 和 ToolLLaMA，這表明 α-UMi 框架在實時 API 調(diào)用任務(wù)中表現(xiàn)出色，能夠有效地解決實際問題。

? 在某些測試組中，α-UMi 的通過率與 GPT-4 相當(dāng)，甚至在 I1-Inst. 和 I2-Inst. 組別中超過了 GPT-4。

2)DFSDT vs ReACT：使用 ReACT 和 DFSDT 策略的模型在不同的測試組中表現(xiàn)出不同的性能。這表明不同的推理策略對于模型解決任務(wù)的能力有顯著影響，選擇合適的策略對于提升模型性能至關(guān)重要。

3)小模型的工具調(diào)用能力也可以做得很不錯：盡管 GPT-4 擁有更大的模型容量，但在某些情況下，α-UMi（7B）的性能與 GPT-4 相當(dāng)，這表明通過有效的框架設(shè)計和微調(diào)策略，較小的模型也能實現(xiàn)與大模型相媲美的性能。

總結(jié)：α-UMi 框架在實時工具調(diào)用任務(wù)中的有效性和競爭力，也表明通過選擇合適的推理策略和優(yōu)化的微調(diào)方法，可以顯著提升模型（特別是小模型）在實際應(yīng)用中的性能。

3.訓(xùn)練數(shù)據(jù)量對不同框架工具調(diào)用能力的影響

多Agent思想顯著提升小模型工具調(diào)用能力-AI.x社區(qū)

Figure 4: Results of data scaling law study on ToolBench with different evaluation metrics

評估指標(biāo)：

?Plan ACC（規(guī)劃器準(zhǔn)確率）：衡量規(guī)劃器在決策下一步行動時的準(zhǔn)確性。

?Act. EM（動作實體匹配）：衡量調(diào)用者在調(diào)用 API 時參數(shù)匹配的準(zhǔn)確性。

?Hallu.（幻覺率）：衡量模型在生成 API 名稱時是否產(chǎn)生了不存在的實體。

?Arg. F1（參數(shù) F1 分?jǐn)?shù)）：衡量 API 調(diào)用中參數(shù)準(zhǔn)確性的指標(biāo)。

結(jié)論：α-UMi 框架性能不錯，效果較為穩(wěn)定，性能隨數(shù)據(jù)量的增加穩(wěn)步提升。隨著訓(xùn)練數(shù)據(jù)的增加，α-UMi 框架在多個評估指標(biāo)上的性能得到了顯著提升，尤其是在任務(wù)規(guī)劃和 API 調(diào)用方面。

三、總結(jié)

結(jié)論1: 多LLM代理框架（例如本文的Planner、Caller、Summarizer）能夠克服傳統(tǒng)單個LLM在工具學(xué)習(xí)方面的性能限制，通過模塊化的方法分解任務(wù)，可以利用小型LLMs構(gòu)建特定能力，并且更容易更新和維護(hù)。

結(jié)論2: 多階段微調(diào)比單階段微調(diào)效果更好。與單階段微調(diào)的多 LLM（Multi-LLM one-stage）和多任務(wù)微調(diào)的單一大型語言模型（Single-LLM multi-task）相比，α-UMi 展現(xiàn)了更好的性能，說明 GLPFT 策略在提升模型性能方面的有效性。

結(jié)論3: 添加用戶指令數(shù)據(jù)微調(diào)效果更佳：α-UMi w/ reuse（重用用戶指令的版本）在大多數(shù)指標(biāo)上優(yōu)于 α-UMi w/o reuse（不重用用戶指令的版本），這表明在微調(diào)過程中重用用戶指令可以幫助模型更好地學(xué)習(xí)和適應(yīng)任務(wù)需求。

本文轉(zhuǎn)載自??NLP PaperWeekly??，作者： NLP PaperWeekly ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

LLM落地淘寶電商搜索場景，顯著提升長尾query改寫效果

海因斯DK ? 6814瀏覽 ? 0回復(fù)
ERAGent：集成5個先進(jìn)組件與技術(shù)的增強(qiáng)型RAG Agent，顯著提升3類問答任務(wù)效果

PaperAgent ? 4090瀏覽 ? 0回復(fù)
構(gòu)建 Autonomous AI Agent ｜函數(shù)調(diào)用（Function Calling）技術(shù)實例探索

Baihai_IDP ? 3840瀏覽 ? 0回復(fù)
LLMCompiler：大模型的并行工具調(diào)用

AIGC最前線 ? 4895瀏覽 ? 0回復(fù)
LLM工具調(diào)用破局：Few-shot Prompting

ermulong ? 2751瀏覽 ? 0回復(fù)
GMeLLo：結(jié)合知識圖譜的 LLM 多跳問答技術(shù)，效果顯著提升

大語言模型論文跟蹤 ? 4077瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3931瀏覽 ? 0回復(fù)
小扎深夜炸場！Meta首個開源多模態(tài)模型Llama 3.2橫空出世，能力不輸GPT4o-mini；小扎：開源的拐點(diǎn)來了！

51CTO技術(shù)棧 ? 3457瀏覽 ? 0回復(fù)
StaR ｜用少量推理數(shù)據(jù)讓模型學(xué)會通用推理能力，顯著提升模型復(fù)雜推理

arnoldzhw ? 3470瀏覽 ? 0回復(fù)
使用MCTS顯著提升LLM在復(fù)雜任務(wù)的推理能力

arnoldzhw ? 6819瀏覽 ? 0回復(fù)
阿里巴巴語音實驗室發(fā)布新成果，多模態(tài)方法顯著提升視頻主題分割性能

xuxiangda ? 2660瀏覽 ? 0回復(fù)
微軟開源小模型Phi系列：技術(shù)演進(jìn)、能力突破與未來展望

上堵吟1 ? 3407瀏覽 ? 0回復(fù)
對話數(shù)據(jù)合成：清華利用多Agent合成大量醫(yī)療對話數(shù)據(jù)顯著提升LLM在醫(yī)療場景效果

arnoldzhw ? 2921瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 2770瀏覽 ? 0回復(fù)
工具調(diào)用×大模型思考=超級智能體：ReAct 策略如何改變AI能力

九歌AI大模型 ? 2218瀏覽 ? 0回復(fù)
中國科大認(rèn)知全重實驗室發(fā)布Agent-R1訓(xùn)練框架，支持自主思考與工具調(diào)用！

arnoldzhw ? 1612瀏覽 ? 0回復(fù)
6行代碼讓你的應(yīng)用也能調(diào)用Mcp工具！

Syrupup ? 2381瀏覽 ? 0回復(fù)
ReTool：AI工具使用的突破性進(jìn)展，推理能力顯著提升

sbf_2000 ? 1192瀏覽 ? 0回復(fù)
Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程

小虎哦哦 ? 7124瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

NVIDIA（ProRL）｜RL到底能不能提升LLM的推理上限？ 8天前發(fā)布
ACL25 | DOLPHIN，Closed-loop Auto-research系統(tǒng)來幫你自動做科研了！ 2025-06-13 06:42:33發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇： ACL2024 ｜利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)

下一篇：對話數(shù)據(jù)合成：清華利用多Agent合成大量醫(yī)療對話數(shù)據(jù)顯著提升LLM在醫(yī)療場景效果

社區(qū)精華內(nèi)容

目錄

<wbr id="ow7vg"></wbr>

<tt id="ow7vg"><b id="ow7vg"></b></tt>

<center id="ow7vg"></center>