偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!

發(fā)布于 2024-5-17 14:12
瀏覽
0收藏

大型語言模型(LLMs)在多種任務中展現(xiàn)了強大的能力,研究者嘗試將其作為代理,通過使用外部工具或插件幫助用戶完成任務。為了提高LLMs的工具理解和使用能力,需要準備高質量的工具學習數(shù)據(jù)集?,F(xiàn)有的工具學習數(shù)據(jù)集存在一些限制:例如工具數(shù)量有限、評估方法不精確或成本高昂。

提出了一種自指導(self-instruct)方法,通過LLMs生成工具和實例。該方法首先生成不同領域的工具,然后生成調用這些工具的實例,包括單工具實例和多工具實例。

數(shù)據(jù)集構建方法的流程圖

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

  • 工具模板:設計了工具模板,用于生成具有輸入?yún)?shù)和輸出響應的API樣式工具。

Seal-Tools工具模板以及以“getTemperature”工具為例:

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

  • 實例生成:生成實例包括用戶查詢和工具調用,通過多步驟生成并設置檢查點以減少錯誤。

一些生成的字段/子字段和工具的示例:

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

單工具調用的實例模板

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

多工具嵌套調用的實例模板

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

設計了三個評估維度:輸出格式、工具選擇和工具參數(shù)填充,以進行詳細評估。

Seal-Tools與幾個工具學習數(shù)據(jù)集的比較。? 格式混亂。? 多步驟。

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

對幾種流行的LLMs和微調模型在Seal-Tools上進行了評估,結果顯示基于Seal-Tools微調的模型顯示出很大的競爭力,但是當前的Agent系統(tǒng)在工具選擇和參數(shù)填充方面仍有改進空間,Seal-Tools可以作為推動LLMs工具學習研究的新基準。。

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

SealTool:Agent微調與評測的開源項目(14k樣本,4k工具),比ToolBench等更全面!-AI.x社區(qū)

https://arxiv.org/abs/2405.08355
Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark
https://github.com/fairyshine/Seal-Tools

本文轉載自?? PaperAgent??,作者: PaperAgent

收藏
回復
舉報
回復
相關推薦