NeurIPS 2024 | 真實(shí)世界復(fù)雜任務(wù),全新基準(zhǔn)GTA助力大模型工具調(diào)用能力評(píng)測(cè)
本篇論文已被 NeurIPS 2024 Dataset & Benchmark Track 接收,作者來(lái)自上海交通大學(xué) IWIN 計(jì)算智能團(tuán)隊(duì)和上海人工智能實(shí)驗(yàn)室。其中,第一作者王驥澤是上海交通大學(xué)自動(dòng)化系一年級(jí)博士生,研究方向涉及大模型智能體、自然語(yǔ)言處理。
利用語(yǔ)言模型調(diào)用工具,是實(shí)現(xiàn)通用目標(biāo)智能體(general-purpose agents)的重要途徑,對(duì)語(yǔ)言模型的工具調(diào)用能力提出了挑戰(zhàn)。然而,現(xiàn)有的工具評(píng)測(cè)和真實(shí)世界場(chǎng)景存在很大差距,局限性主要體現(xiàn)在以下幾個(gè)方面:
- 評(píng)估問(wèn)題通常是 AI 生成的,形式固定;
 - 邏輯鏈簡(jiǎn)單,不涉及復(fù)雜多步推理;
 - 輸入是純文本形式,模態(tài)單一;
 - 沒(méi)有部署真實(shí)可執(zhí)行的工具,無(wú)法端到端評(píng)測(cè)。
 
為了突破這些局限,來(lái)自上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了 GTA(a benchmark for General Tool Agents),一個(gè)用于評(píng)估通用工具智能體的全新基準(zhǔn),主要特性包括:
- 真實(shí)的用戶問(wèn)題
 - 真實(shí)部署的工具
 - 多模態(tài)輸入輸出
 
GTA 通過(guò)設(shè)計(jì)真實(shí)世界場(chǎng)景的用戶問(wèn)題、真實(shí)部署的工具和多模態(tài)輸入,建立了一個(gè)全面、細(xì)粒度的評(píng)估框架,能夠有效評(píng)估大語(yǔ)言模型在復(fù)雜真實(shí)場(chǎng)景下的工具使用能力。

- 論文標(biāo)題:GTA: A Benchmark for General Tool Agents
 - 論文鏈接:https://arxiv.org/abs/2407.08713
 - 代碼和數(shù)據(jù)集鏈接: https://github.com/open-compass/GTA
 - 項(xiàng)目主頁(yè): https://open-compass.github.io/GTA
 - Hugging Face:https://huggingface.co/datasets/Jize1/GTA
 

GTA 中的用戶問(wèn)題與現(xiàn)有工具評(píng)測(cè)的用戶問(wèn)題對(duì)比如下表所示。ToolBench 和 m&m's 中的問(wèn)題明顯地包含了需要調(diào)用的工具(藍(lán)色字)以及步驟(紅色字)。APIBench 中的問(wèn)題較為簡(jiǎn)單,僅包含單個(gè)步驟。相較而言,GTA 的問(wèn)題既是步驟隱含的,也是工具隱含的,并且是基于現(xiàn)實(shí)世界場(chǎng)景的、對(duì)人類(lèi)有幫助的任務(wù)。

GTA 的評(píng)估結(jié)果表明,GPT-4 在面對(duì)真實(shí)世界問(wèn)題時(shí)僅完成不到 50% 的任務(wù),而大多數(shù)模型完成率低于 25%。揭示了現(xiàn)有模型在處理真實(shí)世界問(wèn)題時(shí)面臨的工具使用瓶頸,為未來(lái)的通用工具智能體提供了改進(jìn)方向。
設(shè)計(jì)準(zhǔn)則
GTA 主要有三個(gè)核心特性,來(lái)評(píng)估大語(yǔ)言模型在真實(shí)世界場(chǎng)景下的工具使用能力:
- 真實(shí)用戶查詢(xún):包含 229 個(gè)人類(lèi)撰寫(xiě)的問(wèn)題,問(wèn)題具有簡(jiǎn)單的真實(shí)世界目標(biāo),但解決步驟是隱含的,工具也是隱含的,要求模型通過(guò)推理來(lái)選擇合適的工具并規(guī)劃操作步驟。
 - 真實(shí)部署的工具:GTA 提供了工具部署平臺(tái),涵蓋感知、操作、邏輯和創(chuàng)作四大類(lèi)共 14 種工具,能夠真實(shí)反映智能體實(shí)際的任務(wù)執(zhí)行性能。
 - 多模態(tài)輸入輸出:除了文本,GTA 還引入了空間場(chǎng)景、網(wǎng)頁(yè)截圖、表格、代碼片段、手寫(xiě) / 打印材料等多模態(tài)輸入,要求模型處理這些豐富的上下文信息,并給出文本或圖像輸出。這使得任務(wù)更加接近實(shí)際應(yīng)用場(chǎng)景,進(jìn)一步提升了評(píng)估的真實(shí)性和復(fù)雜性。
 
數(shù)據(jù)集構(gòu)建
數(shù)據(jù)集構(gòu)建流程包含兩個(gè)步驟:
1. 問(wèn)題構(gòu)建。專(zhuān)家設(shè)計(jì)問(wèn)題樣例和標(biāo)注文檔,標(biāo)注人員按照標(biāo)注文檔中的指示,進(jìn)行頭腦風(fēng)暴,基于問(wèn)題樣例設(shè)計(jì)更多的問(wèn)題,最終得到問(wèn)題集。
2. 答案構(gòu)建。標(biāo)注人員手動(dòng)調(diào)用部署好的工具,確保每個(gè)問(wèn)題都可以用提供的工具解決。然后,標(biāo)注人員根據(jù)工具調(diào)用過(guò)程和工具返回結(jié)果,對(duì)每個(gè)問(wèn)題的工具調(diào)用鏈進(jìn)行標(biāo)注。
為了讓評(píng)測(cè)集更全面地覆蓋真實(shí)場(chǎng)景,研究團(tuán)隊(duì)采用了多樣化的擴(kuò)展策略,包括場(chǎng)景多樣化、工具組合多樣化等。最終得到的評(píng)測(cè)集包含多圖推理、圖表分析、編程、視覺(jué)交互、網(wǎng)頁(yè)瀏覽、數(shù)學(xué)、創(chuàng)意藝術(shù)等多種場(chǎng)景,確保了評(píng)估任務(wù)的全面性和多樣性。

問(wèn)題示例
最終共得到 229 個(gè)真實(shí)場(chǎng)景下的任務(wù),所有問(wèn)題都隱含工具和步驟,并且包含多模態(tài)上下文輸入。這些任務(wù)基于現(xiàn)實(shí)世界場(chǎng)景,目標(biāo)明確且易于理解,完成任務(wù)對(duì)人類(lèi)有幫助,但對(duì)于 AI 助手來(lái)說(shuō)較為復(fù)雜。JSON 格式的數(shù)據(jù)示例可以在 Hugging Face 上找到。




模型評(píng)測(cè)
GTA 在兩種模式下評(píng)估語(yǔ)言模型:
- 逐步模式 (step-by-step mode)。該模式旨在細(xì)粒度地評(píng)估模型的工具使用能力。在該模式下,ground truth 工具鏈的前 n 步作為 prompt,模型預(yù)測(cè)第 n + 1 步的操作。在逐步模式下,設(shè)計(jì)四個(gè)指標(biāo):InstAcc(指令遵循準(zhǔn)確率)、ToolAcc(工具選擇準(zhǔn)確率)、ArgAcc(參數(shù)預(yù)測(cè)準(zhǔn)確率)和 SummAcc(答案總結(jié)準(zhǔn)確率)。
 - 端到端模式 (end-to-end mode)。該模式旨在反映智能體實(shí)際執(zhí)行任務(wù)時(shí)的表現(xiàn)。在這種模式下,模型會(huì)自主調(diào)用工具并解決問(wèn)題,而無(wú)外部引導(dǎo)。使用 AnsAcc(最終答案準(zhǔn)確率)來(lái)衡量執(zhí)行結(jié)果的準(zhǔn)確性。此外,還計(jì)算了工具選擇方面的四個(gè) F1 score:P、L、O、C,分別衡量感知 (Perception)、操作 (Operation)、邏輯 (Logic) 和創(chuàng)作 (Creativity) 類(lèi)別的工具選擇能力。
 

評(píng)測(cè)結(jié)果表明,目前的大語(yǔ)言模型在復(fù)雜真實(shí)場(chǎng)景任務(wù)的工具調(diào)用上仍存在明顯的局限性。GPT-4 在 GTA 上僅能完成 46.59% 的任務(wù),而大多數(shù)模型僅能完成不到 25% 的任務(wù)。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前語(yǔ)言模型在完成 GTA 任務(wù)的關(guān)鍵瓶頸是參數(shù)傳遞準(zhǔn)確率。研究人員計(jì)算了各指標(biāo)與最終結(jié)果準(zhǔn)確率 AnsAcc 之間的皮爾森相關(guān)系數(shù),發(fā)現(xiàn) ArgAcc 的相關(guān)系數(shù)最高,說(shuō)明參數(shù)傳遞是目前大多數(shù)模型的瓶頸。例如,Llama-3-70B-Chat 的 InstAcc,ToolAcc,SummAcc 都比 Qwen1.5-14B-Chat 高,但 ArgAcc 比 Qwen1.5-14B-Chat 低,導(dǎo)致最終結(jié)果準(zhǔn)確率更低。
錯(cuò)因分析
為了進(jìn)一步理解模型在參數(shù)傳遞上的失誤原因,研究團(tuán)隊(duì)選擇兩個(gè)典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct,對(duì)它們進(jìn)行了深入的錯(cuò)誤原因分析,如下表所示。

分析顯示,GPT-4 與 Llama-3 的錯(cuò)誤分布存在顯著差異。GPT-4 模型傾向于生成 “無(wú)動(dòng)作”(No Action)的響應(yīng),在 38.7% 的錯(cuò)誤中,GPT-4 嘗試與用戶互動(dòng),錯(cuò)誤地認(rèn)為問(wèn)題表述不夠明確,要求提供額外信息。而在 50% 的錯(cuò)誤中,模型僅生成內(nèi)部思考過(guò)程,而未采取實(shí)際行動(dòng)。
而 Llama-3 的大部分錯(cuò)誤來(lái)自于格式錯(cuò)誤,特別是調(diào)用工具或生成最終答案時(shí)。45.4% 的錯(cuò)誤是由于參數(shù)未能遵循合法的 JSON 格式。此外,在 16.5% 的情況下,Llama-3 試圖同時(shí)調(diào)用多個(gè)工具,這并不被智能體系統(tǒng)支持。19.6% 的錯(cuò)誤則源于生成冗余信息,導(dǎo)致參數(shù)解析不正確。
總結(jié)
本文構(gòu)建了面向復(fù)雜真實(shí)場(chǎng)景的通用工具智能體(General Tool Agents)評(píng)測(cè)基準(zhǔn):
- 構(gòu)建了通用工具智能體的評(píng)測(cè)數(shù)據(jù)集。問(wèn)題由人類(lèi)設(shè)計(jì),是步驟隱含、工具隱含的,且立足于真實(shí)世界場(chǎng)景,并提供了多模態(tài)語(yǔ)境輸入。每個(gè)問(wèn)題都標(biāo)注了可執(zhí)行的工具鏈,以支持細(xì)粒度的工具使用能力評(píng)測(cè)。
 - 提供了包含感知、操作、邏輯、創(chuàng)作類(lèi)別工具的評(píng)測(cè)平臺(tái)。針對(duì)工具調(diào)用設(shè)計(jì)了細(xì)粒度的評(píng)測(cè)指標(biāo),揭示工具增強(qiáng)的語(yǔ)言模型在真實(shí)世界場(chǎng)景中的推理和規(guī)劃能力。
 - 評(píng)測(cè)和分析了主流大語(yǔ)言模型。從多個(gè)維度評(píng)測(cè)了 16 個(gè)大語(yǔ)言模型,反映了目前的語(yǔ)言模型在真實(shí)世界場(chǎng)景下的工具調(diào)用能力瓶頸,為通用目標(biāo)智能體的發(fā)展路徑提供建議。
 















 
 
 


















 
 
 
 