AI Agent評測基準大揭秘:智能體的“體檢標準”
最近通用agent越來越火了,從3月初的manus到昨天的Genspark Super Agent,功能越來越強大,AI Agent的技術日新月異,眼花繚亂。
越來越多的公司將數(shù)以千計的agent作為核心競爭力,好不好用并不知道,究竟是數(shù)量取勝還是質(zhì)量更加贏得消費者的喜歡?
從數(shù)量上,像扣子、騰訊元器等Agent創(chuàng)建平臺,上面有大量的agent,各行各業(yè)的agent都有,特別方便。
從質(zhì)量上,爆火的通用智能體manus、Genspark Super Agent,以及多智能體mgx.dev,一夜爆火,全球追捧。
什么樣的Agent才算是好的Agent呢?
企業(yè)在推進agent業(yè)務時,究竟是保證質(zhì)量還是數(shù)量為主呢?值得探討。
今天小編帶你一起來了解一下市面上主流的Agent評測基準。
先點個關注吧,防止走丟。
正文開始。
當前主流的AI Agent評測基準覆蓋了從通用智能到垂直領域、從英文到中文、從功能到安全的多個維度。
GAIA基準測試
核心內(nèi)容與測試范圍
由Meta AI等團隊提出的綜合性基準,旨在評估通用AI助手解決現(xiàn)實問題的能力。
任務類型:466個問題分為三個難度級別,涉及文檔理解、網(wǎng)絡瀏覽、邏輯推理、多模態(tài)處理(如PPTX、PDF等文件分析)。
目前市面上的agent,可能90%都不能通過這個嚴苛的測試基準,做agent容易(prompt就可以,或者+workflow),做一個好的agent很難。
核心評價標準
GAIA 使用以下關鍵維度評估代理:
- 任務執(zhí)行:代理能夠以最小的錯誤完成預定義的任務,并且無需直接人工干預。
- 適應性:代理對不可預見的情況的反應如何,需要動態(tài)的問題解決策略。
- 協(xié)作:評估多代理協(xié)調(diào)和人工代理合作功能。
- 普遍化:測試代理是否可以將學習到的知識應用于其訓練分布之外的新穎、看不見的場景。
- 真實世界的推理:GAIA 背離了優(yōu)先考慮人類日益困難的任務的基準。相反,它專注于人類認為簡單但需要 AI 系統(tǒng)表現(xiàn)出結構化推理、規(guī)劃和準確執(zhí)行的任務。
任務套件
GAIA 分為多個任務類別,每個任務類別評估不同的模式和交互模式:
- 語言和推理套件 :復雜的問答、基于對話的任務、解謎和戰(zhàn)略規(guī)劃。
- 視覺和感知套件 :對象檢測、場景理解和視覺語言任務。
- 協(xié)作套件 :多智能體協(xié)調(diào)和人機交互場景。
- Adaptation Suite:需要實時戰(zhàn)略轉變和動態(tài)學習的新事件。
評估指標
GAIA 使用可量化和可解釋的指標來衡量成功:
- 完成率 :成功完成的任務的比例。
- 響應質(zhì)量 :生成輸出的準確性、相關性和精密度。
- 效率 :所花費的時間和計算開銷。
- 穩(wěn)健性 :對抗場景下的性能、不完整的指令或誤導性數(shù)據(jù)。
- 泛化分數(shù) :將技能擴展到訓練數(shù)據(jù)之外的新任務的能力。
特點:強調(diào)人類看似簡單但需要結構化推理的任務,例如通過畫作識別水果并按順序排列。
應用領域與認可度
應用:Meta、Monica的Manus等企業(yè)用于評估通用AI助手能力,尤其在多模態(tài)和工具調(diào)用場景。
Genspark 超級代理 GAIA
行業(yè)地位:被認為是評估AGI的重要里程碑,被學術界和工業(yè)界廣泛引用。
AgentBench
核心內(nèi)容與測試范圍
清華大學等機構開發(fā)的系統(tǒng)性基準,評估LLM作為智能體的推理與決策能力。
任務類型:8個環(huán)境,包括操作系統(tǒng)(SQL操作)、知識圖譜、卡牌游戲、網(wǎng)絡購物等。
- 操作系統(tǒng):評估LLM在Linux系統(tǒng)的bash環(huán)境中的操作能力,如文件操作、用戶管理等。
- 數(shù)據(jù)庫:考察LLM利用SQL操作給定的數(shù)據(jù)庫完成查詢、修改等任務。
- 知識圖譜:需要LLM利用給定的工具查詢知識圖譜,完成復雜的知識獲取任務。
- 卡牌游戲:將LLM視為玩家,根據(jù)規(guī)則和狀態(tài)進行數(shù)字卡牌游戲,評估策略決策能力。
- 橫向思維難題:提供難題故事,LLM需要進行問答來推理得到真相,檢查橫向思維能力。
- 家庭環(huán)境:在模擬的家中場景下,LLM需要自主完成日常任務,如搬移物品等。
- 網(wǎng)絡購物:按照要求在模擬購物網(wǎng)站上瀏覽和購買商品,評估自主探索決策能力。
- 網(wǎng)頁瀏覽:在真實網(wǎng)頁環(huán)境中,根據(jù)高級指令實現(xiàn)操作序列,完成網(wǎng)頁任務。
關于LLM的代理能力包括:理解人類意圖并執(zhí)行指令、編碼能力、知識獲取和推理、策略決策、多輪一致性、邏輯推理、自主探索、可解釋的推理。
指標:任務完成率、多輪對話一致性、代碼生成準確性。
特點:覆蓋代碼與生活場景,如用SQL提取數(shù)據(jù)或預訂機票。
應用領域與認可度
應用:OpenAI的GPT-4、Anthropic Claude等主流模型參與測試,GPT-4以4.01分領先。
行業(yè)地位:首個系統(tǒng)性評估LLM代理能力的基準,推動學術界對開源與閉源模型差距的研究。
PaperBench
核心內(nèi)容與測試范圍
定義:OpenAI推出的新基準,評估AI代理復現(xiàn)前沿研究的能力。
任務類型:復現(xiàn)20篇ICML 2024論文,包括代碼開發(fā)與實驗執(zhí)行。
PaperBench 分 3 個階段運行:
- 代理推出 :代理在 ubuntu 容器中執(zhí)行,它必須在其中創(chuàng)建其提交:復制論文的代碼庫。
- 復制 :代理提交的代碼庫在具有 GPU 訪問權限的第二個新容器中執(zhí)行,以便獲得執(zhí)行代碼庫的結果。這將創(chuàng)建已執(zhí)行的提交 。
- 評分 :使用論文的評分量規(guī)對已執(zhí)行的提交進行評分。在運行 judge 的位置創(chuàng)建第三個容器。
指標:復現(xiàn)得分(Claude 3.5 Sonnet平均21.0%)、人類基線對比。
特點:需要深入理解論文貢獻,測試科研輔助潛力。
應用領域與認可度
應用:OpenAI內(nèi)部及學術機構用于測試模型科研能力,目前模型表現(xiàn)仍低于人類。
行業(yè)地位:新興基準,可能成為評估AI科研工具的關鍵標準。
WAA
核心內(nèi)容與測試范圍
定義:微軟開發(fā)的基準,評估AI代理在Windows環(huán)境中的任務執(zhí)行能力。
任務類型:154項任務,涵蓋Edge瀏覽器操作、Visual Studio Code編程、文件管理等。
指標:任務成功率(微軟Navi代理為19.5%,人類為74.5%)。
特點:支持Azure云并行測試,20分鐘完成全面評估。
應用領域與認可度
應用:微軟用于優(yōu)化Windows生態(tài)中的AI助手,如Cortana后續(xù)迭代。
行業(yè)地位:首個聚焦操作系統(tǒng)級任務的基準,推動企業(yè)級AI工具開發(fā)。
SuperCLUE-Agent
核心內(nèi)容與測試范圍
中文評測基準,評估大模型在中文任務中的Agent能力。
任務類型:包括工具使用(API調(diào)用)、任務規(guī)劃(分解與反思)、長短期記憶(多輪對話)、十大基礎能力。
維度一:工具使用
- 調(diào)用API:評估AI Agent能否根據(jù)API描述精確調(diào)用并正確響應。
- 檢索API:評估AI Agent能否選擇合適的API并學習使用。
- 規(guī)劃API:評估AI Agent在復雜任務中規(guī)劃多次API調(diào)用的能力。
- 通用工具使用:評估AI Agent使用搜索引擎、網(wǎng)頁瀏覽、文件操作等通用工具的能力。
維度二:任務規(guī)劃
- 任務分解:評估AI Agent將復雜任務分解為小任務的能力。
- 自我反思:評估AI Agent從錯誤中學習并改進的能力。
- 思維鏈(CoT):評估AI Agent將復雜任務分解為簡單步驟并逐步解決問題的能力。
維度三:長短期記憶
- 多文檔問答:評估AI Agent從多個文檔中提取并組合答案的能力。
- 長程對話:評估AI Agent在長對話中切換多個主題的能力。
- 少樣本示例學習:評估AI Agent通過少量示例解決新任務的能力,無需微調(diào)。
指標:中文場景下的任務完成率,GPT-4領先,國內(nèi)模型接近GPT-3.5水平。
特點:填補中文Agent評估空白,覆蓋金融、醫(yī)療等垂直領域。
應用領域與認可度
應用:商湯科技、智譜AI等國內(nèi)企業(yè)用于優(yōu)化中文助手(如SenseChat 3.0)。
行業(yè)地位:中文領域權威基準,推動國產(chǎn)模型商業(yè)化。
AgentHarm
核心內(nèi)容與測試范圍
評估LLM代理對有害請求的魯棒性,由Gray Swan AI等機構提出。
任務類型:440個惡意任務(如欺詐、騷擾),測試越獄后的多步驟執(zhí)行能力。
指標:合規(guī)率、攻擊成功率(GPT-4等模型易被越獄)。
特點:首個聚焦代理安全性的基準,揭示現(xiàn)有模型的安全漏洞。
應用領域與認可度
應用:AI安全研究機構用于模型防御策略開發(fā),如Anthropic Claude的安全迭代。
行業(yè)地位:AI安全領域的重要工具,被納入英國AI安全研究所的評估體系。
PromptBench
核心內(nèi)容與測試范圍
微軟開發(fā)的統(tǒng)一評估庫,支持多樣化提示工程與對抗攻擊測試。
官方:https://promptbench.readthedocs.io/en/latest/
任務類型:情感分析、語法檢查、自然語言推理等12類任務。
- 情感分析(SST-2)
- 語法正確性(CoLA)
- 重復句子檢測(QQP和MRPC)
- 自然語言推理(MNLI,QNLI,RTE和WNLI)
- 多任務知識(MMLU數(shù)據(jù)集)
- 閱讀理解(SQuAD V2數(shù)據(jù)集)
- 翻譯(UN Mult,IWSLT 2017)
- 數(shù)學問題求解(Math和GSM8K)
- 邏輯推理(布爾表達式)
- 常識推理(常識QA,QASC,NummerSense,日期和對象跟蹤)
- 符號推理(LastLetterConcat)
- 算法(有效括號數(shù)據(jù)集)。
PromptBench目前包括6種提示工程方法:
- 少樣本Chain-of-Thought( few-shot Chainof-Thought)
- 零樣本Chain-of-Thought(zero-shot Chain-of-Thought)
- EmotionPrompt(EmotionPrompt)
- 專家提示(Expert Prompting)
- 生成知識(Generated Knowledge)
- 最小到最大(Least to Most)。
為便于研究LLM對提示的魯棒性,PromptBench集成了7種對抗性提示攻擊:TextBugger,TextFooler,BertAttack,DeepWordBug,Checklist,StressTest和語義。通過提示攻擊接口輕松調(diào)用,方便測試。
指標:對抗攻擊下的模型魯棒性、動態(tài)評估性能。
特點:模塊化設計,支持自定義提示與攻擊方法(如字符級/詞級攻擊)。
應用領域與認可度
應用:學術界用于模型魯棒性研究,微軟內(nèi)部用于優(yōu)化GPT系列提示策略。
行業(yè)地位:提示工程領域的標準化工具,被多篇頂會論文引用。
本文轉載自???AIGC新知??,作者:絳燁
