偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱! 原創(chuàng)

發(fā)布于 2024-8-14 14:05
瀏覽
0收藏


現(xiàn)在的大模型基準(zhǔn)評(píng)測(cè),蘋(píng)果要重新定義了!

近日,蘋(píng)果公司的研究人員推出了ToolSandbox,這是一種全新的基準(zhǔn),旨在比以往更全面地評(píng)估人工智能助手的實(shí)際能力。這項(xiàng)研究發(fā)表在 arXiv 上,解決了使用外部工具完成任務(wù)的大型語(yǔ)言模型 (LLM) 的現(xiàn)有評(píng)估方法中的關(guān)鍵缺陷。

01、現(xiàn)有評(píng)估基準(zhǔn)有哪些關(guān)鍵缺陷?

現(xiàn)在大模型評(píng)估基準(zhǔn),更多還是從大模型本身的基本功出發(fā),諸如多語(yǔ)言理解、問(wèn)答推理、數(shù)學(xué)邏輯等“文理科考試”,像MMLU、GSM8K、ARC、HumanEval、Math、BBH,這些都是大模型的通用能力的基準(zhǔn)測(cè)試,除此之外,還有行業(yè)能力的基準(zhǔn)測(cè)試,比如FinEval、PubMedQA、JEC-QA等。

但這些數(shù)據(jù)集存在一個(gè)很大的問(wèn)題,即評(píng)估方式非?!白脏恕保雎粤爽F(xiàn)在AI產(chǎn)品/應(yīng)用,已經(jīng)不能單單靠大模型來(lái)完成了,大模型還需要具備調(diào)用大量的外在工具才能完成真正的應(yīng)用。

像智能體這樣的應(yīng)用,需要大模型去按照用戶預(yù)定義的本體去完成復(fù)雜的任務(wù),就需要調(diào)用N多工具。

難點(diǎn)就在于,用戶表述問(wèn)題的方式雖然變得更加簡(jiǎn)化,但面向任務(wù)的對(duì)話仍然具有狀態(tài)性、會(huì)話性和交互性,這為系統(tǒng)且準(zhǔn)確地評(píng)估使用工具的大型語(yǔ)言模型帶來(lái)了重大挑戰(zhàn)

應(yīng)用方面,當(dāng)然也有。智能客服、數(shù)據(jù)分析、辦公助手、代碼助手、智能代理等方面,則有測(cè)評(píng)數(shù)據(jù)集GAIA、APPS、AgentBench等。

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

TOOLSANDBOX 提供了一個(gè)有狀態(tài)的、對(duì)話式的和交互式的評(píng)估基準(zhǔn),用于評(píng)估大型語(yǔ)言模型(LLM)的工具使用能力。通過(guò)有狀態(tài)和狀態(tài)依賴的工具、模擬的用戶以及具有里程碑和雷區(qū)的靈活評(píng)估方式,它展示了開(kāi)源模型和專(zhuān)有模型之間顯著的性能差距,并揭示了即使是對(duì)于最先進(jìn)的模型(包括狀態(tài)依賴、規(guī)范化和信息不足等場(chǎng)景)也極具挑戰(zhàn)性的情況,為理解工具使用能力帶來(lái)了新的見(jiàn)解。

ToolSandbox 包含其他基準(zhǔn)測(cè)試中經(jīng)常缺少的三個(gè)關(guān)鍵元素:狀態(tài)交互、對(duì)話能力和動(dòng)態(tài)評(píng)估。主要作者 Jiarui Lu 解釋說(shuō):“ToolSandbox 包括狀態(tài)工具執(zhí)行、工具之間的隱式狀態(tài)依賴關(guān)系、支持策略對(duì)話評(píng)估和動(dòng)態(tài)評(píng)估策略的內(nèi)置用戶模擬器。”

這項(xiàng)新基準(zhǔn)旨在更貼近真實(shí)場(chǎng)景。例如,它可以測(cè)試人工智能助手是否理解在發(fā)送短信之前需要啟用設(shè)備的蜂窩服務(wù)——這項(xiàng)任務(wù)需要推理系統(tǒng)的當(dāng)前狀態(tài)并做出適當(dāng)?shù)母摹?/p>

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

TOOLSANDBOX評(píng)估軌跡示例

那么,TOOLSANDBOX究竟是怎么評(píng)估的呢?不妨來(lái)看論文中的示例??梢钥闯鲈u(píng)估軌跡分為消息總線(Message Bus)、世界狀態(tài)(World State)、里程碑(Milestones)三個(gè)關(guān)鍵要素。

其中,消息總線表示用戶、智能體和執(zhí)行環(huán)境之間的完整對(duì)話歷史。世界狀態(tài)表示在給定回合中可變數(shù)據(jù)庫(kù)的快照。里程碑表示在此軌跡中需要發(fā)生的預(yù)定義關(guān)鍵事件。

示例中,用戶打算發(fā)送消息,但蜂窩服務(wù)已關(guān)閉。智能體應(yīng)首先理解用戶的意圖,并向用戶提示必要的參數(shù)。在借助search_contacts工具收集所有參數(shù)后,智能體嘗試發(fā)送消息,在失敗后意識(shí)到需要啟用蜂窩服務(wù),并重新嘗試。為了評(píng)估此軌跡,研發(fā)團(tuán)隊(duì)在每個(gè)回合中,在保持拓?fù)漤樞虻耐瑫r(shí),在消息總線和世界狀態(tài)中找到與所有里程碑的最佳匹配。

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

據(jù)介紹,TOOLSANDBOX的核心是一個(gè)Python原生的大型語(yǔ)言模型(LLM)測(cè)試環(huán)境,它以執(zhí)行上下文作為世界狀態(tài)的抽象,并以Python函數(shù)作為工具。在這個(gè)環(huán)境中,用戶、智能體和執(zhí)行環(huán)境通過(guò)消息總線相互通信以完成任務(wù),該任務(wù)會(huì)根據(jù)預(yù)定義的里程碑和雷區(qū)進(jìn)行評(píng)估。如圖2所示,一個(gè)典型的測(cè)試用例從用戶與智能體對(duì)話開(kāi)始。之后,被呼叫的角色將進(jìn)行下一步對(duì)話,直到達(dá)到最終狀態(tài)。

在收到用戶請(qǐng)求后,智能體可以選擇回應(yīng)用戶以獲取更多信息,或者通知執(zhí)行環(huán)境執(zhí)行一個(gè)工具,并提供所需的工具名稱和參數(shù)。執(zhí)行環(huán)境在InteractiveConsole(Foundation, 2024)中執(zhí)行工具,這取決于工具會(huì)修改存儲(chǔ)在執(zhí)行上下文中的世界狀態(tài),并向智能體做出響應(yīng)。

一旦用戶決定任務(wù)已完成,它會(huì)通知執(zhí)行環(huán)境執(zhí)行end_conversation工具,使系統(tǒng)進(jìn)入最終狀態(tài),準(zhǔn)備根據(jù)對(duì)話與里程碑和雷區(qū)的相似度進(jìn)行評(píng)估。本節(jié)的其余部分將更詳細(xì)地介紹每個(gè)組件的功能。

02、開(kāi)源模型依舊落后

研究人員使用 ToolSandbox 測(cè)試了一系列 AI 模型,發(fā)現(xiàn)專(zhuān)有模型和開(kāi)源模型之間存在顯著的性能差距。

研究發(fā)現(xiàn),在工具調(diào)用層面,專(zhuān)有模型和開(kāi)源模型之間存在顯著的性能差距,即便是表現(xiàn)最好的開(kāi)源模型Hermes,也依舊落后于倒數(shù)第二的專(zhuān)有模型Claude-3-Haiku Anthropic(2024)20多分。

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

據(jù)論文介紹,這部分原因是Gorilla、Command-R等模型根本無(wú)法處理工具響應(yīng)。

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

例如,Mistral經(jīng)常將工具使用場(chǎng)景誤認(rèn)為是代碼生成任務(wù)。這些模型的次優(yōu)性能出乎意料地導(dǎo)致它們?cè)凇靶畔⒉蛔恪鳖?lèi)別中獲得了更高的評(píng)級(jí),該類(lèi)別獎(jiǎng)勵(lì)模型在提供的工具不足以完成任務(wù)時(shí),沒(méi)有產(chǎn)生引起幻覺(jué)的工具調(diào)用或參數(shù)。論文中表示,這應(yīng)該被視為一種副作用,而不是積極的結(jié)果。

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

而在專(zhuān)有模型方面,GPT-4o、Claude3-Opus依舊強(qiáng)悍。具體來(lái)講,GPT-4o獲得了最高的相似度評(píng)分,緊隨其后的是Claude-3-Opus。這兩個(gè)模型各有優(yōu)勢(shì)。雖然GPT-4o獲得了更高的評(píng)分,但如附錄D.2所示,Claude-3-Opus保持了較低的平均回合數(shù),以更高的效率實(shí)現(xiàn)了用戶目標(biāo)。

蘋(píng)果發(fā)布新基準(zhǔn),重新定義大模型強(qiáng)弱!-AI.x社區(qū)

這一發(fā)現(xiàn)挑戰(zhàn)了最近的報(bào)告,這些報(bào)告表明開(kāi)源人工智能正在迅速趕上專(zhuān)有系統(tǒng)。就在上個(gè)月,初創(chuàng)公司Galileo 發(fā)布了一項(xiàng)基準(zhǔn)測(cè)試,顯示開(kāi)源模型正在縮小與專(zhuān)有系統(tǒng)領(lǐng)導(dǎo)者的差距,而Meta和Mistral則宣布了他們聲稱可以與頂級(jí)專(zhuān)有系統(tǒng)相媲美的開(kāi)源模型。

然而,蘋(píng)果的研究發(fā)現(xiàn),即使是最先進(jìn)的人工智能助手,在處理涉及狀態(tài)依賴、規(guī)范化(將用戶輸入轉(zhuǎn)換為標(biāo)準(zhǔn)化格式)和信息不足的場(chǎng)景等復(fù)雜任務(wù)時(shí),也會(huì)遇到困難。

作者在論文中指出:“我們表明,開(kāi)源模型和專(zhuān)有模型在性能上存在顯著差距,而 ToolSandbox 中定義的狀態(tài)依賴、規(guī)范化和信息不足等復(fù)雜任務(wù)甚至對(duì)最強(qiáng)大的 SOTA LLM 也提出了挑戰(zhàn),從而為工具使用 LLM 功能提供了全新的見(jiàn)解。”

參數(shù)規(guī)模不代表一切

有趣的是,在新基準(zhǔn)之下,原始模型的參數(shù)即使再大,也并不總是能夠在復(fù)雜現(xiàn)實(shí)任務(wù)取得更好的性能。

在比較GPT、Claude和Gemini系列中最大和最小的模型時(shí),多工具調(diào)用和多用戶回合類(lèi)別的表現(xiàn)“惡化”速度遠(yuǎn)快于單工具調(diào)用和單用戶回合類(lèi)別,這表明對(duì)于復(fù)雜的工具調(diào)用序列和模糊的用戶請(qǐng)求進(jìn)行推理,需要更多的模型容量。

也就是說(shuō),在某些情況下,較大的模型有時(shí)表現(xiàn)得比較小的模型更差,尤其是涉及狀態(tài)依賴性的模型。這表明,原始模型大小并不總是與復(fù)雜的現(xiàn)實(shí)任務(wù)中更好的性能相關(guān)。

04、在最后

蘋(píng)果的研究提醒我們,創(chuàng)建能夠處理復(fù)雜的現(xiàn)實(shí)任務(wù)的人工智能系統(tǒng)仍然存在重大挑戰(zhàn)。

隨著該領(lǐng)域的持續(xù)快速發(fā)展,像 ToolSandbox 這樣的嚴(yán)格基準(zhǔn)對(duì)于區(qū)分炒作與現(xiàn)實(shí)以及指導(dǎo)真正有能力的人工智能助手的開(kāi)發(fā)至關(guān)重要。

ToolSandbox 的推出可能對(duì) AI 助手、Agent等AI應(yīng)用的開(kāi)發(fā)和評(píng)估產(chǎn)生深遠(yuǎn)影響。通過(guò)提供更真實(shí)的測(cè)試環(huán)境,它可以幫助研究人員識(shí)別和解決當(dāng)前 AI 系統(tǒng)中的關(guān)鍵限制,最終為用戶提供更強(qiáng)大、更可靠的 AI 應(yīng)用。

隨著人工智能不斷深入融入我們的日常生活,像 ToolSandbox 這樣的基準(zhǔn)測(cè)試將在確保這些系統(tǒng)能夠處理現(xiàn)實(shí)世界交互的復(fù)雜性和細(xì)微差別方面發(fā)揮關(guān)鍵作用。

對(duì)于開(kāi)發(fā)者,好消息是,ToolSandbox評(píng)估框架即將在Github上發(fā)布,邀請(qǐng)更廣泛的AI社區(qū)共同構(gòu)建和完善這一重要工作。

上鏈接:

??https://github.com/apple/ToolSandbox??

?

本文轉(zhuǎn)載自??51CTO技術(shù)棧??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦