偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="rxvzf"></abbr>

<bdo id="rxvzf"></bdo>

<nav id="rxvzf"><strong id="rxvzf"><dl id="rxvzf"></dl></strong></nav>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

跨平臺(tái)多模態(tài)智能體基準(zhǔn)測(cè)試來(lái)了！但全班第一只考了35.26分

作者：新智元 2024-08-07 10:17:00

人工智能新聞

近日，來(lái)自CAMEL AI、KAUST、CMU、斯坦福、清華等高校和機(jī)構(gòu)的研究人員推出了一個(gè)跨平臺(tái)的多模態(tài)智能體基準(zhǔn)測(cè)試，全面覆蓋了Agent系統(tǒng)的真實(shí)工作場(chǎng)景。

假如你目前正在使用和研究類(lèi)似CAMEL的多智能體系統(tǒng)，現(xiàn)在已經(jīng)有了扮演研究者的Agent和負(fù)責(zé)寫(xiě)論文的Agent，再添加一個(gè)事實(shí)核查Agent會(huì)改善結(jié)果嗎？

如果無(wú)法有效評(píng)估這種更改的影響，就很難確定前進(jìn)的方向。

當(dāng)然，從另一個(gè)角度來(lái)說(shuō)，有一個(gè)令人信服的基準(zhǔn)測(cè)試用來(lái)給大家刷分也是很重要的（狗頭）。

近日，來(lái)自CAMEL AI、KAUST、清華等高校和機(jī)構(gòu)的研究人員推出了一個(gè)跨平臺(tái)的多模態(tài)智能體基準(zhǔn)測(cè)試——CRAB。

值得一提的是，CAMEL AI團(tuán)隊(duì)最早做出了基于大語(yǔ)言模型的多智能體開(kāi)源項(xiàng)目：https://www.camel-ai.org/、https://github.com/camel-ai/camel。

論文地址：https://arxiv.org/abs/2407.01511

這個(gè)Benchmark涉及當(dāng)前AI應(yīng)用的幾個(gè)重點(diǎn)：多模態(tài)、多智能體和跨平臺(tái)。

多模態(tài)能力就不用說(shuō)了，畢竟是現(xiàn)實(shí)需求。

而多智能體系統(tǒng)則能夠更好的為人類(lèi)服務(wù)，解決更佳復(fù)雜的任務(wù)。

對(duì)于跨平臺(tái)，可以舉個(gè)例子：比如用手機(jī)拍完照片，然后發(fā)到電腦上P圖，這就需要跨越了兩種操作系統(tǒng)（平臺(tái)）。

所以，多模態(tài)、多智能體和跨平臺(tái)，是當(dāng)下AI打工人能夠完成真實(shí)場(chǎng)景下的復(fù)雜任務(wù)所必備的能力。

上圖展示了CRAB的總體架構(gòu)，同時(shí)也是多智能體系統(tǒng)基準(zhǔn)測(cè)試的工作流程。

通過(guò)將指令分配給基準(zhǔn)測(cè)試系統(tǒng)內(nèi)的主Agent和圖評(píng)估器，來(lái)初始化任務(wù)。

工作流是一個(gè)循環(huán)：主Agent觀(guān)察、計(jì)劃和指示子Agent，子Agent在各自的平臺(tái)中執(zhí)行操作。

圖評(píng)估器監(jiān)控平臺(tái)中任務(wù)的狀態(tài)，在整個(gè)工作流中不斷更新和輸出任務(wù)完成指標(biāo)。

總的來(lái)說(shuō)，CRAB是一個(gè)與現(xiàn)實(shí)世界情況密切相關(guān)的基準(zhǔn)測(cè)試，能夠更準(zhǔn)確地反映多智能體系統(tǒng)在復(fù)雜任務(wù)中的表現(xiàn)。

那么，在這種要求甚高的測(cè)試中，最強(qiáng)大的一些模型能考多少分呢？

——答：全班第一考了35.26分（CR指的是完成率）。

其實(shí)還行，畢竟是突擊考試。而現(xiàn)在靶子已經(jīng)畫(huà)好了，可以期待今后的模型或者AI系統(tǒng)進(jìn)化出更貼近現(xiàn)實(shí)的能力。

跨平臺(tái)多模態(tài)智能體評(píng)估

Crab提供了一個(gè)全面的交互式的任務(wù)評(píng)估框架，Agent需要在各種設(shè)備和平臺(tái)上同時(shí)運(yùn)行，滿(mǎn)足在不同系統(tǒng)中高效完成任務(wù)的條件。

作者提出了一種稱(chēng)為圖評(píng)估器的新型評(píng)估方法，與傳統(tǒng)的基于目標(biāo)或者軌跡的方法不同，圖評(píng)估器通過(guò)檢查完成任務(wù)的中間過(guò)程將任務(wù)分解為多個(gè)子目標(biāo)。

每個(gè)子目標(biāo)都被分配了一個(gè)判斷函數(shù)來(lái)驗(yàn)證其完整性，并且每個(gè)節(jié)點(diǎn)都被視為圖評(píng)估器中的一個(gè)節(jié)點(diǎn)。

圖結(jié)構(gòu)描述了子目標(biāo)之間的順序和并行關(guān)系，因此提供了細(xì)粒度的指標(biāo)，同時(shí)又適應(yīng)多種解決方案。

上表將Crab與現(xiàn)有框架進(jìn)行了比較，包括測(cè)試涉及的幾項(xiàng)關(guān)鍵能力：

Interactive Environment區(qū)分是使用交互式平臺(tái)還是靜態(tài)數(shù)據(jù)集；

Multimodal Observation指定了基于視覺(jué)的觀(guān)察（例如屏幕截圖）的可用性；

Cross-platform表示支持多個(gè)操作系統(tǒng)或平臺(tái)；

Evaluation描述了評(píng)估指標(biāo)，分為基于目標(biāo)（僅根據(jù)最終目標(biāo)檢查平臺(tái)狀態(tài)）、基于軌跡（將Agent操作軌跡與標(biāo)準(zhǔn)操作序列進(jìn)行比較）、多重（因任務(wù)而異）或基于圖（每個(gè)節(jié)點(diǎn)作為中間檢查點(diǎn)的 DAG）；

Task Construction展示了任務(wù)構(gòu)建方法，包括人工制作、LLM啟發(fā)（比如LLM生成任務(wù)草稿，但由人工驗(yàn)證和注釋?zhuān)⒛０澹ㄌ顚?xiě)任務(wù)模板中的空白）或子任務(wù)組合（組成多個(gè)子任務(wù)以構(gòu)建任務(wù)和評(píng)估器）。

基于Crab框架，作者開(kāi)發(fā)了一個(gè)基準(zhǔn)測(cè)試Crab Benchmark-v0，支持Android環(huán)境和Ubuntu環(huán)境。

基準(zhǔn)測(cè)試總共包含100個(gè)真實(shí)世界的任務(wù)，包括跨平臺(tái)和單平臺(tái)跨多個(gè)難度級(jí)別的任務(wù)。

任務(wù)涉及各種常見(jiàn)問(wèn)題，以及實(shí)際應(yīng)用程序和工具，包括但不限于日歷、電子郵件、地圖、網(wǎng)絡(luò)瀏覽器、和終端，以及智能手機(jī)和臺(tái)式機(jī)之間的常見(jiàn)交互。

框架

假設(shè)Agent在數(shù)字設(shè)備（比如臺(tái)式機(jī)）上自主執(zhí)行任務(wù)。這種設(shè)備通常有輸入設(shè)備（鼠標(biāo)和鍵盤(pán)）用于人機(jī)交互，以及輸出設(shè)備（屏幕）來(lái)允許人類(lèi)觀(guān)察其狀態(tài)。

作者將這種類(lèi)型的設(shè)備表示為一個(gè)平臺(tái)。在形式上可以定義為一個(gè)無(wú)獎(jiǎng)勵(lì)的部分可觀(guān)測(cè)馬爾可夫決策過(guò)程（POMDP），用元組M:=（S，A，T，O）表示。

其中S表示狀態(tài)空間，A表示動(dòng)作空間，T:S×A→S是轉(zhuǎn)移函數(shù)，O是觀(guān)測(cè)空間。

考慮到現(xiàn)實(shí)場(chǎng)景中多個(gè)設(shè)備的協(xié)作性質(zhì)，可以將多個(gè)平臺(tái)組合成一個(gè)集合M=M1，M2，...，Mn，其中n是平臺(tái)的數(shù)量，每個(gè)平臺(tái)Mj=（Sj，Aj，Tj，Oj）。

定義一個(gè)需要跨多個(gè)平臺(tái)操作的任務(wù)，該任務(wù)被形式化為一個(gè)元組（M，I，R），其中M是平臺(tái)集合，I是以自然語(yǔ)言指令的形式表示的任務(wù)目標(biāo)，R是任務(wù)的獎(jiǎng)勵(lì)函數(shù)。

系統(tǒng)中的Agent使用預(yù)定義的系統(tǒng)提示、并保留其對(duì)話(huà)歷史記錄。

Agent系統(tǒng)由負(fù)責(zé)規(guī)劃、推理和執(zhí)行操作的單個(gè)Agent組成，或者由多個(gè)Agent進(jìn)行協(xié)作。

把復(fù)雜任務(wù)分解為多個(gè)更簡(jiǎn)單的子任務(wù)，是讓Agent系統(tǒng)能夠更加精準(zhǔn)的完成復(fù)雜任務(wù)的方法之一。

研究人員將這一概念引入基準(zhǔn)測(cè)試領(lǐng)域，將復(fù)雜任務(wù)分解為具有順序和并行連接的子任務(wù)，也就是上圖中的分解任務(wù)圖（GDT）。

GDT提供了一種新的任務(wù)分解方法：用DAG結(jié)構(gòu)表示分解后的子任務(wù)。在GDT中，每個(gè)節(jié)點(diǎn)都是一個(gè)子任務(wù)，形式化為一個(gè)元組（m，i，r），其中m指定了執(zhí)行子任務(wù)的平臺(tái)，i提供了自然語(yǔ)言指令，r表示獎(jiǎng)勵(lì)函數(shù)。

這個(gè)函數(shù)評(píng)估m(xù)的狀態(tài)并輸出一個(gè)布爾值，以確定子任務(wù)是否完成。GDT中的邊表示子任務(wù)之間的順序關(guān)系。

跨平臺(tái)

與單一平臺(tái)任務(wù)相比，跨平臺(tái)任務(wù)有三個(gè)主要優(yōu)勢(shì)：

首先，跨平臺(tái)任務(wù)反映了現(xiàn)實(shí)世界場(chǎng)景，人類(lèi)同時(shí)使用多個(gè)設(shè)備來(lái)完成任務(wù)。

其次，這些任務(wù)需要在平臺(tái)之間進(jìn)行復(fù)雜的消息處理和信息傳遞，要求Agent規(guī)劃行動(dòng)、為每個(gè)平臺(tái)構(gòu)建輸出，并記住需要傳遞的內(nèi)容，從而展示出對(duì)現(xiàn)實(shí)世界的高層次理解，和解決復(fù)雜任務(wù)的能力。

最后，多Agent系統(tǒng)被證明在執(zhí)行復(fù)雜任務(wù)時(shí)更加有效，而跨平臺(tái)任務(wù)非常適合多Agent系統(tǒng)，因?yàn)樗鼈兛梢酝ㄟ^(guò)每個(gè)平臺(tái)中不同的觀(guān)測(cè)空間、行動(dòng)空間和專(zhuān)門(mén)知識(shí)進(jìn)行劃分。

Crab使用統(tǒng)一接口允許Agent在所有平臺(tái)中操作。作者通過(guò)名稱(chēng)、所屬平臺(tái)、功能的具體描述和參數(shù)來(lái)定義一個(gè)動(dòng)作。

Agent必須在每個(gè)回合提供動(dòng)作名稱(chēng)、參數(shù)和目標(biāo)平臺(tái)。Crab將動(dòng)作轉(zhuǎn)換為相應(yīng)的功能，并通過(guò)網(wǎng)絡(luò)將其路由到物理或虛擬設(shè)備。

圖評(píng)估器

為了評(píng)估大語(yǔ)言模型作為Agent的能力，大多數(shù)基準(zhǔn)測(cè)試僅基于Agent操作后平臺(tái)的最終狀態(tài)來(lái)評(píng)估Agent。

只判斷最終目標(biāo)是成功還是失敗，顯然不夠公平，就像大題不會(huì)做，但寫(xiě)個(gè)解是應(yīng)該給分的。

另一種方法是基于軌跡匹配，將Agent的操作與每個(gè)任務(wù)的預(yù)定義標(biāo)準(zhǔn)操作序列進(jìn)行比較。

然而，在現(xiàn)實(shí)世界系統(tǒng)中，任務(wù)可能有多條有效的執(zhí)行路徑，比如復(fù)制文件可以使用文件管理器，也可以使用命令行。

評(píng)估指標(biāo)

所以本文采用了與平臺(tái)狀態(tài)同步的圖評(píng)估器，通過(guò)子任務(wù)完成的當(dāng)前狀態(tài)來(lái)跟蹤Agent的進(jìn)度。

除了傳統(tǒng)的成功率（SR），只有在所有子任務(wù)都完成時(shí)才將任務(wù)標(biāo)記為成功，作者還引入了三個(gè)指標(biāo)，衡量Agent的性能和效率：

完成率（CR）測(cè)量完成子任務(wù)節(jié)點(diǎn)數(shù)的比例，計(jì)算方式為C/N，其中C是已完成節(jié)點(diǎn)的數(shù)量，N是總節(jié)點(diǎn)數(shù)。該指標(biāo)直觀(guān)地反映了Agent在給定任務(wù)上的進(jìn)展情況。
執(zhí)行效率（EE）計(jì)算為CR/A，其中A表示執(zhí)行的動(dòng)作次數(shù)，反映了Agent的任務(wù)執(zhí)行效率。
成本效率（CE）計(jì)算為CR/T，其中T是Agent使用的總token數(shù)，評(píng)估了Agent消耗資源的效率。

實(shí)驗(yàn)

要在Crab Benchmark-v0中運(yùn)行，多模態(tài)模型需要支持：

（1）接受多模態(tài)混合輸入，系統(tǒng)同時(shí)提供屏幕截圖和文本指令作為提示；
（2）處理多輪對(duì)話(huà)，大多數(shù)任務(wù)需要Agent執(zhí)行多個(gè)操作，必須在上下文中存儲(chǔ)歷史消息；
（3）通過(guò)函數(shù)調(diào)用生成結(jié)構(gòu)化輸出。

實(shí)驗(yàn)選擇了四種滿(mǎn)足這些標(biāo)準(zhǔn)的多模態(tài)模型：GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro和Claude 3 Opus，下表給出了其中一部分結(jié)果：

責(zé)任編輯：張燕妮來(lái)源：新智元

智能體測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="4u4e6"></tt>

<dfn id="4u4e6"></dfn>