偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI Agent滿級(jí)進(jìn)化!騎馬種田、辦公修圖,樣樣精通,昆侖萬(wàn)維等發(fā)布通用Agent新框架

人工智能 新聞
智能體又雙叒叕進(jìn)化了!這次,什么游戲都能玩,什么軟件都能操控了。

近日,昆侖萬(wàn)維攜手北京智源人工智能研究院、新加坡南洋理工大學(xué)、北京大學(xué)等頂尖名校機(jī)構(gòu),聯(lián)合提出了迄今為止第一個(gè)既能玩多種商業(yè)游戲又能操作各種軟件應(yīng)用的AI框架——Cradle。

在這個(gè)全新的通用計(jì)算機(jī)控制框架加持下,AI Agent無(wú)需訓(xùn)練便能像人一樣直接控制鍵盤(pán)鼠標(biāo),不依賴(lài)任何內(nèi)部API,實(shí)現(xiàn)任意開(kāi)閉源軟件交互。

目前,Cradle的論文、項(xiàng)目、代碼均已開(kāi)源。

論文地址:https://arxiv.org/abs/2403.03186

項(xiàng)目主頁(yè):https://baai-agents.github.io/Cradle

代碼鏈接:https://github.com/BAAI-Agents/Cradle

Cradle:真正的全能AI Agent

在游戲中,Cradle不僅能在《荒野大鏢客2》里完成長(zhǎng)達(dá)40分鐘主線劇情還能在開(kāi)放世界自由探索。

在《星露谷物語(yǔ)》里清理農(nóng)場(chǎng),種地,去商店購(gòu)物。

在《城市天際線》中建造出千人小鎮(zhèn)。

甚至,還能在《當(dāng)鋪人生2》中和客戶討價(jià)還價(jià),并實(shí)現(xiàn)最高87%的周收益率!

不僅如此,發(fā)推、瀏覽網(wǎng)頁(yè)、下載論文,Cradle是樣樣精通。

撰寫(xiě)、回復(fù)、查找郵件也不在話下。

此外,Cradle還能在美圖秀秀里修圖。

在剪映里剪視頻。

在飛書(shū)里日常辦公。

堪稱(chēng)是一個(gè)真正的全能AI Agent。

GCC:通用計(jì)算機(jī)控制

隨著大模型的發(fā)展,越來(lái)越多的智能體(AI Agents)研究關(guān)注計(jì)算機(jī)控制,包括瀏覽網(wǎng)頁(yè)、操作智能手機(jī)、玩游戲等。

然而,已有研究依賴(lài)軟件內(nèi)部API獲取輸入,并輸出預(yù)先定義好的動(dòng)作,無(wú)法真正像人類(lèi)一樣通過(guò)眼、腦、手的配合操控計(jì)算機(jī)。

圖片

要構(gòu)建能完成計(jì)算機(jī)上一切任務(wù)的通用智能體,必須使用最通用和最標(biāo)準(zhǔn)的輸入輸出與計(jì)算機(jī)進(jìn)行交互。

因此,通用計(jì)算機(jī)控制使用統(tǒng)一的輸入和輸出,從而讓智能體的通用性變?yōu)榭赡堋?/span>

但通用性帶來(lái)了操作上的難度:

(1)使用計(jì)算機(jī)屏幕作為輸入對(duì)智能體的視頻理解能力提出了更高的要求,例如由于沒(méi)有內(nèi)部API,需要通過(guò)視覺(jué)信息判斷動(dòng)作是否執(zhí)行成功;

(2)使用鍵盤(pán)和鼠標(biāo)操作作為輸出使得智能體需要更高的時(shí)空操作精度,比如鍵盤(pán)按鍵和鼠標(biāo)點(diǎn)擊通常額外涉及時(shí)間維度;

(3)許多計(jì)算機(jī)上的復(fù)雜任務(wù)往往需要連續(xù)執(zhí)行成百上千次的正確操作才能完成,是智能體的長(zhǎng)程規(guī)劃決策和歷史信息維護(hù)處理能力的一大挑戰(zhàn);

(4)虛擬世界中多如繁星的環(huán)境和任務(wù)是對(duì)智能體高效探索并自我提升實(shí)現(xiàn)通用性的一大考驗(yàn)。

這些難題成為了構(gòu)建通用計(jì)算機(jī)控制智能體(GCC Agents)的挑戰(zhàn)。

六大模塊,三大環(huán)節(jié)

Cradle一共由6個(gè)模塊組成:信息收集、自我反思、任務(wù)推斷、技能管理、行動(dòng)規(guī)劃,以及記憶模塊。

Cradle高度的通用性,來(lái)源于其對(duì)和電腦交互過(guò)程中的原始輸入輸出的合理封裝和抽象。

以從屏幕中顯示的視頻圖像作為輸入,提取其中的文本和視覺(jué)信息進(jìn)行決策,并且輸出最底層的操作系統(tǒng)中控制鍵盤(pán)和鼠標(biāo)的信號(hào)去和電腦交互,使其可以不依賴(lài)于任何假設(shè)和任何內(nèi)部API進(jìn)行交互。

圖片

同時(shí),Cradle強(qiáng)大的決策推理模塊讓其得以自發(fā)和軟件進(jìn)行交互并且完成任務(wù),這個(gè)過(guò)程可以被簡(jiǎn)單地總結(jié)為:反思過(guò)去,總結(jié)現(xiàn)在,規(guī)劃未來(lái)。

反思過(guò)去:Cradle使用執(zhí)行過(guò)往動(dòng)作過(guò)程的視頻作為輸入,分別提取出其中關(guān)鍵的文本和視覺(jué)信息,通過(guò)反思來(lái)判斷上一步動(dòng)作是否執(zhí)行成功任務(wù)是否完成以及如何改進(jìn)。

總結(jié)現(xiàn)在:反思完之后,Cradle需要總結(jié)當(dāng)前情況,并且以此為根據(jù)來(lái)決定是否更換任務(wù)目標(biāo)或是修改任務(wù)內(nèi)容。

規(guī)劃未來(lái):最后Cradle會(huì)根據(jù)當(dāng)前任務(wù)以及現(xiàn)狀生成或者更新自身的技能,并且從已經(jīng)學(xué)會(huì)的技能中檢索一部分和當(dāng)前任務(wù)相關(guān)的技能作為備選,然后從中選取合適的技能實(shí)例化為動(dòng)作去執(zhí)行。

圖片

在決策推理的同時(shí),Cradle還會(huì)周期性地總結(jié)和維護(hù)儲(chǔ)存在情境記憶中的歷史信息以及儲(chǔ)存在周期性記憶中的技能。

在此過(guò)程中,Cradle為其添加了記憶,總結(jié)和反思的功能,進(jìn)一步提升了其對(duì)于決策過(guò)程中的觀察和行為的理解。

Cradle能直接根據(jù)游戲內(nèi)的提示和教程或是自我探索的方式生成對(duì)應(yīng)的操作鍵鼠的可執(zhí)行代碼作為技能,一步步豐富自己的技能庫(kù),并在之后的游戲中重復(fù)使用這些技能。

圖片

游戲辦公全精通

為了驗(yàn)證Cradle的通用性,研究者們選擇了4款風(fēng)格迥異,操作各不相同的經(jīng)典游戲進(jìn)行測(cè)試——

從第三視角的3D角色扮演類(lèi)游戲《荒野大鏢客2》到2D固定視角的模擬經(jīng)營(yíng)類(lèi)游戲《星露谷物語(yǔ)》到俯視角的城市規(guī)劃類(lèi)游戲《城市天際線》再到側(cè)重交易策略的模擬經(jīng)營(yíng)類(lèi)游戲《當(dāng)鋪人生2》,并分別設(shè)計(jì)了不同的任務(wù)。

在通用軟件方面,Cradle團(tuán)隊(duì)也同樣選擇了5款常用軟件進(jìn)行測(cè)試,包括Chrome、Outlook、CapCut(剪映)、Meitu(美圖秀秀)和Feishu(飛書(shū))。

圖片

首先,Cradle能夠勝任游戲中的各種任務(wù):

在《荒野大鏢客2》的主線劇情以及開(kāi)放世界中均有出色表現(xiàn),能夠連續(xù)完成長(zhǎng)達(dá)40分鐘的2個(gè)完整主線任務(wù),騎馬、戰(zhàn)斗、購(gòu)物樣樣在行。

圖片

  • 在《城市天際線》中修路、保障水電供應(yīng),合理劃分居民、商業(yè)和工業(yè)區(qū),建立起千人小鎮(zhèn);
  • 在《星露谷物語(yǔ)》中清理農(nóng)場(chǎng)雜物、種地收獲作物、購(gòu)買(mǎi)種子;
  • 在《當(dāng)鋪人生2》中在和客戶討價(jià)還價(jià)近2輪后以93.6%的交易成功率達(dá)成了平均39.6%的周收益率。

圖片

表1:Cradle在各游戲中的表現(xiàn),所有任務(wù)均測(cè)試5次,4/5表示5次測(cè)試中成功4次

其次,Cradle在日常軟件應(yīng)用的各項(xiàng)任務(wù)執(zhí)行上表現(xiàn)不俗,如論文下載、發(fā)郵件、修圖、剪視頻、發(fā)送飛書(shū)文件等。

圖片

同時(shí),Cradle在非常有挑戰(zhàn)性的benchmark OSWorld上也同樣擊敗了使用真值作為標(biāo)簽的基線方法。

圖片

表2:Cradle在OSWorld各類(lèi)任務(wù)上的成功率(%)以及和基線方法的對(duì)比

最后,Cradle也同樣擊敗了眾多常見(jiàn)基線方法,證明了框架各個(gè)模塊的合理性和必要性。

圖片

表3:Cradle和各種基線的對(duì)比的消融實(shí)驗(yàn),所有任務(wù)均測(cè)試5次,括號(hào)前數(shù)字表示完成任務(wù)的平均步數(shù),括號(hào)中數(shù)字表示5次測(cè)試中成功的次數(shù),N/A表示5次全部失敗

通往AGI之路

此前,大量關(guān)于AI智能體的研究都依賴(lài)于計(jì)算機(jī)內(nèi)部API的信息獲取,無(wú)法讓AI真正「像人類(lèi)一樣」通過(guò)眼、腦、手的配合與計(jì)算機(jī)進(jìn)行互動(dòng),其環(huán)境、行為、動(dòng)作都相對(duì)固定,難以實(shí)現(xiàn)跨軟件、跨平臺(tái)的通用智能。

Cradle極大程度地?cái)U(kuò)展了智能體可以交互的范圍,并且證明了將一切軟件轉(zhuǎn)化為測(cè)試智能體不同能力的testbed的可能性。

它所提出的通用計(jì)算機(jī)控制的設(shè)定統(tǒng)一了輸入輸出的接口,促進(jìn)了統(tǒng)一粒度數(shù)據(jù)的搜集,為未來(lái)Agent在各個(gè)環(huán)境中交互并且自我提升打下了堅(jiān)實(shí)的基礎(chǔ)。

面向數(shù)字世界的通用人工智能,正在加速到來(lái)。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-11-29 13:54:00

ChatGPT模型

2025-05-29 09:57:38

2012-05-15 10:23:35

架構(gòu)師運(yùn)維安全

2025-04-25 00:00:00

2023-11-06 11:00:36

2025-02-18 11:09:27

2024-02-06 10:38:10

昆侖萬(wàn)維大模型

2025-01-08 15:15:16

2021-05-10 15:03:35

無(wú)人機(jī)火災(zāi)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)