清華版「AutoGPT」登GitHub熱榜!復(fù)雜任務(wù)輕松搞定,還能自己訓(xùn)練模型
清華開源通用智能體XAgent,登上GitHub熱榜,狂攬1400+??
各種任務(wù)都能做,讓它使用python來分析給定的數(shù)據(jù),分分鐘搞定:
數(shù)學(xué)題也難不倒它:
編制最有影響力的心理學(xué)讀書清單,并對每本書做簡要總結(jié)這種操作就更不在話下:
(上圖中的翻譯均為機(jī)器翻譯)
通過展示可以看到,XAgent在回答問題時會分條縷析,逐步給出回答,這是開發(fā)專門為其設(shè)計的雙循環(huán)機(jī)制。
這種設(shè)計下,XAgent的自主性非常高,處理復(fù)雜任務(wù)也“得心應(yīng)手”,關(guān)鍵安全性也很高。
在各項基準(zhǔn)測試下,XAgent表現(xiàn)都完全優(yōu)于AutoGPT、GPT-4。
更多細(xì)節(jié)我們接著往下看。
各種任務(wù)都能做
將一個數(shù)據(jù)包上傳到XAgent,讓它分析數(shù)據(jù)并生成一個報告,它就能迅速將任務(wù)分解為數(shù)據(jù)理解、驗證Python環(huán)境、編寫數(shù)據(jù)分析代碼、編寫報告4個子任務(wù)。
最后繪制出來的圖是這樣嬸兒的:
再來讓XAgent推薦一些適合好友聚會的餐廳,但這次故意不提供具體細(xì)節(jié)。XAgent識別到提供的信息不足,立刻采用了“請求人類幫助”工具,讓用戶介入表明自己喜歡的位置、預(yù)算限制、烹飪偏好、有無忌口等。
如此一來,XAgent就能生成一份定制化的餐廳推薦名單。
此外,XAgent處理起復(fù)雜任務(wù)也是有兩把刷子在身上的,比如訓(xùn)練模型。
開發(fā)者展示了一個希望XAgent分析電影評論并評估特定電影周圍公眾情感的情景。收到這一指令,XAgent迅速啟動下載IMDB數(shù)據(jù)集,訓(xùn)練一款先進(jìn)的BERT模型。
擁有了這個訓(xùn)練有素的BERT模型,XAgent就能夠輕松應(yīng)對電影評論的復(fù)雜細(xì)節(jié),提供關(guān)于公眾對各種電影看法的見解性預(yù)測。
總的來說,開發(fā)者表示XAgent具有五大特點:自主性、安全性、可擴(kuò)展性、GUI、人機(jī)協(xié)同。
自主性是指XAgent可以在沒有人類參與的情況下自動解決各種任務(wù)。
而安全性則是因為它的所有行為都被設(shè)計限制在一個docker容器(ToolServer )內(nèi),不用擔(dān)心主機(jī)環(huán)境會受影響。
docker容器內(nèi)包含了可以寫入、讀取和修改文件的文件編輯器,可運行Python代碼的Python筆記本,可搜索和訪問網(wǎng)頁的網(wǎng)頁瀏覽器,還有一個bash shell工具以及Rapid API。
所以,使用者也可以輕松地添加新工具來增強智能體的能力,甚至打造一個全新智能體。
開發(fā)者還為用戶提供了友好的圖形用戶界面來與XAgent交互,當(dāng)然也可以使用命令行界面。
人機(jī)協(xié)同這方面主要是指XAgent不僅有能力按照人類的要求來解決復(fù)雜的任務(wù),而且在遇到挑戰(zhàn)時還可以尋求用戶幫助。
能夠擁有這些特點,還要得益于XAgent的核心設(shè)計。XAgent主要由三大部分組成:
- 調(diào)度器:負(fù)責(zé)動態(tài)實例化和分派任務(wù)給不同的智能體,允許用戶添加新的智能體以及改進(jìn)智能體的能力。
- 規(guī)劃器:負(fù)責(zé)為任務(wù)生成和校正計劃,將任務(wù)分解為子任務(wù),并為它們生成步驟,使智能體能夠逐步解決任務(wù)。
- 行動者:負(fù)責(zé)采取行動實現(xiàn)目標(biāo)和完成子任務(wù)。行動者利用各種工具來解決子任務(wù),也可以與人類合作來解決任務(wù)。
設(shè)計上,開發(fā)者刻意避免將人類的先驗知識注入到XAgent系統(tǒng)設(shè)計中,而是賦予了智能體自己規(guī)劃、決策過程的能力,進(jìn)一步發(fā)掘智能體的潛力。
另外,XAgent框架設(shè)計還采用了雙循環(huán)機(jī)制:外循環(huán)(Outer-Loop)用于高級任務(wù)管理,內(nèi)循環(huán)(Inner-Loop)用于低級任務(wù)執(zhí)行。
外循環(huán)使智能體能夠識別總體任務(wù),然后將其劃分為更小、更具可操作性的子任務(wù)。相比之下,內(nèi)循環(huán)過程作為詳細(xì)的執(zhí)行器,專注于處理被劃分的任務(wù)。
開發(fā)者表示:
XAgent反映了人類采用的自然認(rèn)知層次結(jié)構(gòu),并可以根據(jù)執(zhí)行結(jié)果反復(fù)迭代優(yōu)化計劃。
全面優(yōu)于AutoGPT
開發(fā)者還對基于GPT-4所打造的XAgent進(jìn)行了一套基準(zhǔn)測試,主要測試XAgent推理、規(guī)劃和使用外部工具的能力。
測試內(nèi)容包括:在FreshQA和HotpotQA上測試Web搜索問答能力;在MBPP上測試Python編程能力;在MATH上測試數(shù)學(xué)推理能力;在InterCode上測試交互式編碼能力;在ALFWorld上測試文本游戲中的具身推理。
以下是與原版GPT-4的比較,XAgent全面優(yōu)于GPT-4:
考慮到缺乏合適的針對AI智能體的高質(zhì)量基準(zhǔn)測試,開發(fā)者還手動策劃了50條復(fù)雜的指令,可以分為5個類別:搜索與報告,編碼與開發(fā),數(shù)據(jù)分析,數(shù)學(xué)和生活助手。
然后將指令它們輸給了XAgent和AutoGPT,并邀請了多位專家來評估對XAgent和AutoGPT輸出結(jié)果的偏好(勝率)。
結(jié)果XAgent全面取勝,不僅在傳統(tǒng)的AI基準(zhǔn)測試中表現(xiàn)出色,而且還在處理復(fù)雜指令方面表現(xiàn)出卓越的適應(yīng)性、效率和精度。
GitHub鏈接:https://github.com/OpenBMB/XAgent