偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="f1wig"><td id="f1wig"></td></tr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一次示范讓Agent適應(yīng)各種新環(huán)境，浙大杭電智能體框架入選NeurIPS

2024-11-29 13:58:49

Builder首先需要分析并確定主要錯(cuò)誤的來(lái)源為“Imperfect Rules”或“Imperfect Agents”，然后相應(yīng)的針對(duì)性的提示會(huì)指導(dǎo)Builder進(jìn)行規(guī)則管理。

只需一次人類示范，就能讓智能體適應(yīng)新環(huán)境？

來(lái)自杭州電子科技大學(xué)和浙江大學(xué)的研究者，提出了一套新的智能體框架AutoManual。

該研究有效解決了智能體過度依賴人類專家提供的知識(shí)，難以自主適應(yīng)新環(huán)境的問題。

圖片

通過模仿人類認(rèn)識(shí)世界“記筆記”的過程，AutoManual可以讓智能體執(zhí)行任務(wù)成功率高達(dá)97%。

不僅如此，智能體在過程中學(xué)習(xí)的經(jīng)驗(yàn)還可以供人類閱讀，甚至給其他智能體提供規(guī)劃指導(dǎo)。

現(xiàn)有智能體對(duì)人類依賴較大

目前，基于大語(yǔ)言模型的智能體（LLM Agents）展現(xiàn)出強(qiáng)大的潛力，能夠自主完成各個(gè)領(lǐng)域的任務(wù)，如機(jī)器人規(guī)劃、游戲角色控制與網(wǎng)站導(dǎo)航。

AgentBench: Evaluating LLMs as Agents.Xiao Liu (TH

然而，這些智能體往往是為特定環(huán)境和特定任務(wù)設(shè)計(jì)的。

如果我們分析一個(gè) LLM Agent 的系統(tǒng)提示詞（System Prompts），會(huì)發(fā)現(xiàn)它通常由這五個(gè)部分組成：

角色描述；
可供使用的動(dòng)作函數(shù)；
輸出格式；
額外指示或要求；
人類專家的示例。

對(duì)于新的環(huán)境，其中的前三項(xiàng)可以根據(jù)新環(huán)境對(duì)已有模板做調(diào)整后很快速地定義好；

但對(duì)于后兩項(xiàng)提示詞，會(huì)需要人工匯總環(huán)境知識(shí)，并不斷調(diào)試這些提示，以及準(zhǔn)備多個(gè)人類專家示例，才能使 LLM Agent在新環(huán)境中順暢運(yùn)行。

那么，是否能讓智能體自己從環(huán)境交互中學(xué)習(xí)這些知識(shí)呢？

已有的一些工作使用自我反思self-reflection或技能庫(kù)skill library，來(lái)讓智能體在交互中自我提升，部分緩解了對(duì)人工的依賴。

然而，這些反思和技能并沒有用于對(duì)環(huán)境形成深入的理解，即理解環(huán)境的知識(shí)或機(jī)制。

因此，直接使用經(jīng)驗(yàn)中的技能來(lái)作為大模型的上下文示例，容易形成路徑依賴。

從人類認(rèn)識(shí)世界過程獲得靈感

AutoManual框架有效地解決這一難題，其研究者從人類認(rèn)識(shí)世界的過程中獲取了靈感——

當(dāng)面對(duì)陌生的環(huán)境時(shí)，人類會(huì)通過探索發(fā)現(xiàn)、記錄與更新自身的理解來(lái)逐漸認(rèn)識(shí)到新環(huán)境的規(guī)律；

而且，人類可以將自己的理解整理出來(lái)，以文本的方式傳授給他人。

AutoManual就效仿了這種過程來(lái)記錄和更新LLM Agent對(duì)環(huán)境的理解。

最終，AutoManual框架將生成的一本指導(dǎo)手冊(cè)，不僅可以提高智能體對(duì)新環(huán)境的適應(yīng)性，還可以為較小的模型的規(guī)劃提供指導(dǎo)，并且易于人類閱讀。

僅需一個(gè)人類演示，AutoManual便在機(jī)器人規(guī)劃環(huán)境ALFWorld將智能體的成功率提高到97%，在網(wǎng)站導(dǎo)航環(huán)境MiniWoB++上的任務(wù)成功率則達(dá)到98%。

具體來(lái)說(shuō)，AutoManual 框架整體由三個(gè)階段組成：

Building階段：Planner Agent與Builder Agent合作從環(huán)境的交互中構(gòu)建出一系列的規(guī)則。當(dāng)規(guī)則超過最大限制時(shí)，Consolidator Agent將合并或刪除冗余的規(guī)則；
Formulating階段：Formulator Agent將規(guī)則制定成一個(gè)Markdown格式的指導(dǎo)手冊(cè)；
Testing階段：將指導(dǎo)手冊(cè)提供給測(cè)試時(shí)的Planner Agent，來(lái)評(píng)估效果。

△AutoManual框架總覽

首先在Building 階段，研究者受在線強(qiáng)化學(xué)習(xí)的啟發(fā)，使用了兩個(gè)交替的迭代過程來(lái)構(gòu)建環(huán)境規(guī)則：

基于當(dāng)前規(guī)則，Planner Agent與環(huán)境進(jìn)行一輪交互；
Builder Agent根據(jù)該交互軌跡使用規(guī)則系統(tǒng)來(lái)更新規(guī)則。

與傳統(tǒng)強(qiáng)化學(xué)習(xí)相比，基于文本的規(guī)則管理取代了樣本效率低下的參數(shù)優(yōu)化。

具體而言，對(duì)于Planner Agent，研究者采用Python代碼來(lái)表示的可執(zhí)行的計(jì)劃，這是因?yàn)橐延泄ぷ鞅砻魇褂么a作為輸出能有效提升LLM Agent效果。

在每一輪的開始，Planner的輸入為目前已知的規(guī)則，技能庫(kù)或反思庫(kù)中相關(guān)的案例，當(dāng)前的任務(wù)與初始觀測(cè)。

而每次Planner 的輸出分為四個(gè)部分：

對(duì)當(dāng)前觀測(cè)的分析；
相關(guān)規(guī)則的解讀；
總體計(jì)劃；
一個(gè)劃分為多個(gè)步驟的Python代碼塊。

然后，代碼將在環(huán)境中執(zhí)行，并得到反饋與新的觀察結(jié)果。

在這一整輪結(jié)束時(shí)，根據(jù)任務(wù)是否成功，結(jié)果可以分為三種情況：Direct Success、Indirect Success（發(fā)生錯(cuò)誤但稍后解決）和 Failure。

對(duì)于不同情況，提示 Planner 相應(yīng)地匯總技能代碼或反思，而這些技能和反思會(huì)存入技能庫(kù)或反思庫(kù)來(lái)輔助后續(xù)的任務(wù)完成。

△Planner Agent與環(huán)境進(jìn)行交互形成Trajectory的過程

對(duì)于Builder Agent，其將根據(jù)Planner這輪的軌跡，使用規(guī)則系統(tǒng)的工具函數(shù)來(lái)編寫和更新規(guī)則。

為了促進(jìn)規(guī)則管理，研究者引入了一個(gè)結(jié)構(gòu)化的規(guī)則系統(tǒng)，規(guī)則系統(tǒng)中的每個(gè)規(guī)則都具有以下四個(gè)屬性：

規(guī)則的類型（分為了6種規(guī)則）；
規(guī)則的內(nèi)容；
規(guī)則的示例；
驗(yàn)證日志。

然而，研究者發(fā)現(xiàn)Builder Agent在面對(duì)這種結(jié)構(gòu)化的規(guī)則系統(tǒng)時(shí)，有時(shí)候會(huì)出現(xiàn)幻覺，例如從失敗的軌跡中得出成功經(jīng)驗(yàn)的規(guī)則。

為了降低錯(cuò)誤創(chuàng)建規(guī)則的風(fēng)險(xiǎn)，研究者對(duì)Builder采用了case-conditioned prompting策略：

Builder首先需要分析并確定主要錯(cuò)誤的來(lái)源為“Imperfect Rules”或“Imperfect Agents”，然后相應(yīng)的針對(duì)性的提示會(huì)指導(dǎo)Builder進(jìn)行規(guī)則管理。

△Case-Conditioned Prompting策略示例

在Building階段結(jié)束后，F(xiàn)ormulating階段的目標(biāo)是增強(qiáng)規(guī)則的可讀性和全局理解。

因此，作者選擇引入Formulator Agent對(duì)規(guī)則自動(dòng)進(jìn)行分類，總結(jié)每類的關(guān)鍵點(diǎn)，并以Markdown的格式將它們制定成一本指導(dǎo)手冊(cè)。

只需一個(gè)人類示例

為了測(cè)試AutoManual框架的效果，研究團(tuán)隊(duì)在三個(gè)知名的交互式環(huán)境中進(jìn)行了實(shí)驗(yàn)：

ALFWorld，一個(gè)家用機(jī)器人的虛擬環(huán)境，提供了基于文本的交互方式；
MiniWoB++，一個(gè)模擬Web環(huán)境，智能體通過執(zhí)行鍵盤和鼠標(biāo)操作在網(wǎng)頁(yè)上完成各種任務(wù)；
WebArena，一個(gè)逼真的Web環(huán)境，復(fù)制了現(xiàn)實(shí)的Reddit網(wǎng)站的功能和數(shù)據(jù)。

在Building和Formulating階段，所有Agent都配備了GPT-4-turbo （gpt-4-1106-preview）。

在Testing階段，Planner Agent將配備GPT-4-turbo 或 GPT-3.5-turbo，來(lái)評(píng)估生成的手冊(cè)是否可以指導(dǎo)較小的模型。

從ALFWorld任務(wù)的結(jié)果中可以看出，AutoManual需要很少的環(huán)境相關(guān)的專家先驗(yàn)知識(shí)，只提供一個(gè)人類示例即可獲得十分出色的結(jié)果。

圖片

而對(duì)于另外兩個(gè)Web環(huán)境的結(jié)果，也可以得出相同的結(jié)論。

圖片

此外，AutoManual生成的 Markdown 手冊(cè)對(duì)人類閱讀也很友好。

通過分析AutoManual生成的手冊(cè)，可以看到其發(fā)現(xiàn)了許多有意思的環(huán)境規(guī)則。

比如在rule_2，類型為“Special Phenomena”的規(guī)則中說(shuō)：

當(dāng)使用微波爐時(shí)，即使里面有另一個(gè)物體，智能體拿著什么東西，并且沒有明確提到微波門是打開的，智能體也可以與它互動(dòng)（例如，加熱一個(gè)物體）。然后其舉了一個(gè)例子，是在epoch_1中的經(jīng)歷。

還有在rule_3中說(shuō)：

Agent一次只能持有一個(gè)物體，并且必須在拿走另一個(gè)物體之前放下任何持有的物體。

因此，AutoManual 通過更深入地挖掘機(jī)制、更新和整合成功流程以及注釋重要細(xì)節(jié)來(lái)解決只使用技能的路徑依賴問題。

△ALFWorld環(huán)境中AutoManual生成的Markdown手冊(cè)

作者簡(jiǎn)介

該論文由杭州電子科技大學(xué)和浙江大學(xué)等合作完成。

第一作者陳銘浩，現(xiàn)任杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院特聘副教授，博士畢業(yè)于浙江大學(xué)CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室。

論文鏈接：https://arxiv.org/abs/2405.16247

GitHub地址：https://github.com/minghchen/automanual

責(zé)任編輯：武曉燕來(lái)源：量子位

Agents 智能體框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="fnuiw"><strike id="fnuiw"></strike></blockquote>