【LLM】AgentGym:具有自我演化能力的通用LLM agent
一、結(jié)論寫在前面
論文來自復(fù)旦自然語(yǔ)言處理實(shí)驗(yàn)室 & 復(fù)旦視覺與學(xué)習(xí)實(shí)驗(yàn)室
論文首次嘗試構(gòu)建具有自我演化能力的通用LLM基礎(chǔ)agent。論文確定了三個(gè)關(guān)鍵要素:1)多樣化的環(huán)境供agent探索學(xué)習(xí);2)一套軌跡集賦予agent基本能力和先驗(yàn)知識(shí);3)一種有效且可擴(kuò)展的演化方法。
論文提出了AGENTGYM框架,一個(gè)包含多樣化環(huán)境、任務(wù)和目標(biāo)的交互平臺(tái),專為L(zhǎng)LM基礎(chǔ)agent設(shè)計(jì)。AGENTGYM通過HTTP服務(wù)提供便捷的API,標(biāo)準(zhǔn)化任務(wù)規(guī)范、環(huán)境設(shè)置以及agent的觀測(cè)/動(dòng)作空間。在此平臺(tái)上,論文實(shí)現(xiàn)了一個(gè)統(tǒng)一的多輪交互和實(shí)時(shí)反饋接口,跨越不同環(huán)境,以支持在線評(píng)估、軌跡采樣和交互訓(xùn)練。
具體而言,它包含14種agent環(huán)境、89種任務(wù),涵蓋網(wǎng)絡(luò)任務(wù)、具身任務(wù)及更多,并具有高度靈活性以擴(kuò)展至更多類型。同時(shí),論文提出了一種新算法AGENTEVOL,用于探索基于大型語(yǔ)言模型(LLM)的通用agent的自進(jìn)化。論文將發(fā)布整個(gè)套件、算法實(shí)現(xiàn)以及agent檢查點(diǎn)。
實(shí)驗(yàn)結(jié)果表明,演化后的agent能夠達(dá)到與最先進(jìn)模型相當(dāng)?shù)男阅?。論文發(fā)布了AGENTGYM套件,包括平臺(tái)、數(shù)據(jù)集、基準(zhǔn)測(cè)試、檢查點(diǎn)及算法實(shí)現(xiàn)。
項(xiàng)目網(wǎng)站:??https://lagentgym.github.io??
AGENTGYM倉(cāng)庫(kù):??https://github.com/WooooDyy/AgentGym??
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
類似于人類學(xué)習(xí),agent通過模仿開始獲取基礎(chǔ)知識(shí)和技能。隨著發(fā)展,agent應(yīng)能通過與不同環(huán)境的互動(dòng)持續(xù)學(xué)習(xí)和適應(yīng)未見任務(wù)。此外,它可能從自身及他人的經(jīng)驗(yàn)中汲取豐富洞見和智慧,發(fā)展出一定程度的泛化能力。圖1展示了這一演化過程。
圖1:本文中基于通用能力LLM的agent自我進(jìn)化示意圖。agent首先根據(jù)人類監(jiān)督進(jìn)行行為克隆,然后跨環(huán)境和任務(wù)進(jìn)行探索和學(xué)習(xí),以實(shí)現(xiàn)自我進(jìn)化
論文首次探討了通用能力LLM(大型語(yǔ)言模型)基礎(chǔ)agent在多種任務(wù)和環(huán)境中自我進(jìn)化的潛力,從模仿學(xué)習(xí)過渡到交互學(xué)習(xí),類似于人類的學(xué)習(xí)方式(圖1)。
論文確定了實(shí)現(xiàn)這一研究目標(biāo)的三個(gè)關(guān)鍵支柱。首先,多樣化的環(huán)境和任務(wù),使agent能夠動(dòng)態(tài)全面地進(jìn)化,而非局限于孤立的世界,這可能限制泛化能力。其次,一套適當(dāng)大小的軌跡集,用于訓(xùn)練具有初步指令遵循能力和知識(shí)的基線agent。這有助于在多樣化和復(fù)雜的環(huán)境中進(jìn)一步探索,因?yàn)樵谶@些環(huán)境中,agent通過試錯(cuò)從頭開始學(xué)習(xí)所有內(nèi)容將極其低效。第三,一種有效且靈活的進(jìn)化方法,能夠適應(yīng)不同難度的環(huán)境,激發(fā)LLM基礎(chǔ)agent的泛化能力。這涉及agent如何與環(huán)境互動(dòng)以及如何利用反饋。
圖2:AGENTGYM框架概覽。該框架涵蓋了跨越多個(gè)類別的十四個(gè)環(huán)境。每個(gè)環(huán)境都部署為HTTP服務(wù),客戶端提供封裝的統(tǒng)一接口供agent使用,便于與環(huán)境交互。論文從多樣化的環(huán)境中收集專家標(biāo)注的軌跡,稱為AGENTTRAJ。隨后,論文讓agent在該集合上進(jìn)行行為克隆,以獲得一個(gè)基礎(chǔ)的通用能力agent。通過論文的AGENTEVOL方法,論文探索agent在不同環(huán)境和任務(wù)中的進(jìn)化。最后,論文使用提出的基準(zhǔn)套件AGENTEVAL對(duì)agent進(jìn)行全面評(píng)估
2.2 AGENTGYM:平臺(tái)、基準(zhǔn)套件與軌跡集
以用戶友好的方式為每個(gè)環(huán)境部署獨(dú)立的服務(wù),以防止沖突??蛻舳丝梢酝ㄟ^HTTP協(xié)議與環(huán)境通信。該架構(gòu)的核心是控制器,它作為agent與環(huán)境服務(wù)之間交互的通道,為agent提供了一個(gè)封裝的、統(tǒng)一的環(huán)境功能或操作接口。此外,論文還實(shí)現(xiàn)了諸如評(píng)估器、訓(xùn)練器和數(shù)據(jù)收集管道等用戶友好的組件,以支持社區(qū)發(fā)展。
指令收集與基準(zhǔn)構(gòu)建。論文收集了跨環(huán)境和任務(wù)的20509條指令和查詢。對(duì)于已有大量指令的任務(wù),如WebShop和ALFWorld,論文主要依賴其原始來源。對(duì)于指令較少的任務(wù),如使用工具的任務(wù),論文通過自指導(dǎo)和指令進(jìn)化方法進(jìn)行擴(kuò)展,特別是通過提示GPT-4生成新指令[33; 34]。詳情見附錄C。然后,論文從每個(gè)環(huán)境中提取一個(gè)多樣且具有挑戰(zhàn)性的子集${\cal Q}_{eval}$,包含1160條指令,以構(gòu)建基準(zhǔn)套件AGENTEVAL,該套件能全面評(píng)估基于LLM的agent。剩余的指令集表示為Q = Uees Qe,其中表示環(huán)境e的剩余指令。
AGENTGYM是一個(gè)框架,旨在幫助社區(qū)輕松評(píng)估和開發(fā)基于大型語(yǔ)言模型(LLM)的通用能力agent。它具有多種交互環(huán)境及任務(wù),采用統(tǒng)一的格式,即ReAct格式[35]。該框架支持實(shí)時(shí)反饋和并發(fā)處理,并易于擴(kuò)展。論文包含了14個(gè)環(huán)境和89個(gè)任務(wù),涵蓋網(wǎng)頁(yè)瀏覽、文字游戲、家務(wù)任務(wù)、數(shù)字游戲、具身任務(wù)、工具使用和編程等領(lǐng)域。這些任務(wù)對(duì)當(dāng)前的LLM基agent具有挑戰(zhàn)性。
?對(duì)于網(wǎng)頁(yè)瀏覽任務(wù),論文引入了WebArena(WA)和WebShop(WS)。
?在文字游戲中,論文包括了MAZE(MZ)和Wordle(WD)。論文選擇ALFWorld(ALF)用于家務(wù)任務(wù)。
?在具身任務(wù)中,論文包含了Sci-World(Sci)和BabyAI(Baby)。論文選擇TextCraft(TC)用于數(shù)字游戲。
?論文獲取了Tool-Weather(WT)、Tool-Movie(MV)、Tool-Academia(AM)、Tool-Sheet(ST)和Tool-TODOList(TL)用于工具使用任務(wù)。論文建立了BIRD(BD)用于編程任務(wù)。
平臺(tái)架構(gòu)和組件。認(rèn)識(shí)到不同agent環(huán)境固有的多樣化依賴性,AGENTGYM以用戶友好的方式為每個(gè)環(huán)境部署單獨(dú)的服務(wù),以防止沖突??蛻舳丝梢允褂肏TTP協(xié)議與環(huán)境通信。該架構(gòu)的核心是控制器,它充當(dāng)agent和環(huán)境服務(wù)之間交互的管道,為agent提供封裝統(tǒng)一的環(huán)境功能或操作接口以供調(diào)用。此外,論文實(shí)現(xiàn)了用戶友好的組件,如評(píng)估器、訓(xùn)練器和數(shù)據(jù)收集管道,以支持社區(qū)發(fā)展。
表1:AGENTGYM與其他agent框架的比較涵蓋了幾個(gè)方面:環(huán)境數(shù)量、交互平臺(tái)的可用性及其使用、軌跡集的可用性、進(jìn)化的支持及其模式
表2:AGENTGYM的統(tǒng)計(jì)數(shù)據(jù),包括任務(wù)類型數(shù)量、指令集大小、評(píng)估集大小、軌跡集大?。ˋGENTTRAJ和AGENTTRAJ-L)以及每個(gè)環(huán)境的平均回合數(shù)
軌跡收集與過濾。在AGENTGYM中,服務(wù)器提供包括任務(wù)描述、環(huán)境設(shè)置和問題在內(nèi)的指令給agent。接下來,agent以ReAct風(fēng)格與環(huán)境交互,直至任務(wù)完成。論文收集了SOTA模型(如GPT-4-Turbo)和眾包注釋的軌跡。
論文嚴(yán)格過濾軌跡,根據(jù)獎(jiǎng)勵(lì)或正確性確保數(shù)據(jù)質(zhì)量,并獲得一組6130個(gè)軌跡。這一集合,命名為AGENTTRAJ。為公平比較,論文使用相同的流程對(duì)所有指令進(jìn)行注釋和過濾,得到AGENTTRAJ-L以展示BC的性能上限。
表2展示了AGENTGYM框架的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)。
2.3 AGENTEVOL:通用LLM基礎(chǔ)agent的綜合演化
這里論文首先通過行為克隆訓(xùn)練一個(gè)基礎(chǔ)的通用能力agent,使其具備在agent任務(wù)中的基本交互能力。在此基礎(chǔ)上,論文初步探索了LLM基礎(chǔ)agent在多個(gè)環(huán)境和任務(wù)中的全面演化。論文將算法總結(jié)在算法1中。
2.3.1 基于收集軌跡的行為克隆
行為克隆通過讓LLM基礎(chǔ)agent逐步模仿收集的專家軌跡來微調(diào)它們。實(shí)踐中,論文期望agent能夠完成適當(dāng)?shù)膬?nèi)部思考h和行動(dòng)a。論文使用AGENTTRAJ(表示為
)來訓(xùn)練一個(gè)具有基本指令遵循能力和先驗(yàn)知識(shí)的基礎(chǔ)通用能力agent。
2.3.2 通過探索和學(xué)習(xí)的演化
本工作試圖探索通用LLM基礎(chǔ)agent在多個(gè)環(huán)境和任務(wù)中自我演化的潛力。更重要的是,agent在演化過程中將面臨先前未見的任務(wù)和指令。因此,agent需要探索環(huán)境,接收反饋,并基于反饋優(yōu)化自身。
然而,在論文的設(shè)置中,由于agent任務(wù)的大采樣空間和長(zhǎng)期性質(zhì),標(biāo)準(zhǔn)RL面臨重大挑戰(zhàn),導(dǎo)致高計(jì)算復(fù)雜性和訓(xùn)練不穩(wěn)定性,這阻礙了可擴(kuò)展性。因此,論文從RL與概率推理之間成熟的聯(lián)系中汲取靈感,并提出了一種名為AGENTEVOL的agent演化方法,該方法涉及agent在探索和學(xué)習(xí)之間交替進(jìn)行。
從估計(jì)的最優(yōu)策略中學(xué)習(xí)。在本工作中,論文將RL視為特定概率模型內(nèi)的推理問題。與傳統(tǒng)RL公式不同,后者關(guān)注于識(shí)別最大化預(yù)期獎(jiǎng)勵(lì)的軌跡,基于推理的方法從最優(yōu)軌跡分布開始。論文最初定義P(O = 1)來表示“通過最大預(yù)期獎(jiǎng)勵(lì)獲得最優(yōu)策略”或“在RL任務(wù)中取得成功”的事件,這可以通過在每個(gè)采樣點(diǎn)整合最優(yōu)策略概率來計(jì)算。算法1:AGENTEVOL
在AGENTEVOL算法中,論文將這兩個(gè)步驟稱為探索步驟和學(xué)習(xí)步驟。
2.4 實(shí)驗(yàn)與討論
2.4.1 實(shí)驗(yàn)設(shè)置
環(huán)境與任務(wù)。論文探索了在 AGENTGYM 框架下通用能力 LLM 基agent的自我演化。主要實(shí)驗(yàn)涵蓋了 11 個(gè)環(huán)境:WebShop 、ALF-World 、SciWorld 、BabyAI 、TextCraft 、BIRD 、MAZE、Wordle 、Tool-TODOList、Tool-Weather 和 Tool-Movie 。需要注意的是,BC 中使用的指令數(shù)量少于演化中的指令數(shù)量,以研究agent在執(zhí)行探索時(shí)的泛化能力。
基線。論文包含了閉源模型,如 GPT-3.5-Turbo 、GPT4-Turbo 、Claude 3 和 DeepSeek-Chat 。論文還包含了開源模型,如 Llama-2-Chat ,以及基于專家軌跡訓(xùn)練的agent,即 AgentLM 。為了公平比較,論文包含了一個(gè)基線,該基線在 AGENTTRAJ-L 上執(zhí)行 BC,作為通過 BC 可達(dá)到的最大性能。
實(shí)現(xiàn)細(xì)節(jié)。所有實(shí)驗(yàn)均使用八塊A100-80GB GPU進(jìn)行。論文的主要骨干模型是Llama-2-Chat-7B。不同的環(huán)境服務(wù)部署在同一服務(wù)器的不同端口上。論文將迭代次數(shù)設(shè)為4。為了節(jié)省計(jì)算資源,每個(gè)指令在進(jìn)化過程中只采樣一次。
2.4.2主要結(jié)果
表3中的實(shí)驗(yàn)結(jié)果表明:
(1)盡管閉源模型表現(xiàn)良好,甚至像GPT-4-Turbo這樣的SOTA閉源模型也未能完全在所有任務(wù)上取得滿意的性能,突顯了開發(fā)更高效agent的需求。
(2)開源模型,如表3所示:評(píng)估在多樣任務(wù)上的結(jié)果。BCbase表示使用AGENTTRAJ訓(xùn)練的agent,提供了一個(gè)具有基本能力和先驗(yàn)知識(shí)的基準(zhǔn)agent。BClarge表示在AGENTTRAJ-L上執(zhí)行BC的agent,代表了本文中BC性能的上限。它與SOTA模型和agent相競(jìng)爭(zhēng),甚至超越它們。論文的進(jìn)化方法AGENTEVOL,通過探索和學(xué)習(xí),在大多數(shù)任務(wù)和環(huán)境中超越了BClarge。每個(gè)部分的最佳性能以粗體突出顯示。Llama2-Chat在所有任務(wù)上表現(xiàn)不佳,突顯了BC初始化步驟的重要性。
(3) 在agent軌跡上訓(xùn)練的模型,如AgentLM ,在許多任務(wù)上與GPT-4-Turbo表現(xiàn)相當(dāng),特別是70B版本。然而,它們?cè)赥extCraft 或SciWorld 等任務(wù)上未能達(dá)到同等性能,這可以歸因于訓(xùn)練數(shù)據(jù)的不足。
(4) 在AGENTTRAJ-L上訓(xùn)練的agent,即BClarge,取得了優(yōu)異的性能,與SOTA模型相匹配甚至超越,顯示其是一個(gè)強(qiáng)大的基準(zhǔn)。
(5) 盡管AGENTEVOL用于模仿的軌跡有限,但它在許多任務(wù)上超越了BClarge和SOTA模型,如WebShop、ALFWorld 和BabyAI ,驗(yàn)證了agent進(jìn)化的優(yōu)越性和潛力。
2.4.3 討論與分析
關(guān)于數(shù)據(jù)合并策略和迭代次數(shù) 的消融研究。在論文的實(shí)驗(yàn)中,論文將每次迭代中采樣的軌跡與初始軌跡合并來訓(xùn)練agent,而不是將其與前一次迭代生成的軌跡合并。這里,論文進(jìn)行了一項(xiàng)消融研究,以展示這種合并策略和迭代次數(shù)
的影響。實(shí)驗(yàn)結(jié)果如圖 3 所示,與初始數(shù)據(jù)合并提供了更穩(wěn)定的改進(jìn),而與前一次迭代軌跡合并導(dǎo)致性能波動(dòng),可能是由于過擬合。此外,隨著
的增加,性能趨向于改善,但在后期的迭代中逐漸收斂。因此,論文選擇
以平衡性能和效率。
關(guān)于樣本數(shù)量 的消融研究。在探索步驟中,論文每迭代一次對(duì)每個(gè)指令進(jìn)行一次采樣。這里,論文對(duì)樣本數(shù)量
進(jìn)行了四項(xiàng)任務(wù)的消融研究。表
中的結(jié)果顯示,性能隨著
的增加而增加,但改進(jìn)并不顯著。因此,論文選擇
以提高計(jì)算效率。
圖3:數(shù)據(jù)合并策略和迭代次數(shù)
的消融研究。策略1表示將當(dāng)前agent生成的軌跡與初始軌跡集合合并;策略2表示將當(dāng)前軌跡與上一迭代生成的軌跡合并
探索范圍的消融研究。在論文的實(shí)驗(yàn)中,首先使用Ds訓(xùn)練一個(gè)基礎(chǔ)agent,然后讓它探索更廣泛的指令和任務(wù)范圍。論文針對(duì)四個(gè)任務(wù)進(jìn)行消融研究,以觀察agent在BC階段有限指令下的進(jìn)化情況。表顯示,即使在有限的范圍內(nèi),基礎(chǔ)agent的性能也有所提升,這可能歸因于從agent中采樣的更多樣化軌跡。然而,改進(jìn)并不顯著,表明有效的進(jìn)化需要一個(gè)更廣泛的環(huán)境。
不同模型的有效性。為了展示論文的方法在不同骨干模型上的泛化能力,論文在Llama-2-13B 和DeepSeek-Coder-1.3B 上進(jìn)行了實(shí)驗(yàn)。整個(gè)進(jìn)化過程仍然基于AGENTGYM。表
中的實(shí)驗(yàn)結(jié)果顯示,論文的AGENTEVOL在不同骨干模型上保持了其進(jìn)化能力,實(shí)現(xiàn)了性能的超越。
表6:成功和失敗軌跡的進(jìn)化實(shí)驗(yàn)
成功與失敗軌跡的演化。在學(xué)習(xí)步驟中,論文僅利用獎(jiǎng)勵(lì)高的樣本軌跡(成功),而不使用失敗的軌跡。受先前工作的啟發(fā),論文探究是否可以納入失敗軌跡以促進(jìn)更好的演化。
具體而言,論文構(gòu)建成功與失敗軌跡的對(duì),并使用DPO方法優(yōu)化agent,該方法針對(duì)成對(duì)數(shù)據(jù)集擬合模型。表6的結(jié)果顯示,盡管使用兩種類型的軌跡仍能帶來演化效果,但性能不及論文的方法,表明多任務(wù)設(shè)置中的偏好優(yōu)化相比單任務(wù)更具挑戰(zhàn)性。未來,論文期望探索更多算法,充分利用所有軌跡以實(shí)現(xiàn)全面的演化。
論文標(biāo)題:AgentGym: Evolving Large Language Model-based Agents across Diverse Environments
論文鏈接:https://arxiv.org/pdf/2406.04151
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無影寺
