Agent Q:具備自我學(xué)習(xí)、評(píng)估的智能體
GPT-4、Gemini等大模型在自然語(yǔ)言處理任務(wù)中取得了進(jìn)步,但在交互式、多步驟環(huán)境中的泛化能力仍有欠缺。例如,當(dāng)我們?cè)诰W(wǎng)上購(gòu)買一件特定的商品時(shí),需要在眾多網(wǎng)頁(yè)中進(jìn)行搜索、比較和選擇。
AGI平臺(tái)MultiOn和斯坦福的研究人員聯(lián)合開(kāi)發(fā)了一種智能體Agent Q,能自主規(guī)劃、推理一些任務(wù)。Agent Q與其他智能體最大差別的是,它能從失敗和成功的任務(wù)中自動(dòng)學(xué)習(xí)、評(píng)估,從而提高在復(fù)雜多步驟推理任務(wù)中的泛化能力。
論文地址:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
Agent Q框架采用了蒙特卡洛樹搜索(MCTS)算法來(lái)指導(dǎo)智能體的探索和決策過(guò)程。
MCTS是一種啟發(fā)式搜索算法,廣泛應(yīng)用于游戲和決策領(lǐng)域,通過(guò)模擬可能的未來(lái)路徑來(lái)評(píng)估和選擇最優(yōu)的行動(dòng)策略。
在Agent Q中,MCTS用于在網(wǎng)頁(yè)環(huán)境中導(dǎo)航,幫助智能體在每一步選擇最有希望的動(dòng)作。這一過(guò)程涉及選擇、擴(kuò)展、模擬和反向傳播四個(gè)階段,通過(guò)迭代地優(yōu)化搜索樹來(lái)提高策略的性能。
MCTS算法在復(fù)雜環(huán)境中面臨的一大挑戰(zhàn)是環(huán)境獎(jiǎng)勵(lì)的稀疏性,可能會(huì)導(dǎo)致智能體在長(zhǎng)期任務(wù)中遇到困難。
為了解決這個(gè)難題,Agent Q引入了自我批評(píng)機(jī)制,這是一種自我評(píng)估過(guò)程,智能體在每個(gè)決策節(jié)點(diǎn)上使用自身的評(píng)估來(lái)提供中間獎(jiǎng)勵(lì)。這不僅幫助智能體在搜索過(guò)程中進(jìn)行自我監(jiān)督,而且通過(guò)提供即時(shí)反饋能指導(dǎo)智能體學(xué)習(xí)正確的規(guī)劃路徑。
Agent Q的自我批評(píng)機(jī)制依賴于一個(gè)反饋語(yǔ)言模型,該模型對(duì)智能體在每個(gè)節(jié)點(diǎn)上可能采取的動(dòng)作進(jìn)行評(píng)分,從而形成一個(gè)加權(quán)分?jǐn)?shù)。
這個(gè)分?jǐn)?shù)結(jié)合了MCTS的平均Q值和反饋語(yǔ)言模型生成的分?jǐn)?shù),用于構(gòu)建直接偏好優(yōu)化(DPO)算法中的對(duì)比對(duì)。DPO算法是一種離線強(qiáng)化學(xué)習(xí)算法,通過(guò)比較不同動(dòng)作的偏好來(lái)優(yōu)化策略,使得智能體能夠從成功的和不成功的軌跡中學(xué)習(xí)。
Agent Q框架的另一個(gè)特色模塊是“迭代式微調(diào)”,也是實(shí)現(xiàn)自我學(xué)習(xí)的關(guān)鍵所在。在迭代中,智能體通過(guò)與環(huán)境的交互不斷學(xué)習(xí)和改進(jìn)。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,迭代式微調(diào)允許智能體在沒(méi)有明確標(biāo)簽的環(huán)境下進(jìn)行學(xué)習(xí),通過(guò)自我生成的數(shù)據(jù)和偏好對(duì)來(lái)指導(dǎo)優(yōu)化過(guò)程。
此外,Agent Q框架還考慮了智能體的狀態(tài)表示問(wèn)題。在網(wǎng)絡(luò)交互中,智能體的狀態(tài)可能部分不可觀察,因此構(gòu)建一個(gè)有效的狀態(tài)表示對(duì)于智能體的性能至關(guān)重要。Agent Q采用了一種緊湊的歷史表示方法,將智能體迄今為止生成的動(dòng)作和當(dāng)前瀏覽器狀態(tài)結(jié)合起來(lái),形成了一個(gè)高效的內(nèi)存組件。
為了測(cè)試Agent Q的性能,研究人員在一種模擬電子商務(wù)平臺(tái)WebShop進(jìn)行了綜合測(cè)試。實(shí)驗(yàn)結(jié)果顯示,Agent Q的表現(xiàn)顯著優(yōu)于行為克隆和強(qiáng)化學(xué)習(xí)微調(diào)的基線模型,在某些任務(wù)中甚至超過(guò)了平均人類表現(xiàn)。
尤其是在真實(shí)世界的預(yù)訂場(chǎng)景中,Agent Q將Llama-3 70B模型的零樣本成功率從18.6%提升至81.7%,相對(duì)提升了340%,并在配備在線搜索功能后,成功率進(jìn)一步提高到了95.4%。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
