AgentRM 獎(jiǎng)勵(lì)建模:智能體泛化能力的“導(dǎo)航儀”與“加速器”

大家好,我是肆〇柒。在 AI 領(lǐng)域,大型語言模型(LLM)基礎(chǔ)智能體正逐漸成為解決復(fù)雜交互任務(wù)的關(guān)鍵力量。然而,一個(gè)不容忽視的問題是:盡管它們?cè)谟?xùn)練中見過的任務(wù)上表現(xiàn)出色,但面對(duì)未見過的新任務(wù)時(shí),泛化能力卻往往不盡人意。這就好比一個(gè)學(xué)生在題海戰(zhàn)術(shù)中刷過的題目上能拿高分,但面對(duì)新題目時(shí)卻無從下手。所以,為了提升智能體的泛化能力,研究者們提出了眾多方法,其中 AgentRM 以其獨(dú)特視角和創(chuàng)新機(jī)制,讓我看到了通用獎(jiǎng)勵(lì)模型的一種可能。這是出自清華大學(xué)今年 2 月發(fā)表的一篇研究論文《AgentRM: Enhancing Agent Generalization with Reward Modeling》。3 月的時(shí)候我已看過一遍,因剛結(jié)束不久的智源大會(huì)提及,所以,我又過了一遍這篇論文,今天和大家一起再重溫一下。
剛才,在文章開頭,我們就提到基礎(chǔ)智能體泛化能力不足的問題?,F(xiàn)有智能體大都經(jīng)過多任務(wù)微調(diào),通過接觸多樣化任務(wù)來提升泛化性。然而,這種方式并非一勞永逸。多任務(wù)微調(diào)雖能在一定程度上擴(kuò)展智能體的能力邊界,卻也存在明顯局限性。一方面,隨著任務(wù)數(shù)量的增加,微調(diào)過程變得愈發(fā)復(fù)雜,模型容易陷入過擬合困境,對(duì)訓(xùn)練中見過的任務(wù)愈發(fā)熟練,對(duì)未見過的任務(wù)卻依然無能為力。另一方面,不同任務(wù)間的數(shù)據(jù)分布和特征差異,可能導(dǎo)致智能體在學(xué)習(xí)新任務(wù)時(shí)遺忘之前掌握的任務(wù)模式,陷入 “負(fù)遷移” 的尷尬境地。而微調(diào)獎(jiǎng)勵(lì)模型可能會(huì)帶來另外一種收益。
下圖清晰地展示了微調(diào)獎(jiǎng)勵(lì)模型,相較于微調(diào)策略模型在智能體任務(wù)中的更魯棒性能。其中,(a)顯示了微調(diào)策略模型會(huì)導(dǎo)致未見任務(wù)性能嚴(yán)重下降;b)和(c)分別展示了使用獎(jiǎng)勵(lì)模型進(jìn)行 Best-of-5 采樣時(shí),在微調(diào)策略模型和微調(diào)獎(jiǎng)勵(lì)模型后的性能表現(xiàn),對(duì)比鮮明地揭示了微調(diào)獎(jiǎng)勵(lì)模型的優(yōu)勢。

在智能體任務(wù)中,對(duì)獎(jiǎng)勵(lì)模型進(jìn)行微調(diào)比對(duì)策略模型進(jìn)行微調(diào)會(huì)更加穩(wěn)健
AgentRM 方法論
行為克?。捍罱ㄖ悄荏w的 “起跑線”
在 AgentRM 的方法體系中,行為克隆是構(gòu)建初始策略模型的關(guān)鍵步驟,為后續(xù)的獎(jiǎng)勵(lì)建模和智能體優(yōu)化奠定了堅(jiān)實(shí)基礎(chǔ)。研究者們從海量的訓(xùn)練集中精心篩選出一部分具有代表性的任務(wù)指令,這些指令覆蓋了智能體需要掌握的核心技能和典型場景。隨后,借助專家智能體的精準(zhǔn)標(biāo)注,對(duì)這些任務(wù)指令進(jìn)行高質(zhì)量的示范演繹,生成一系列專家軌跡。這些軌跡猶如經(jīng)驗(yàn)豐富的導(dǎo)師親手書寫的 “標(biāo)準(zhǔn)答案”,為智能體的學(xué)習(xí)提供了明確的方向和參照。
基于這些專家軌跡,研究者們采用監(jiān)督微調(diào)(SFT)技術(shù),對(duì)初始策略模型進(jìn)行針對(duì)性訓(xùn)練。在訓(xùn)練過程中,模型通過反復(fù)觀摩專家軌跡中的決策邏輯和行動(dòng)模式,逐漸學(xué)會(huì)了在不同場景下如何做出合理的選擇。這一過程就像是智能體在進(jìn)行一場場高強(qiáng)度的 “模擬考試”,在不斷的練習(xí)和糾正中,逐步掌握了基礎(chǔ)的任務(wù)解決能力。最終,經(jīng)過監(jiān)督微調(diào)的初始策略模型 πinit 脫穎而出,它具備了扎實(shí)的基本功,能夠應(yīng)對(duì)訓(xùn)練集中常見的任務(wù)類型,并為后續(xù)的探索和優(yōu)化積累了寶貴的經(jīng)驗(yàn),為智能體在復(fù)雜多變的任務(wù)環(huán)境中脫穎而出做好了準(zhǔn)備。
獎(jiǎng)勵(lì)建模:解鎖智能體泛化的 “秘鑰”
下圖向我們展示了 AgentRM 方法的總體框架。包括通過行為克?。⊿FT)在專家軌跡上導(dǎo)出初始策略模型;利用初始策略模型探索環(huán)境構(gòu)建搜索樹;從搜索樹中提取狀態(tài) - 獎(jiǎng)勵(lì)對(duì)訓(xùn)練通用獎(jiǎng)勵(lì)模型;以及在推理階段,使用獎(jiǎng)勵(lì)模型指導(dǎo)策略模型的決策過程,無論策略模型的初始強(qiáng)度如何,都能增強(qiáng)其決策能力。

概述:? 基于專家軌跡訓(xùn)練一個(gè)監(jiān)督式微調(diào)(SFT)智能體;? 使用SFT智能體探索環(huán)境,構(gòu)建搜索樹;? 在從搜索樹中提取的狀態(tài)-獎(jiǎng)勵(lì)對(duì)上訓(xùn)練一個(gè)可泛化的獎(jiǎng)勵(lì)模型;? 無論初始策略模型的強(qiáng)度如何,通過獎(jiǎng)勵(lì)模型引導(dǎo)的測試時(shí)搜索來增強(qiáng)策略模型,以應(yīng)對(duì)未見過的任務(wù),例如具身規(guī)劃、文字游戲、工具使用等
顯式獎(jiǎng)勵(lì)建模 —— 精準(zhǔn)的 “導(dǎo)航儀”
顯式獎(jiǎng)勵(lì)建模是 AgentRM 的核心創(chuàng)新之一,它借助樹搜索技術(shù),為智能體的每一步行動(dòng)都賦予了清晰明確的獎(jiǎng)勵(lì)信號(hào),就像為智能體配備了一個(gè)高精度的導(dǎo)航儀,使其在復(fù)雜任務(wù)的 “迷宮” 中也能精準(zhǔn)定位方向。
在這一方法中,研究者們將智能體的搜索軌跡構(gòu)建為樹狀結(jié)構(gòu),每個(gè)節(jié)點(diǎn)代表智能體在特定狀態(tài)下的決策點(diǎn),每條邊則表示智能體采取的具體行動(dòng)。從初始狀態(tài)開始,智能體依據(jù)當(dāng)前策略模型,在策略模型的引導(dǎo)下逐步擴(kuò)展搜索樹。在每一次擴(kuò)展過程中,智能體都會(huì)從當(dāng)前節(jié)點(diǎn)出發(fā),基于策略模型隨機(jī)采樣多個(gè)可能的行動(dòng),并預(yù)估這些行動(dòng)可能導(dǎo)致的后續(xù)狀態(tài)。為了避免重復(fù)探索,節(jié)省計(jì)算資源,算法采用了蒙特卡洛樹搜索(MCTS)的策略,通過計(jì)算 Upper Confidence Bound(UCB)值來選擇最具潛力的節(jié)點(diǎn)進(jìn)行擴(kuò)展。
當(dāng)搜索樹逐步構(gòu)建完成后,研究者們從樹中提取每個(gè)狀態(tài)對(duì)應(yīng)的價(jià)值估計(jì) V(st),并以此為基礎(chǔ)構(gòu)建獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)集。在模型訓(xùn)練階段,一個(gè)帶有價(jià)值預(yù)測頭的語言模型被用來擬合這些狀態(tài) - 價(jià)值對(duì)。通過最小化預(yù)測值與真實(shí)值之間的均方誤差(MSE),模型逐漸學(xué)會(huì)了如何準(zhǔn)確評(píng)估智能體在不同狀態(tài)下所采取行動(dòng)的好壞優(yōu)劣。這種基于顯式獎(jiǎng)勵(lì)建模的方法,能夠?qū)⑾∈璧慕Y(jié)果獎(jiǎng)勵(lì)合理分配到任務(wù)的每一步,還能讓智能體在執(zhí)行任務(wù)的過程中實(shí)時(shí)獲得反饋,從而及時(shí)調(diào)整策略,優(yōu)化決策路徑。
顯式獎(jiǎng)勵(lì)建模 的核心在于通過樹搜索構(gòu)建一個(gè)全面且精細(xì)的狀態(tài)價(jià)值估計(jì)體系。這一過程要求模型能夠準(zhǔn)確預(yù)測每個(gè)狀態(tài)的潛在價(jià)值,還要求模型能夠在不同狀態(tài)之間建立有效的關(guān)聯(lián),從而形成一個(gè)連貫的價(jià)值網(wǎng)絡(luò)。例如,在處理復(fù)雜的網(wǎng)頁導(dǎo)航任務(wù)時(shí),智能體需要理解不同網(wǎng)頁元素之間的關(guān)系以及用戶可能的交互意圖。通過對(duì)這些元素和意圖的綜合評(píng)估,顯式獎(jiǎng)勵(lì)建模能夠?yàn)橹悄荏w提供明確的行動(dòng)指引,使其能夠高效地完成任務(wù)目標(biāo)。
此外,顯式獎(jiǎng)勵(lì)建模在處理具有長期依賴關(guān)系的任務(wù)時(shí)展現(xiàn)出獨(dú)特的優(yōu)勢。例如,在科學(xué)實(shí)驗(yàn)?zāi)M任務(wù)中,智能體需要根據(jù)一系列連續(xù)的實(shí)驗(yàn)步驟和觀察結(jié)果來調(diào)整后續(xù)的實(shí)驗(yàn)操作。顯式獎(jiǎng)勵(lì)建模通過構(gòu)建一個(gè)動(dòng)態(tài)的價(jià)值估計(jì)網(wǎng)絡(luò),能夠捕捉到這些長期依賴關(guān)系,并為智能體提供及時(shí)且準(zhǔn)確的反饋,從而幫助智能體在復(fù)雜的實(shí)驗(yàn)環(huán)境中做出最優(yōu)決策。
隱式獎(jiǎng)勵(lì)建模 —— 深藏不露的 “智慧源泉”
相較于顯式獎(jiǎng)勵(lì)建模的直觀與透明,隱式獎(jiǎng)勵(lì)建模則更像是一位深藏不露的智者,它不依賴于外部的標(biāo)注信息,而是通過挖掘策略模型自身的優(yōu)勢函數(shù),巧妙地推導(dǎo)出過程獎(jiǎng)勵(lì)。
在隱式獎(jiǎng)勵(lì)建模中,過程獎(jiǎng)勵(lì)被定義為優(yōu)勢(Advantage),即智能體在某個(gè)狀態(tài)下采取特定行動(dòng)相較于其他行動(dòng)所能帶來的額外收益。具體一點(diǎn),結(jié)果獎(jiǎng)勵(lì)被參數(shù)化為策略模型和參考模型的對(duì)數(shù)似然比,通過數(shù)學(xué)歸納法,研究者們證明了 Q 值(即從當(dāng)前狀態(tài)開始,采取特定行動(dòng)后所能獲得的期望累積獎(jiǎng)勵(lì))可以在策略模型的訓(xùn)練過程中被隱式地學(xué)習(xí)到?;诖耍^程獎(jiǎng)勵(lì)可以通過相鄰時(shí)間步的 Q 值之差來計(jì)算得出。
在實(shí)際操作中,對(duì)于每個(gè)任務(wù)指令,研究者們會(huì)通過策略模型采樣多條完整軌跡,并利用這些軌跡構(gòu)建訓(xùn)練數(shù)據(jù)集。隨后,一個(gè)語言模型被訓(xùn)練用來預(yù)測這些軌跡中每個(gè)狀態(tài)的優(yōu)勢值。與顯式獎(jiǎng)勵(lì)建模不同的是,這里采用的是均方誤差(MSE)損失函數(shù)來衡量預(yù)測值與真實(shí)值之間的差距,而非像某些傳統(tǒng)方法那樣使用交叉熵?fù)p失。這種隱式獎(jiǎng)勵(lì)建模方法的優(yōu)勢在于,它無需額外的標(biāo)注成本,能夠充分利用策略模型自身的特性,挖掘出隱藏在數(shù)據(jù)背后的獎(jiǎng)勵(lì)信號(hào),為智能體的優(yōu)化提供了一種高效且經(jīng)濟(jì)的途徑。
隱式獎(jiǎng)勵(lì)建模 的獨(dú)特之處在于其對(duì)策略模型內(nèi)部信息的深度挖掘。通過分析策略模型的優(yōu)勢函數(shù),隱式獎(jiǎng)勵(lì)建模能夠揭示出智能體在不同狀態(tài)下的潛在行動(dòng)價(jià)值,而無需依賴外部的標(biāo)注信息。這種方法在處理具有高度不確定性和多樣性的任務(wù)時(shí)表現(xiàn)出色。例如,在處理用戶生成內(nèi)容的審核任務(wù)時(shí),智能體需要對(duì)各種復(fù)雜的文本內(nèi)容進(jìn)行快速且準(zhǔn)確的評(píng)估。隱式獎(jiǎng)勵(lì)建模通過分析策略模型在不同文本片段上的表現(xiàn),能夠?yàn)橹悄荏w提供一個(gè)內(nèi)在的評(píng)估標(biāo)準(zhǔn),幫助其在面對(duì)新內(nèi)容時(shí)做出合理的決策。
另外,隱式獎(jiǎng)勵(lì)建模在多任務(wù)學(xué)習(xí)場景中具有顯著的優(yōu)勢。由于它不依賴于任務(wù)特定的標(biāo)注信息,因此能夠更靈活地適應(yīng)不同類型的任務(wù)需求。例如,在同時(shí)處理網(wǎng)頁導(dǎo)航和文本游戲任務(wù)時(shí),智能體可以利用隱式獎(jiǎng)勵(lì)建模從一個(gè)任務(wù)中學(xué)習(xí)到的知識(shí)遷移到另一個(gè)任務(wù)中,從而提高其在多個(gè)任務(wù)上的整體性能。
LLM-as-a-judge —— 隨時(shí)隨地的 “裁判”
除了上述兩種基于模型訓(xùn)練的獎(jiǎng)勵(lì)建模方法外,AgentRM 還創(chuàng)造性地引入了 LLM-as-a-judge 這一獨(dú)特的訓(xùn)練免費(fèi)獎(jiǎng)勵(lì)模型。這種方法跳出了傳統(tǒng)獎(jiǎng)勵(lì)建模依賴復(fù)雜訓(xùn)練過程的框架,直接借助大型語言模型的強(qiáng)大語言理解和推理能力,對(duì)智能體的行動(dòng)軌跡進(jìn)行即時(shí)評(píng)估,就像一位隨時(shí)隨地可用的智能裁判。
在實(shí)際應(yīng)用中,研究者們精心設(shè)計(jì)了一系列提示指令,將 LLM 打造成一個(gè)軌跡獎(jiǎng)勵(lì)模型。當(dāng)需要對(duì)智能體的行動(dòng)軌跡進(jìn)行評(píng)估時(shí),首先向 LLM 提供詳細(xì)的任務(wù)描述和目標(biāo),使其對(duì)任務(wù)要求有清晰的認(rèn)識(shí)。接著,將多個(gè)候選軌跡呈現(xiàn)給 LLM,讓 LLM 對(duì)這些軌跡進(jìn)行對(duì)比分析。最后,通過強(qiáng)制 LLM 調(diào)用特定的函數(shù),從多個(gè)候選答案中挑選出最符合任務(wù)要求的那一個(gè)。如下就是 LLM-as-a-judge prompt 示例:
You are trajectory reward model, an expert in defining which trajectory is better and closer to solving the task. Here is the task description:
*******************************
task description: {task_description}
task goal: {task_goal}
*******************************
Here are several candidates. They are all trying to solve the task. Their trajectories are as follows.
*******************************
CANDIDATE1:
{candidate_1}
*******************************
CANDIDATE2:
{candidate_2}
*******************************
CANIDATE3:
{candidate_3}
*******************************
CANIDATE4:
{candidate_4}
*******************************
CANIDATE5:
{candidate_5}
*******************************這樣可以強(qiáng)制讓 LLM 調(diào)用以下函數(shù)來給出答案:
[{
"type": "function",
"function": {
"name": "choose_preferred_answer",
"description": "Choose the preferred answer for the task within all given answers.",
"parameters": {
"type": "object",
"properties": {
"preference": {
"type": "number",
"enum": [1, 2, 3, 4, 5],
"description": "The index of the preferred answer in all given answers (ranging from 1 to 5)."
},
},
}
}
}]這種方法的優(yōu)勢在于其靈活性和高效性,無需復(fù)雜的訓(xùn)練過程,能夠快速適應(yīng)各種不同類型的任務(wù),為智能體的實(shí)時(shí)評(píng)估和優(yōu)化提供了一種簡便易行的解決方案。
LLM-as-a-judge 方法的核心 在于利用大型語言模型的通用性和適應(yīng)性。通過精心設(shè)計(jì)的提示指令,LLM 能夠在不同的任務(wù)場景中快速切換角色,從一個(gè)任務(wù)的裁判轉(zhuǎn)變?yōu)榱硪粋€(gè)任務(wù)的裁判。例如,在處理多語言文本生成任務(wù)時(shí),LLM 可以根據(jù)不同的語言和文化背景,對(duì)智能體生成的文本進(jìn)行準(zhǔn)確評(píng)估,確保其符合特定語言的語法和語義要求。
LLM-as-a-judge 方法在處理具有高度復(fù)雜性和多樣性的任務(wù)時(shí)表現(xiàn)出色。例如,在處理跨領(lǐng)域的問題解決任務(wù)時(shí),智能體需要在不同的知識(shí)領(lǐng)域之間進(jìn)行快速切換和整合。LLM-as-a-judge 能夠憑借其強(qiáng)大的語言理解和推理能力,為智能體提供即時(shí)的反饋,幫助其在復(fù)雜多變的任務(wù)環(huán)境中保持高效的決策能力。
獎(jiǎng)勵(lì)引導(dǎo)搜索:智能體決策的 “加速器”
Best-of-N 采樣 —— 精挑細(xì)選的 “決策助手”
在測試階段,為了充分利用獎(jiǎng)勵(lì)模型的評(píng)估能力,提升智能體的決策質(zhì)量,AgentRM 采用了 Best-of-N 采樣方法。簡單來說,這種方法就像是為智能體配備了一個(gè)精挑細(xì)選的決策助手,在面對(duì)復(fù)雜任務(wù)時(shí),能夠幫助智能體從眾多可能的行動(dòng)方案中選出最優(yōu)的那個(gè)。
具體操作過程中,智能體會(huì)依據(jù)當(dāng)前策略模型,一次性生成 N 條完整的行動(dòng)軌跡。這些軌跡就像是智能體在腦海中快速模擬出的多種未來情景,涵蓋了各種可能的行動(dòng)路徑和決策選擇。隨后,這些軌跡被逐一輸入到獎(jiǎng)勵(lì)模型中進(jìn)行評(píng)估。獎(jiǎng)勵(lì)模型基于其對(duì)任務(wù)目標(biāo)和獎(jiǎng)勵(lì)機(jī)制的理解,為每條軌跡打分,就像一位嚴(yán)格的評(píng)委對(duì)每個(gè)參賽作品進(jìn)行打分一樣。最終,智能體依據(jù)這些分?jǐn)?shù),選擇得分最高的那條軌跡作為最終的行動(dòng)方案。這個(gè)過程可以有效提升智能體在面對(duì)復(fù)雜任務(wù)時(shí)的決策質(zhì)量,還能夠充分利用策略模型的生成能力和獎(jiǎng)勵(lì)模型的評(píng)估能力,實(shí)現(xiàn)兩者的完美結(jié)合。
Best-of-N 采樣方法 的核心在于通過多樣化的軌跡生成和精準(zhǔn)的評(píng)估選擇,為智能體提供最優(yōu)的決策路徑。這種方法在處理具有高度不確定性和復(fù)雜性的任務(wù)時(shí)表現(xiàn)出色。例如,在處理多目標(biāo)優(yōu)化任務(wù)時(shí),智能體需要在多個(gè)相互沖突的目標(biāo)之間找到最優(yōu)的平衡點(diǎn)。通過 Best-of-N 采樣,智能體可以生成多種可能的解決方案,并通過獎(jiǎng)勵(lì)模型對(duì)這些方案進(jìn)行全面評(píng)估,從而選出最符合任務(wù)要求的最優(yōu)解。
Best-of-N 采樣方法在多智能體協(xié)作任務(wù)中也具有顯著優(yōu)勢。在多智能體環(huán)境中,每個(gè)智能體都需要根據(jù)其他智能體的行為和環(huán)境狀態(tài)做出合理的決策。通過 Best-of-N 采樣,每個(gè)智能體可以生成多種可能的行動(dòng)方案,并通過獎(jiǎng)勵(lì)模型評(píng)估這些方案在協(xié)作環(huán)境中的效果,從而選擇出最優(yōu)的行動(dòng)路徑,提高整個(gè)多智能體系統(tǒng)的協(xié)作效率。
步級(jí) beam search —— 穩(wěn)扎穩(wěn)打的 “探索先鋒”
如果說 Best-of-N 采樣是智能體在多個(gè)完整方案中進(jìn)行選擇,那么步級(jí) beam search 則更像是智能體在每一步?jīng)Q策中都進(jìn)行穩(wěn)扎穩(wěn)打的探索,逐步構(gòu)建出最優(yōu)的行動(dòng)路徑。在步級(jí) beam search 過程中,智能體的行動(dòng)被分解為多個(gè)步驟,每一步都依據(jù)獎(jiǎng)勵(lì)模型的評(píng)估進(jìn)行優(yōu)化。
初始階段,智能體為第一步采樣 W1×W2 個(gè)初始動(dòng)作,這些動(dòng)作涵蓋了多種可能的決策方向。接下來,對(duì)這些動(dòng)作進(jìn)行評(píng)分,利用獎(jiǎng)勵(lì)模型評(píng)估每個(gè)動(dòng)作可能導(dǎo)致的后續(xù)狀態(tài)的價(jià)值。根據(jù)評(píng)分結(jié)果,智能體僅保留得分最高的 W1 個(gè)狀態(tài),淘汰掉那些不太可能帶來好結(jié)果的選項(xiàng)。在動(dòng)作擴(kuò)展階段,智能體為每個(gè)保留下來的狀態(tài)進(jìn)一步采樣 W2 個(gè)動(dòng)作,從而生成 W1×W2 個(gè)新的狀態(tài)。然后,智能體再次對(duì)這些新狀態(tài)進(jìn)行評(píng)分、過濾和擴(kuò)展,不斷重復(fù)這一過程,直到所有保留狀態(tài)都完成了任務(wù)或達(dá)到了最大步數(shù)限制。這種方法能夠在保證探索多樣性的同時(shí),逐步聚焦于最有潛力的決策路徑,使智能體在復(fù)雜任務(wù)環(huán)境中更加穩(wěn)健地前行。
步級(jí) beam search 方法 的核心在于通過逐步優(yōu)化和篩選,為智能體提供一條穩(wěn)健的行動(dòng)路徑。這種方法在處理具有長期依賴關(guān)系和復(fù)雜決策序列的任務(wù)時(shí)表現(xiàn)出色。例如,在處理復(fù)雜的機(jī)器人路徑規(guī)劃任務(wù)時(shí),智能體需要根據(jù)環(huán)境中的障礙物和目標(biāo)位置,逐步調(diào)整其行動(dòng)路徑。通過步級(jí) beam search ,智能體可以在每一步都對(duì)可能的行動(dòng)方向進(jìn)行評(píng)估和選擇,從而逐步構(gòu)建出一條最優(yōu)的路徑,避免在復(fù)雜的環(huán)境中迷失方向。
此外,步級(jí) beam search 方法在多任務(wù)學(xué)習(xí)場景中也具有顯著優(yōu)勢。由于其能夠逐步優(yōu)化決策路徑,因此可以更好地適應(yīng)不同類型任務(wù)的需求。例如,在同時(shí)處理網(wǎng)頁導(dǎo)航和文本游戲任務(wù)時(shí),智能體可以通過步級(jí) beam search 在每一步都對(duì)任務(wù)目標(biāo)和環(huán)境狀態(tài)進(jìn)行評(píng)估,從而選擇出最優(yōu)的行動(dòng)方案,提高其在多個(gè)任務(wù)上的整體性能。
小結(jié) AgentRM 方法論
AgentRM 方法通過行為克隆、獎(jiǎng)勵(lì)建模和獎(jiǎng)勵(lì)引導(dǎo)搜索等關(guān)鍵技術(shù),為智能體的泛化能力提升提供了一套完整的解決方案。顯式獎(jiǎng)勵(lì)建模和隱式獎(jiǎng)勵(lì)建模分別從不同角度為智能體提供了精準(zhǔn)的獎(jiǎng)勵(lì)信號(hào),而 LLM-as-a-judge 方法則為智能體提供了靈活的實(shí)時(shí)評(píng)估能力。Best-of-N 采樣和步級(jí) beam search 方法則在測試階段為智能體的決策提供了優(yōu)化支持。這些方法的結(jié)合可以顯著提升智能體在復(fù)雜任務(wù)中的表現(xiàn),為智能體的泛化能力提升提供了新的思路和方向。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
實(shí)驗(yàn)基線對(duì)比:與強(qiáng)大對(duì)手的 “巔峰對(duì)決”
為了全面評(píng)估 AgentRM 的性能,研究者們精心設(shè)計(jì)了一系列實(shí)驗(yàn),將其與多種現(xiàn)有的智能體方法進(jìn)行了對(duì)比。對(duì)比方法包括原始貪婪搜索、任務(wù)特定智能體(如 SPIN、NAT、ETO 等)以及通用智能體(如 Agent - FLAN、AgentGym、AgentGen 等)。這些對(duì)比方法各具特色,代表了當(dāng)前智能體領(lǐng)域的不同發(fā)展方向。
原始貪婪搜索作為一種基礎(chǔ)的決策方法,智能體在每一步都選擇當(dāng)前看起來最優(yōu)的行動(dòng),不考慮未來的不確定性和可能的更好結(jié)果。任務(wù)特定智能體則專注于某一特定類型的任務(wù),經(jīng)過專門的優(yōu)化和訓(xùn)練,在特定領(lǐng)域內(nèi)展現(xiàn)出了卓越的性能。例如,SPIN 通過增強(qiáng)專家軌跡數(shù)據(jù)集,提升了智能體在特定任務(wù)上的表現(xiàn);NAT 和 ETO 則通過引入失敗軌跡,讓智能體從錯(cuò)誤中學(xué)習(xí),進(jìn)一步增強(qiáng)了其應(yīng)對(duì)復(fù)雜情況的能力。
通用智能體的目標(biāo)則更為宏大,它們可以通過多任務(wù)學(xué)習(xí),掌握多種不同類型任務(wù)的解決方法,實(shí)現(xiàn)更廣泛的泛化能力。Agent - FLAN 專注于優(yōu)化 LLM 的 “思考” 過程,通過精心設(shè)計(jì)的提示和訓(xùn)練方法,讓智能體在多種任務(wù)中展現(xiàn)出靈活的思維能力;AgentGym 則通過持續(xù)學(xué)習(xí)和動(dòng)態(tài)調(diào)整,使智能體能夠不斷適應(yīng)新任務(wù)和新環(huán)境;AgentGen 借助 LLM 合成多樣化數(shù)據(jù),為智能體的訓(xùn)練提供了豐富的素材,拓寬了其能力邊界。
在與這些強(qiáng)大對(duì)手的對(duì)比中,AgentRM 以其獨(dú)特的獎(jiǎng)勵(lì)建模方法脫穎而出,它在已見任務(wù)上保持了競爭力,更在未見任務(wù)上展現(xiàn)出了卓越的泛化能力,為智能體領(lǐng)域的發(fā)展提供了一種新思路。
實(shí)驗(yàn)設(shè)置:精細(xì)入微的 “標(biāo)尺”
數(shù)據(jù)集:智能體能力的 “練兵場”
實(shí)驗(yàn)的數(shù)據(jù)集選取了多個(gè)具有代表性的智能體任務(wù),它們猶如智能體能力的 “練兵場”,全面覆蓋了智能體在實(shí)際應(yīng)用中可能遇到的各種場景和挑戰(zhàn)。其中,已見任務(wù)包括 ETO 中的 Webshop(網(wǎng)頁導(dǎo)航)、Alfworld(實(shí)體家庭操作)和 Sciworld(實(shí)體科學(xué)實(shí)驗(yàn))三個(gè)任務(wù)。這些任務(wù)具有明確的指令和目標(biāo),并且還涉及到復(fù)雜的環(huán)境交互和長期決策,能夠充分考驗(yàn)智能體的基本能力和泛化潛力。

已保留任務(wù)和未保留任務(wù)的統(tǒng)計(jì)數(shù)據(jù)?!癙rog./Succ.”表示進(jìn)展/成功率
為了更全面地評(píng)估智能體的泛化性能,研究者們還從 AgentBoard 和 AgentGym 中選取了一系列未見任務(wù)。這些任務(wù)在環(huán)境動(dòng)態(tài)性、任務(wù)目標(biāo)和操作要求等方面與已見任務(wù)存在顯著差異,能夠有效檢驗(yàn)智能體在陌生環(huán)境中的適應(yīng)能力和遷移學(xué)習(xí)效果。在處理 Alfworld 和 Sciworld 任務(wù)時(shí),研究者們特別注意了不同來源數(shù)據(jù)的一致性問題,確保實(shí)驗(yàn)結(jié)果的可靠性和可比性。
評(píng)估指標(biāo):衡量智能體表現(xiàn)的 “標(biāo)尺”
在評(píng)估指標(biāo)方面,研究者們根據(jù)不同任務(wù)的特點(diǎn),采用了成功率和進(jìn)度率兩種指標(biāo)來衡量智能體的表現(xiàn)。Maze 和 Alfworld(ETO)任務(wù)提供了成功率指標(biāo),它清晰地反映了智能體是否能夠成功完成任務(wù)目標(biāo),是一個(gè)簡單直接的評(píng)價(jià)標(biāo)準(zhǔn)。對(duì)于其他任務(wù),則采用了進(jìn)度率指標(biāo),該指標(biāo)以標(biāo)量形式衡量智能體對(duì)任務(wù)完成進(jìn)度的推進(jìn)程度,能夠更細(xì)膩地反映智能體在復(fù)雜任務(wù)中的表現(xiàn)。最終,研究者們以每個(gè)任務(wù)的平均獎(jiǎng)勵(lì)作為綜合評(píng)估指標(biāo),將成功率和進(jìn)度率有機(jī)結(jié)合起來,全面衡量智能體在不同任務(wù)中的整體表現(xiàn)。
實(shí)現(xiàn)細(xì)節(jié):實(shí)驗(yàn)落地的 “基礎(chǔ)設(shè)施”
在實(shí)現(xiàn)細(xì)節(jié)上,研究者們選擇了 LLaMA3-8B-Instruct 系列模型作為策略模型,這一選擇基于其在自然語言處理領(lǐng)域的卓越性能和廣泛的適用性。為了獲得高質(zhì)量的初始策略模型和獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù),研究者們對(duì)專家軌跡數(shù)據(jù)進(jìn)行了合理劃分。1/4 的專家軌跡用于監(jiān)督微調(diào)(SFT),通過模仿專家的決策路徑,讓初始策略模型掌握基本任務(wù)技能;剩余 3/4 的專家軌跡則用于構(gòu)建獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù),為智能體的優(yōu)化提供了豐富的反饋信息。這些精心設(shè)計(jì)的實(shí)現(xiàn)細(xì)節(jié),為實(shí)驗(yàn)的成功落地提供了堅(jiān)實(shí)的基礎(chǔ)設(shè)施保障。

不同階段的訓(xùn)練超參數(shù)
結(jié)果呈現(xiàn)與解讀:數(shù)據(jù)背后的 “真相” 與 “驚喜”
與通用智能體對(duì)比:泛化能力的 “分水嶺”
在與通用智能體的對(duì)比中,下表的數(shù)據(jù)揭示了一個(gè)令人深思的現(xiàn)象?,F(xiàn)有通用智能體在已見任務(wù)上普遍存在嚴(yán)重過擬合的問題,其整體性能甚至未能超越原始貪婪搜索這一簡單基線。這一結(jié)果表明,盡管這些通用智能體在多任務(wù)學(xué)習(xí)方面做出了諸多努力,但它們?cè)谄胶庖岩娙蝿?wù)和未見任務(wù)性能方面仍存在較大缺陷。

性能與通用智能體的對(duì)比分析。帶有*號(hào)的任務(wù)表示在策略訓(xùn)練期間已經(jīng)見過,并作為保留任務(wù)進(jìn)行評(píng)估
然而,AgentRM 的三種獎(jiǎng)勵(lì)建模方法卻展現(xiàn)出了截然不同的局面。顯式 RM 表現(xiàn)最為出色,平均性能提升了 8.8 個(gè)點(diǎn),遠(yuǎn)超其他方法。這一顯著提升,證明了顯式獎(jiǎng)勵(lì)建模在捕捉任務(wù)關(guān)鍵特征和引導(dǎo)智能體優(yōu)化方面的優(yōu)勢,也為智能體的泛化能力提升提供了一條切實(shí)可行的路徑。此外,在與已見任務(wù)具有一定相似性的 Babyai 任務(wù)上,顯式 RM 展現(xiàn)出了明顯的正遷移效應(yīng),進(jìn)一步驗(yàn)證了其在知識(shí)遷移方面的潛力。而部分策略模型在未訓(xùn)練任務(wù)上出現(xiàn)的負(fù)遷移現(xiàn)象,則從反面凸顯了 AgentRM 方法的穩(wěn)健性和優(yōu)勢。
值得注意的是,LLM-as-a-judge 方法在整體性能上較貪婪搜索略有下降,但在一些相對(duì)簡單的任務(wù)上,如工具相關(guān)任務(wù),卻表現(xiàn)出了相對(duì)較好的性能。這表明,LLM-as-a-judge 在面對(duì)簡單任務(wù)時(shí),能夠憑借其強(qiáng)大的語言理解和推理能力,快速準(zhǔn)確地做出評(píng)估,為智能體提供有效的指導(dǎo)。
與任務(wù)特定智能體對(duì)比:多任務(wù)精通的 “新星”
在與任務(wù)特定智能體的對(duì)比中,下表的數(shù)據(jù)令人興奮。使用顯式 RM 的 Best-of-5 方法在三個(gè)已見任務(wù)上分別提升了策略模型 9.6、23.2 和 9.5 個(gè)點(diǎn),下表這一卓越表現(xiàn)成功超越了多個(gè)頂級(jí)任務(wù)特定智能體。這一結(jié)果猶如一顆新星崛起,證明了 AgentRM 方法在多任務(wù)精通方面的巨大潛力。

與特定任務(wù)型 Agent 的比較
與傳統(tǒng)任務(wù)特定智能體不同,AgentRM 無需為每個(gè)任務(wù)單獨(dú)訓(xùn)練策略模型,而是通過一個(gè)通用的獎(jiǎng)勵(lì)模型,在多個(gè)任務(wù)上實(shí)現(xiàn)了性能的全面提升。這種方法不僅降低了訓(xùn)練和維護(hù)成本,還為智能體在實(shí)際應(yīng)用場景中應(yīng)對(duì)多種不同類型任務(wù)提供了可能。例如,在一個(gè)要求智能體既能進(jìn)行網(wǎng)頁導(dǎo)航,又能完成家庭操作和科學(xué)實(shí)驗(yàn)的復(fù)雜場景中,AgentRM 能夠憑借其通用獎(jiǎng)勵(lì)模型,快速適應(yīng)不同任務(wù)要求,高效地完成各項(xiàng)任務(wù)。
更為令人興奮的是,當(dāng)結(jié)合步級(jí) beam search 時(shí),AgentRM 的性能還能進(jìn)一步提升。這表明,AgentRM 與搜索策略之間存在良好的協(xié)同效應(yīng),通過優(yōu)化搜索過程,能夠充分挖掘獎(jiǎng)勵(lì)模型的潛力,使智能體在復(fù)雜任務(wù)中表現(xiàn)得更加出色。
深入分析:挖掘 AgentRM 的 “潛力寶藏”
對(duì)擾動(dòng)的魯棒性:智能體的 “定海神針”
為了測試 AgentRM 在面對(duì)輸入擾動(dòng)時(shí)的表現(xiàn),研究者們?cè)?Alfworld 任務(wù)指令中精心設(shè)計(jì)了 5 種不同類型的擾動(dòng)實(shí)驗(yàn)。這些擾動(dòng)包括修改動(dòng)作描述中的關(guān)鍵詞、調(diào)整語句結(jié)構(gòu)、刪除空格等,這可以模擬智能體在實(shí)際應(yīng)用中可能遇到的各種輸入變化。
實(shí)驗(yàn)結(jié)果顯示,AgentGym 和 Agent-FLAN 在面對(duì)這些擾動(dòng)時(shí)性能出現(xiàn)了顯著下降。以 Alfworld 任務(wù)為例,AgentGym 的成功率下降了 25.6 個(gè)點(diǎn),Agent - FLAN 的成功率更是下降了 30.3 個(gè)點(diǎn)。而 AgentRM 方法卻展現(xiàn)出了強(qiáng)大的魯棒性,其平均分最高且標(biāo)準(zhǔn)差最低。這一結(jié)果表明,AgentRM 并非簡單地記憶訓(xùn)練數(shù)據(jù)中的模式,而是真正具備了從語義層面理解和應(yīng)對(duì)任務(wù)指令的能力,能夠在復(fù)雜多變的輸入環(huán)境中保持穩(wěn)定的性能。這種對(duì)擾動(dòng)的魯棒性猶如智能體的 “定海神針”,使其在實(shí)際應(yīng)用中更具可靠性。

在不同擾動(dòng)規(guī)則下Alfworld的性能表現(xiàn)。其中,“Succ./Prog.”分別表示成功率和進(jìn)度率。帶有“?”的任務(wù)表示在訓(xùn)練過程中見過,并被視為內(nèi)部保留評(píng)估任務(wù)
上表展示了 Alfworld 任務(wù)在不同擾動(dòng)規(guī)則下的性能表現(xiàn),清楚地呈現(xiàn)了 AgentRM 在面對(duì)輸入擾動(dòng)時(shí)的優(yōu)異魯棒性。
訓(xùn)練數(shù)據(jù)規(guī)模的擴(kuò)展趨勢:數(shù)據(jù)驅(qū)動(dòng)的 “成長之路”
下圖清晰地展示了獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù)量與整體性能之間的關(guān)系,為數(shù)據(jù)驅(qū)動(dòng)的智能體訓(xùn)練提供了有力證據(jù)。實(shí)驗(yàn)結(jié)果表明,即使只有 4k 狀態(tài)的小規(guī)模數(shù)據(jù)集,也能有效提升獎(jiǎng)勵(lì)模型在智能體任務(wù)中的性能,其表現(xiàn)甚至超過了基于提示的、無需訓(xùn)練的 LLM-as-a-judge 方法。這一發(fā)現(xiàn)令人振奮,因?yàn)樗C明了 AgentRM 方法在數(shù)據(jù)受限場景下的有效性,為在資源有限的情況下提升智能體性能提供了可能。

訓(xùn)練數(shù)據(jù)的規(guī)模增長趨勢
隨著訓(xùn)練數(shù)據(jù)量的不斷增加,獎(jiǎng)勵(lì)模型的性能呈現(xiàn)出持續(xù)增長的趨勢,并且沒有出現(xiàn)飽和跡象。這種對(duì)數(shù)線性增長的趨勢表明,AgentRM 方法具有很強(qiáng)的擴(kuò)展性,隨著更多數(shù)據(jù)的積累和利用,其性能有望進(jìn)一步提升。這為智能體領(lǐng)域的未來發(fā)展指明了一條數(shù)據(jù)驅(qū)動(dòng)的 “成長之路”,即通過不斷收集和利用高質(zhì)量的訓(xùn)練數(shù)據(jù),逐步優(yōu)化獎(jiǎng)勵(lì)模型,從而不斷提升智能體的性能。
任務(wù)特定 RM 的泛化性:多樣性鑄就的 “泛化長城”
通過分析下圖中各任務(wù)特定 RM 在不同任務(wù)上的表現(xiàn),研究者們發(fā)現(xiàn),通用 RM 在多數(shù)任務(wù)上優(yōu)于任務(wù)特定 RM。這一結(jié)果有力地驗(yàn)證了任務(wù)多樣性對(duì)于提升獎(jiǎng)勵(lì)模型泛化能力的重要性。當(dāng)獎(jiǎng)勵(lì)模型接觸到多種不同類型的任務(wù)時(shí),它能夠?qū)W習(xí)到更廣泛、更通用的獎(jiǎng)勵(lì)模式,從而在面對(duì)新任務(wù)時(shí)具備更強(qiáng)的適應(yīng)能力。

針對(duì)9項(xiàng)任務(wù)的特定任務(wù)型RM(任務(wù)特定模型)性能表現(xiàn)。紅色/橙色/藍(lán)色條形分別表示在 Webshop/Alfworld/Sciworld上訓(xùn)練的RM。虛線表示通用RM的性能表現(xiàn)
然而,Alfworld 任務(wù)特定 RM 的性能相對(duì)較弱,研究者們推測這可能與該任務(wù)在構(gòu)建獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù)時(shí)采用成功率而非更密集的進(jìn)度率作為結(jié)果監(jiān)督信號(hào)有關(guān)。成功率作為一種稀疏的獎(jiǎng)勵(lì)信號(hào),無法提供足夠的反饋信息來引導(dǎo)獎(jiǎng)勵(lì)模型的學(xué)習(xí)過程,從而限制了其性能表現(xiàn)。這一發(fā)現(xiàn)提醒我們?cè)谠O(shè)計(jì)獎(jiǎng)勵(lì)模型時(shí),應(yīng)充分考慮獎(jiǎng)勵(lì)信號(hào)的密度和質(zhì)量,以確保模型能夠獲得充分有效的學(xué)習(xí)指導(dǎo)。
對(duì)其他策略模型的泛化性:弱智能體經(jīng)驗(yàn)的 “逆襲舞臺(tái)”
實(shí)驗(yàn)結(jié)果表明,僅在 LLaMA-3-8B 策略模型采樣狀態(tài)下訓(xùn)練的 RM,能夠有效應(yīng)用于其他 LLM 智能體。如下表所示,該 RM 對(duì) LLaMA-3-70B 提升了 12.6 個(gè)點(diǎn),對(duì) AgentGen 提升了 5.9 個(gè)點(diǎn)。這一現(xiàn)象揭示了弱智能體的試錯(cuò)經(jīng)驗(yàn)對(duì)于強(qiáng)智能體性能提升的巨大價(jià)值,為智能體領(lǐng)域的知識(shí)傳承和能力遷移提供了一個(gè)全新的視角。
在這個(gè)過程中,弱智能體通過大量的試錯(cuò)積累的經(jīng)驗(yàn),猶如一座蘊(yùn)藏豐富的礦山,為強(qiáng)智能體的優(yōu)化提供了寶貴的資源。強(qiáng)智能體在吸收這些經(jīng)驗(yàn)后,能夠在更復(fù)雜的任務(wù)環(huán)境中展現(xiàn)出更出色的性能。這種弱到強(qiáng)的泛化能力,可以拓寬智能體能力提升的路徑,并且為構(gòu)建高效、經(jīng)濟(jì)的智能體訓(xùn)練體系提供了新的思路。
獎(jiǎng)勵(lì)建模的狀態(tài)表示:信息融合的 “藝術(shù)之美”

顯式獎(jiǎng)勵(lì)模型的狀態(tài)表示的消融實(shí)驗(yàn)
上表的消融實(shí)驗(yàn)結(jié)果深入揭示了獎(jiǎng)勵(lì)建模中狀態(tài)表示的奧秘。實(shí)驗(yàn)發(fā)現(xiàn),獎(jiǎng)勵(lì)建模主要依賴動(dòng)作標(biāo)記,僅使用動(dòng)作標(biāo)記建模對(duì)整體有效性影響不大,反而能加速訓(xùn)練和推理過程,提升方法的可擴(kuò)展性。這一發(fā)現(xiàn)令人驚訝,因?yàn)樗嵏擦宋覀儗?duì)狀態(tài)表示的傳統(tǒng)認(rèn)知,讓我們意識(shí)到在某些情況下,簡化狀態(tài)表示反而能夠提高模型的效率和性能。

判斷相對(duì)步長獎(jiǎng)勵(lì)的準(zhǔn)確性
然而,思考和觀察標(biāo)記并非可有可無。實(shí)驗(yàn)結(jié)果顯示,當(dāng)同時(shí)移除思考和觀察標(biāo)記時(shí),性能下降了 3.2 個(gè)百分點(diǎn)。這表明思考和觀察標(biāo)記雖然單獨(dú)影響較小,但它們?cè)跔顟B(tài)表示中提供了互補(bǔ)的信息,共同作用時(shí)能夠提升模型的性能。這種信息融合的藝術(shù)之美,體現(xiàn)了智能體在決策過程中對(duì)多維度信息的綜合考量,也為我們?cè)O(shè)計(jì)更優(yōu)的狀態(tài)表示方法提供了啟示。
測試時(shí)搜索的擴(kuò)展趨勢:計(jì)算資源的 “效益最大化”
以 Pddl 任務(wù)為例,研究者們深入探討了增加 Best-of-N 采樣候選數(shù)量時(shí),不同獎(jiǎng)勵(lì)建模方法的性能變化趨勢。顯式 RM 隨著計(jì)算資源的增加持續(xù)提升性能,展現(xiàn)出強(qiáng)大的擴(kuò)展能力。這表明在顯式獎(jiǎng)勵(lì)建模的引導(dǎo)下,智能體能夠充分利用額外的計(jì)算資源,生成更多高質(zhì)量的候選軌跡,從而提高決策質(zhì)量。下圖就展示了隨著 Best-of-N 采樣候選數(shù)量的增加,不同獎(jiǎng)勵(lì)建模方法的性能變化趨勢,揭示了不同獎(jiǎng)勵(lì)建模方法在測試時(shí)擴(kuò)展(Test-time Scaling)方面的差異和挑戰(zhàn)。

Best-of-N 的擴(kuò)展趨勢
相比之下,隱式 RM 在候選數(shù)量過多時(shí)可能會(huì)因混淆而出現(xiàn)性能下降。這可能是由于隱式 RM 在處理大量候選軌跡時(shí),難以區(qū)分細(xì)微的獎(jiǎng)勵(lì)差異,導(dǎo)致選擇出錯(cuò)。而 LLM-as-a-judge 方法由于模型輸入長度的限制,在候選數(shù)量增加時(shí),超出長度限制的部分會(huì)被截?cái)?,從而影響了其擴(kuò)展性。這一發(fā)現(xiàn)提示我們,在設(shè)計(jì)測試時(shí)搜索策略時(shí),需要充分考慮不同獎(jiǎng)勵(lì)建模方法的特點(diǎn)和限制,以實(shí)現(xiàn)計(jì)算資源的效益最大化。
對(duì)通用推理任務(wù)的泛化性:通用推理的 “隱藏天賦”
當(dāng)研究者們將僅在智能體任務(wù)上訓(xùn)練的 RM 應(yīng)用于通用推理基準(zhǔn)測試(如 GSM8k、MATH 和 codecontests)時(shí),下表的結(jié)果顯示 RM 對(duì)通用推理任務(wù)的影響微乎其微。這一現(xiàn)象表明,AgentRM 在智能體任務(wù)上的訓(xùn)練并未使其局限于特定任務(wù)模式,而是獲得了一種更通用的推理能力。這種能力就像智能體的 “隱藏天賦”,使其在面對(duì)不同類型的推理任務(wù)時(shí),能夠靈活調(diào)用已有的知識(shí)和經(jīng)驗(yàn),展現(xiàn)出一定的適應(yīng)性。

在通用推理任務(wù)中的表現(xiàn)
盡管這種影響較為微弱,但它揭示了 AgentRM 作為一種通用獎(jiǎng)勵(lì)模型的潛力。
總結(jié):智能體發(fā)展的 “新航標(biāo)”
AgentRM 這篇研究論文主要講了如何讓基于大型語言模型(LLM)的智能體在各種復(fù)雜任務(wù)中表現(xiàn)得更好,尤其是在之前沒見過的新任務(wù)中。論文的核心就是提出了一個(gè)叫 AgentRM 的通用獎(jiǎng)勵(lì)模型,這個(gè)模型能有效地引導(dǎo)智能體在執(zhí)行任務(wù)時(shí)做出更好的決策。
這就像我們用GPS導(dǎo)航軟件找路線一樣,現(xiàn)有的導(dǎo)航軟件(好比策略模型)在熟悉的路上表現(xiàn)很好,但一旦遇到?jīng)]走過的新路,可能就會(huì)迷路。這篇論文的研究發(fā)現(xiàn),與其直接優(yōu)化這個(gè)導(dǎo)航軟件本身(策略模型),不如先訓(xùn)練一個(gè)專門的“路線評(píng)估員”(獎(jiǎng)勵(lì)模型)來幫助它。這個(gè)“評(píng)估員”會(huì)告訴導(dǎo)航軟件每一步的決策是好還是壞,從而引導(dǎo)它找到更好的路線。
AgentRM 作為一種創(chuàng)新的通用獎(jiǎng)勵(lì)模型,通過測試時(shí)搜索顯著提升了LLM智能體在多種智能體任務(wù)中的性能,在專一性和泛化性方面都交出了令人滿意的答卷。它不僅在實(shí)驗(yàn)中展現(xiàn)出了卓越的性能提升,還通過深入分析驗(yàn)證了其在測試時(shí)擴(kuò)展、對(duì)其他策略模型的直接遷移性等方面的巨大潛力。
文中提出了:
三種獎(jiǎng)勵(lì)模型方法:文中詳細(xì)研究了三種不同的方法來構(gòu)建這個(gè)獎(jiǎng)勵(lì)模型:顯式獎(jiǎng)勵(lì)建模、隱式獎(jiǎng)勵(lì)建模和LLM作為裁判。顯式獎(jiǎng)勵(lì)建模就是直接給出每一步的獎(jiǎng)勵(lì),隱式獎(jiǎng)勵(lì)建模則是讓模型自己通過最終結(jié)果推斷出每一步的獎(jiǎng)勵(lì),而LLM作為裁判則是利用大型語言模型來直接判斷哪條路線更好。
實(shí)驗(yàn)驗(yàn)證:在九個(gè)不同的任務(wù)上進(jìn)行了實(shí)驗(yàn),包括網(wǎng)頁導(dǎo)航、實(shí)體規(guī)劃、文本游戲和工具使用等,發(fā)現(xiàn)AgentRM能顯著提升策略模型的性能,并且在多項(xiàng)指標(biāo)上超越了現(xiàn)有的通用智能體和專用智能體。
泛化能力:AgentRM不僅在訓(xùn)練過的任務(wù)上表現(xiàn)良好,還能很好地推廣到未見過的任務(wù),這種能力在智能體領(lǐng)域是非常重要的。
當(dāng)然,AgentRM 也具有局限性。目前的研究僅包含了三個(gè)已見任務(wù),這限制了我們對(duì)其在更廣泛任務(wù)場景中的全面評(píng)估。同時(shí),MCTS 參數(shù)設(shè)置有限,可能影響了過程獎(jiǎng)勵(lì)估計(jì)的精度。
最后,我想期待一下,在學(xué)界和業(yè)界能夠看到更多關(guān)于獎(jiǎng)勵(lì)建模的研究與實(shí)踐。畢竟,智能體能夠高效地獲得獎(jiǎng)勵(lì)建模,對(duì)于智能的進(jìn)化起著至關(guān)重要的作用。















 
 
 





 
 
 
 