從失敗中學(xué)習(xí):Google 提出 ReasoningBank 讓 LLM 智能體真正“吃一塹長一智”

大家好,我是肆〇柒。今天要和大家分享一項(xiàng)來自 Google Cloud AI Research 與 伊利諾伊大學(xué)香檳分校(UIUC) 等機(jī)構(gòu)的最新研究成果——ReasoningBank。這項(xiàng)工作直面當(dāng)前 LLM 智能體在持久任務(wù)中記不住教訓(xùn)、重復(fù)犯錯(cuò)的根本瓶頸,提出了一種全新的記憶框架:不僅能從成功中提煉策略,更能從失敗中提取預(yù)防性教訓(xùn),讓智能體實(shí)現(xiàn)“越用越聰明”的自進(jìn)化能力。
想象一下,你每天使用的智能助手總是忘記昨天學(xué)會的操作,每次都要重新學(xué)習(xí)如何完成相同的任務(wù)。在WebArena測試中,當(dāng)用戶詢問"我在這個(gè)網(wǎng)站上首次購買的日期是什么"時(shí),基線智能體反復(fù)犯同一個(gè)錯(cuò)誤——僅查看"Recent Orders"表格而忽略"View All"鏈接,錯(cuò)誤地將最近訂單日期報(bào)告為首次購買日期。這不僅是個(gè)別案例,而是系統(tǒng)性缺陷:無記憶基線在多網(wǎng)站任務(wù)(Multi)子集中成功率僅40.5%,意味著超過一半的任務(wù)無法完成。這種"無記憶學(xué)習(xí)"導(dǎo)致智能體"注定會重復(fù)過去的錯(cuò)誤,拋棄從相關(guān)問題中獲得的寶貴見解",而ReasoningBank通過從成功與失敗經(jīng)驗(yàn)中提煉可泛化的推理策略,實(shí)現(xiàn)了隨任務(wù)數(shù)量增加而持續(xù)提升的成功率,如下圖所示,展示了真正的"吃一塹長一智"能力。

ReasoningBank誘導(dǎo)可重用推理策略
現(xiàn)有記憶機(jī)制為何失效:不只是技術(shù)問題,更是思維局限
當(dāng)前智能體記憶系統(tǒng)的實(shí)踐主要集中在兩種方法上:Trajectory Memory存儲完整交互歷史,如Figure 1所示的原始軌跡;Workflow Memory則僅存儲成功的工作流程,如AWM方法所采用的。然而,這些方法存在根本性局限,不僅影響技術(shù)性能,更反映了對智能體學(xué)習(xí)本質(zhì)的理解偏差。
它們?nèi)狈μ釤捀呒墶⒖赊D(zhuǎn)移推理模式的能力,過度關(guān)注"做了什么"而非"為什么這樣做"。更為關(guān)鍵的是,現(xiàn)有方法過度強(qiáng)調(diào)成功經(jīng)驗(yàn),導(dǎo)致智能體自身失敗中蘊(yùn)含的寶貴教訓(xùn)很大程度上被忽視。這就像一個(gè)只記住考試正確答案卻不懂解題思路的學(xué)生,遇到新題型時(shí)依然束手無策。
這種局限性在實(shí)際性能中的影響遠(yuǎn)超表面數(shù)字。在WebArena Admin子集測試中,ReasoningBank達(dá)到51.1%的成功率,明顯優(yōu)于僅存儲成功工作流程的AWM方法(46.7%)。但更重要的是,這個(gè)4.4%的差距意味著什么?在實(shí)際應(yīng)用中,它代表著每100次任務(wù)嘗試,ReasoningBank能多完成4-5個(gè)任務(wù),對于高價(jià)值業(yè)務(wù)場景,這可能直接轉(zhuǎn)化為數(shù)百萬的收益提升。
尤為引人注目的是,當(dāng)任務(wù)需要跨網(wǎng)站知識時(shí),AWM方法的性能反而下降,在WebArena Multi子集中從44.1%降至40.8%,表明其記憶機(jī)制在泛化方面存在嚴(yán)重不足。論文將這些現(xiàn)有方法描述為被動(dòng)記錄而非為未來決策提供可操作、可泛化的指導(dǎo),無法為智能體提供真正有效的決策支持。這就像一個(gè)只會機(jī)械重復(fù)過去行為的工人,面對新挑戰(zhàn)時(shí)毫無應(yīng)變能力。
ReasoningBank的解決方案:從"做了什么"到"為什么這樣做"
ReasoningBank的核心創(chuàng)新在于從存儲"做了什么"轉(zhuǎn)向存儲"為什么這樣做"和"如何避免失敗"。如下圖所示,其工作流程包括三個(gè)關(guān)鍵步驟:記憶檢索、記憶提取和記憶整合。首先,當(dāng)面對新任務(wù)時(shí),智能體使用gemini-embedding-001進(jìn)行相似度搜索,檢索最相關(guān)的記憶項(xiàng);然后,通過特定提示詞引導(dǎo)模型從軌跡中提煉可泛化的推理策略;最后,將新經(jīng)驗(yàn)添加到記憶庫中,形成閉環(huán)學(xué)習(xí)過程。

ReasoningBank工作流程
記憶項(xiàng)采用結(jié)構(gòu)化三要素設(shè)計(jì):標(biāo)題作為核心策略的簡潔標(biāo)識(如"優(yōu)先考慮用戶賬戶部分獲取個(gè)人數(shù)據(jù)");描述提供策略適用場景的一句話總結(jié);內(nèi)容則記錄提煉的推理步驟和決策依據(jù)。這種設(shè)計(jì)使記憶項(xiàng)既可被人類理解,又能被機(jī)器有效利用。論文通過以下示例展示了具體的系統(tǒng)指令模板,區(qū)分了成功軌跡(分析為何成功)和失敗軌跡(反思原因并提取教訓(xùn))的不同處理方式。


記憶提取系統(tǒng)指令
上圖清晰展示了成功軌跡的提取指令要求模型首先思考軌跡為何成功,然后總結(jié)關(guān)鍵見解,而失敗軌跡的提取指令則要求反思并思考軌跡為何失敗,然后總結(jié)你學(xué)到了什么教訓(xùn)或預(yù)防未來失敗的策略。這種差異化處理確保了ReasoningBank能夠從兩種經(jīng)驗(yàn)中提取有價(jià)值的信號,而非僅關(guān)注成功案例。
關(guān)鍵突破在于ReasoningBank同時(shí)利用成功與失敗經(jīng)驗(yàn)。下圖展示了LLM-as-a-judge機(jī)制的詳細(xì)工作原理,該機(jī)制將任務(wù)分為三類:信息尋求、網(wǎng)站導(dǎo)航和內(nèi)容修改,并要求模型輸出兩行格式化響應(yīng):思考過程和狀態(tài)("success"或"failure")。

LLM-as-a-judge系統(tǒng)指令
論文指出,通過這一機(jī)制,智能體能夠在沒有真實(shí)標(biāo)簽可用的測試時(shí)學(xué)習(xí)范式中自我判斷軌跡的成功或失敗。下圖的消融研究表明,在WebArena-Shopping子集測試中,僅使用成功軌跡時(shí)ReasoningBank達(dá)到46.5%的成功率,而納入失敗軌跡后進(jìn)一步提升至49.7%,證實(shí)了ReasoningBank可以將失敗轉(zhuǎn)化為建設(shè)性信號而非噪聲。

引入故障軌跡以增強(qiáng)記憶歸納的消融實(shí)驗(yàn)結(jié)果
下圖揭示了一個(gè)令人興奮的現(xiàn)象:記憶項(xiàng)會隨時(shí)間自然進(jìn)化。最初,智能體只能記住簡單的執(zhí)行策略,如"尋找導(dǎo)航鏈接";隨后發(fā)展為原子自省,如"重新驗(yàn)證標(biāo)識符以減少簡單錯(cuò)誤";再到適應(yīng)性檢查,如"利用搜索或過濾器確保完整性";最終形成組合策略,如"交叉參考任務(wù)要求并重新評估選項(xiàng)"。這種進(jìn)化不是人為設(shè)計(jì)的,而是從經(jīng)驗(yàn)中自然涌現(xiàn)的——就像人類專家從新手成長為大師的過程。

記憶項(xiàng)的演化過程
MaTTS——記憶與擴(kuò)展的協(xié)同:解鎖智能體的全部潛力
測試時(shí)擴(kuò)展(TTS)通過分配更多推理時(shí)計(jì)算資源來提升智能體性能,但普通TTS無法有效利用擴(kuò)展產(chǎn)生的豐富信號(擴(kuò)展閱讀??《Test-Time Scaling:挖掘大型語言模型推理潛能(3萬字綜述)》)。下圖清晰展示了MaTTS w/o aggregation(vanilla TTS)與記憶感知測試時(shí)擴(kuò)展(MaTTS)的本質(zhì)區(qū)別。在WebArena-Shopping子集上,無記憶的TTS僅將成功率從39.0%微弱提升至42.2%,且表現(xiàn)不穩(wěn)定;而結(jié)合ReasoningBank的MaTTS則實(shí)現(xiàn)了顯著且穩(wěn)定的性能提升。

普通TTS與MaTTS對比
MaTTS提供兩種互補(bǔ)的擴(kuò)展模式:并行擴(kuò)展為同一查詢生成多條軌跡,通過自對比(self-contrast)提煉可靠記憶。下圖左側(cè)展示了這一過程,模型被引導(dǎo)直接比較和對比軌跡,識別導(dǎo)致成功的一致模式和導(dǎo)致失敗的錯(cuò)誤。在k=5時(shí),并行擴(kuò)展達(dá)到55.1%的成功率,優(yōu)于順序擴(kuò)展的54.5%。順序擴(kuò)展則通過自精煉(self-refinement)過程迭代優(yōu)化單條軌跡,利用中間推理信號豐富記憶。它在小k值時(shí)優(yōu)勢明顯,但隨k增大收益快速飽和,因?yàn)橐坏┠P兔鞔_成功或失敗,進(jìn)一步的精煉幾乎不會帶來新的見解。

MaTTS系統(tǒng)指令
下圖詳細(xì)展示了縮放因子k對MaTTS性能的影響。在并行擴(kuò)展中,隨著k從1增加到5,成功率從49.7%穩(wěn)步提升至55.1%;而在順序擴(kuò)展中,提升幅度相對較小,從49.7%增至54.5%。這種差異表明,在具備更強(qiáng)記憶機(jī)制(如ReasoningBank)的情況下,順序精煉在小k值時(shí)帶來更高收益,但其優(yōu)勢會迅速飽和,而并行擴(kuò)展則能持續(xù)提供多樣化的探索路徑。

MaTTS縮放因子k效果
下圖的量化證據(jù)揭示了記憶與擴(kuò)展的協(xié)同效應(yīng):ReasoningBank使Best-of-3(BoN)性能從49.7%提升至52.4%,而Synapse僅從40.6%提升至42.8%,AWM甚至從44.4%降至41.2%。同時(shí),ReasoningBank在Pass@1指標(biāo)上也從49.7%提升至50.8%,表明高質(zhì)量記憶能夠利用擴(kuò)展的多樣性提取建設(shè)性的對比信號。在論文中,將這種相互增強(qiáng)的關(guān)系描述為一個(gè)強(qiáng)大的正反饋循環(huán),其中高質(zhì)量記憶將擴(kuò)展的探索引向更有希望的路徑,而生成的豐富經(jīng)驗(yàn)又鍛造出更強(qiáng)的記憶,確立了記憶驅(qū)動(dòng)的體驗(yàn)擴(kuò)展作為智能體的新的擴(kuò)展維度。

WebArenaShopping 子集上 MaTTS 在不同記憶機(jī)制(k = 3)下的快照: 研究者對全部 3 條軌跡計(jì)算 BoN,并隨機(jī)抽取 1 條軌跡計(jì)算 Pass@1
下圖的Pass@k分析進(jìn)一步揭示了MaTTS的優(yōu)勢:"MaTTS不僅在小k值時(shí)保持高效(k=2時(shí)達(dá)51.3),還能隨著擴(kuò)展持續(xù)強(qiáng)勁增長,k=5時(shí)達(dá)到62.1",而MaTTS w/o aggregation僅達(dá)到55.1%,MaTTS w/o memory則僅為52.4%。這一數(shù)據(jù)表明,記憶感知的擴(kuò)展能夠"解鎖智能體系統(tǒng)更多潛力,鼓勵(lì)多樣化生成以獲得更好的Pass@k性能"。

Pass@k分析
實(shí)證效果與實(shí)際應(yīng)用價(jià)值:不只是數(shù)字,更是實(shí)際影響
在多個(gè)基準(zhǔn)測試中,ReasoningBank展現(xiàn)出顯著優(yōu)勢。WebArena測試顯示(下表),ReasoningBank在Gemini-2.5-pro backbone上達(dá)到53.9%的總體成功率,比無記憶基線高7.2個(gè)百分點(diǎn);在更具挑戰(zhàn)性的多網(wǎng)站任務(wù)(Multi)子集中,提升幅度達(dá)4.6個(gè)百分點(diǎn)。這些數(shù)字背后意味著什么?在實(shí)際應(yīng)用中,每100次任務(wù)嘗試,ReasoningBank能多完成7次任務(wù),對于高價(jià)值業(yè)務(wù)場景,這可能直接轉(zhuǎn)化為數(shù)百萬的收益提升。

ReasoningBank 在 WebArena 基準(zhǔn)上的實(shí)驗(yàn)結(jié)果:在 5 個(gè)子任務(wù)上,分別測試了 3 種不同骨干大模型的成功率(SR↑)與平均步數(shù)(Step↓)
Mind2Web的跨域測試結(jié)果(下表)表明,ReasoningBank將元素準(zhǔn)確率(EA)從35.8%提升至40.6%,動(dòng)作F1值從37.9%提升至41.3%,任務(wù)級成功率(SR)從1.0%提升至1.6%。這些提升在跨域場景中尤為顯著,證實(shí)了其在高泛化要求場景中的優(yōu)勢。在軟件工程領(lǐng)域,SWE-Bench-Verified測試(Table 2)顯示,ReasoningBank將問題解決率從54.0%提升至57.4%,同時(shí)將平均交互步數(shù)從21.1減少至19.8。

在 Mind2Web 基準(zhǔn)的“跨任務(wù)、跨網(wǎng)站、跨域”泛化測試中,結(jié)果如下(↑ 表示越高越好):EA(元素準(zhǔn)確率):預(yù)測元素完全正確的比例 ; AF1(動(dòng)作 F1):預(yù)測動(dòng)作(含操作類型與元素)的 F1 得分 ;SSR(步驟成功率):單步操作全部正確的比例 ; SR(任務(wù)成功率):整個(gè)任務(wù)所有步驟均正確的比例,即“一步錯(cuò)、任務(wù)敗”
三個(gè)關(guān)鍵案例生動(dòng)展示了ReasoningBank的實(shí)際價(jià)值。Figure 14呈現(xiàn)了"查詢最早訂單"任務(wù):基線智能體僅查看"Recent Orders"表格,錯(cuò)誤地報(bào)告最近訂單日期;而ReasoningBank利用記憶項(xiàng)找到"View All"鏈接,正確識別出最早的訂單日期。Figure 15展示了導(dǎo)航密集型購物任務(wù)的效率對比:基線智能體在尋找"Men"過濾器時(shí)陷入低效瀏覽,耗時(shí)29步;ReasoningBank則直接應(yīng)用存儲的類別過濾推理,僅用10步完成任務(wù)。這種效率提升不是抽象的數(shù)字,而是用戶等待時(shí)間的顯著減少和系統(tǒng)資源的節(jié)省。

ReasoningBank有效利用記憶項(xiàng)
上圖的深度分析揭示了ReasoningBank在不同場景下的效率優(yōu)勢。
在Shopping領(lǐng)域,ReasoningBank在成功案例中平均減少2.1步(從6.8降至4.7,26.9%的相對減少),而在失敗案例中僅減少1.4步(從8.7降至7.3,16.1%的相對減少)。
在Admin領(lǐng)域,成功案例減少1.4步(從8.4降至7.0,16.7%的相對減少),失敗案例減少0.9步(從10.4降至9.5,8.7%的相對減少)。
在Gitlab領(lǐng)域,成功案例減少1.0步(從8.6降至7.6,11.6%的相對減少),失敗案例僅減少0.2步(從15.7降至15.5,1.3%的相對減少)。
在Reddit領(lǐng)域,成功案例減少1.1步(從6.1降至5.0,18.0%的相對減少),失敗案例減少0.8步(從7.6降至6.8,10.5%的相對減少)。
這種一致的模式表明ReasoningBank"主要通過加強(qiáng)智能體遵循有效推理路徑的能力來幫助其以更少的交互達(dá)到解決方案,而非簡單地截?cái)嗍≤壽E"。

ReasoningBank提升效率
下圖的消融研究表明,檢索1個(gè)最相關(guān)經(jīng)驗(yàn)即可獲得最佳性能(49.7%),增加至2個(gè)反而降至46.0%,3個(gè)降至45.5%,4個(gè)降至44.4%。這一發(fā)現(xiàn)證實(shí)"記憶的相關(guān)性和質(zhì)量比單純的數(shù)量更為關(guān)鍵",對實(shí)際部署具有重要指導(dǎo)意義:在實(shí)施ReasoningBank時(shí),應(yīng)優(yōu)先確保記憶項(xiàng)的質(zhì)量而非數(shù)量。這就像經(jīng)驗(yàn)豐富的專家往往只需一個(gè)關(guān)鍵提示就能解決問題,而新手則可能被過多信息干擾。

記憶檢索數(shù)量影響
從研究到實(shí)踐的路徑

MaTTS系統(tǒng)指令
實(shí)施ReasoningBank需關(guān)注幾個(gè)關(guān)鍵實(shí)踐點(diǎn)。下圖提供的系統(tǒng)指令模板為記憶提取提供了具體指導(dǎo),區(qū)分了成功軌跡(分析為何成功)和失敗軌跡(反思原因并提取教訓(xùn))的不同處理方式。上圖詳細(xì)描述了LLM-as-a-judge機(jī)制,用于判斷軌跡成功或失敗,其系統(tǒng)指令將任務(wù)分為信息尋求、網(wǎng)站導(dǎo)航和內(nèi)容修改三種類型,并要求模型輸出兩行格式化響應(yīng):思考過程和狀態(tài)("success"或"failure")。


記憶提取系統(tǒng)指令
技術(shù)挑戰(zhàn)主要集中在記憶項(xiàng)質(zhì)量控制和失敗經(jīng)驗(yàn)的有效利用上。論文描述了LLM-as-a-judge機(jī)制如何確保信號可靠性,上圖面板專門設(shè)計(jì)了針對失敗軌跡的提取提示,引導(dǎo)模型反思并思考軌跡為何失敗,然后總結(jié)你學(xué)到了什么教訓(xùn)或預(yù)防未來失敗的策略。記憶存儲實(shí)現(xiàn)方面,ReasoningBank 以 JSON 格式維護(hù),每個(gè)條目包含任務(wù)查詢、原始軌跡和相應(yīng)記憶項(xiàng)。所有記憶項(xiàng)均按照{(diào)title, description, content}的模式存儲。每個(gè)給定查詢的嵌入預(yù)先計(jì)算并存儲在另一個(gè)JSON文件中,以便進(jìn)行高效的相似性搜索。這種輕量級的實(shí)現(xiàn)方式使ReasoningBank易于集成到現(xiàn)有系統(tǒng)中。
明確的商業(yè)價(jià)值
在WebArena測試中,ReasoningBank將成功率提高7.2-8.3個(gè)百分點(diǎn),同時(shí)減少16.0%的交互步驟。這意味著更少的用戶等待時(shí)間和更低的計(jì)算資源消耗,直接轉(zhuǎn)化為商業(yè)價(jià)值。在跨域測試中,提升幅度尤為顯著,表明其特別適合需要持續(xù)交互和泛化能力的任務(wù),如Web導(dǎo)航和軟件工程。在WebArena-Shopping子集上,ReasoningBank使成功率從39.0%提升至49.7%,而增加計(jì)算資源(MaTTS)后進(jìn)一步提升至55.1%,展示了"記憶驅(qū)動(dòng)的體驗(yàn)擴(kuò)展"帶來的復(fù)合價(jià)值。
新視角與新方向
論文在結(jié)論部分指出,ReasoningBank為構(gòu)建適應(yīng)性和終身學(xué)習(xí)的智能體提供了一條實(shí)用路徑,確立了記憶驅(qū)動(dòng)的體驗(yàn)擴(kuò)展作為智能體的新的擴(kuò)展維度。未來的實(shí)踐研究,可以包括"組合式記憶"(compositional memory)和"高級記憶架構(gòu)"(advanced memory architectures),為研究智能體的自我進(jìn)化提供了新視角。

構(gòu)建真正自進(jìn)化的智能體系統(tǒng)
ReasoningBank的核心價(jià)值在于將記憶轉(zhuǎn)化為智能體的進(jìn)化能力,使其能夠從失敗中學(xué)習(xí)并隨時(shí)間發(fā)展出越來越復(fù)雜、涌現(xiàn)的推理策略。通過建立"記憶驅(qū)動(dòng)的體驗(yàn)擴(kuò)展作為智能體的新的擴(kuò)展維度",它為解決LLM智能體在持久角色中"拋棄寶貴見解并重復(fù)過去錯(cuò)誤"的根本缺陷提供了可行路徑。
這一方法對Web自動(dòng)化和軟件工程等領(lǐng)域具有創(chuàng)新的低成本落地的參考價(jià)值。在Web導(dǎo)航中,它提升了復(fù)雜任務(wù)的成功率,減少了用戶等待時(shí)間;在軟件工程中,它提高了問題解決率,減少了開發(fā)人員干預(yù)。實(shí)踐啟示明確:不應(yīng)只存儲成功經(jīng)驗(yàn),失敗同樣寶貴;提煉"為什么"比記錄"做了什么"更有價(jià)值;記憶與計(jì)算資源擴(kuò)展應(yīng)協(xié)同設(shè)計(jì)。
隨著智能體系統(tǒng)在現(xiàn)實(shí)世界中扮演越來越持久的角色,ReasoningBank代表了向"自進(jìn)化智能體系統(tǒng)"邁進(jìn)的關(guān)鍵一步。論文在結(jié)論部分指出,它為構(gòu)建適應(yīng)性和終身學(xué)習(xí)的智能體提供了一條實(shí)用路徑。也正如這篇論文標(biāo)題所示,通過"Scaling Agent Self-Evolving with Reasoning Memory",我們正逐步實(shí)現(xiàn)真正能夠從經(jīng)驗(yàn)中學(xué)習(xí)、隨時(shí)間不斷進(jìn)化的智能體系統(tǒng)。

































