AI牛馬實(shí)現(xiàn)“干中學(xué)”!上海AI Lab聯(lián)合推出智能體自我進(jìn)化新框架
在人工智能的廣闊世界里,我們?cè)缫蚜?xí)慣了LLM智能體在各種任務(wù)中大放異彩。但有沒(méi)有那么一瞬間,你覺(jué)得這些AI“牛馬”還是缺了點(diǎn)什么?
沒(méi)錯(cuò),它們?nèi)鄙俚氖俏覀內(nèi)祟愖顚氋F的職場(chǎng)技能:經(jīng)驗(yàn)的積累和持續(xù)的自我進(jìn)化。
想象一下:你入職第一天,對(duì)公司一無(wú)所知,只能依靠在學(xué)校中學(xué)習(xí)到的知識(shí),工作中犯了錯(cuò)也無(wú)法吸取教訓(xùn),第二次遇到同樣的問(wèn)題,你還得從頭再來(lái)。聽(tīng)起來(lái)是不是很像一個(gè)會(huì)失憶的工具人?這就是現(xiàn)有LLM智能體在處理現(xiàn)實(shí)世界“長(zhǎng)程任務(wù)”(Long-Horizon Tasks)時(shí)面臨的巨大挑戰(zhàn)。
為了徹底解決這一“職場(chǎng)尷尬”,來(lái)自上海人工智能實(shí)驗(yàn)室及合作機(jī)構(gòu)的研究者們,提出了一套全新的智能體框架——MUSE(Memory-Utilizing and Self-Evolving,記憶利用和自我演化),讓智能體在“職場(chǎng)”中不斷進(jìn)化,成為真正的“職場(chǎng)新星”,實(shí)現(xiàn)“干中學(xué)”(Learning on the Job)。

下面的視頻展現(xiàn)了一個(gè)模擬人類項(xiàng)目經(jīng)理對(duì)公司項(xiàng)目issue進(jìn)行管理的例子,可以看到MUSE在包括GitLab,Plane在內(nèi)的多個(gè)軟件平臺(tái)來(lái)回跳轉(zhuǎn)操作,最終在沒(méi)有任何人類介入的情況下完成了這個(gè)任務(wù)。

目前, MUSE的論文與代碼已經(jīng)完成了開(kāi)源(鏈接見(jiàn)文末)。
MUSE:三步走,打造AI“職場(chǎng)新星”
MUSE的核心理念,是為L(zhǎng)LM智能體構(gòu)建一個(gè)“經(jīng)驗(yàn)驅(qū)動(dòng)、自我演化”的閉環(huán)系統(tǒng),用“測(cè)試時(shí)學(xué)習(xí)”范式一次性解決“靜態(tài)參數(shù) + 無(wú)法進(jìn)化 + 長(zhǎng)程任務(wù)”三大痛點(diǎn)。
這個(gè)系統(tǒng)圍繞一個(gè)分層記憶模塊(Hierarchical Memory Module)展開(kāi)。簡(jiǎn)單來(lái)說(shuō),MUSE讓智能體像人類一樣:先做、再反思、然后進(jìn)化。
△MUSE框架
第一步:告別“健忘癥”——分層記憶模塊(Memory Module)
傳統(tǒng)LLM智能體之所以被稱為“失憶的執(zhí)行者”,就是因?yàn)樗鼈儧](méi)有長(zhǎng)期記憶,無(wú)法保留和應(yīng)用歷史知識(shí)。而MUSE 框架為智能體裝上了“大腦中樞”——一個(gè)能組織不同層級(jí)經(jīng)驗(yàn)的記憶模塊。這些經(jīng)驗(yàn)包括:
Strategic Memory:保存“困境-策略”對(duì),全局加載到系統(tǒng)提示,指導(dǎo)宏觀行為范式。
Procedural Memory:按“應(yīng)用→SOP 索引→詳細(xì)步驟”三級(jí)組織,成功子任務(wù)軌跡實(shí)時(shí)沉淀為自然語(yǔ)言標(biāo)準(zhǔn)作業(yè)程序;輕量級(jí)索引常駐上下文,詳情按需檢索。
Tool Memory:靜態(tài)描述 + 動(dòng)態(tài)指令雙組件,為每個(gè)基礎(chǔ)工具提供“肌肉記憶”,用后立即更新。
MUSE能夠利用這些經(jīng)驗(yàn)來(lái)規(guī)劃和執(zhí)行跨應(yīng)用的復(fù)雜任務(wù),從而解決現(xiàn)有智能體在動(dòng)態(tài)規(guī)劃、經(jīng)驗(yàn)積累和持續(xù)學(xué)習(xí)方面的難題。
第二步:“事后諸葛亮”——自主反思(Self-Reflection)
這是MUSE最“類人”的機(jī)制。在每完成一個(gè)子任務(wù)之后,MUSE的智能體不會(huì)立即進(jìn)行下一個(gè)任務(wù),而是會(huì)自主地對(duì)它的執(zhí)行軌跡進(jìn)行反思。
這種反思機(jī)制,就像是AI在給自己做“工作總結(jié)與復(fù)盤”。
它會(huì)評(píng)估子任務(wù)的執(zhí)行結(jié)果: 成功了還是失敗了?
它會(huì)把原始的執(zhí)行軌跡(Raw Trajectory)自動(dòng)轉(zhuǎn)化為結(jié)構(gòu)化的經(jīng)驗(yàn)(Structured Experience)。如果成功,就會(huì)提煉出高效的操作序列作為新的 SOP(標(biāo)準(zhǔn)操作程序)。
它甚至擁有“第二次機(jī)會(huì)”機(jī)制: 如果第一次嘗試失敗,它有一次重試機(jī)會(huì)(無(wú)需檢索,鼓勵(lì)探索),如果再次失敗,才會(huì)觸發(fā)重新規(guī)劃。
第三步:超越“靜態(tài)參數(shù)”——持續(xù)自我演化(Self-Evolution)
通過(guò)持續(xù)的“規(guī)劃 → 執(zhí)行 → 反思 → 提取經(jīng)驗(yàn)”的四步閉環(huán)循環(huán),MUSE 實(shí)現(xiàn)了真正的自我演化。
這些積累的經(jīng)驗(yàn)會(huì)被整合回記憶模塊,不斷優(yōu)化智能體未來(lái)的規(guī)劃和執(zhí)行策略。這意味著:MUSE的性能會(huì)隨著它自主積累的經(jīng)驗(yàn)越來(lái)越多而持續(xù)提高。
實(shí)驗(yàn)結(jié)果:智能體的“職場(chǎng)”表現(xiàn)
MUSE 框架在一系列實(shí)驗(yàn)中展示了令人振奮的能力:
- SOTA表現(xiàn)和降維打擊在專為長(zhǎng)期生產(chǎn)力任務(wù)設(shè)計(jì)的基準(zhǔn)測(cè)試TAC (TheAgentCompany) 上,MUSE取得了顯著的SOTA性能。最令人驚訝的是,MUSE僅使用輕量級(jí)的Gemini-2.5 Flash模型,就擊敗了使用更大模型(Claude Sonnet 4)的現(xiàn)有SOTA方法, 在TAC的指標(biāo)上首次突破50%大關(guān),達(dá)到51.78%。這證明了 “經(jīng)驗(yàn)驅(qū)動(dòng)的自我演化機(jī)制”具有良好的前景。


- 持續(xù)進(jìn)化面對(duì)重復(fù)任務(wù),智能體孰能生巧,一次比一次做得更好,再也不是職場(chǎng)小白啦。

- 強(qiáng)大的泛化能力MUSE積累的經(jīng)驗(yàn)具備強(qiáng)大的泛化特性,即使在全新的、從未見(jiàn)過(guò)的任務(wù)上,它也能實(shí)現(xiàn)零樣本改進(jìn)(Zero-shot Improvement)。

- 可遷移性將閉源模型收集到的經(jīng)驗(yàn)遷移到開(kāi)源模型DeepSeek-V3上,可以幫助DeepSeek-V3在一眾開(kāi)源模型中成為SOTA。

效果展示:智能體的工作日常
智能體創(chuàng)建多人聊天群組,同時(shí)向三位同事詢問(wèn)信息,顯著簡(jiǎn)化信息收集流程:

智能體跨越多個(gè)平臺(tái)(rocketchat,gitlab等)依次與三位同事溝通,執(zhí)行了超過(guò)100個(gè)步驟,最終圓滿完成復(fù)雜任務(wù):

未來(lái)展望:AI的“職場(chǎng)”潛力
MUSE框架的出現(xiàn),標(biāo)志著AI智能體已經(jīng)邁入了“經(jīng)驗(yàn)驅(qū)動(dòng)的終身學(xué)習(xí)”新階段。它超越了傳統(tǒng)的“測(cè)試時(shí)靜態(tài)”模式,展示了AI在長(zhǎng)程任務(wù)中的巨大潛力,為實(shí)現(xiàn)更具適應(yīng)性和智能化的AI“職場(chǎng)打工人”奠定了堅(jiān)實(shí)基礎(chǔ)。展望未來(lái),有什么辦法能讓AI打工人實(shí)現(xiàn)進(jìn)一步的提升呢?
1. 告別“失憶”,優(yōu)化記憶
- 強(qiáng)化檢索與整合: 盡管 MUSE 能夠自動(dòng)將原始軌跡轉(zhuǎn)化為結(jié)構(gòu)化、可重復(fù)使用的知識(shí)(SOP)并整合到記憶模塊中,但如何更高效地檢索(Retrieval)相關(guān)經(jīng)驗(yàn),并確保新舊知識(shí)的無(wú)縫整合(Integration),是下一步優(yōu)化的關(guān)鍵。
- 長(zhǎng)效性和持續(xù)性: 如何確保記憶模塊能夠?qū)崿F(xiàn)真正的終身、持續(xù)學(xué)習(xí),防止舊知識(shí)被不恰當(dāng)?shù)剡z忘或覆蓋,從而在海量經(jīng)驗(yàn)中保持性能的穩(wěn)定提升,將是需要持續(xù)深耕的方向。
2. 豐富經(jīng)驗(yàn)來(lái)源,打造多維度的“職場(chǎng)導(dǎo)師”
引入人類智慧: 展望未來(lái)的研究方向,可以將人類反饋(Human Feedback)和人類示范(Demonstrations)集成到記憶系統(tǒng)中。就像職場(chǎng)新人通過(guò)觀看導(dǎo)師操作(示范)和聽(tīng)取指導(dǎo)(反饋)來(lái)快速成長(zhǎng)一樣,這將大大加速 AI 智能體的學(xué)習(xí)效率和能力邊界。
3. 完善評(píng)估體系,助力 AI 職場(chǎng)“公平競(jìng)爭(zhēng)”
- 長(zhǎng)期評(píng)估標(biāo)準(zhǔn): 需要?jiǎng)?chuàng)建更全面的、專門用于長(zhǎng)期任務(wù)評(píng)估的基準(zhǔn)。
- 多維度能力考察: 評(píng)估不僅要關(guān)注任務(wù)的成功率,還要衡量智能體的記憶保留能力、技能遷移能力以及主動(dòng)決策能力,確保其能夠像一個(gè)真正的終身學(xué)習(xí)者一樣持續(xù)發(fā)展。
Arxiv:https://arxiv.org/abs/2510.08002
GitHub:https://github.com/KnowledgeXLab/MUSE


































