環(huán)境即智能:從AgentScaler看下一代AI智能體的進(jìn)化論

大家好,我是肆〇柒。本文分享一篇來(lái)自阿里通義實(shí)驗(yàn)室(Tongyi Lab, Alibaba Group)的重要研究《Towards General Agentic Intelligence via Environment Scaling》。本文是通義 Deepresearch 發(fā)布的系列研究之一。
最令我興奮的是,在兩個(gè)月前,也就是 7 月份的社區(qū)討論中,我曾探討過(guò)關(guān)于environmental engineering的話題,如下,與此論文的一些研究方向不謀而合。

這項(xiàng)工作挑戰(zhàn)了當(dāng)前智能體開發(fā)的主流思路,將“環(huán)境”置于核心位置,為我們理解通用智能體智能的未來(lái)提供了更全面的視角。
在大模型領(lǐng)域,"數(shù)據(jù)飛輪"曾是推動(dòng)大語(yǔ)言模型崛起的核心引擎——更多數(shù)據(jù)帶來(lái)更好模型,更好模型又產(chǎn)生更多高質(zhì)量數(shù)據(jù),形成良性循環(huán)。然而,當(dāng)智能體(Agent)技術(shù)成為AI落地的關(guān)鍵環(huán)節(jié),研究者們逐漸意識(shí)到:?jiǎn)渭円蕾嚁?shù)據(jù)飛輪已不足以支撐智能體能力的持續(xù)進(jìn)化。因?yàn)橹悄荏w的核心能力在于與環(huán)境的交互,而環(huán)境的多樣性與復(fù)雜性遠(yuǎn)超靜態(tài)文本數(shù)據(jù)所能承載。
阿里通義實(shí)驗(yàn)室發(fā)布的《Towards General Agentic Intelligence via Environment Scaling》論文,為這一困境提供了一個(gè)突破性思路:將"環(huán)境規(guī)?;?作為驅(qū)動(dòng)智能體能力進(jìn)化的核心引擎。這項(xiàng)研究不僅提出了名為AgentScaler的新型智能體訓(xùn)練框架,更重要的是重新定義了智能體開發(fā)的范式——從"數(shù)據(jù)為中心"轉(zhuǎn)向"環(huán)境為中心"。下面我們一起看看這一研究的底層邏輯與技術(shù)突破,揭示環(huán)境規(guī)模化如何成為解鎖通用智能體智能的關(guān)鍵鑰匙。
環(huán)境:智能體的第一性原理
AgentScaler研究的核心洞見(jiàn)在于:智能體的本質(zhì)是與環(huán)境的交互,而非單純的語(yǔ)言生成。論文開宗明義地指出,函數(shù)調(diào)用可被解釋為對(duì)底層環(huán)境數(shù)據(jù)庫(kù)D的讀寫操作。這一視角將智能體與環(huán)境的關(guān)系抽象為數(shù)據(jù)庫(kù)操作模型,從根本上重構(gòu)了智能體開發(fā)的理論基礎(chǔ)。
在智能體數(shù)據(jù)生成方面,論文明確區(qū)分了兩種方法范式:反向范式,即先生成助手函數(shù)調(diào)用再匹配用戶查詢;正向范式,即先制定高層用戶意圖,再通過(guò)人-智能體互動(dòng)構(gòu)建數(shù)據(jù)。當(dāng)前的正向范式存在一個(gè)根本問(wèn)題:環(huán)境不可擴(kuò)展,缺乏自動(dòng)化環(huán)境構(gòu)建阻礙了大規(guī)模部署,不可避免地需要一定程度的人工干預(yù)。
與傳統(tǒng)"數(shù)據(jù)為中心"的方法(如xLAM)相比,"環(huán)境為中心"的范式具有本質(zhì)優(yōu)勢(shì)。傳統(tǒng)方法往往依賴LLM生成的合成數(shù)據(jù),這些數(shù)據(jù)雖然豐富但缺乏真實(shí)性與一致性;而AgentScaler則從環(huán)境構(gòu)建出發(fā),確保所有訓(xùn)練軌跡都源于真實(shí)的交互過(guò)程。論文明確表示,智能體的核心在于與環(huán)境交互的能力,這一理念貫穿整個(gè)研究體系。
值得注意的是,在論文中系統(tǒng)梳理了工具使用環(huán)境的三種構(gòu)建方法:真實(shí)環(huán)境直接調(diào)用實(shí)際工具,反饋?zhàn)钫鎸?shí)但成本高、穩(wěn)定性差;LLM模擬環(huán)境利用大模型生成響應(yīng),易產(chǎn)生幻覺(jué)和不一致;基于狀態(tài)配置的模擬環(huán)境通過(guò)離線執(zhí)行環(huán)境模擬工具調(diào)用,兼顧真實(shí)性與效率。AgentScaler的創(chuàng)新在于實(shí)現(xiàn)了第三種方法的自動(dòng)化與規(guī)?;?/span>,通過(guò)嚴(yán)格的基于規(guī)則的驗(yàn)證管道消除人工干預(yù),使環(huán)境構(gòu)建真正可擴(kuò)展。
可驗(yàn)證性:規(guī)模化信任的基石
AgentScaler的革命性價(jià)值在于它實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)的可驗(yàn)證性。在智能體訓(xùn)練中,最大的挑戰(zhàn)之一是如何確保合成數(shù)據(jù)的質(zhì)量與真實(shí)性。論文指出,他們實(shí)現(xiàn)了環(huán)境級(jí)和工具-參數(shù)響應(yīng)級(jí)的雙重可驗(yàn)證機(jī)制,這一特性使大規(guī)模高質(zhì)量數(shù)據(jù)生成成為可能。
具體而言,AgentScaler采用三階段漏斗式軌跡過(guò)濾框架:
- 效性控制:剔除無(wú)效交互軌跡,確保用戶-助手交換格式正確。論文特別提到,他們應(yīng)用基于n-gram的過(guò)濾程序消除嚴(yán)重重復(fù)的推理片段,這種技術(shù)確保了交互過(guò)程的邏輯連貫性。
- 環(huán)境狀態(tài)對(duì)齊:僅保留最終數(shù)據(jù)庫(kù)狀態(tài)與黃金狀態(tài)匹配的軌跡。這一階段的關(guān)鍵在于確保最終數(shù)據(jù)庫(kù)狀態(tài)與交互后的黃金狀態(tài)匹配,通過(guò)數(shù)據(jù)庫(kù)快照比對(duì)驗(yàn)證寫操作的有效性。
- 函數(shù)調(diào)用精確匹配:最嚴(yán)格的過(guò)濾階段,確保調(diào)用的工具序列與參數(shù)完全匹配。論文特別指出,由于完全由讀操作組成的工具序列會(huì)導(dǎo)致基于狀態(tài)的過(guò)濾失效,研究團(tuán)隊(duì)采用更嚴(yán)格的精確匹配方法進(jìn)行過(guò)濾。這種差異化過(guò)濾策略確保了不同場(chǎng)景下數(shù)據(jù)質(zhì)量的一致性。

ACEBench-en上兩階段訓(xùn)練模型的性能比較
這種基于確定性環(huán)境的驗(yàn)證機(jī)制,使得即使工具調(diào)用返回錯(cuò)誤,只要最終達(dá)成目標(biāo),軌跡仍可保留用于訓(xùn)練,從而增強(qiáng)模型的魯棒性。相比之下,依賴LLM模擬環(huán)境的方法難以避免幻覺(jué)問(wèn)題,其"觀測(cè)"本身可能就是錯(cuò)誤的,無(wú)法形成可靠的監(jiān)督信號(hào)。
正是這種環(huán)境狀態(tài)級(jí)和工具調(diào)用參數(shù)級(jí)的可驗(yàn)證性,為后續(xù)的"程序化物化"奠定了基礎(chǔ)。當(dāng)環(huán)境被轉(zhuǎn)化為確定性的數(shù)據(jù)庫(kù)操作,工具調(diào)用的每個(gè)環(huán)節(jié)都變得可追蹤、可驗(yàn)證,這才使得大規(guī)模高質(zhì)量智能體經(jīng)驗(yàn)的生成成為可能。
程序化物化:環(huán)境自動(dòng)化的技術(shù)突破
AgentScaler實(shí)現(xiàn)環(huán)境規(guī)模化的核心技術(shù)是"函數(shù)模式程序化物化"。這一過(guò)程將抽象的工具調(diào)用轉(zhuǎn)化為可執(zhí)行的數(shù)據(jù)庫(kù)操作,構(gòu)建了一個(gè)全自動(dòng)的"環(huán)境編譯器":
AgentScaler的環(huán)境自動(dòng)化構(gòu)建始于大規(guī)模API收集,研究團(tuán)隊(duì)從ToolBench、API-Gen和內(nèi)部工具庫(kù)中匯集了超過(guò)3萬(wàn)個(gè)API。隨后,通過(guò)參數(shù)向量化計(jì)算構(gòu)建工具依賴圖,運(yùn)用Louvain社區(qū)檢測(cè)算法將工具自動(dòng)劃分為1000多個(gè)功能域。最后,為每個(gè)功能域生成統(tǒng)一的數(shù)據(jù)庫(kù)結(jié)構(gòu),并將API函數(shù)轉(zhuǎn)化為對(duì)該結(jié)構(gòu)的讀寫操作代碼,實(shí)現(xiàn)從自然語(yǔ)言接口到確定性狀態(tài)機(jī)的完整轉(zhuǎn)化。


環(huán)境自動(dòng)構(gòu)建和智能體任務(wù)構(gòu)建的概述
論文特別指出,在生成τ-bench特定領(lǐng)域的數(shù)據(jù)庫(kù)結(jié)構(gòu)和形式化代碼時(shí),通過(guò)人工檢查發(fā)現(xiàn)輸出與τ-bench提供的官方實(shí)現(xiàn)高度一致,這證明了該方法的可靠性與準(zhǔn)確性。

智能體與模擬用戶交互及環(huán)境狀態(tài)變化流程
上圖生動(dòng)展示了智能體與模擬用戶的交互過(guò)程:用戶提出"Can you return my order?"的請(qǐng)求,智能體通過(guò)依次調(diào)用get_user_info、get_order_info等工具獲取必要信息,逐步推進(jìn)任務(wù)完成。這一過(guò)程完美體現(xiàn)了"函數(shù)調(diào)用可被解釋為對(duì)底層環(huán)境數(shù)據(jù)庫(kù)D的讀寫操作"的核心理念,也是驗(yàn)證環(huán)境構(gòu)建有效性的直觀證明。
這種"程序化物化"技術(shù)的意義遠(yuǎn)超單一模型訓(xùn)練——它為構(gòu)建"數(shù)字孿生"式的智能體訓(xùn)練場(chǎng)提供了標(biāo)準(zhǔn)化范式,有望催生"智能體環(huán)境即服務(wù)"(Environment-as-a-Service)的新生態(tài),使各行業(yè)能夠快速構(gòu)建符合自身需求的智能體訓(xùn)練環(huán)境。
兩階段學(xué)習(xí):能力躍遷的方法論密碼
AgentScaler的另一大創(chuàng)新是提出了兩階段智能體經(jīng)驗(yàn)學(xué)習(xí)框架,系統(tǒng)性解決了智能體訓(xùn)練中的"泛化"與"專業(yè)化"矛盾:
- 第一階段:在通用領(lǐng)域中訓(xùn)練智能體的基礎(chǔ)工具調(diào)用能力,使其理解何時(shí)及如何調(diào)用函數(shù),以及如何將工具輸出整合為連貫的用戶響應(yīng)
- 第二階段:在垂直領(lǐng)域中進(jìn)行精細(xì)化訓(xùn)練,使智能體能夠選擇恰當(dāng)工具、準(zhǔn)確填充參數(shù),并生成符合領(lǐng)域特性的響應(yīng)
這種學(xué)習(xí)路徑與人類學(xué)習(xí)規(guī)律高度一致:先建立廣泛的知識(shí)基礎(chǔ),再進(jìn)行專業(yè)深化。論文中還詳細(xì)闡述了兩階段經(jīng)驗(yàn)學(xué)習(xí)的理論基礎(chǔ)。第一階段聚焦于通用領(lǐng)域,使智能體發(fā)展對(duì)何時(shí)及如何調(diào)用函數(shù),以及如何將工具輸出整合為連貫的用戶響應(yīng)的穩(wěn)健理解。這一階段強(qiáng)調(diào)廣度和通用性,確保智能體在領(lǐng)域?qū)I(yè)化前建立多功能的智能體行為基礎(chǔ)。
第二階段則在垂直領(lǐng)域進(jìn)行精細(xì)化訓(xùn)練,通過(guò)將學(xué)習(xí)過(guò)程扎根于目標(biāo)領(lǐng)域內(nèi)的真實(shí)場(chǎng)景,智能體精煉其選擇工具、參數(shù)化調(diào)用和生成準(zhǔn)確、上下文適當(dāng)且與領(lǐng)域特定目標(biāo)一致的響應(yīng)的能力。

實(shí)驗(yàn)數(shù)據(jù)有力支持了這一框架的有效性。如上圖所示,兩階段訓(xùn)練使AgentScaler-30B-A3B在ACEBench-en的Agent子集上得分從55.8躍升至64.1,總體得分從74.2提升至81.5。特別值得一提的是,小型Qwen3-4B模型在兩階段訓(xùn)練后,其智能體能力得分從6.7飆升至38.4,總體得分提升21.7分,證明了該方法對(duì)小模型的顯著增益。

這一方法論不僅適用于技術(shù)實(shí)現(xiàn),更具有普適性啟示:在智能體開發(fā)中,基礎(chǔ)能力與領(lǐng)域?qū)iL(zhǎng)的平衡至關(guān)重要,盲目追求領(lǐng)域特異性或通用性都可能導(dǎo)致能力缺陷。
小即是美,穩(wěn)方致遠(yuǎn):實(shí)驗(yàn)數(shù)據(jù)背后的哲學(xué)
AgentScaler的實(shí)驗(yàn)結(jié)果揭示了智能體技術(shù)發(fā)展的深層規(guī)律,挑戰(zhàn)了傳統(tǒng)認(rèn)知:
"小即是美"的勝利:AgentScaler-4B的表現(xiàn)證明,緊湊模型在智能體任務(wù)中具有巨大潛力。更令人驚訝的是,AgentScaler-30B-A3B(僅300億參數(shù))在多項(xiàng)指標(biāo)上媲美甚至超越萬(wàn)億參數(shù)閉源模型。如下表所示,在τ2-Bench的Telecom領(lǐng)域,AgentScaler-30B-A3B以96.7%的pass@1準(zhǔn)確率大幅領(lǐng)先GPT-5-think(58.2%),徹底打破了"參數(shù)規(guī)模=智能水平"的迷思。

為驗(yàn)證模型的泛化能力,研究團(tuán)隊(duì)進(jìn)一步在ACEBench-zh上進(jìn)行了評(píng)估,這是一個(gè)相對(duì)于訓(xùn)練設(shè)置的分布外(out-of-distribution, OOD)場(chǎng)景。數(shù)據(jù)顯示,AgentScaler-4B在Normal子集上得分從34.7提升至70.8(+36.1),Special子集從85.3降至70.0(-15.3),Agent子集從6.7飆升至38.4(+31.7),總體得分提升21.7分至65.6。這些結(jié)果證明,AgentScaler不僅在訓(xùn)練領(lǐng)域表現(xiàn)優(yōu)異,還能有效泛化到新語(yǔ)言環(huán)境,展現(xiàn)出強(qiáng)大的魯棒性和泛化能力。
ACEBench-zh作為分布外評(píng)估場(chǎng)景,驗(yàn)證了AgentScaler模型的泛化能力。數(shù)據(jù)顯示,AgentScaler-4B在Normal子集得分提升36.1分,Special子集略有下降但保持70.0的高分,而Agent子集得分更是從6.7飆升至38.4,總體得分提升21.7分。這表明模型不僅在訓(xùn)練領(lǐng)域表現(xiàn)優(yōu)異,還能有效適應(yīng)新語(yǔ)言環(huán)境,展現(xiàn)出強(qiáng)大的魯棒性和泛化能力。

τ2-Bench上各領(lǐng)域的pass^k指標(biāo)結(jié)果
"穩(wěn)方致遠(yuǎn)"的實(shí)踐:智能體的穩(wěn)定性問(wèn)題長(zhǎng)期被忽視,而AgentScaler通過(guò)pass^k指標(biāo)(k次獨(dú)立嘗試中均正確回答的準(zhǔn)確率)揭示了這一關(guān)鍵維度。圖4顯示,隨著k值增加,所有模型的準(zhǔn)確率都顯著下降,但AgentScaler-30B-A3B在所有k值下均優(yōu)于Qwen3基線,表明其更可靠的工業(yè)部署潛力。這一發(fā)現(xiàn)提醒業(yè)界:智能體的穩(wěn)定性與峰值性能同樣重要。
"長(zhǎng)路漫漫"的挑戰(zhàn):下圖的散點(diǎn)圖精確量化了工具調(diào)用鏈長(zhǎng)度與任務(wù)準(zhǔn)確率的關(guān)系。該圖清晰展示了工具調(diào)用鏈長(zhǎng)度與任務(wù)準(zhǔn)確率的負(fù)相關(guān)關(guān)系,散點(diǎn)分布表明隨著調(diào)用次數(shù)增加,任務(wù)完成準(zhǔn)確率呈下降趨勢(shì)。在零售領(lǐng)域,根據(jù)散點(diǎn)圖趨勢(shì)線,工具調(diào)用次數(shù)與任務(wù)準(zhǔn)確率呈負(fù)相關(guān),調(diào)用次數(shù)增加時(shí)準(zhǔn)確率呈下降趨勢(shì);航空領(lǐng)域的下降趨勢(shì)更為陡峭。這一發(fā)現(xiàn)證實(shí)了長(zhǎng)程工具調(diào)用仍是智能體模型的根本挑戰(zhàn)。

工具調(diào)用復(fù)雜度與準(zhǔn)確率關(guān)系(零售vs航空領(lǐng)域)
值得強(qiáng)調(diào)的是,論文在Limitation部分引用了Belcak等人的觀點(diǎn):"小語(yǔ)言模型是智能體AI的未來(lái)"。這一判斷與AgentScaler的實(shí)驗(yàn)結(jié)果高度一致:緊湊模型在智能體任務(wù)中展現(xiàn)出巨大潛力,不僅部署成本更低,響應(yīng)速度更快,還能在邊緣設(shè)備上運(yùn)行,實(shí)現(xiàn)更廣泛的應(yīng)用場(chǎng)景。這標(biāo)志著智能體開發(fā)范式的根本轉(zhuǎn)變——從追求參數(shù)規(guī)模到優(yōu)化訓(xùn)練范式。
開啟智能體2.0時(shí)代
AgentScaler不僅是一個(gè)模型,更是一種范式革命——它證明了通過(guò)系統(tǒng)性地規(guī)模化環(huán)境,可以 scale 智能體能力。這一研究為智能體技術(shù)的未來(lái)發(fā)展指明了方向:
首先,強(qiáng)化學(xué)習(xí)(RL)將在智能體訓(xùn)練中迎來(lái)復(fù)興。論文在"Limitation"部分明確指出,模擬環(huán)境提供穩(wěn)定低延遲的反饋,本質(zhì)上非常適合RL優(yōu)化。低成本、高保真的模擬環(huán)境將極大降低RL訓(xùn)練門檻,使智能體能夠通過(guò)試錯(cuò)學(xué)習(xí)更復(fù)雜的決策策略。
其次,垂直領(lǐng)域的智能體開發(fā)將加速普及?;谡撐拿枋龅?領(lǐng)域檢測(cè)-環(huán)境構(gòu)建-兩階段訓(xùn)練"標(biāo)準(zhǔn)化流程,各行業(yè)將能夠快速構(gòu)建符合自身需求的智能體開發(fā)套件,實(shí)現(xiàn)從通用能力到領(lǐng)域?qū)iL(zhǎng)的高效轉(zhuǎn)化。
最后,智能體評(píng)估標(biāo)準(zhǔn)將發(fā)生根本性變革。從單一的"回答準(zhǔn)確率"轉(zhuǎn)向"任務(wù)完成率"、"環(huán)境狀態(tài)改變"等更綜合的指標(biāo),將更真實(shí)地反映智能體在實(shí)際場(chǎng)景中的效能。
隨著環(huán)境構(gòu)建技術(shù)的成熟,"環(huán)境即服務(wù)"(Environment-as-a-Service)生態(tài)有望快速形成。企業(yè)無(wú)需從零開始構(gòu)建模擬環(huán)境,而是可以基于標(biāo)準(zhǔn)化的環(huán)境構(gòu)建框架,快速定制符合自身業(yè)務(wù)需求的訓(xùn)練場(chǎng)。這種模式將極大降低智能體開發(fā)門檻,正如論文結(jié)論所強(qiáng)調(diào)的:"可擴(kuò)展的環(huán)境構(gòu)建和可驗(yàn)證的智能體經(jīng)驗(yàn)對(duì)培養(yǎng)穩(wěn)健且可泛化的語(yǔ)言智能體至關(guān)重要"。未來(lái),環(huán)境構(gòu)建能力可能成為智能體技術(shù)棧中的核心基礎(chǔ)設(shè)施,催生新的產(chǎn)業(yè)分工。
論文在Limitation部分也坦誠(chéng)指出了當(dāng)前工作的局限性:盡管提出的框架已展示出良好結(jié)果,但仍存在若干局限。具體而言,方法目前僅在30B規(guī)模架構(gòu)上得到驗(yàn)證,這指明了未來(lái)擴(kuò)展方向;同時(shí),長(zhǎng)程工具調(diào)用仍是根本性挑戰(zhàn),這解釋了為何研究團(tuán)隊(duì)計(jì)劃在未來(lái)工作中解決這一問(wèn)題。
在通往通用智能體智能的路上,"Environment scale"不再是可選項(xiàng),而是必選項(xiàng)。正如論文結(jié)論所言:"可擴(kuò)展的環(huán)境構(gòu)建和可驗(yàn)證的智能體經(jīng)驗(yàn),對(duì)于培養(yǎng)穩(wěn)健且可泛化的語(yǔ)言智能體至關(guān)重要。"當(dāng)環(huán)境成為智能的土壤,而非智能的邊界,我們或?qū)⒁?jiàn)證AI從"語(yǔ)言理解"邁向"真實(shí)行動(dòng)"的歷史性跨越——這不僅是技術(shù)的演進(jìn),更是智能本質(zhì)的重新定義。





















