首個(gè)代碼世界模型引爆AI圈,能讓智能體學(xué)會(huì)「真推理」,Meta開源
大模型的架構(gòu),要徹底進(jìn)化了?
昨晚開始,AI 圈都在研究一個(gè)神奇的新物種 ——Code World Model(CWM)。

Meta 重組后的 AI 部門推出的首個(gè)重磅研究,是一個(gè)世界模型,用來寫代碼的。

它和「?jìng)鹘y(tǒng)」的大語言模型(LLM)思路不同,理論是這樣的:
當(dāng)人類進(jìn)行計(jì)劃時(shí),我們會(huì)在腦海中想象不同行動(dòng)可能帶來的結(jié)果。當(dāng)我們推理代碼時(shí),我們會(huì)在心中模擬其部分執(zhí)行過程。當(dāng)前一代的大語言模型在這方面表現(xiàn)不佳,往往難以做到真正的推理和模擬。那么,一個(gè)經(jīng)過顯式訓(xùn)練的代碼世界模型(Code World Model)是不是能夠開啟新的研究方向呢?

Meta 剛發(fā)布的這個(gè) CWM,是一個(gè) 320 億參數(shù)的開放權(quán)重 LLM,以推動(dòng)基于世界模型的代碼生成研究。
CWM 是一個(gè)稠密的、僅解碼器結(jié)構(gòu)的 LLM,支持最長(zhǎng) 131k tokens 的上下文長(zhǎng)度。獨(dú)立于其世界建模能力,CWM 在通用編程與數(shù)學(xué)任務(wù)上表現(xiàn)出強(qiáng)大性能:
- SWE-bench Verified(含測(cè)試時(shí)擴(kuò)展):pass@1 65.8%
- LiveCodeBench:68.6%
- Math-500:96.6%
- AIME 2024:76.0%

可見,雖然 CWM 的絕對(duì)性能還不算太高,但它在 30B 級(jí)別模型的橫向?qū)Ρ壬闲阅芤阉悴诲e(cuò)。

SWE-bench Verified pass@1 分?jǐn)?shù)
為了提升代碼理解能力,而不僅僅局限于從靜態(tài)代碼訓(xùn)練中學(xué)習(xí),Meta FAIR CodeGen 團(tuán)隊(duì)在 Python 解釋器和智能體式 Docker 環(huán)境中使用了大量觀測(cè) - 動(dòng)作軌跡進(jìn)行中間訓(xùn)練(mid-train),并在可驗(yàn)證編碼、數(shù)學(xué)和多輪軟件工程環(huán)境中進(jìn)行了大規(guī)模多任務(wù)推理強(qiáng)化學(xué)習(xí)(RL)。
為支持進(jìn)一步的代碼世界建模研究,Meta 開放了模型在 中間訓(xùn)練(mid-training)、SFT 和 RL 階段的檢查點(diǎn)。

- 論文標(biāo)題:CWM: An Open-Weights LLM for Research on Code Generation with World Models
- 論文鏈接:https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
- 模型權(quán)重:https://ai.meta.com/resources/models-and-libraries/cwm-downloads/
- HuggingFace:https://huggingface.co/facebook/cwm
借助 CWM,Meta 提出了一個(gè)強(qiáng)大的測(cè)試平臺(tái),以探索世界建模在改進(jìn)代碼生成時(shí)的推理與規(guī)劃能力方面的機(jī)會(huì)。
該研究展示了世界模型如何有益于智能體式編碼,使得 Python 代碼執(zhí)行能夠逐步模擬,并展示了推理如何從這種模擬中受益的早期結(jié)果。
在該研究中,Meta 似乎從傳統(tǒng)開發(fā)的過程中汲取了靈感。優(yōu)秀程序員會(huì)在上手寫代碼之前先在腦內(nèi)推演,而現(xiàn)在基于大語言模型的代碼生成工具,是在基于海量數(shù)據(jù)生成對(duì)相關(guān)代碼的「模仿」??雌饋硐袷菍?duì)的,和真正理解寫出的代碼之間總會(huì)有點(diǎn) gap。
一個(gè)明確訓(xùn)練的代碼世界模型,應(yīng)該能夠預(yù)測(cè)自己行為的后果,進(jìn)而作出判斷實(shí)現(xiàn)有效的決策。
有一個(gè)很有意思的例子,大模型總是會(huì)犯些低級(jí)錯(cuò)誤,比如數(shù)不清楚「strawberry」里有幾個(gè)「r」。
而采用 CWM,就可以對(duì)一段統(tǒng)計(jì) "strawberry" 中字母 "r" 的代碼執(zhí)行過程進(jìn)行追蹤??梢詫⑵漕惐葹橐粋€(gè)神經(jīng)版的 pdb —— 你可以將其設(shè)置在任意初始幀狀態(tài)下,然后推理過程就能夠在 token 空間中調(diào)用這一工具來進(jìn)行查詢。

CWM 的 Python 跟蹤格式。 在給定源代碼上下文與跟蹤起始點(diǎn)標(biāo)記的情況下,CWM 預(yù)測(cè)一系列的調(diào)用棧幀,表示程序狀態(tài)及相應(yīng)的執(zhí)行動(dòng)作。
CWM 模型基于大量編碼數(shù)據(jù)和定制的 Python + Bash 世界建模數(shù)據(jù)進(jìn)行訓(xùn)練,使其能夠模擬 Python 函數(shù)的執(zhí)行以及 Bash 環(huán)境中的智能體交互。

在 Meta 進(jìn)行的更多實(shí)驗(yàn)中,CWM 在有無測(cè)試時(shí)擴(kuò)展(tts)的情況下均達(dá)到了同類最佳性能,分別取得了 65.8% 和 53.9% 的成績(jī)。需要注意的是,GPT-oss 的分?jǐn)?shù)是基于 500 道題中的 477 道子集計(jì)算得出的。

CWM 與基線模型在 Aider Polyglot 上的結(jié)果,取自官方排行榜。

在 SWE-bench Verified 上,結(jié)合本文提出的 best@k 方法與多數(shù)投票(majority voting)的測(cè)試時(shí)擴(kuò)展(TTS),能夠顯著提升 CWM 的 pass@1 得分,如圖(a)所示。
在 Aider Polyglot 基準(zhǔn)上,采用整文件編輯格式(whole file edit format)時(shí),CWM 在不同編程語言上的準(zhǔn)確率表現(xiàn)如圖(b)所示。

Terminal-Bench 上 CWM 與各基線模型的結(jié)果,取自官方排行榜。

BigOBench 結(jié)果
在時(shí)間與空間復(fù)雜度的預(yù)測(cè)和生成兩類任務(wù)上,將 CWM 與 Qwen3-32B(帶推理能力)、Qwen3-coder-30B 以及 Gemma-3-27B 進(jìn)行了對(duì)比。在時(shí)間復(fù)雜度預(yù)測(cè)與生成的全部指標(biāo)上,CWM 均超越了基線模型。在空間復(fù)雜度生成方面,CWM 在僅代碼模式下的 pass@1 上取得最佳成績(jī),并在其余指標(biāo)中排名第二。
Meta 團(tuán)隊(duì)的愿景是讓代碼世界模型彌合語言層面的推理與可執(zhí)行語義之間的鴻溝。
消融實(shí)驗(yàn)已經(jīng)表明,世界建模數(shù)據(jù)、Python 執(zhí)行軌跡以及可執(zhí)行的 Docker 環(huán)境,能夠直接提升下游任務(wù)表現(xiàn)。更廣泛地說,CWM 提供了一個(gè)強(qiáng)有力的試驗(yàn)平臺(tái),支持未來在零樣本規(guī)劃、具身的鏈?zhǔn)剿季S、以及稀疏且可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)等方向的研究。
世界模型應(yīng)當(dāng)能夠改進(jìn)強(qiáng)化學(xué)習(xí),因?yàn)槟切┮呀?jīng)熟悉環(huán)境動(dòng)態(tài)的智能體,可以更專注于學(xué)習(xí)哪些動(dòng)作能夠帶來獎(jiǎng)勵(lì)。盡管如此,要在預(yù)訓(xùn)練階段跨任務(wù)地持續(xù)發(fā)揮世界模型的優(yōu)勢(shì),仍需要進(jìn)一步研究。最終,能夠推理自身動(dòng)作后果的模型,將在與環(huán)境的交互中更為高效,并有望擴(kuò)展其能夠處理的任務(wù)復(fù)雜度。
更多細(xì)節(jié),請(qǐng)參閱原論文。





































