偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="titcv"><p id="titcv"><li id="titcv"></li></p></sub>

<acronym id="titcv"></acronym>

<blockquote id="titcv"><i id="titcv"></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

首個(gè)代碼世界模型引爆AI圈，能讓智能體學(xué)會(huì)「真推理」，Meta開源

2025-09-25 12:42:33

人工智能新聞

Meta?重組后的 AI 部門推出的首個(gè)重磅研究，是一個(gè)世界模型，用來寫代碼的。

大模型的架構(gòu)，要徹底進(jìn)化了？

昨晚開始，AI 圈都在研究一個(gè)神奇的新物種 ——Code World Model（CWM）。

Meta 重組后的 AI 部門推出的首個(gè)重磅研究，是一個(gè)世界模型，用來寫代碼的。

它和「?jìng)鹘y(tǒng)」的大語言模型（LLM）思路不同，理論是這樣的：

當(dāng)人類進(jìn)行計(jì)劃時(shí)，我們會(huì)在腦海中想象不同行動(dòng)可能帶來的結(jié)果。當(dāng)我們推理代碼時(shí)，我們會(huì)在心中模擬其部分執(zhí)行過程。當(dāng)前一代的大語言模型在這方面表現(xiàn)不佳，往往難以做到真正的推理和模擬。那么，一個(gè)經(jīng)過顯式訓(xùn)練的代碼世界模型（Code World Model）是不是能夠開啟新的研究方向呢？

Meta 剛發(fā)布的這個(gè) CWM，是一個(gè) 320 億參數(shù)的開放權(quán)重 LLM，以推動(dòng)基于世界模型的代碼生成研究。

CWM 是一個(gè)稠密的、僅解碼器結(jié)構(gòu)的 LLM，支持最長(zhǎng) 131k tokens 的上下文長(zhǎng)度。獨(dú)立于其世界建模能力，CWM 在通用編程與數(shù)學(xué)任務(wù)上表現(xiàn)出強(qiáng)大性能：

SWE-bench Verified（含測(cè)試時(shí)擴(kuò)展）：pass@1 65.8%
LiveCodeBench：68.6%
Math-500：96.6%
AIME 2024：76.0%

可見，雖然 CWM 的絕對(duì)性能還不算太高，但它在 30B 級(jí)別模型的橫向?qū)Ρ壬闲阅芤阉悴诲e(cuò)。

SWE-bench Verified pass@1 分?jǐn)?shù)

為了提升代碼理解能力，而不僅僅局限于從靜態(tài)代碼訓(xùn)練中學(xué)習(xí)，Meta FAIR CodeGen 團(tuán)隊(duì)在 Python 解釋器和智能體式 Docker 環(huán)境中使用了大量觀測(cè) - 動(dòng)作軌跡進(jìn)行中間訓(xùn)練（mid-train），并在可驗(yàn)證編碼、數(shù)學(xué)和多輪軟件工程環(huán)境中進(jìn)行了大規(guī)模多任務(wù)推理強(qiáng)化學(xué)習(xí)（RL）。

為支持進(jìn)一步的代碼世界建模研究，Meta 開放了模型在中間訓(xùn)練（mid-training）、SFT 和 RL 階段的檢查點(diǎn)。

論文標(biāo)題：CWM: An Open-Weights LLM for Research on Code Generation with World Models
論文鏈接：https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
模型權(quán)重：https://ai.meta.com/resources/models-and-libraries/cwm-downloads/
HuggingFace：https://huggingface.co/facebook/cwm

借助 CWM，Meta 提出了一個(gè)強(qiáng)大的測(cè)試平臺(tái)，以探索世界建模在改進(jìn)代碼生成時(shí)的推理與規(guī)劃能力方面的機(jī)會(huì)。

該研究展示了世界模型如何有益于智能體式編碼，使得 Python 代碼執(zhí)行能夠逐步模擬，并展示了推理如何從這種模擬中受益的早期結(jié)果。

在該研究中，Meta 似乎從傳統(tǒng)開發(fā)的過程中汲取了靈感。優(yōu)秀程序員會(huì)在上手寫代碼之前先在腦內(nèi)推演，而現(xiàn)在基于大語言模型的代碼生成工具，是在基于海量數(shù)據(jù)生成對(duì)相關(guān)代碼的「模仿」?？雌饋硐袷菍?duì)的，和真正理解寫出的代碼之間總會(huì)有點(diǎn) gap。

一個(gè)明確訓(xùn)練的代碼世界模型，應(yīng)該能夠預(yù)測(cè)自己行為的后果，進(jìn)而作出判斷實(shí)現(xiàn)有效的決策。

有一個(gè)很有意思的例子，大模型總是會(huì)犯些低級(jí)錯(cuò)誤，比如數(shù)不清楚「strawberry」里有幾個(gè)「r」。

而采用 CWM，就可以對(duì)一段統(tǒng)計(jì) "strawberry" 中字母 "r" 的代碼執(zhí)行過程進(jìn)行追蹤?？梢詫⑵漕惐葹橐粋€(gè)神經(jīng)版的 pdb —— 你可以將其設(shè)置在任意初始幀狀態(tài)下，然后推理過程就能夠在 token 空間中調(diào)用這一工具來進(jìn)行查詢。

CWM 的 Python 跟蹤格式。在給定源代碼上下文與跟蹤起始點(diǎn)標(biāo)記的情況下，CWM 預(yù)測(cè)一系列的調(diào)用棧幀，表示程序狀態(tài)及相應(yīng)的執(zhí)行動(dòng)作。

CWM 模型基于大量編碼數(shù)據(jù)和定制的 Python + Bash 世界建模數(shù)據(jù)進(jìn)行訓(xùn)練，使其能夠模擬 Python 函數(shù)的執(zhí)行以及 Bash 環(huán)境中的智能體交互。

在 Meta 進(jìn)行的更多實(shí)驗(yàn)中，CWM 在有無測(cè)試時(shí)擴(kuò)展（tts）的情況下均達(dá)到了同類最佳性能，分別取得了 65.8% 和 53.9% 的成績(jī)。需要注意的是，GPT-oss 的分?jǐn)?shù)是基于 500 道題中的 477 道子集計(jì)算得出的。

CWM 與基線模型在 Aider Polyglot 上的結(jié)果，取自官方排行榜。

在 SWE-bench Verified 上，結(jié)合本文提出的 best@k 方法與多數(shù)投票（majority voting）的測(cè)試時(shí)擴(kuò)展（TTS），能夠顯著提升 CWM 的 pass@1 得分，如圖（a）所示。

在 Aider Polyglot 基準(zhǔn)上，采用整文件編輯格式（whole file edit format）時(shí)，CWM 在不同編程語言上的準(zhǔn)確率表現(xiàn)如圖（b）所示。

Terminal-Bench 上 CWM 與各基線模型的結(jié)果，取自官方排行榜。

BigOBench 結(jié)果

在時(shí)間與空間復(fù)雜度的預(yù)測(cè)和生成兩類任務(wù)上，將 CWM 與 Qwen3-32B（帶推理能力）、Qwen3-coder-30B 以及 Gemma-3-27B 進(jìn)行了對(duì)比。在時(shí)間復(fù)雜度預(yù)測(cè)與生成的全部指標(biāo)上，CWM 均超越了基線模型。在空間復(fù)雜度生成方面，CWM 在僅代碼模式下的 pass@1 上取得最佳成績(jī)，并在其余指標(biāo)中排名第二。

Meta 團(tuán)隊(duì)的愿景是讓代碼世界模型彌合語言層面的推理與可執(zhí)行語義之間的鴻溝。

消融實(shí)驗(yàn)已經(jīng)表明，世界建模數(shù)據(jù)、Python 執(zhí)行軌跡以及可執(zhí)行的 Docker 環(huán)境，能夠直接提升下游任務(wù)表現(xiàn)。更廣泛地說，CWM 提供了一個(gè)強(qiáng)有力的試驗(yàn)平臺(tái)，支持未來在零樣本規(guī)劃、具身的鏈?zhǔn)剿季S、以及稀疏且可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)等方向的研究。

世界模型應(yīng)當(dāng)能夠改進(jìn)強(qiáng)化學(xué)習(xí)，因?yàn)槟切┮呀?jīng)熟悉環(huán)境動(dòng)態(tài)的智能體，可以更專注于學(xué)習(xí)哪些動(dòng)作能夠帶來獎(jiǎng)勵(lì)。盡管如此，要在預(yù)訓(xùn)練階段跨任務(wù)地持續(xù)發(fā)揮世界模型的優(yōu)勢(shì)，仍需要進(jìn)一步研究。最終，能夠推理自身動(dòng)作后果的模型，將在與環(huán)境的交互中更為高效，并有望擴(kuò)展其能夠處理的任務(wù)復(fù)雜度。

更多細(xì)節(jié)，請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<big id="bx6nv"><code id="bx6nv"><rp id="bx6nv"></rp></code></big>

^{<thead id="bx6nv"></thead>}