偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Code World Model (CWM):用世界模型改善代碼生成的開源大語言模型

人工智能
CWM是一個僅解碼器的密集型LLM,支持最大131k上下文長度訓練。在通用代碼和數(shù)學任務(wù)中表現(xiàn)優(yōu)異:在?SWE-bench Verified?達到65.8% pass@1,在?LiveCodeBench?達到68.6%,在?Math-500?上達到96.6%,在?AIME 2024?上達到76%。

Meta發(fā)布了 Code World Model (CWM,論文:CWM: An Open-Weights LLM for Research on Code Generation with World Models),一個擁有32B參數(shù)的開源大語言模型(LLM),旨在推動基于世界模型的代碼生成研究。與傳統(tǒng)僅從靜態(tài)代碼訓練的模型不同,CWM在大規(guī)模 Python解釋器執(zhí)行軌跡 和 agent性Docker環(huán)境交互軌跡 上進行中期訓練,并在可驗證編碼、數(shù)學和多輪軟件工程環(huán)境中進行多任務(wù)強化學習(RL)。CWM為研究者提供了探索世界建模在代碼生成中通過推理和規(guī)劃提升能力的強大平臺。

圖片圖片

CWM是一個僅解碼器的密集型LLM,支持最大131k上下文長度訓練。在通用代碼和數(shù)學任務(wù)中表現(xiàn)優(yōu)異:在 SWE-bench Verified 達到65.8% pass@1,在 LiveCodeBench 達到68.6%,在 Math-500 上達到96.6%,在 AIME 2024 上達到76%。論文同時發(fā)布了中期訓練、SFT和RL階段的模型檢查點,支持研究者進一步探索代碼世界模型。

圖片圖片

軟件開發(fā)是LLM應(yīng)用最活躍的領(lǐng)域之一。從生成小片段代碼到自主編寫完整代碼庫,LLM能力正在迅速提升。然而,高質(zhì)量代碼的可靠生成仍然具有挑戰(zhàn)性。推動代碼生成的進步,需要新的訓練和建模范式。

傳統(tǒng)預(yù)訓練中,代碼被視為文本,模型通過逐行預(yù)測學習語法特征。但掌握編程還需要理解代碼執(zhí)行時的行為:局部變量變化、程序輸出影響等。CWM旨在教授模型這種 代碼世界建模能力。

論文通過兩類觀察-動作軌跡進行中期訓練:Python代碼執(zhí)行軌跡:動作是Python語句,觀察是局部變量的狀態(tài)。模型學習代碼的語義,而不僅是語法;Docker環(huán)境中agent性交互軌跡:使用ForagerAgent生成,涵蓋軟件工程場景,如修復(fù)錯誤或?qū)崿F(xiàn)功能。動作包括shell命令或代碼編輯,觀察是環(huán)境響應(yīng)。

CWM采用32B參數(shù)密集型解碼器Transformer架構(gòu),支持滑動窗口注意力和131k最大上下文長度。其在各種代碼和推理任務(wù)中表現(xiàn)優(yōu)異,也為探索基于世界模型的推理和規(guī)劃提供了基礎(chǔ)。

編碼世界模型數(shù)據(jù)集

CWM在預(yù)訓練、中期訓練和后期訓練階段使用了多樣數(shù)據(jù)集,重點是 Python執(zhí)行軌跡 和 ForagerAgent交互數(shù)據(jù)。

可執(zhí)行存儲庫映像:論文構(gòu)建了 Docker容器存儲庫映像,支持隔離和可重復(fù)執(zhí)行存儲庫代碼和測試。通過RepoAgent和Actiw流程,論文創(chuàng)建了超過 35k個可執(zhí)行存儲庫映像,保證了大規(guī)模的Python執(zhí)行數(shù)據(jù)收集。

圖片圖片

Python跟蹤:論文收集函數(shù)級和倉庫級Python執(zhí)行跟蹤,捕獲每行代碼執(zhí)行后的局部變量狀態(tài)。數(shù)據(jù)來源包括:

?函數(shù)級跟蹤:從在線函數(shù)數(shù)據(jù)集收集,結(jié)合模糊測試和LLM生成輸入輸出對,最終超過 120M條跟蹤。

?CodeContests解決方案跟蹤:生成編程競賽問題的Python解決方案,經(jīng)過篩選和單元測試驗證,最終保留約 33k代碼片段和70k跟蹤。

?倉庫級跟蹤:對超過21k可跟蹤倉庫映像進行跟蹤,最終生成約 70k提交記錄。

論文還生成 自然語言跟蹤數(shù)據(jù),將代碼執(zhí)行逐步解釋為自然語言描述,便于知識遷移和推理任務(wù)訓練。

圖片圖片

ForagerAgent是一個LLM驅(qū)動的軟件工程agent,與計算環(huán)境交互,生成大規(guī)模agent數(shù)據(jù)。任務(wù)分為:

1.Mutate-Fix任務(wù):在已有代碼庫中引入合成錯誤,讓agent修復(fù)。

2.問題修復(fù)任務(wù):使用實際GitHub問題和PR數(shù)據(jù),讓agent修復(fù)真實軟件問題。

通過近似去重處理,最終收集 3M條軌跡,用于中期訓練,增強模型對agent交互和代碼環(huán)境的理解。

代碼世界建模示例

CWM能夠逐行模擬Python代碼執(zhí)行,并結(jié)合環(huán)境反饋進行推理。例如,在編程競賽問題中,CWM先生成初步解決方案,再通過輸入-輸出對驗證正確性,并修正預(yù)測結(jié)果。這種能力展示了 世界模型在agent性編碼和推理中的潛力。

圖片圖片

論文還探索了將執(zhí)行跟蹤預(yù)測集成到自然語言推理中,使模型無需訪問實時環(huán)境即可進行穩(wěn)固推理,未來可用于創(chuàng)建“神經(jīng)調(diào)試器”,支持程序驗證、調(diào)試和生成的狀態(tài)抽象表示。

架構(gòu)與訓練

模型架構(gòu):CWM是 32B參數(shù)的稠密解碼器模型,采用交錯局部和全局注意力塊,滑動窗口注意力支持131k上下文長度。使用SwiGLU激活、RMSNorm和旋轉(zhuǎn)位置編碼(RoPE),支持長上下文建模。

圖片圖片

兩階段預(yù)訓練:通用預(yù)訓練:多來源數(shù)據(jù),包括編碼、STEM和一般知識;中期訓練代碼世界模型:加入Python執(zhí)行軌跡和ForagerAgent數(shù)據(jù),中期訓練是教授代碼世界建模能力的關(guān)鍵階段。

中期訓練數(shù)據(jù)混合中,CWM特定數(shù)據(jù)占30%,通用代碼占40%,預(yù)訓練復(fù)習占30%,并通過多epoch訓練優(yōu)化下游性能。

后訓練:SFT與RL

SFT:CWM在 監(jiān)督微調(diào)(SFT) 階段訓練,以提高推理能力和指令跟隨能力,使用多樣化內(nèi)部數(shù)據(jù)和開放訪問數(shù)據(jù),包括agent交互軌跡和推理數(shù)據(jù)集。引入推理token,使模型可切換推理模式。

RL算法:論文采用 Group Relative Policy Optimization (GRPO)變體,支持 多輪RL 和 異步RL,結(jié)合多任務(wù)、多回合強化學習,進一步提升CWM在復(fù)雜代碼任務(wù)中的能力。

圖片圖片

責任編輯:武曉燕 來源: AI帝國
相關(guān)推薦

2025-09-28 07:28:06

2025-01-09 14:34:50

2024-03-26 09:58:52

模型技術(shù)

2023-09-26 13:33:27

AI自動駕駛

2025-09-16 12:53:54

2024-05-24 12:53:06

AI訓練

2025-09-25 09:33:54

2025-09-29 14:00:07

AI模型代碼

2025-04-08 09:30:00

模型AI機器人

2024-01-29 07:50:00

AI視頻

2024-02-26 08:15:43

語言模型低代碼

2025-04-22 08:08:37

2024-03-21 09:00:00

大語言模型人工智能

2023-09-20 08:00:00

大語言模型代碼庫

2024-10-22 09:40:00

模型生成

2025-09-25 13:27:39

2024-11-06 09:47:00

2024-05-13 12:53:06

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號