GLM-4.5:推理、編程與Agent能力的全面突破
GLM-4.5核心特性概覽:
?MoE 架構(gòu)
?混合推理模型
?總參數(shù) 355B(激活參數(shù) 32B)
?GQA + 部分 RoPE
?多 Token 預(yù)測(cè)
?Muon 優(yōu)化器 + QK 歸一化
?22T Token 訓(xùn)練語(yǔ)料
?Slime RL 基礎(chǔ)設(shè)施
?原生工具調(diào)用
圖片
圖片
模型架構(gòu)與預(yù)訓(xùn)練:GLM-4.5 總參數(shù)規(guī)模達(dá) 355B(激活參數(shù) 32B),采用更深但更窄的模型設(shè)計(jì),通過(guò)增加層數(shù)和 96 個(gè)注意力頭來(lái)優(yōu)化推理能力。輕量版 GLM-4.5-Air 為 106B 參數(shù)(激活參數(shù) 12B)。
圖片
訓(xùn)練語(yǔ)料庫(kù)規(guī)模達(dá) 22T Token,其中包含 15T 通用數(shù)據(jù)和 7T 代碼/推理專用數(shù)據(jù)。采用分組查詢注意力(GQA)+ 部分旋轉(zhuǎn)位置編碼(RoPE)來(lái)提升長(zhǎng)上下文處理效率和推理任務(wù)準(zhǔn)確性。
中期訓(xùn)練的關(guān)鍵作用: "與早期在大規(guī)模通用文檔上進(jìn)行預(yù)訓(xùn)練不同,這些階段采用中等規(guī)模的領(lǐng)域特定數(shù)據(jù)集,包括指令數(shù)據(jù)。"
其他設(shè)計(jì)亮點(diǎn):多 Token 預(yù)測(cè)(MTP):支持推測(cè)解碼,實(shí)現(xiàn)更快的推理速度。;Muon 優(yōu)化器 + QK 歸一化:提升大批量訓(xùn)練的穩(wěn)定性和可擴(kuò)展性。
Slime RL 基礎(chǔ)設(shè)施
?支持agent強(qiáng)化學(xué)習(xí)的異步推出與訓(xùn)練分離
?混合精度推出(FP8 推理,BF16 訓(xùn)練)提升效率
圖片
后訓(xùn)練流程:
?在推理和agent場(chǎng)景上進(jìn)行監(jiān)督微調(diào)
?針對(duì)推理(含課程學(xué)習(xí))和agent任務(wù)(信息檢索問(wèn)答和代碼執(zhí)行)的強(qiáng)化學(xué)習(xí)
?專家蒸餾以整合專業(yè)技能
圖片
整體性能表現(xiàn):GLM-4.5 總排名第三,GLM-4.5 Air 排名第六。
agent能力:這是個(gè)令人興奮的結(jié)果!GLM-4.5 提供 128K 上下文長(zhǎng)度和原生函數(shù)調(diào)用能力,性能可媲美 Claude 4 Sonnet!
測(cè)試時(shí)擴(kuò)展:GLM-4.5 在 BrowseComp 上的測(cè)試時(shí)擴(kuò)展準(zhǔn)確率呈現(xiàn)健康的增長(zhǎng)曲線。
推理性能:GLM-4.5 在多個(gè)推理基準(zhǔn)測(cè)試中表現(xiàn)極具競(jìng)爭(zhēng)力。這種穩(wěn)定的性能表現(xiàn)尤為重要,因?yàn)榻y(tǒng)一各種能力是很難做到的。
編程能力:雖未達(dá)到 Claude 4 Opus 或 o3 的水平,但仍極具競(jìng)爭(zhēng)力,明顯優(yōu)于 DeepSeek-R1-0528,與 Kimi-K2 處于同一水準(zhǔn)。
帕累托前沿分析:"GLM-4.5 和 GLM-4.5-Air 相比同等規(guī)模的模型展現(xiàn)出卓越性能,在性能-規(guī)模權(quán)衡邊界上實(shí)現(xiàn)了最優(yōu)效率。"
真實(shí)場(chǎng)景表現(xiàn):GLM-4.5 在真實(shí)開發(fā)場(chǎng)景中的agent編程表現(xiàn)令人印象深刻,相比 Kimi K2 和 Qwen-3 Code 的勝率表現(xiàn)亮眼。
其他能力特性
原生工具調(diào)用:通過(guò)集成函數(shù)調(diào)用和agent規(guī)劃,工具調(diào)用成功率達(dá) 90.6%。
全棧開發(fā)agent:通過(guò)類似 Claude Code 的界面實(shí)現(xiàn)多輪agent編程,支持前端/后端開發(fā)、幻燈片制作和產(chǎn)出物生成。















 
 
 


















 
 
 
 