智譜終于發(fā)布GLM-4.5技術(shù)報(bào)告,從預(yù)訓(xùn)練到后訓(xùn)練,細(xì)節(jié)大公開
就在上個(gè)月底,智譜放出重磅炸彈 —— 開源新一代旗艦?zāi)P?nbsp;GLM-4.5 以及輕量版 GLM-4.5-Air。其不僅首次突破性地在單個(gè)模型中實(shí)現(xiàn)了推理、編碼和智能體能力的原生融合,還在 12 項(xiàng)全球公認(rèn)的硬核測(cè)試中取得了全球第三的綜合成績(jī)。這個(gè)成績(jī)?cè)谒袊?guó)產(chǎn)模型和開源模型中均排名第一!

消息一出,瞬間刷屏社交網(wǎng)絡(luò):官方推文的瀏覽量突破 120 萬(wàn), GLM-4.5 模型更是連續(xù) 7 天登頂 Hugging Face 趨勢(shì)榜單,引發(fā)海內(nèi)外 AI 圈熱議。

社交平臺(tái)上,研究者與開發(fā)者紛紛點(diǎn)贊,不斷分享 GLM-4.5 系列在各類基準(zhǔn)上的最新測(cè)試成績(jī)。

就在熱度持續(xù)升溫之際,OpenAI 也開源了備受期待的 gpt-oss 系列模型。網(wǎng)友第一時(shí)間將它與 GLM-4.5 放到一起比拼,而后者的整體表現(xiàn)依舊鋒芒畢露。

這時(shí),愛學(xué)習(xí)的讀者自然會(huì)問:GLM-4.5 是怎么煉成的?雖然智譜此前在技術(shù)博客里披露過部分細(xì)節(jié),但大家一直期待的完整技術(shù)報(bào)告遲遲未見。

今天,這一懸念終于揭曉 ——GLM-4.5 的技術(shù)報(bào)告已正式發(fā)布。報(bào)告不僅詳述了 GLM-4.5 的預(yù)訓(xùn)練與后訓(xùn)練細(xì)節(jié),還介紹了為其打造的開源強(qiáng)化學(xué)習(xí)(RL)框架 slime,它兼具靈活性、效率與可擴(kuò)展性,可為模型高效 RL 訓(xùn)練保駕護(hù)航。

- 報(bào)告標(biāo)題:GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
 - 報(bào)告鏈接:https://arxiv.org/abs/2508.06471
 - GitHub:https://github.com/zai-org/GLM-4.5
 - Hugging Face:https://huggingface.co/zai-org/GLM-4.5
 
GLM-4.5 技術(shù)報(bào)告也被 Hugging Face 用戶投票為今天的「#1 Paper of the day」。

下面我們就來看一看這個(gè)國(guó)產(chǎn)第一大模型究竟是如何煉成的,但在此之前,我們需要了解智譜為什么做出了這樣一個(gè)決定:將智能體、推理、代碼能力統(tǒng)一到一個(gè)單一模型中。
為何「大一統(tǒng)」智能體、推理、代碼?
大語(yǔ)言模型(LLM)正在迅速進(jìn)化 —— 從通用知識(shí)庫(kù)邁向通用問題求解器,其最終目標(biāo)是在廣泛領(lǐng)域內(nèi)達(dá)到人類級(jí)認(rèn)知水平,這不僅僅需要特定任務(wù)中達(dá)到專家水平,更需要在復(fù)雜問題求解、泛化能力和自我改進(jìn)等方面實(shí)現(xiàn)統(tǒng)一突破。
隨著 LLM 越來越深入地融入現(xiàn)實(shí)世界場(chǎng)景,提升實(shí)際生產(chǎn)力和解決復(fù)雜專業(yè)任務(wù)的關(guān)鍵在于發(fā)展出更多核心能力。智譜研究團(tuán)隊(duì)認(rèn)為,衡量 AGI 的第一性原理,是在不損失原有能力的前提下融合更多通用智能能力。
衡量真正通才模型的標(biāo)準(zhǔn)應(yīng)包括以下三項(xiàng)相互關(guān)聯(lián)的關(guān)鍵能力:
- 與外部工具和現(xiàn)實(shí)世界互動(dòng)的智能體(Agentic)能力;
 - 在數(shù)學(xué)和科學(xué)等領(lǐng)域解決多步驟問題的復(fù)雜推理(Reasoning)能力;
 - 應(yīng)對(duì)現(xiàn)實(shí)世界軟件工程任務(wù)的高級(jí)代碼(Coding)能力。
 
這三項(xiàng)能力可合稱為 ARC 能力。
然而,現(xiàn)有模型仍然算不上真正的通才模型。盡管 OpenAI 的 o1/o3 和 Anthropic 的 Claude Sonnet 4 等 SOTA 專有模型在數(shù)學(xué)推理或代碼修復(fù)等特定 ARC 領(lǐng)域展現(xiàn)了突破性性能,但仍未有一個(gè)同時(shí)在上述所有三個(gè)領(lǐng)域均表現(xiàn)卓越的強(qiáng)大開源模型。
GLM-4.5 正在為此努力,力求在一個(gè)模型中集成所有這些不同的能力。GLM-4.5 采用了混合推理模式:復(fù)雜推理和智能體任務(wù)采用思考模式,即時(shí)響應(yīng)采用非思考模式。
GLM-4.5 是如何「練」成的?
模型架構(gòu)
GLM-4.5 采用了 MoE(混合專家)架構(gòu),這種架構(gòu)能夠顯著提升訓(xùn)練和推理時(shí)的計(jì)算效率。
更具體而言,智譜在 MoE 層采用了 loss-free balance 路由和 sigmoid gate 機(jī)制。與 DeepSeek-V3 和 Kimi K2 的設(shè)計(jì)思路不同,他們選擇了「瘦高」的模型結(jié)構(gòu) —— 減少模型的寬度(包括隱藏維度和路由專家的數(shù)量),同時(shí)增加模型的深度(層數(shù))。他們發(fā)現(xiàn):更深的模型在推理能力上表現(xiàn)更加出色。
在自注意力機(jī)制方面,他們采用了 partal RoPE 的分組查詢注意力(Grouped-Query Attention)。另外,他們將注意力頭的數(shù)量增加到了一般模型的 2.5 倍(在 5120 的隱藏維度下使用 96 個(gè)注意力頭)。有意思的是,雖然增加注意力頭的數(shù)量并沒有讓訓(xùn)練 loss 更低,但在 MMLU 和 BBH 等推理基準(zhǔn)測(cè)試中,GLM-4.5 的表現(xiàn)卻得到了穩(wěn)定提升。

GLM-4.5 系列模型架構(gòu),參數(shù)數(shù)量包含 MTP 層的參數(shù),但不包含詞嵌入和輸出層的參數(shù)。
GLM-4.5 使用了 Muon 優(yōu)化器,這個(gè)優(yōu)化器不僅能加快模型收斂速度,還能在更大的 Batch Size 下相比 AdamW 保持更好的收斂效果,從而提升訓(xùn)練效率。
他們還引入了 QK-Norm 技術(shù)來提升注意力 logit 的數(shù)值穩(wěn)定性。GLM-4.5 還加入了 MTP(Multi Token Predition)層,用于在推理階段實(shí)現(xiàn)推測(cè)解碼,進(jìn)一步提升推理效率。
預(yù)訓(xùn)練和中期訓(xùn)練
GLM-4.5 經(jīng)歷了幾個(gè)訓(xùn)練階段。在預(yù)訓(xùn)練期間,GLM-4.5 首先在 15T token 的通用預(yù)訓(xùn)練語(yǔ)料庫(kù)上訓(xùn)練,然后在 7T token 的代碼和推理語(yǔ)料庫(kù)上訓(xùn)練。預(yù)訓(xùn)練后,他們引入了中期訓(xùn)練來進(jìn)一步提升 GLM-4.5 在專有領(lǐng)域上的性能。

GLM-4.5 的預(yù)訓(xùn)練和中期訓(xùn)練,采用多階段訓(xùn)練方案,并將序列長(zhǎng)度從 4K 擴(kuò)展至 128K。
GLM-4.5 的預(yù)訓(xùn)練數(shù)據(jù)來源于網(wǎng)頁(yè)、社交媒體、書籍、論文和代碼倉(cāng)庫(kù),并針對(duì)不同來源設(shè)計(jì)了優(yōu)化處理流程。
預(yù)訓(xùn)練分為兩個(gè)階段,第一階段主要使用一般網(wǎng)頁(yè)文檔,第二階段重點(diǎn)上采樣編程、數(shù)學(xué)和科學(xué)相關(guān)的高質(zhì)量數(shù)據(jù),從而兼顧高頻知識(shí)、長(zhǎng)尾知識(shí)覆蓋以及推理能力的提升。
中期訓(xùn)練階段旨在在預(yù)訓(xùn)練基礎(chǔ)上進(jìn)一步增強(qiáng)推理能力和智能體能力,采用中等規(guī)模的領(lǐng)域特定數(shù)據(jù)集和指令數(shù)據(jù),主要包括以下三個(gè)環(huán)節(jié):
- 代碼倉(cāng)庫(kù)級(jí)訓(xùn)練:將同一倉(cāng)庫(kù)的代碼文件拼接,學(xué)習(xí)跨文件依賴,并引入經(jīng)過模型篩選的 GitHub issue、PR 和 commit,以提升軟件工程能力。并將序列長(zhǎng)度擴(kuò)展到 32K。
 - 合成推理數(shù)據(jù)訓(xùn)練:收集來自網(wǎng)頁(yè)和書籍的數(shù)學(xué)、科學(xué)、編程相關(guān)問答數(shù)據(jù),并用推理模型生成推理過程,從而強(qiáng)化模型的推理能力。
 - 長(zhǎng)上下文與智能體訓(xùn)練:將序列長(zhǎng)度從 32K 擴(kuò)展到 128K,上采樣長(zhǎng)文檔,并加入大規(guī)模合成的智能體軌跡數(shù)據(jù),以提升長(zhǎng)文本處理和多步交互能力。
 
在預(yù)訓(xùn)練階段,最大序列長(zhǎng)度保持為 4096,而在中期訓(xùn)練階段,最大序列長(zhǎng)度從 32768 擴(kuò)展至 131072。在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)未采用 best-fit packing,因?yàn)殡S機(jī)截?cái)嗫梢宰鳛閷?duì)預(yù)訓(xùn)練文檔的數(shù)據(jù)增強(qiáng)策略。在中期訓(xùn)練階段,他們應(yīng)用了 best-fit packing,以避免截?cái)嗤评磉^程或倉(cāng)庫(kù)級(jí)別的代碼。
基于 slime 的大模型強(qiáng)化學(xué)習(xí)
為了支持 GLM-4.5 這樣的大模型進(jìn)行高效的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,智譜設(shè)計(jì)、開發(fā)并開源了 slime。這是一個(gè)在靈活性、效率和可擴(kuò)展性方面都表現(xiàn)卓越的 RL 框架。該框架已經(jīng)發(fā)布了一些時(shí)日了,并已經(jīng)在 GitHub 上收獲了近 1200 star。

- 開源地址:https://github.com/THUDM/slime
 
具體而言,slime 由三個(gè)核心模塊組成:
- 訓(xùn)練(Megatron),處理主要的訓(xùn)練過程,從 Data Buffer 讀取數(shù)據(jù),并在訓(xùn)練結(jié)束后將參數(shù)同步到 rollout 模塊;
 - rollout(SGLang + Router),生成新的數(shù)據(jù),包括獎(jiǎng)勵(lì)和驗(yàn)證器輸出,并將其寫入 Data Buffer;
 - Data Buffer,作為橋接模塊,管理提示詞初始化、自定義數(shù)據(jù)和 rollout 生成策略。
 

slime 旨在解決強(qiáng)化學(xué)習(xí)中的常見瓶頸,并針對(duì)復(fù)雜的智能體任務(wù)做了優(yōu)化:
- 靈活的混合訓(xùn)練架構(gòu): slime 的核心優(yōu)勢(shì)在于其多功能的混合架構(gòu)。它既支持同步、集中式訓(xùn)練(適合推理和通用強(qiáng)化學(xué)習(xí)訓(xùn)練),也支持分布式、異步訓(xùn)練模式。這種異步模式對(duì)于 Agentic RL 至關(guān)重要,因?yàn)樵谶@類場(chǎng)景中,數(shù)據(jù)生成往往是一個(gè)緩慢的外部過程。通過將訓(xùn)練與數(shù)據(jù)收集解耦,可以確保訓(xùn)練 GPU 始終保持滿負(fù)荷運(yùn)行,最大化硬件利用率。
 - 面向智能體的解耦設(shè)計(jì): Agentic RL 經(jīng)常面臨環(huán)境交互時(shí)延遲高且分布長(zhǎng)尾的問題,這嚴(yán)重限制了訓(xùn)練吞吐量。為此,slime 實(shí)現(xiàn)了完全解耦的基礎(chǔ)架構(gòu),將環(huán)境交互引擎與訓(xùn)練引擎分離。這兩個(gè)組件在不同的硬件上獨(dú)立運(yùn)行,將數(shù)據(jù)生成的瓶頸轉(zhuǎn)化為可并行化的非阻塞過程。這種設(shè)計(jì)是加速長(zhǎng)序列智能體任務(wù)的關(guān)鍵。
 - 混合精度加速數(shù)據(jù)生成: 為了進(jìn)一步提升吞吐量,slime 采用混合精度推理來加速環(huán)境交互。它使用 FP8 精度進(jìn)行數(shù)據(jù)生成(Rollout),同時(shí)在模型訓(xùn)練中保留 BF16 精度以確保訓(xùn)練穩(wěn)定性。這種技術(shù)在不影響訓(xùn)練質(zhì)量的前提下,大幅提升了整體訓(xùn)練速度。
 
這種整體化的設(shè)計(jì)使得 slime 能夠無(wú)縫集成多個(gè)智能體框架,支持各種任務(wù)類型,并通過統(tǒng)一而強(qiáng)大的接口高效管理長(zhǎng)序列環(huán)境交互。
增強(qiáng)智能體能力的后訓(xùn)練
后訓(xùn)練對(duì) LLM 至關(guān)重要,模型通過自主探索和積累經(jīng)驗(yàn)來不斷優(yōu)化策略。強(qiáng)化學(xué)習(xí)是突破模型能力邊界的關(guān)鍵步驟。
GLM-4.5 不僅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,還重點(diǎn)提升了智能體能力,包括智能體編程、深度搜索和通用工具使用。
訓(xùn)練過程首先在精選的推理數(shù)據(jù)和合成的智能體場(chǎng)景數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào),然后通過專門的強(qiáng)化學(xué)習(xí)階段分別訓(xùn)練專家模型。
- 推理能力訓(xùn)練:智譜完整的 64K 上下文長(zhǎng)度上進(jìn)行單階段強(qiáng)化學(xué)習(xí),采用基于難度的課程學(xué)習(xí)來進(jìn)行多階段 RL。為了確保訓(xùn)練穩(wěn)定性,智譜引入了改進(jìn)的技術(shù):使用動(dòng)態(tài)采樣溫度來平衡探索與利用,以及在 STEM 問題上使用自適應(yīng)裁剪來保證策略更新的穩(wěn)定性。
 - 智能體任務(wù)訓(xùn)練: 訓(xùn)練聚焦于兩個(gè)可驗(yàn)證的任務(wù):基于信息檢索的問答和軟件工程任務(wù)。智譜開發(fā)了可擴(kuò)展的策略來合成基于搜索的問答對(duì),方法是通過人工參與的內(nèi)容提取和選擇性地模糊網(wǎng)頁(yè)內(nèi)容。編程任務(wù)則通過在真實(shí)軟件工程任務(wù)上基于執(zhí)行結(jié)果的反饋來驅(qū)動(dòng)。
 
雖然強(qiáng)化學(xué)習(xí)訓(xùn)練只針對(duì)有限的可驗(yàn)證任務(wù),但獲得的能力提升可以遷移到相關(guān)領(lǐng)域,比如通用工具使用能力。最后,他們通過專家蒸餾將這些專門技能整合起來,使 GLM-4.5 在各項(xiàng)任務(wù)上都具備全面的能力。
更多技術(shù)細(xì)節(jié),請(qǐng)查看 GLM-4.5 技術(shù)報(bào)告原文。
效果怎么樣?
智譜在 12 個(gè)基準(zhǔn)上評(píng)估了 GLM-4.5 在 ARC(智能體、推理和代碼)任務(wù)上的表現(xiàn),具體包括:MMLU-Pro、AIME 24、MATH-500、SciCode、GPQA、HLE、LCB(2407-2501)、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL V3、BrowseComp。
智能體任務(wù)
研究團(tuán)隊(duì)在 TAU-bench 和 BFCL-v3(Berkeley Function Calling Leaderboard v3)上測(cè)量了其工具調(diào)用能力,在 BrowseComp 上測(cè)量了其作為網(wǎng)頁(yè)瀏覽智能體的能力。
在 TAU-bench 上,GLM-4.5 的表現(xiàn)優(yōu)于 Gemini 2.5 Pro,并且接近 Claude Sonnet 4;在 BFCL V3 上,GLM-4.5 在所有基線模型中取得了最高的總體得分;在 BrowseComp 上,OpenAI o3 的表現(xiàn)明顯優(yōu)于其他模型,而 GLM-4.5 的表現(xiàn)接近 o4-mini,并顯著優(yōu)于 Claude Opus 4。

推理
研究團(tuán)隊(duì)在七個(gè)基準(zhǔn)上評(píng)估了 GLM-4.5 的推理能力,這些基準(zhǔn)包括 MMLU-Pro、AIME 24、MATH 500、SciCode、GPQA、Humanity’s Last Exam(HLE)以及 LiveCodeBench(LCB)。
對(duì)于 AIME 和 GPQA 基準(zhǔn),他們分別展示了 32 次和 8 次采樣的平均準(zhǔn)確率(Avg@32、Avg@8),以減輕結(jié)果的隨機(jī)性波動(dòng)。答案驗(yàn)證由一個(gè) LLM 自動(dòng)完成。對(duì)于 HLE 基準(zhǔn),僅評(píng)測(cè)了基于文本的問題,正確性由 GPT-4o 判定。他們還使用 Artificial Analysis 提出的智能指數(shù)(intelligence index),計(jì)算了上述七個(gè)基準(zhǔn)的平均推理性能。
結(jié)果顯示,GLM-4.5 在 AIME 24 和 SciCode 基準(zhǔn)上超過了 OpenAI o3。在整體平均表現(xiàn)上,GLM-4.5 優(yōu)于 Claude Opus 4,并接近 DeepSeek-R1-0528。

代碼
為了衡量 GLM-4.5 解決真實(shí)世界代碼任務(wù)的能力,研究團(tuán)隊(duì)在兩個(gè)具有挑戰(zhàn)性的基準(zhǔn) SWE-bench Verified 和 Terminal-Bench 上進(jìn)行了評(píng)測(cè)。
在 SWE-bench Verified 上,GLM-4.5 的表現(xiàn)優(yōu)于 GPT-4.1 和 Gemini-2.5-Pro。在 Terminal-Bench 上,GLM-4.5 超過了 Claude Sonnet 4。

整體而言,在代碼任務(wù)上,GLM-4.5 算得上是 Claude Sonnet 4 最有力的競(jìng)爭(zhēng)對(duì)手。
除此之外,研究團(tuán)隊(duì)還對(duì) GLM-4.5 的通用能力、安全、在真實(shí)世界的實(shí)際表現(xiàn)(包括通用聊天、Coding Agent、邏輯推理和翻譯)等方面進(jìn)行了評(píng)估。詳情請(qǐng)查看 GLM-4.5 技術(shù)報(bào)告原文。
寫在最后
隨著這份技術(shù)報(bào)告的發(fā)布,GLM-4.5 的「幕后故事」終于完整呈現(xiàn)。從架構(gòu)設(shè)計(jì)到訓(xùn)練方法,再到為其量身打造的 RL 框架 slime,智譜不僅交出了性能成績(jī)單,也公開了實(shí)現(xiàn)路徑。
對(duì)關(guān)注國(guó)產(chǎn)開源大模型的人來說,這不僅是一份報(bào)告,更是一把洞察未來研發(fā)方向的鑰匙。















 
 
 













 
 
 
 