解鎖 LLM 新高度!一文深度解讀 Qwen3 大模型?

一、模型架構(gòu)
Qwen3 系列涵蓋 6 種密集型模型和 2 種 MoE 模型,參數(shù)規(guī)模從 0.6 億到 2350 億不等,滿足不同下游應(yīng)用需求。旗艦?zāi)P?Qwen3-235B-A22B 作為 MoE 模型,總參數(shù)量達 2350 億,每 token 激活參數(shù)量為 220 億,在性能與效率間取得平衡。
密集型模型
Qwen3 的密集型模型架構(gòu)與 Qwen2.5 類似,采用 Grouped Query Attention(GQA)和 QK-Norm 改進注意力機制,使用 SwiGLU 作為激活函數(shù),搭配 Rotary Positional Embeddings(RoPE)進行位置編碼,采用 RMSNorm 并預(yù)歸一化。此外,Qwen3 移除了 QKV-bias,進一步優(yōu)化性能。分詞器采用基于字節(jié)級字節(jié)對編碼(BBPE)的自有分詞器,詞匯表大小為 151,669 。
混合專家模型
Qwen3 的 MoE 模型在密集型模型基礎(chǔ)上,引入專家分割和負(fù)載均衡機制。128 個專家中每個 token 激活 8 個專家,通過全局批量負(fù)載均衡損失鼓勵專家專門化,且不再使用共享專家,進一步提升模型效率和性能。
二、預(yù)訓(xùn)練
預(yù)訓(xùn)練任務(wù)預(yù)訓(xùn)練數(shù)據(jù)
Qwen3 的預(yù)訓(xùn)練數(shù)據(jù)規(guī)模和多樣性顯著提升,包含 36 萬億個 token,是 Qwen2.5 的兩倍,覆蓋 119 種語言和方言,是Qwen2.5的四倍。數(shù)據(jù)來源廣泛,具體來說,包括:
- 多語言文本:包括各種領(lǐng)域的高質(zhì)量內(nèi)容,如編程、STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、推理任務(wù)、書籍、多語言文本等。
- 合成數(shù)據(jù):利用 Qwen2.5-Math 和 Qwen2.5-Coder 模型生成數(shù)學(xué)和編程相關(guān)的合成數(shù)據(jù)。
- PDF 文檔提取:通過 Qwen2.5-VL 模型從大量 PDF 文檔中提取文本,并使用 Qwen2.5 模型進行質(zhì)量優(yōu)化。
另外通過多語言數(shù)據(jù)標(biāo)注系統(tǒng)進行多維度標(biāo)注,以便更有效地進行數(shù)據(jù)過濾和組合,確保數(shù)據(jù)質(zhì)量。
預(yù)訓(xùn)練階段
Qwen3 的預(yù)訓(xùn)練過程分為三個階段,每個階段都有其特定的目標(biāo)和數(shù)據(jù)集:
- 通用階段(S1):在首個預(yù)訓(xùn)練階段,所有 Qwen3 模型均使用 4096 token 的序列長度,在超過 30 萬億 token 上進行訓(xùn)練。在此階段,模型全面學(xué)習(xí)語言能力和通用世界知識,訓(xùn)練數(shù)據(jù)覆蓋 119 種語言和方言。
- 推理階段(S2):為進一步提升推理能力,通過增加 STEM、編碼、推理和合成數(shù)據(jù)的比例優(yōu)化該階段的預(yù)訓(xùn)練語料庫。模型使用 4096 token 的序列長度,在約 5 萬億高質(zhì)量 token 上繼續(xù)預(yù)訓(xùn)練,并在此階段加速學(xué)習(xí)率衰減。
- 長上下文階段:在最后的預(yù)訓(xùn)練階段,收集高質(zhì)量長上下文語料庫以擴展 Qwen3 模型的上下文長度。所有模型使用 32768 token 的序列長度,在數(shù)百億 token 上進行預(yù)訓(xùn)練。長上下文語料庫中,75% 的文本長度在 16384 至 32768 token 之間,25% 在 4096 至 16384 token 之間。沿用 Qwen2.5的做法,通過 ABF 技術(shù)將 RoPE 的基礎(chǔ)頻率從 10,000 提升至 1,000,000。同時引入 YARN和雙塊注意力,以在推理階段將序列長度處理能力提升四倍。
預(yù)訓(xùn)練評估
對 Qwen3 系列的預(yù)訓(xùn)練模型進行了全面評估,涵蓋了多個任務(wù)和領(lǐng)域。評估結(jié)果表明:
- 與此前開源的 SOTA 稠密和 MoE 基礎(chǔ)模型(如 DeepSeek-V3 Base、Llama-4-Maverick Base、Qwen2.5-72B-Base)相比,Qwen3-235B-A22B-Base 在大多數(shù)任務(wù)中以顯著更少的總參數(shù)或激活參數(shù)實現(xiàn)了性能超越。
- 對于 Qwen3 MoE 基礎(chǔ)模型,實驗結(jié)果表明:
- 使用相同預(yù)訓(xùn)練數(shù)據(jù)時,Qwen3 MoE 基礎(chǔ)模型僅需 1/5 的激活參數(shù)即可達到與 Qwen3 稠密基礎(chǔ)模型相當(dāng)?shù)男阅?/span>。
- 由于 Qwen3 MoE 架構(gòu)的改進、訓(xùn)練 token 規(guī)模的擴大和更先進的訓(xùn)練策略,Qwen3 MoE 基礎(chǔ)模型以少于 1/2 的激活參數(shù)和總參數(shù)超越了 Qwen2.5 MoE 基礎(chǔ)模型。
- 僅使用 Qwen2.5 稠密基礎(chǔ)模型 1/10 的激活參數(shù),Qwen3 MoE 基礎(chǔ)模型仍能實現(xiàn)可比性能,為推理和訓(xùn)練成本帶來顯著優(yōu)勢。
- Qwen3 稠密基礎(chǔ)模型的整體性能與更高參數(shù)規(guī)模的 Qwen2.5 基礎(chǔ)模型相當(dāng)。例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 性能相當(dāng),尤其在 STEM、編碼和推理基準(zhǔn)測試中,Qwen3 稠密基礎(chǔ)模型甚至超越了更高參數(shù)規(guī)模的 Qwen2.5 基礎(chǔ)模型。
綜合來看,Qwen3 的架構(gòu)設(shè)計通過混合專家稀疏激活、長上下文優(yōu)化和多語言適配,在效率、性能和通用性之間實現(xiàn)了平衡,與相同參數(shù)規(guī)模的LLM相比,Qwen3以更少的參數(shù)實現(xiàn)更優(yōu)的性能。






三、后訓(xùn)練
Qwen3的后訓(xùn)練流程是Qwen實現(xiàn)思考模式和非思考模式集成的關(guān)鍵,其流程圍繞兩個核心目標(biāo)設(shè)計,下面來詳細(xì)介紹下:
- 思維控制:整合 “非思維” 和 “思維” 兩種模式,使用戶能夠靈活選擇模型是否進行推理,并通過指定思維過程的 token 預(yù)算控制思維深度。
- 強到弱蒸餾:精簡輕量級模型的后訓(xùn)練流程,通過利用大規(guī)模模型的知識,大幅降低構(gòu)建小規(guī)模模型的計算成本和開發(fā)工作量。
Qwen3 系列的旗艦?zāi)P筒捎盟碾A段訓(xùn)練流程:前兩個階段專注于開發(fā)模型的 “思維” 能力,后兩個階段則致力于將強 “非思維” 功能整合到模型中。

初步實驗表明,直接將教師模型的輸出對數(shù)(logits)蒸餾到輕量級學(xué)生模型中,可有效提升學(xué)生模型的性能,同時保持對推理過程的細(xì)粒度控制。這種方法無需為每個小規(guī)模模型單獨執(zhí)行完整的四階段訓(xùn)練流程,不僅通過更高的 Pass@1 分?jǐn)?shù)體現(xiàn)出更好的即時性能,還通過改進的 Pass@64 結(jié)果增強了模型的探索能力。此外,與四階段訓(xùn)練方法相比,該方法僅需 1/10 的 GPU 小時,顯著提升了訓(xùn)練效率。
長思維鏈冷啟動
長思維鏈冷啟動(Long-CoT Cold Start)階段的目標(biāo)是為模型提供推理能力的基礎(chǔ)訓(xùn)練,使其能夠處理復(fù)雜的多步驟問題。這一階段的訓(xùn)練旨在:
- 培養(yǎng)基礎(chǔ)推理模式:通過處理復(fù)雜的多步驟問題,使模型能夠逐步構(gòu)建推理鏈,為后續(xù)的強化學(xué)習(xí)階段打下堅實的基礎(chǔ)。
- 避免過度依賴淺層猜測:確保模型在解決復(fù)雜問題時能夠進行深入的思考,而不是依賴于表面的模式匹配或猜測。
為了實現(xiàn)這一目標(biāo),構(gòu)建一個高質(zhì)量的數(shù)據(jù)集是這一階段的關(guān)鍵。數(shù)據(jù)集需要包含各種類型的復(fù)雜問題,以確保模型能夠?qū)W習(xí)到多樣化的推理模式。
- 數(shù)據(jù)來源
- 數(shù)學(xué)問題:包括復(fù)雜的數(shù)學(xué)題目,如高等數(shù)學(xué)、線性代數(shù)等。
- 編程問題:涉及算法設(shè)計、代碼生成等任務(wù)。
- 邏輯推理問題:如邏輯謎題、推理題等。
- STEM 問題:涵蓋科學(xué)、技術(shù)、工程和數(shù)學(xué)領(lǐng)域的綜合問題。
- 查詢過濾
為了確保數(shù)據(jù)集的質(zhì)量,使用 Qwen2.5-72B-Instruct 模型對查詢進行過濾,排除以下類型的查詢:
- 難以驗證的查詢:例如包含多個子問題或需要一般性文本生成的查詢。
- 不需要推理的查詢:Qwen2.5-72B-Instruct 能夠正確回答而無需使用推理鏈(Chain-of-Thought, CoT)的問題。
- 響應(yīng)過濾
對于每個剩余的查詢,使用 QwQ-32B 模型生成多個候選響應(yīng)。通過人工標(biāo)注進一步過濾掉不準(zhǔn)確或不符合要求的響應(yīng),具體標(biāo)準(zhǔn)包括:(1) 最終答案錯誤;(2) 內(nèi)容大量重復(fù);(3) 明顯猜測且缺乏充分推理;(4) 思維與總結(jié)內(nèi)容不一致;(5) 不適當(dāng)?shù)恼Z言混合或風(fēng)格轉(zhuǎn)變;(6) 疑似與潛在驗證集項目過度相似。
冷啟動訓(xùn)練:在數(shù)據(jù)集構(gòu)建完成后,進行初始的推理模式訓(xùn)練。從經(jīng)過嚴(yán)格篩選的數(shù)據(jù)集中選擇一部分問題,用于初始的推理模式訓(xùn)練。這一階段的訓(xùn)練數(shù)據(jù)量相對較少,以避免模型在早期階段過度擬合。這一階段重點是培養(yǎng)模型的基礎(chǔ)推理模式,而不是過分強調(diào)即時的推理性能。
通過這種方式,模型能夠在后續(xù)的強化學(xué)習(xí)階段中更好地擴展其推理能力。
推理強化學(xué)習(xí)
這一階段的目標(biāo)是通過強化學(xué)習(xí)進一步提升模型的推理能力,特別是在數(shù)學(xué)和編程任務(wù)中。這一階段的訓(xùn)練旨在:
- 提升推理能力:通過強化學(xué)習(xí),進一步提升模型在復(fù)雜推理任務(wù)中的表現(xiàn)。
- 優(yōu)化模型性能:通過優(yōu)化模型的參數(shù),提高其在推理任務(wù)中的準(zhǔn)確性和效率。
- 平衡探索和利用:在強化學(xué)習(xí)過程中,平衡模型的探索(exploration)和利用(exploitation),確保模型能夠有效地學(xué)習(xí)和適應(yīng)新的任務(wù)。
為了實現(xiàn)上述目標(biāo),推理強化學(xué)習(xí)階段采用了以下方法:
1. 數(shù)據(jù)選擇
選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)是提升模型推理能力的關(guān)鍵。這一階段的數(shù)據(jù)選擇遵循以下標(biāo)準(zhǔn):
數(shù)據(jù)來源:從長思維鏈冷啟動階段的數(shù)據(jù)集中選擇未使用且具有挑戰(zhàn)性的查詢-驗證對(query-verifier pairs)。
選擇的數(shù)據(jù)必須滿足以下四個標(biāo)準(zhǔn):
- 未在冷啟動階段使用:確保數(shù)據(jù)的新穎性,避免模型在強化學(xué)習(xí)階段重復(fù)學(xué)習(xí)。
- 冷啟動模型可學(xué)習(xí):選擇冷啟動階段模型能夠?qū)W習(xí)的數(shù)據(jù),確保數(shù)據(jù)的可學(xué)習(xí)性。
- 盡可能具有挑戰(zhàn)性:選擇難度較高的數(shù)據(jù),以提升模型的推理能力。
- 覆蓋廣泛子領(lǐng)域:確保數(shù)據(jù)覆蓋多個子領(lǐng)域,提高模型的泛化能力。
最終收集了 3,995 個查詢-驗證對,用于強化學(xué)習(xí)階段的訓(xùn)練。
2. 強化學(xué)習(xí)算法
選擇合適的強化學(xué)習(xí)算法是提升模型性能的關(guān)鍵。這一階段采用了 GRPO(Generalized Reinforcement Policy Optimization)算法。
- 樣本效率:通過 off-policy 訓(xùn)練提高樣本效率,減少訓(xùn)練成本。
- 探索和利用的平衡:通過控制模型的熵,確保訓(xùn)練過程的穩(wěn)定性,同時允許模型在探索和利用之間找到平衡。
思維模式融合
在 Qwen3 模型的后訓(xùn)練階段中,思維模式融合(Thinking Mode Fusion)階段的目標(biāo)是將“非思考模式”(non-thinking mode)的能力整合到已經(jīng)具備“思考模式”(thinking mode)的模型中。這一階段旨在使模型能夠在兩種模式之間靈活切換,從而在處理不同任務(wù)時能夠根據(jù)需求動態(tài)調(diào)整其行為。具體目標(biāo)包括:
- 模式整合:將“非思考模式”和“思考模式”整合到同一個模型中,使用戶能夠根據(jù)任務(wù)需求動態(tài)切換模式。
- 性能優(yōu)化:確保模型在兩種模式下都能表現(xiàn)出色,同時優(yōu)化其在不同任務(wù)中的性能。
- 推理預(yù)算控制:引入推理預(yù)算機制,允許用戶在推理過程中動態(tài)調(diào)整推理深度,從而在性能和延遲之間取得平衡。
為了實現(xiàn)上述目標(biāo),思維模式融合階段采用了以下方法:
1. 數(shù)據(jù)集構(gòu)建
在Thinking Model Fusion階段,是在Reasoning RL的基礎(chǔ)上,通過監(jiān)督微調(diào)SFT實現(xiàn)。因此SFT訓(xùn)練數(shù)據(jù)非常關(guān)鍵。
思考數(shù)據(jù)構(gòu)建
- 拒絕采樣:通過Stage 2訓(xùn)練得到的推理模型,利用Stage 1的query進行拒絕采樣(rejection sampling)生成“思考”數(shù)據(jù)。這種方法確保數(shù)據(jù)的質(zhì)量和多樣性,同時避免模型在訓(xùn)練過程中過度依賴特定的數(shù)據(jù)模式。
- 數(shù)據(jù)篩選:通過人工標(biāo)注進一步篩選生成的“思考”數(shù)據(jù),確保其準(zhǔn)確性和相關(guān)性。
非思考數(shù)據(jù)
- 多樣化任務(wù)覆蓋:精心策劃“非思考”數(shù)據(jù),確保其涵蓋多種任務(wù),包括編程、數(shù)學(xué)、指令遵循、多語言任務(wù)、創(chuàng)意寫作、問答和角色扮演等。特別增加了低資源語言的翻譯任務(wù)比例,以提升模型在多語言任務(wù)中的表現(xiàn)。
- 質(zhì)量評估:使用自動生成的檢查表(checklists)評估“非思考”數(shù)據(jù)的響應(yīng)質(zhì)量,確保數(shù)據(jù)的準(zhǔn)確性和相關(guān)性。
2. 聊天模板設(shè)計
為了支持用戶動態(tài)切換模型的思考模式,設(shè)計了專門的聊天模板。通過在用戶查詢或系統(tǒng)消息中添加特定的標(biāo)志,用戶可以控制模型的行為。

模式切換標(biāo)志
- /think 標(biāo)志:用戶可以在查詢中添加
/think標(biāo)志,指示模型進入“思考模式”。這是模型的默認(rèn)行為,因此在用戶未明確指定時,模型也會默認(rèn)運行在“思考模式”。 - /no think 標(biāo)志:用戶可以在查詢中添加
/no think標(biāo)志,指示模型進入“非思考模式”。這允許用戶在需要快速響應(yīng)時禁用模型的思考能力。
內(nèi)部一致性:即使在“非思考模式”下,模型也會保留一個空的思考塊(<think>),以確保內(nèi)部格式的一致性。開發(fā)者可以通過在聊天模板中添加空的思考塊來防止模型進行思考。
3. 推理預(yù)算機制
為了進一步優(yōu)化模型的性能,引入了推理預(yù)算機制。這一機制允許用戶在推理過程中動態(tài)調(diào)整推理深度,從而在性能和延遲之間取得平衡。
通俗來說,只要用戶設(shè)定了模型思考的最大長度限制,當(dāng)思考達到該閾值時,就會手動插入一段停止指令(“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>.\n\n”),終止進一步推理,讓模型基于已完成的思考內(nèi)容輸出最終回答。
論文里強調(diào),控制推理預(yù)算的能力并非通過顯式訓(xùn)練獲得,而是應(yīng)用思維模式融合后自然涌現(xiàn)的。
通用強化學(xué)習(xí)
這一階段的目標(biāo)是通過廣泛的強化學(xué)習(xí)任務(wù),進一步提升模型在各種場景下的性能和穩(wěn)定性。這一階段的訓(xùn)練旨在:
- 提升模型的通用能力:使模型在多種任務(wù)中表現(xiàn)出色,包括指令遵循、格式遵循、偏好對齊、代理能力和特定場景能力。
- 優(yōu)化模型的穩(wěn)定性和適應(yīng)性:通過多樣化的任務(wù)和獎勵機制,確保模型在不同場景下都能穩(wěn)定運行。
- 增強模型的交互能力:特別是在長文本處理和多步驟決策任務(wù)中,提升模型的交互能力和決策效率。
為了實現(xiàn)上述目標(biāo),通用強化學(xué)習(xí)階段采用了以下方法:
1. 任務(wù)設(shè)計
設(shè)計了超過 20 種不同的任務(wù),涵蓋多個領(lǐng)域和場景,以全面評估和提升模型的性能。這些任務(wù)包括:
- 指令遵循任務(wù):確保模型能夠準(zhǔn)確理解和執(zhí)行用戶的指令,包括內(nèi)容、格式、長度和結(jié)構(gòu)化輸出的要求。
- 格式遵循任務(wù):要求模型能夠根據(jù)特定的格式要求生成響應(yīng),例如處理
/think和/no think標(biāo)志。(控制模型混合思考模式的關(guān)鍵) - 偏好對齊任務(wù):提升模型在開放性問題上的表現(xiàn),使其能夠生成更自然、更符合用戶偏好的回答。
- 代理能力任務(wù):訓(xùn)練模型正確調(diào)用工具接口,通過與環(huán)境的交互反饋提升其在長決策任務(wù)中的表現(xiàn)。
- 特定場景任務(wù):針對特定場景(如檢索增強生成任務(wù))設(shè)計任務(wù),通過獎勵信號引導(dǎo)模型生成準(zhǔn)確且上下文相關(guān)的內(nèi)容。
2. 獎勵系統(tǒng)
為了指導(dǎo)模型的學(xué)習(xí)方向,設(shè)計了多種獎勵機制,包括:
- 規(guī)則基礎(chǔ)獎勵(Rule-based Reward):適用于需要精確評估模型輸出的任務(wù),如指令遵循和格式遵循任務(wù)。這種獎勵機制通過精心設(shè)計的規(guī)則可高精度評估模型輸出的正確性,避免獎勵欺騙問題。
- 基于模型的獎勵(Model-based Reward):
有參考答案的獎勵:提供參考答案,讓模型根據(jù)參考答案評估其響應(yīng)的質(zhì)量。這種方法適用于需要靈活處理的多樣化任務(wù),避免了因嚴(yán)格格式要求而產(chǎn)生的誤判。
無參考答案的獎勵:利用人類偏好數(shù)據(jù)訓(xùn)練獎勵模型,為模型的響應(yīng)分配標(biāo)量分?jǐn)?shù)。這種方法不依賴參考答案,能夠更廣泛地處理各種查詢,提升模型的交互性和幫助性。
強到弱蒸餾
這一階段的目標(biāo)是通過從大型模型(teacher models)向小型模型(student models)的知識傳遞,優(yōu)化小型模型的性能,同時顯著降低計算成本和開發(fā)工作量。這一階段的訓(xùn)練旨在:
- 提升小型模型的性能:通過知識蒸餾,使小型模型能夠繼承大型模型的強大推理能力和多語言處理能力。
- 降低計算成本:減少小型模型的訓(xùn)練時間和資源消耗,使其在實際應(yīng)用中更具成本效益。
- 保持靈活性:確保小型模型能夠靈活切換“思考模式”和“非思考模式”,并根據(jù)任務(wù)需求動態(tài)調(diào)整推理深度。
為了實現(xiàn)上述目標(biāo),強到弱蒸餾階段采用了以下方法:
- 離線蒸餾(Off-policy Distillation):在初始階段,結(jié)合教師模型在 /think 和 /no_think 模式下生成的輸出進行響應(yīng)蒸餾,幫助輕量級學(xué)生模型發(fā)展基本推理技能和模式切換能力,為下一階段的在線訓(xùn)練奠定基礎(chǔ)。
- 在線蒸餾(On-policy Distillation):在此階段,學(xué)生模型生成在線序列進行微調(diào)。具體而言,采樣提示詞后,學(xué)生模型以 /think 或 /no_think 模式生成響應(yīng),隨后通過對齊其對數(shù)(logits)與教師模型(Qwen3-32B 或 Qwen3-235B-A22B)的對數(shù)來微調(diào)學(xué)生模型,以最小化 KL 散度。
后訓(xùn)練評估
1.旗艦?zāi)P?/strong>
Qwen3-235B-A22B 在思維和非思維模式下均展現(xiàn)了開源模型中的 SOTA 整體性能,超越 DeepSeek-R1 和 DeepSeek-V3 等強基線,且與 OpenAI-o1、Gemini2.5-Pro 和 GPT-4o 等閉源領(lǐng)先模型具有高度競爭力,彰顯了其深厚的推理能力和綜合通用能力。


2.旗艦稠密模型
Qwen3-32B 在大多數(shù)基準(zhǔn)上超越了此前最強的推理模型 QwQ-32B,性能與閉源的 OpenAI-o3-mini 相當(dāng),體現(xiàn)了其強大的推理能力。Qwen3-32B 在非思維模式下的表現(xiàn)也非常出色,超越了阿里上一代旗艦?zāi)P蚎wen2.5-72B-Instruct。

3.輕量級模型(包括 Qwen3-30B-A3B、Qwen3-14B 和其他較小的稠密模型)相比參數(shù)規(guī)模相近或更大的開源模型持續(xù)表現(xiàn)出更優(yōu)性能,證明強到弱蒸餾方法的成功。



4.消融實驗
思維預(yù)算的影響:通過在數(shù)學(xué)、編程和 STEM 領(lǐng)域的多個基準(zhǔn)測試中調(diào)整推理預(yù)算,Qwen3 模型展示了其性能與分配的推理預(yù)算成正比。具體來說,隨著思考 token 預(yù)算增加(16K→32K),Qwen3-235B-A22B 在 AIME’24、LiveCodeBench 等任務(wù)中的性能呈線性提升,證明模型可通過分配更多計算資源提升復(fù)雜推理能力。
在線蒸餾的有效性與效率:與直接進行強化學(xué)習(xí)相比,**使用強到弱蒸餾方法訓(xùn)練小型模型在性能和訓(xùn)練效率方面具有顯著優(yōu)勢。**具體來說,蒸餾方法不僅提升了小型模型的性能,還大幅減少了訓(xùn)練所需的 GPU 小時數(shù)。對比 RL 和蒸餾:在 Qwen3-8B 上,僅用 1/10 GPU 小時的蒸餾訓(xùn)練即可使 AIME’24 得分從 55.0(離線蒸餾)提升至 74.4(在線蒸餾),遠超 RL 的 67.6 分。蒸餾還顯著提升探索能力(Pass@64 從 90.0→93.3),而 RL 未帶來此改進。
推理模式融合的效果:通過在后訓(xùn)練階段引入推理模式融合和通用強化學(xué)習(xí),Qwen3 模型在多種任務(wù)中的表現(xiàn)得到了顯著提升。具體來說,模型在指令遵循、格式遵循、偏好對齊和多語言任務(wù)中的表現(xiàn)尤為突出。
注:雖然在一些復(fù)雜任務(wù)(如 AIME’24 和 LiveCodeBench)中,模型在“思考模式”下的性能在經(jīng)過通用強化學(xué)習(xí)后有所下降,但這是為了提升模型在更廣泛任務(wù)中的通用性和適應(yīng)性所做出的權(quán)衡。

四、總結(jié)
Qwen3 大模型通過創(chuàng)新的架構(gòu)設(shè)計、高效的訓(xùn)練策略和獨特的后訓(xùn)練流程,在性能、效率和通用性上實現(xiàn)了重大突破。無論是處理復(fù)雜推理任務(wù),還是應(yīng)對多語言需求,Qwen3 都展現(xiàn)出強大的實力。隨著開源社區(qū)的共同努力,相信 Qwen3 將不斷進化,為人工智能的發(fā)展帶來更多驚喜,也期待它在更多領(lǐng)域發(fā)揮作用。




























