偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="qlkaq"><mark id="qlkaq"><small id="qlkaq"></small></mark></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

解鎖 LLM 新高度！一文深度解讀 Qwen3 大模型?

作者：Goldma 2025-05-21 09:04:38

最近通義團隊公開了Qwen3的技術(shù)報告，今天來詳細(xì)了解下Qwen3是如何實現(xiàn)思考模式和非思考模式集成，并在眾多開源和閉源模型之間達到領(lǐng)先水平。

一、模型架構(gòu)

Qwen3 系列涵蓋 6 種密集型模型和 2 種 MoE 模型，參數(shù)規(guī)模從 0.6 億到 2350 億不等，滿足不同下游應(yīng)用需求。旗艦?zāi)Ｐ?Qwen3-235B-A22B 作為 MoE 模型，總參數(shù)量達 2350 億，每 token 激活參數(shù)量為 220 億，在性能與效率間取得平衡。

密集型模型

Qwen3 的密集型模型架構(gòu)與 Qwen2.5 類似，采用 Grouped Query Attention（GQA）和 QK-Norm 改進注意力機制，使用 SwiGLU 作為激活函數(shù)，搭配 Rotary Positional Embeddings（RoPE）進行位置編碼，采用 RMSNorm 并預(yù)歸一化。此外，Qwen3 移除了 QKV-bias，進一步優(yōu)化性能。分詞器采用基于字節(jié)級字節(jié)對編碼（BBPE）的自有分詞器，詞匯表大小為 151,669 。

混合專家模型

Qwen3 的 MoE 模型在密集型模型基礎(chǔ)上，引入專家分割和負(fù)載均衡機制。128 個專家中每個 token 激活 8 個專家，通過全局批量負(fù)載均衡損失鼓勵專家專門化，且不再使用共享專家，進一步提升模型效率和性能。

二、預(yù)訓(xùn)練

預(yù)訓(xùn)練任務(wù)預(yù)訓(xùn)練數(shù)據(jù)

Qwen3 的預(yù)訓(xùn)練數(shù)據(jù)規(guī)模和多樣性顯著提升，包含 36 萬億個 token，是 Qwen2.5 的兩倍，覆蓋 119 種語言和方言，是Qwen2.5的四倍。數(shù)據(jù)來源廣泛，具體來說，包括：

多語言文本：包括各種領(lǐng)域的高質(zhì)量內(nèi)容，如編程、STEM（科學(xué)、技術(shù)、工程和數(shù)學(xué)）、推理任務(wù)、書籍、多語言文本等。
合成數(shù)據(jù)：利用 Qwen2.5-Math 和 Qwen2.5-Coder 模型生成數(shù)學(xué)和編程相關(guān)的合成數(shù)據(jù)。
PDF 文檔提取：通過 Qwen2.5-VL 模型從大量 PDF 文檔中提取文本，并使用 Qwen2.5 模型進行質(zhì)量優(yōu)化。

另外通過多語言數(shù)據(jù)標(biāo)注系統(tǒng)進行多維度標(biāo)注，以便更有效地進行數(shù)據(jù)過濾和組合，確保數(shù)據(jù)質(zhì)量。

預(yù)訓(xùn)練階段

Qwen3 的預(yù)訓(xùn)練過程分為三個階段，每個階段都有其特定的目標(biāo)和數(shù)據(jù)集：

通用階段（S1）：在首個預(yù)訓(xùn)練階段，所有 Qwen3 模型均使用 4096 token 的序列長度，在超過 30 萬億 token 上進行訓(xùn)練。在此階段，模型全面學(xué)習(xí)語言能力和通用世界知識，訓(xùn)練數(shù)據(jù)覆蓋 119 種語言和方言。
推理階段（S2）：為進一步提升推理能力，通過增加 STEM、編碼、推理和合成數(shù)據(jù)的比例優(yōu)化該階段的預(yù)訓(xùn)練語料庫。模型使用 4096 token 的序列長度，在約 5 萬億高質(zhì)量 token 上繼續(xù)預(yù)訓(xùn)練，并在此階段加速學(xué)習(xí)率衰減。
長上下文階段：在最后的預(yù)訓(xùn)練階段，收集高質(zhì)量長上下文語料庫以擴展 Qwen3 模型的上下文長度。所有模型使用 32768 token 的序列長度，在數(shù)百億 token 上進行預(yù)訓(xùn)練。長上下文語料庫中，75% 的文本長度在 16384 至 32768 token 之間，25% 在 4096 至 16384 token 之間。沿用 Qwen2.5的做法，通過 ABF 技術(shù)將 RoPE 的基礎(chǔ)頻率從 10,000 提升至 1,000,000。同時引入 YARN和雙塊注意力，以在推理階段將序列長度處理能力提升四倍。

預(yù)訓(xùn)練評估

對 Qwen3 系列的預(yù)訓(xùn)練模型進行了全面評估，涵蓋了多個任務(wù)和領(lǐng)域。評估結(jié)果表明：

與此前開源的 SOTA 稠密和 MoE 基礎(chǔ)模型（如 DeepSeek-V3 Base、Llama-4-Maverick Base、Qwen2.5-72B-Base）相比，Qwen3-235B-A22B-Base 在大多數(shù)任務(wù)中以顯著更少的總參數(shù)或激活參數(shù)實現(xiàn)了性能超越。
對于 Qwen3 MoE 基礎(chǔ)模型，實驗結(jié)果表明：

使用相同預(yù)訓(xùn)練數(shù)據(jù)時，Qwen3 MoE 基礎(chǔ)模型僅需 1/5 的激活參數(shù)即可達到與 Qwen3 稠密基礎(chǔ)模型相當(dāng)?shù)男阅?/span>。
由于 Qwen3 MoE 架構(gòu)的改進、訓(xùn)練 token 規(guī)模的擴大和更先進的訓(xùn)練策略，Qwen3 MoE 基礎(chǔ)模型以少于 1/2 的激活參數(shù)和總參數(shù)超越了 Qwen2.5 MoE 基礎(chǔ)模型。
僅使用 Qwen2.5 稠密基礎(chǔ)模型 1/10 的激活參數(shù)，Qwen3 MoE 基礎(chǔ)模型仍能實現(xiàn)可比性能，為推理和訓(xùn)練成本帶來顯著優(yōu)勢。

Qwen3 稠密基礎(chǔ)模型的整體性能與更高參數(shù)規(guī)模的 Qwen2.5 基礎(chǔ)模型相當(dāng)。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 性能相當(dāng)，尤其在 STEM、編碼和推理基準(zhǔn)測試中，Qwen3 稠密基礎(chǔ)模型甚至超越了更高參數(shù)規(guī)模的 Qwen2.5 基礎(chǔ)模型。

綜合來看，Qwen3 的架構(gòu)設(shè)計通過混合專家稀疏激活、長上下文優(yōu)化和多語言適配，在效率、性能和通用性之間實現(xiàn)了平衡，與相同參數(shù)規(guī)模的LLM相比，Qwen3以更少的參數(shù)實現(xiàn)更優(yōu)的性能。

三、后訓(xùn)練

Qwen3的后訓(xùn)練流程是Qwen實現(xiàn)思考模式和非思考模式集成的關(guān)鍵，其流程圍繞兩個核心目標(biāo)設(shè)計，下面來詳細(xì)介紹下：

思維控制：整合 “非思維” 和 “思維” 兩種模式，使用戶能夠靈活選擇模型是否進行推理，并通過指定思維過程的 token 預(yù)算控制思維深度。
強到弱蒸餾：精簡輕量級模型的后訓(xùn)練流程，通過利用大規(guī)模模型的知識，大幅降低構(gòu)建小規(guī)模模型的計算成本和開發(fā)工作量。

Qwen3 系列的旗艦?zāi)Ｐ筒捎盟碾A段訓(xùn)練流程：前兩個階段專注于開發(fā)模型的 “思維” 能力，后兩個階段則致力于將強 “非思維” 功能整合到模型中。

初步實驗表明，直接將教師模型的輸出對數(shù)（logits）蒸餾到輕量級學(xué)生模型中，可有效提升學(xué)生模型的性能，同時保持對推理過程的細(xì)粒度控制。這種方法無需為每個小規(guī)模模型單獨執(zhí)行完整的四階段訓(xùn)練流程，不僅通過更高的 Pass@1 分?jǐn)?shù)體現(xiàn)出更好的即時性能，還通過改進的 Pass@64 結(jié)果增強了模型的探索能力。此外，與四階段訓(xùn)練方法相比，該方法僅需 1/10 的 GPU 小時，顯著提升了訓(xùn)練效率。

長思維鏈冷啟動

長思維鏈冷啟動（Long-CoT Cold Start）階段的目標(biāo)是為模型提供推理能力的基礎(chǔ)訓(xùn)練，使其能夠處理復(fù)雜的多步驟問題。這一階段的訓(xùn)練旨在：

培養(yǎng)基礎(chǔ)推理模式：通過處理復(fù)雜的多步驟問題，使模型能夠逐步構(gòu)建推理鏈，為后續(xù)的強化學(xué)習(xí)階段打下堅實的基礎(chǔ)。
避免過度依賴淺層猜測：確保模型在解決復(fù)雜問題時能夠進行深入的思考，而不是依賴于表面的模式匹配或猜測。

為了實現(xiàn)這一目標(biāo)，構(gòu)建一個高質(zhì)量的數(shù)據(jù)集是這一階段的關(guān)鍵。數(shù)據(jù)集需要包含各種類型的復(fù)雜問題，以確保模型能夠?qū)W習(xí)到多樣化的推理模式。

數(shù)據(jù)來源

數(shù)學(xué)問題：包括復(fù)雜的數(shù)學(xué)題目，如高等數(shù)學(xué)、線性代數(shù)等。
編程問題：涉及算法設(shè)計、代碼生成等任務(wù)。
邏輯推理問題：如邏輯謎題、推理題等。
STEM 問題：涵蓋科學(xué)、技術(shù)、工程和數(shù)學(xué)領(lǐng)域的綜合問題。

查詢過濾
為了確保數(shù)據(jù)集的質(zhì)量，使用 Qwen2.5-72B-Instruct 模型對查詢進行過濾，排除以下類型的查詢：

難以驗證的查詢：例如包含多個子問題或需要一般性文本生成的查詢。
不需要推理的查詢：Qwen2.5-72B-Instruct 能夠正確回答而無需使用推理鏈（Chain-of-Thought, CoT）的問題。

響應(yīng)過濾
對于每個剩余的查詢，使用 QwQ-32B 模型生成多個候選響應(yīng)。通過人工標(biāo)注進一步過濾掉不準(zhǔn)確或不符合要求的響應(yīng)，具體標(biāo)準(zhǔn)包括：(1) 最終答案錯誤；(2) 內(nèi)容大量重復(fù)；(3) 明顯猜測且缺乏充分推理；(4) 思維與總結(jié)內(nèi)容不一致；(5) 不適當(dāng)?shù)恼Z言混合或風(fēng)格轉(zhuǎn)變；(6) 疑似與潛在驗證集項目過度相似。

冷啟動訓(xùn)練：在數(shù)據(jù)集構(gòu)建完成后，進行初始的推理模式訓(xùn)練。從經(jīng)過嚴(yán)格篩選的數(shù)據(jù)集中選擇一部分問題，用于初始的推理模式訓(xùn)練。這一階段的訓(xùn)練數(shù)據(jù)量相對較少，以避免模型在早期階段過度擬合。這一階段重點是培養(yǎng)模型的基礎(chǔ)推理模式，而不是過分強調(diào)即時的推理性能。

通過這種方式，模型能夠在后續(xù)的強化學(xué)習(xí)階段中更好地擴展其推理能力。

推理強化學(xué)習(xí)

這一階段的目標(biāo)是通過強化學(xué)習(xí)進一步提升模型的推理能力，特別是在數(shù)學(xué)和編程任務(wù)中。這一階段的訓(xùn)練旨在：

提升推理能力：通過強化學(xué)習(xí)，進一步提升模型在復(fù)雜推理任務(wù)中的表現(xiàn)。
優(yōu)化模型性能：通過優(yōu)化模型的參數(shù)，提高其在推理任務(wù)中的準(zhǔn)確性和效率。
平衡探索和利用：在強化學(xué)習(xí)過程中，平衡模型的探索（exploration）和利用（exploitation），確保模型能夠有效地學(xué)習(xí)和適應(yīng)新的任務(wù)。

為了實現(xiàn)上述目標(biāo)，推理強化學(xué)習(xí)階段采用了以下方法：

1. 數(shù)據(jù)選擇

選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)是提升模型推理能力的關(guān)鍵。這一階段的數(shù)據(jù)選擇遵循以下標(biāo)準(zhǔn)：

數(shù)據(jù)來源：從長思維鏈冷啟動階段的數(shù)據(jù)集中選擇未使用且具有挑戰(zhàn)性的查詢-驗證對（query-verifier pairs）。

選擇的數(shù)據(jù)必須滿足以下四個標(biāo)準(zhǔn)：

未在冷啟動階段使用：確保數(shù)據(jù)的新穎性，避免模型在強化學(xué)習(xí)階段重復(fù)學(xué)習(xí)。
冷啟動模型可學(xué)習(xí)：選擇冷啟動階段模型能夠?qū)W習(xí)的數(shù)據(jù)，確保數(shù)據(jù)的可學(xué)習(xí)性。
盡可能具有挑戰(zhàn)性：選擇難度較高的數(shù)據(jù)，以提升模型的推理能力。
覆蓋廣泛子領(lǐng)域：確保數(shù)據(jù)覆蓋多個子領(lǐng)域，提高模型的泛化能力。

最終收集了 3,995 個查詢-驗證對，用于強化學(xué)習(xí)階段的訓(xùn)練。

2. 強化學(xué)習(xí)算法

選擇合適的強化學(xué)習(xí)算法是提升模型性能的關(guān)鍵。這一階段采用了 GRPO（Generalized Reinforcement Policy Optimization）算法。

樣本效率：通過 off-policy 訓(xùn)練提高樣本效率，減少訓(xùn)練成本。
探索和利用的平衡：通過控制模型的熵，確保訓(xùn)練過程的穩(wěn)定性，同時允許模型在探索和利用之間找到平衡。

思維模式融合

在 Qwen3 模型的后訓(xùn)練階段中，思維模式融合（Thinking Mode Fusion）階段的目標(biāo)是將“非思考模式”（non-thinking mode）的能力整合到已經(jīng)具備“思考模式”（thinking mode）的模型中。這一階段旨在使模型能夠在兩種模式之間靈活切換，從而在處理不同任務(wù)時能夠根據(jù)需求動態(tài)調(diào)整其行為。具體目標(biāo)包括：

模式整合：將“非思考模式”和“思考模式”整合到同一個模型中，使用戶能夠根據(jù)任務(wù)需求動態(tài)切換模式。
性能優(yōu)化：確保模型在兩種模式下都能表現(xiàn)出色，同時優(yōu)化其在不同任務(wù)中的性能。
推理預(yù)算控制：引入推理預(yù)算機制，允許用戶在推理過程中動態(tài)調(diào)整推理深度，從而在性能和延遲之間取得平衡。

為了實現(xiàn)上述目標(biāo)，思維模式融合階段采用了以下方法：

1. 數(shù)據(jù)集構(gòu)建

在Thinking Model Fusion階段，是在Reasoning RL的基礎(chǔ)上，通過監(jiān)督微調(diào)SFT實現(xiàn)。因此SFT訓(xùn)練數(shù)據(jù)非常關(guān)鍵。

思考數(shù)據(jù)構(gòu)建

拒絕采樣：通過Stage 2訓(xùn)練得到的推理模型，利用Stage 1的query進行拒絕采樣（rejection sampling）生成“思考”數(shù)據(jù)。這種方法確保數(shù)據(jù)的質(zhì)量和多樣性，同時避免模型在訓(xùn)練過程中過度依賴特定的數(shù)據(jù)模式。
數(shù)據(jù)篩選：通過人工標(biāo)注進一步篩選生成的“思考”數(shù)據(jù)，確保其準(zhǔn)確性和相關(guān)性。

非思考數(shù)據(jù)

多樣化任務(wù)覆蓋：精心策劃“非思考”數(shù)據(jù)，確保其涵蓋多種任務(wù)，包括編程、數(shù)學(xué)、指令遵循、多語言任務(wù)、創(chuàng)意寫作、問答和角色扮演等。特別增加了低資源語言的翻譯任務(wù)比例，以提升模型在多語言任務(wù)中的表現(xiàn)。
質(zhì)量評估：使用自動生成的檢查表（checklists）評估“非思考”數(shù)據(jù)的響應(yīng)質(zhì)量，確保數(shù)據(jù)的準(zhǔn)確性和相關(guān)性。

2. 聊天模板設(shè)計

為了支持用戶動態(tài)切換模型的思考模式，設(shè)計了專門的聊天模板。通過在用戶查詢或系統(tǒng)消息中添加特定的標(biāo)志，用戶可以控制模型的行為。

模式切換標(biāo)志

/think 標(biāo)志：用戶可以在查詢中添加/think標(biāo)志，指示模型進入“思考模式”。這是模型的默認(rèn)行為，因此在用戶未明確指定時，模型也會默認(rèn)運行在“思考模式”。
/no think 標(biāo)志：用戶可以在查詢中添加/no think標(biāo)志，指示模型進入“非思考模式”。這允許用戶在需要快速響應(yīng)時禁用模型的思考能力。

內(nèi)部一致性：即使在“非思考模式”下，模型也會保留一個空的思考塊（<think>），以確保內(nèi)部格式的一致性。開發(fā)者可以通過在聊天模板中添加空的思考塊來防止模型進行思考。

3. 推理預(yù)算機制

為了進一步優(yōu)化模型的性能，引入了推理預(yù)算機制。這一機制允許用戶在推理過程中動態(tài)調(diào)整推理深度，從而在性能和延遲之間取得平衡。

通俗來說，只要用戶設(shè)定了模型思考的最大長度限制，當(dāng)思考達到該閾值時，就會手動插入一段停止指令（“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>.\n\n”），終止進一步推理，讓模型基于已完成的思考內(nèi)容輸出最終回答。

論文里強調(diào)，控制推理預(yù)算的能力并非通過顯式訓(xùn)練獲得，而是應(yīng)用思維模式融合后自然涌現(xiàn)的。

通用強化學(xué)習(xí)

這一階段的目標(biāo)是通過廣泛的強化學(xué)習(xí)任務(wù)，進一步提升模型在各種場景下的性能和穩(wěn)定性。這一階段的訓(xùn)練旨在：

提升模型的通用能力：使模型在多種任務(wù)中表現(xiàn)出色，包括指令遵循、格式遵循、偏好對齊、代理能力和特定場景能力。
優(yōu)化模型的穩(wěn)定性和適應(yīng)性：通過多樣化的任務(wù)和獎勵機制，確保模型在不同場景下都能穩(wěn)定運行。
增強模型的交互能力：特別是在長文本處理和多步驟決策任務(wù)中，提升模型的交互能力和決策效率。

為了實現(xiàn)上述目標(biāo)，通用強化學(xué)習(xí)階段采用了以下方法：

1. 任務(wù)設(shè)計

設(shè)計了超過 20 種不同的任務(wù)，涵蓋多個領(lǐng)域和場景，以全面評估和提升模型的性能。這些任務(wù)包括：

指令遵循任務(wù)：確保模型能夠準(zhǔn)確理解和執(zhí)行用戶的指令，包括內(nèi)容、格式、長度和結(jié)構(gòu)化輸出的要求。
格式遵循任務(wù)：要求模型能夠根據(jù)特定的格式要求生成響應(yīng)，例如處理/think和/no think標(biāo)志。（控制模型混合思考模式的關(guān)鍵）
偏好對齊任務(wù)：提升模型在開放性問題上的表現(xiàn)，使其能夠生成更自然、更符合用戶偏好的回答。
代理能力任務(wù)：訓(xùn)練模型正確調(diào)用工具接口，通過與環(huán)境的交互反饋提升其在長決策任務(wù)中的表現(xiàn)。
特定場景任務(wù)：針對特定場景（如檢索增強生成任務(wù)）設(shè)計任務(wù)，通過獎勵信號引導(dǎo)模型生成準(zhǔn)確且上下文相關(guān)的內(nèi)容。

2. 獎勵系統(tǒng)

為了指導(dǎo)模型的學(xué)習(xí)方向，設(shè)計了多種獎勵機制，包括：

規(guī)則基礎(chǔ)獎勵（Rule-based Reward）：適用于需要精確評估模型輸出的任務(wù)，如指令遵循和格式遵循任務(wù)。這種獎勵機制通過精心設(shè)計的規(guī)則可高精度評估模型輸出的正確性，避免獎勵欺騙問題。
基于模型的獎勵（Model-based Reward）：
有參考答案的獎勵：提供參考答案，讓模型根據(jù)參考答案評估其響應(yīng)的質(zhì)量。這種方法適用于需要靈活處理的多樣化任務(wù)，避免了因嚴(yán)格格式要求而產(chǎn)生的誤判。
無參考答案的獎勵：利用人類偏好數(shù)據(jù)訓(xùn)練獎勵模型，為模型的響應(yīng)分配標(biāo)量分?jǐn)?shù)。這種方法不依賴參考答案，能夠更廣泛地處理各種查詢，提升模型的交互性和幫助性。

強到弱蒸餾

這一階段的目標(biāo)是通過從大型模型（teacher models）向小型模型（student models）的知識傳遞，優(yōu)化小型模型的性能，同時顯著降低計算成本和開發(fā)工作量。這一階段的訓(xùn)練旨在：

提升小型模型的性能：通過知識蒸餾，使小型模型能夠繼承大型模型的強大推理能力和多語言處理能力。
降低計算成本：減少小型模型的訓(xùn)練時間和資源消耗，使其在實際應(yīng)用中更具成本效益。
保持靈活性：確保小型模型能夠靈活切換“思考模式”和“非思考模式”，并根據(jù)任務(wù)需求動態(tài)調(diào)整推理深度。

為了實現(xiàn)上述目標(biāo)，強到弱蒸餾階段采用了以下方法：

離線蒸餾（Off-policy Distillation）：在初始階段，結(jié)合教師模型在 /think 和 /no_think 模式下生成的輸出進行響應(yīng)蒸餾，幫助輕量級學(xué)生模型發(fā)展基本推理技能和模式切換能力，為下一階段的在線訓(xùn)練奠定基礎(chǔ)。
在線蒸餾（On-policy Distillation）：在此階段，學(xué)生模型生成在線序列進行微調(diào)。具體而言，采樣提示詞后，學(xué)生模型以 /think 或 /no_think 模式生成響應(yīng)，隨后通過對齊其對數(shù)（logits）與教師模型（Qwen3-32B 或 Qwen3-235B-A22B）的對數(shù)來微調(diào)學(xué)生模型，以最小化 KL 散度。

后訓(xùn)練評估

1.旗艦?zāi)Ｐ?/strong>

Qwen3-235B-A22B 在思維和非思維模式下均展現(xiàn)了開源模型中的 SOTA 整體性能，超越 DeepSeek-R1 和 DeepSeek-V3 等強基線，且與 OpenAI-o1、Gemini2.5-Pro 和 GPT-4o 等閉源領(lǐng)先模型具有高度競爭力，彰顯了其深厚的推理能力和綜合通用能力。

2.旗艦稠密模型

Qwen3-32B 在大多數(shù)基準(zhǔn)上超越了此前最強的推理模型 QwQ-32B，性能與閉源的 OpenAI-o3-mini 相當(dāng)，體現(xiàn)了其強大的推理能力。Qwen3-32B 在非思維模式下的表現(xiàn)也非常出色，超越了阿里上一代旗艦?zāi)Ｐ蚎wen2.5-72B-Instruct。

3.輕量級模型（包括 Qwen3-30B-A3B、Qwen3-14B 和其他較小的稠密模型）相比參數(shù)規(guī)模相近或更大的開源模型持續(xù)表現(xiàn)出更優(yōu)性能，證明強到弱蒸餾方法的成功。

4.消融實驗
思維預(yù)算的影響：通過在數(shù)學(xué)、編程和 STEM 領(lǐng)域的多個基準(zhǔn)測試中調(diào)整推理預(yù)算，Qwen3 模型展示了其性能與分配的推理預(yù)算成正比。具體來說，隨著思考 token 預(yù)算增加（16K→32K），Qwen3-235B-A22B 在 AIME’24、LiveCodeBench 等任務(wù)中的性能呈線性提升，證明模型可通過分配更多計算資源提升復(fù)雜推理能力。

在線蒸餾的有效性與效率：與直接進行強化學(xué)習(xí)相比，**使用強到弱蒸餾方法訓(xùn)練小型模型在性能和訓(xùn)練效率方面具有顯著優(yōu)勢。**具體來說，蒸餾方法不僅提升了小型模型的性能，還大幅減少了訓(xùn)練所需的 GPU 小時數(shù)。對比 RL 和蒸餾：在 Qwen3-8B 上，僅用 1/10 GPU 小時的蒸餾訓(xùn)練即可使 AIME’24 得分從 55.0（離線蒸餾）提升至 74.4（在線蒸餾），遠超 RL 的 67.6 分。蒸餾還顯著提升探索能力（Pass@64 從 90.0→93.3），而 RL 未帶來此改進。

推理模式融合的效果：通過在后訓(xùn)練階段引入推理模式融合和通用強化學(xué)習(xí)，Qwen3 模型在多種任務(wù)中的表現(xiàn)得到了顯著提升。具體來說，模型在指令遵循、格式遵循、偏好對齊和多語言任務(wù)中的表現(xiàn)尤為突出。
注：雖然在一些復(fù)雜任務(wù)（如 AIME’24 和 LiveCodeBench）中，模型在“思考模式”下的性能在經(jīng)過通用強化學(xué)習(xí)后有所下降，但這是為了提升模型在更廣泛任務(wù)中的通用性和適應(yīng)性所做出的權(quán)衡。

四、總結(jié)

Qwen3 大模型通過創(chuàng)新的架構(gòu)設(shè)計、高效的訓(xùn)練策略和獨特的后訓(xùn)練流程，在性能、效率和通用性上實現(xiàn)了重大突破。無論是處理復(fù)雜推理任務(wù)，還是應(yīng)對多語言需求，Qwen3 都展現(xiàn)出強大的實力。隨著開源社區(qū)的共同努力，相信 Qwen3 將不斷進化，為人工智能的發(fā)展帶來更多驚喜，也期待它在更多領(lǐng)域發(fā)揮作用。

責(zé)任編輯：龐桂玉來源：小白學(xué)AI算法

LLM Qwen3 大模型?

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

一文快速解鎖：價格分析模型
價格的敏感性，是可以事先測試的。在事先可以以優(yōu)惠券為杠桿，以抽獎的形式測試用戶的購買率，從而一定程度上推斷漲價降價多少合適。但是這種方式更適合測降價，漲價的話，用戶本能的反感會比較強烈，所以不太適用。

2024-05-11 08:18:49

華為甘斌：夯實千兆廣度深度，邁向萬兆新高度
未來幾年仍是5G建設(shè)的關(guān)鍵期，為了構(gòu)筑持續(xù)領(lǐng)先優(yōu)勢，千兆網(wǎng)建設(shè)也要邁入新征程。

2023-06-05 13:17:52

千兆網(wǎng)

解讀大模型（LLM）的token
這些模型的一個經(jīng)常被忽視的關(guān)鍵點是“token”的作用，即模型處理的各個信息單元。大型語言模型(LLM)不能真正理解原始文本，相反，文本被轉(zhuǎn)換為稱為token的數(shù)字表示形式，然后將這些token提供給模型進行處理。

2023-10-06 20:30:33

大模型 LLM token

iOS 5上手評測：iOS的新高度
萬眾期待的iOS5已經(jīng)正式更新，作為iOS的第五個大版本，本次更新的主題是修補以及整合，從整個更新列表來看，iOS5改進了大量細(xì)節(jié)，加入了一直以來用戶期盼的很多功能，從而在易用性上再進一步。

2011-10-13 10:08:51

iOS 5 iOS

云計算大數(shù)據(jù)被提新高度
計算機行業(yè)“數(shù)據(jù)+產(chǎn)業(yè)+金融”三維研究體系之?dāng)?shù)據(jù)端推進點評:數(shù)據(jù)綱要和軟件百家企業(yè)相繼發(fā)布,云計算大數(shù)據(jù)被提新高度。

2015-09-14 16:12:12

云計算大數(shù)據(jù)高度

全流程拆解：如何使用 LM Studio 優(yōu)化本地 LLM ？
本文將帶大家深入探討LMStudio的核心功能、工作原理及實用技巧，助大家解鎖本地LLM性能的新高度，迎接智能時代的挑戰(zhàn)。

2025-06-03 08:40:00

LM Studio LLM 人工智能

深入了解如何通過 LM Studio 優(yōu)化本地 LLM 性能
本文將帶大家深入探討LMStudio的核心功能、工作原理及實用技巧，助大家解鎖本地LLM性能的新高度，迎接智能時代的挑戰(zhàn)。

2025-05-20 09:24:15

一文解讀Hashdump工具
在Windows操作系統(tǒng)中，用戶的登錄密碼并不會以明文形式存儲，而是通過特定的算法加密成哈希值。hashdump工具是一款專門用于提取這些密碼哈希值的工具，在滲透測試和密碼分析中具有重要作用。

2024-12-23 14:46:24

邊緣計算：將物聯(lián)網(wǎng)應(yīng)用推向新高度
邊緣計算僅傳輸集中計算所需的數(shù)據(jù)，從而解決了延時及帶寬成本等諸多問題……

2020-07-03 18:01:06

邊緣計算物聯(lián)網(wǎng)技術(shù)

Qwen3：開源 LLM 的革新者與多語言先鋒
僅從技術(shù)報告來看，Qwen3并不是一個簡單的迭代更新，而是一次全方位的技術(shù)升級。它在性能、效率以及多語言能力等多個關(guān)鍵維度實現(xiàn)了令人矚目的提升，為人工智能領(lǐng)域注入了全新的活力與可能性。

2025-05-22 05:00:00

傳神語聯(lián)發(fā)布深度思考大模型-T1：根原創(chuàng)鑄基，任度雙腦開啟AI深度思考新高度
2025年3月24日，傳神語聯(lián)A紀(jì)元系列線上發(fā)布活動的第一天，傳神語聯(lián)重磅發(fā)布任度雙腦深度思考大模型T1（以下簡稱任度大模型T1），為大模型領(lǐng)域貢獻了又一創(chuàng)新性成果。

2025-03-25 17:59:13

使用 Unsloth 高效微調(diào) Qwen3，國產(chǎn)大模型的輕量化和部署實踐
本文將討論如何利用Unsloth框架，在有限的硬件資源下完成Qwen314B的高效微調(diào)，并支持后續(xù)部署。通過以下分段內(nèi)容，我們將依次介紹Unsloth的核心特性、以Qwen3為例的實際應(yīng)用、代碼示例以及訓(xùn)練流程總結(jié)。

2025-05-19 09:32:06

推理大模型機制解析！為什么Qwen3要把腦子一分為二？
近期，Qwen3模型的一個重大轉(zhuǎn)變，讓整個行業(yè)都在重新思考一個根本問題：推理大模型到底應(yīng)該什么時候思考，什么時候直接給答案？

2025-09-04 01:00:00

大模型 Qwen3 AI

相似話題

機器學(xué)習(xí)
2040內(nèi)容

深度學(xué)習(xí)
1705內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

告別GPT！最強AI編程神器Cursor自研核心模型，速度快4倍，AI創(chuàng)業(yè)公司大佬：這是我用過最瘋狂的模型之一！網(wǎng)友：性價比不俗一夜之間，Claude猛轉(zhuǎn)向！Coding轉(zhuǎn)向白領(lǐng)，Anthropic內(nèi)部負(fù)責(zé)人自曝設(shè)計思路，開發(fā)只是小切片，目標(biāo)是所有復(fù)雜領(lǐng)域 OpenAI、Claude、通義、智譜、月暗，甚至谷歌，為什么全選擇Pytorch？早期論文成員爆料：LLM太笨重了，需要微型化 DeepSeek-OCR：用視覺模態(tài)給長文本“瘦身”，大模型處理效率再突破 LangChain V1.0 深度解析：手把手帶你跑通全新智能體架構(gòu)Cursor 2.0來了！可視化的Claude Code？掌握RAG系統(tǒng)的七個優(yōu)秀GitHub存儲庫剛剛，Kimi開源新架構(gòu)，開始押注線性注意力

相關(guān)專題更多

戴爾在線研討會：從“模型驅(qū)動”到“數(shù)據(jù)驅(qū)動”的智算架構(gòu)創(chuàng)新

看懂惠普 ZBookX 移動工作站的設(shè)計美學(xué)與效能突破

2025-10-11 13:42:35

技術(shù)薈萃 | 親身體驗 | 交流盛宴

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
偷偷摘套内射激情视频