偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Qwen3:開源 LLM 的革新者與多語言先鋒

人工智能 開源
僅從技術(shù)報告來看,Qwen3 并不是一個簡單的迭代更新,而是一次全方位的技術(shù)升級。它在性能、效率以及多語言能力等多個關(guān)鍵維度實現(xiàn)了令人矚目的提升,為人工智能領(lǐng)域注入了全新的活力與可能性。

“ Qwen3 模型以其卓越的性能、效率和多語言能力,為開源大語言模型領(lǐng)域樹立了新的標(biāo)桿,引領(lǐng)著技術(shù)發(fā)展的新潮流?!?/span>

大家好,我是肆〇柒。在 4 月底的時候 Qwen3 開源放出了權(quán)重,在熱火朝天開爐煉丹后的不久,上周三千問團(tuán)隊又放出了 Qwen3 的技術(shù)報告,最近有點小忙,所以雖然第一時間閱讀了技術(shù)報告,但是一直沒有發(fā)文出來??墒?,這么重要的模型,怎能不發(fā)一篇,所以,雖然遲也要發(fā),不僅發(fā),我還要補充一點官方渠道沒有的內(nèi)容。

僅從技術(shù)報告來看,Qwen3 并不是一個簡單的迭代更新,而是一次全方位的技術(shù)升級。它在性能、效率以及多語言能力等多個關(guān)鍵維度實現(xiàn)了令人矚目的提升,為人工智能領(lǐng)域注入了全新的活力與可能性。憑借其卓越的代碼生成能力,它能夠精準(zhǔn)理解開發(fā)者意圖,快速輸出高質(zhì)量、可運行的代碼片段,極大地提升了編程效率;在數(shù)學(xué)推理方面,Qwen3 像是一位思維敏捷的數(shù)學(xué)家,能夠巧妙地處理復(fù)雜的公式與邏輯關(guān)系,為科研工作者和學(xué)生提供有力支持;而在智能體任務(wù)中,它又成為聰明能干的助手,高效協(xié)調(diào)各類資源,助力任務(wù)的順利完成。下面我們一起來閱讀這份報告吧

Qwen3 模型系列概述

模型架構(gòu)與參數(shù)規(guī)模:構(gòu)建強大的語言模型根基

Qwen3 模型家族陣容龐大,涵蓋了從參數(shù)規(guī)模 6 億到 2350 億不等的多種型號,充分滿足不同應(yīng)用場景對模型容量與計算復(fù)雜度的多樣化需求。其中,尤為引人注目的是旗艦?zāi)P?Qwen3 - 235B - A22B,它以 2350 億的超大參數(shù)規(guī)模傲視群雄,然而,在實際推理過程中,平均每 token 僅激活 220 億參數(shù),這種精妙的設(shè)計巧妙地平衡了模型性能與推理效率,使其既能展現(xiàn)出強大的語言理解和生成能力,又不會因過度的參數(shù)激活而陷入計算資源消耗的泥沼,為處理復(fù)雜多變的語言任務(wù)提供了堅實有力的保障。

為了更直觀地了解 Qwen3 模型架構(gòu),我們可以參考以下表格為密集模型架構(gòu)各個型號:

模型名稱

層數(shù)

頭數(shù) (Q / KV)

是否綁定嵌入

上下文長度

Qwen3 - 0.6B

28

16 / 8

32K

Qwen3 - 1.7B

28

16 / 8

32K

Qwen3 - 4B

36

32 / 8

128K

Qwen3 - 8B

36

32 / 8

128K

Qwen3 - 14B

40

40 / 8

128K

Qwen3 - 32B

64

64 / 8

128K

以下為Qwen3 MoE 模型架構(gòu)型號:

模型名稱

層數(shù)

頭數(shù) (Q / KV)

專家總數(shù) / 激活專家數(shù)

上下文長度

Qwen3 - 30B - A3B

48

32 / 4

128 / 8

128K

Qwen3 - 235B - A22B

94

64 / 4

128 / 8

128K

思考模式與非思考模式的創(chuàng)新整合:靈動適應(yīng)多樣化任務(wù)需求

Qwen3 在模式設(shè)計上展現(xiàn)出非凡的創(chuàng)新力,成功將思考模式與非思考模式融合于同一架構(gòu)之下。思考模式猶如一位深思熟慮的學(xué)者,面對復(fù)雜問題時,會逐步進(jìn)行多步推理,抽絲剝繭般探尋問題的本質(zhì)與解決方案;而非思考模式則恰似敏捷果敢的行動派,依據(jù)已有上下文迅速做出判斷,生成簡潔直接的回應(yīng)。

在實際應(yīng)用中,用戶無需在不同模型間來回切換,只需通過簡單的指令或聊天模板的設(shè)置,即可在同一模型中實現(xiàn)模式的動態(tài)轉(zhuǎn)換。具體來說,Qwen3 設(shè)計了一種靈活的聊天模板機制,允許用戶通過特定的指令來指定模型使用思考模式或非思考模式。例如:

  • 思考模式:用戶可以在查詢中添加 /think 標(biāo)志,模型會自動進(jìn)入思考模式,進(jìn)行深度推理并生成詳細(xì)的思考過程和答案。例如:
用戶:{query} /think
助手:<think> {thinking content} </think>
{response}
  • 非思考模式:用戶可以在查詢中添加 /no_think 標(biāo)志,模型會自動進(jìn)入非思考模式,快速生成簡潔的回應(yīng)。例如:
用戶:{query} /no_think
助手:<think>
</think>
{response}

這種設(shè)計不僅允許用戶根據(jù)任務(wù)需求靈活切換模式,還確保了模型在不同模式下的表現(xiàn)一致性。默認(rèn)情況下,模型會以思考模式運行,用戶可以通過添加特定標(biāo)志來切換到非思考模式,從而實現(xiàn)對模型行為的精細(xì)控制。

通過這種靈活的模式切換機制,Qwen3 能夠在不同任務(wù)場景中自如穿梭,無論是需要深度推理的復(fù)雜問題,還是需要快速響應(yīng)的簡單任務(wù),都能提供高質(zhì)量的服務(wù),極大地提升了用戶體驗的流暢性與便利性。 

思考預(yù)算機制:精細(xì)掌控計算資源分配的智慧策略

為了進(jìn)一步優(yōu)化模型性能與資源利用率,Qwen3 引入了獨具匠心的思考預(yù)算機制。在推理過程中,用戶可根據(jù)任務(wù)的復(fù)雜程度與實時需求,自適應(yīng)地設(shè)定 token 預(yù)算,從而精準(zhǔn)調(diào)控模型的思考深度。對于一些需要深度分析與多步推理的高難度問題,如復(fù)雜的數(shù)學(xué)建模或跨領(lǐng)域知識融合任務(wù),用戶適當(dāng)增加思考預(yù)算,賦予模型更多 “思考空間”,使其能夠充分展開邏輯推理,挖掘問題深層次的內(nèi)涵;而對于相對簡單的任務(wù),如日常閑聊、基礎(chǔ)信息查詢等,則可降低預(yù)算,促使模型快速生成簡潔回應(yīng),避免不必要的計算資源浪費。這一機制賦予了 Qwen3 極高的靈活性與可控性,使其能夠根據(jù)不同任務(wù)場景靈活調(diào)整資源分配,實現(xiàn)性能與效率的最優(yōu)平衡,堪稱是模型智能化設(shè)計的點睛之筆。

思考預(yù)算機制允許用戶在模型推理時指定一個 token 預(yù)算。當(dāng)模型的思考長度達(dá)到用戶設(shè)定的預(yù)算時,系統(tǒng)會自動停止思考過程,并插入一個停止思考的指令:“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n.\n\n”。之后,模型會基于已有的思考內(nèi)容生成最終的回應(yīng)。這種機制不僅確保了模型能夠在有限的時間內(nèi)提供最優(yōu)化的解決方案,還避免了因過度思考而導(dǎo)致的延遲問題,從而在保證性能的同時,有效控制了計算資源的消耗。

圖片

Qwen3-235B-A22B 在思考預(yù)算方面的表現(xiàn)

模型預(yù)訓(xùn)練:海量數(shù)據(jù)與多階段策略鑄就卓越基礎(chǔ)

預(yù)訓(xùn)練數(shù)據(jù):構(gòu)建多元豐富的知識寶庫

Qwen3 的預(yù)訓(xùn)練之旅始于一個規(guī)??涨?、內(nèi)容多元的數(shù)據(jù)集,它匯聚了 36 萬億個 token,涵蓋了 119 種語言和方言,其數(shù)據(jù)來源之廣泛、內(nèi)容之豐富令人驚嘆。從涵蓋編碼知識的專業(yè)文檔到涵蓋 STEM 領(lǐng)域前沿研究成果的學(xué)術(shù)論文,從充滿生活智慧的推理任務(wù)案例到包羅萬象的多語言文學(xué)作品,這些海量數(shù)據(jù)如同一座座知識的寶藏,為模型的學(xué)習(xí)與成長提供了取之不盡、用之不竭的養(yǎng)分。數(shù)據(jù)的多樣性確保了模型能夠接觸到各種風(fēng)格、各種主題的語言表達(dá),從而在語言理解與生成上具備廣泛的適應(yīng)性,無論是處理專業(yè)領(lǐng)域的復(fù)雜文本,還是應(yīng)對日常交流中的口語表達(dá),都能游刃有余,展現(xiàn)出強大的語言駕馭能力。

為了進(jìn)一步擴(kuò)充預(yù)訓(xùn)練數(shù)據(jù),Qwen3 團(tuán)隊采用了多種創(chuàng)新方法。首先,利用 Qwen2.5 - VL 模型對大量 PDF 文檔進(jìn)行文本提取,隨后通過 Qwen2.5 模型對提取的文本進(jìn)行質(zhì)量優(yōu)化,從而獲取了數(shù)萬億個高質(zhì)量的文本 token。此外,團(tuán)隊還借助 Qwen2.5 - Math、Qwen2.5 - Coder 等領(lǐng)域?qū)S媚P停闪撕w數(shù)學(xué)、編程等多個領(lǐng)域的合成數(shù)據(jù),進(jìn)一步豐富了數(shù)據(jù)集的內(nèi)容。最終,通過整合多語言數(shù)據(jù)和引入更多語言,Qwen3 的多語言支持能力從 Qwen2.5 的 29 種語言擴(kuò)展到 119 種語言和方言,極大地提升了其在全球范圍內(nèi)的應(yīng)用潛力。

預(yù)訓(xùn)練階段:循序漸進(jìn)的深度學(xué)習(xí)之旅

Qwen3 的預(yù)訓(xùn)練過程并非一蹴而就,而是精心設(shè)計為三個階段,每個階段都有其獨特的訓(xùn)練目標(biāo)與方法,層層遞進(jìn),逐步夯實模型的能力基礎(chǔ)。

在 通用階段 ,模型如同初入學(xué)堂的學(xué)生,沉浸在 30 萬億個 token 的知識海洋中,廣泛涉獵各種語言和主題,構(gòu)建起扎實的語言熟練度和通用世界知識基礎(chǔ)。這一階段的訓(xùn)練重點在于讓模型掌握語言的基本規(guī)則、詞匯的豐富含義以及句子的結(jié)構(gòu)組成,使其能夠理解并生成符合語法規(guī)則、邏輯連貫的文本,為后續(xù)的深度學(xué)習(xí)奠定堅實根基。通過這一階段的訓(xùn)練,Qwen3 在語言基礎(chǔ)能力上達(dá)到了一個新的高度,能夠處理各種常見的語言任務(wù),如簡單的問答、文本摘要等。

隨后進(jìn)入 推理階段 ,此時的 Qwen3 已經(jīng)具備了一定的語言基礎(chǔ),但為了進(jìn)一步提升其解決復(fù)雜問題的能力,訓(xùn)練團(tuán)隊對數(shù)據(jù)集進(jìn)行了優(yōu)化調(diào)整,大幅增加了 STEM、編碼和合成數(shù)據(jù)的比例。這些數(shù)據(jù)猶如精心設(shè)計的思維訓(xùn)練題,引導(dǎo)模型深入思考,鍛煉其邏輯推理、數(shù)學(xué)建模以及代碼理解等高級認(rèn)知能力。在這一階段,Qwen3 通過大量復(fù)雜的推理任務(wù)訓(xùn)練,逐步學(xué)會了如何分析問題、構(gòu)建邏輯鏈條并找到解決方案,其推理能力得到了顯著提升,能夠處理更復(fù)雜的任務(wù),如數(shù)學(xué)問題求解、編程代碼生成等。

最后是 長文本上下文階段 ,訓(xùn)練團(tuán)隊精心挑選了大量高質(zhì)量的長文本語料,將模型的上下文長度擴(kuò)展至 32,768 個 token。這一階段的訓(xùn)練好比是鍛煉模型的 “長程記憶”,使其能夠處理更長、更復(fù)雜的文本段落,理解文本中的長距離依賴關(guān)系。同時,借助相關(guān)技術(shù),模型的序列長度容量實現(xiàn)了四倍提升,這不僅極大地增強了其對長文本的處理能力,還為處理一些需要綜合考慮大量信息的任務(wù),如長篇小說創(chuàng)作、復(fù)雜報告撰寫等,提供了有力支持,讓 Qwen3 在處理長文本任務(wù)時也能展現(xiàn)出色的性能。

預(yù)訓(xùn)練模型的評估:以卓越表現(xiàn)彰顯實力

經(jīng)過精心的預(yù)訓(xùn)練,Qwen3 基礎(chǔ)語言模型在多項基準(zhǔn)測試中大放異彩,充分展現(xiàn)了其卓越的性能。在通用任務(wù)測試中,Qwen3 在 MMLU(多任務(wù)語言理解)、MMLU - Pro(高級多任務(wù)語言理解)等多個權(quán)威基準(zhǔn)上取得了領(lǐng)先成績,其對各種領(lǐng)域知識的掌握程度和語言表達(dá)的準(zhǔn)確性遠(yuǎn)超同類型模型;在數(shù)學(xué)與 STEM 任務(wù)方面,Qwen3 在 GPQA(高級問題解答)、GSM8K(小學(xué)數(shù)學(xué)應(yīng)用題)等基準(zhǔn)測試中表現(xiàn)優(yōu)異,準(zhǔn)確率大幅領(lǐng)先,充分證明了其強大的數(shù)學(xué)推理和科學(xué)知識理解能力;在編碼任務(wù)測試中,Qwen3 在 EvalPlus(多語言代碼生成評估)、MultiPL - E(多語言代碼生成)等基準(zhǔn)上取得了令人矚目的成績,其生成代碼的準(zhǔn)確性和可運行性得到了廣泛認(rèn)可;而在多語言任務(wù)測試中,Qwen3 更是憑借其廣泛的語言支持和出色的跨語言理解能力,在 MGSM(多語言通用科學(xué)數(shù)學(xué))、MMMLU(多語言多任務(wù)語言理解)等多語言基準(zhǔn)測試中取得了優(yōu)異成績,充分展現(xiàn)了其在多語言領(lǐng)域的強大競爭力。與 Qwen2.5 以及其他開源基礎(chǔ)模型相比,Qwen3 在各項測試中均展現(xiàn)出顯著的性能優(yōu)勢,無論是參數(shù)規(guī)模、激活參數(shù)數(shù)量還是任務(wù)表現(xiàn),都堪稱是開源大語言模型領(lǐng)域的新標(biāo)桿,為后續(xù)的后訓(xùn)練優(yōu)化奠定了堅實基礎(chǔ)。

模型后訓(xùn)練:深度優(yōu)化與知識傳承的協(xié)同進(jìn)化

后訓(xùn)練目標(biāo):全方位提升模型性能與適應(yīng)性

后訓(xùn)練階段是 Qwen3 模型進(jìn)一步提升性能、優(yōu)化用戶體驗的關(guān)鍵環(huán)節(jié)。這一階段的核心目標(biāo)是實現(xiàn)推理控制和強到弱的知識蒸餾,通過精心設(shè)計的訓(xùn)練流程,讓模型在不同任務(wù)場景中展現(xiàn)出更出色的性能,同時將大型模型的先進(jìn)知識有效傳遞給輕量級模型,實現(xiàn)模型家族的協(xié)同進(jìn)化,提升整個模型體系的競爭力與實用性。

后訓(xùn)練流程:多階段強化訓(xùn)練塑造全能模型

后訓(xùn)練流程分為多個階段,每個階段都針對特定的訓(xùn)練目標(biāo)和任務(wù)類型,采用不同的訓(xùn)練方法和技術(shù)手段,逐步提升模型的綜合能力。

在 長鏈推理冷啟動階段 ,訓(xùn)練團(tuán)隊精心構(gòu)建了一個全面且高質(zhì)量的數(shù)據(jù)集,涵蓋了數(shù)學(xué)、代碼、邏輯推理以及 STEM 等多個領(lǐng)域的復(fù)雜問題,并為每個問題配備了經(jīng)過驗證的參考答案或代碼測試用例。在數(shù)據(jù)篩選過程中,首先利用 Qwen2.5 - 72B - Instruct 模型對查詢進(jìn)行過濾,剔除那些無法驗證、包含多個子問題或可以通過非推理方式輕松解答的查詢,確保數(shù)據(jù)集中的問題均具有一定的復(fù)雜性和挑戰(zhàn)性,能夠有效鍛煉模型的推理能力。隨后,通過 QwQ - 32B 模型生成候選答案,并經(jīng)過嚴(yán)格的人工審核和篩選,進(jìn)一步保證數(shù)據(jù)質(zhì)量。最終,從篩選后的數(shù)據(jù)中挑選出一部分用于模型的初始冷啟動訓(xùn)練,這一階段的訓(xùn)練重點在于為模型灌輸基礎(chǔ)的推理模式,使其初步掌握如何思考和解決問題,為后續(xù)的強化學(xué)習(xí)奠定基礎(chǔ)。

圖片

Qwen3系列模型的后訓(xùn)練流程

緊接著是 推理強化學(xué)習(xí)(Reasoning RL)階段 ,訓(xùn)練團(tuán)隊從冷啟動階段未使用過的數(shù)據(jù)中精心挑選出 3,995 個查詢 - 驗證器對,這些數(shù)據(jù)不僅具有挑戰(zhàn)性,還覆蓋了廣泛的子領(lǐng)域,能夠全面鍛煉模型的推理能力。在訓(xùn)練過程中,采用 GRPO(基于梯度的強化學(xué)習(xí)優(yōu)化)算法更新模型參數(shù),通過設(shè)置大批次大小和高查詢次數(shù),結(jié)合離線訓(xùn)練提高樣本效率,同時巧妙地控制模型的熵,使其在探索和利用之間達(dá)到平衡,從而實現(xiàn)穩(wěn)定且有效的訓(xùn)練。經(jīng)過這一階段的強化學(xué)習(xí),模型在推理任務(wù)上的表現(xiàn)有了顯著提升,例如 Qwen3 - 235B - A22B 模型在 AIME’24 測試中的成績從 70.1 飆升至 85.1,充分證明了強化學(xué)習(xí)在提升模型推理能力方面的強大效果。

隨后進(jìn)入 思考模式融合階段 ,這一階段的目的是將非思考能力整合到已經(jīng)具備思考能力的模型中,實現(xiàn)兩種模式的無縫切換和協(xié)同工作。訓(xùn)練團(tuán)隊通過持續(xù)的監(jiān)督微調(diào)(SFT)對推理 RL 模型進(jìn)行優(yōu)化,并精心設(shè)計了聊天模板,以支持兩種模式的融合。在 SFT 數(shù)據(jù)構(gòu)建方面,結(jié)合了思考模式和非思考模式的數(shù)據(jù),其中思考模式數(shù)據(jù)通過拒絕采樣從冷啟動階段的查詢中生成,而非思考模式數(shù)據(jù)則涵蓋了編碼、數(shù)學(xué)、指令遵循、多語言任務(wù)、創(chuàng)意寫作、問答和角色扮演等多種任務(wù)類型,確保模型在不同任務(wù)場景下都能表現(xiàn)出色。此外,為了提升模型在低資源語言任務(wù)上的性能,還特別增加了翻譯任務(wù)的比例。通過這一階段的訓(xùn)練,模型不僅能夠靈活切換思考模式,還在多種任務(wù)上實現(xiàn)了性能提升,進(jìn)一步增強了模型的實用性和適應(yīng)性。

最后是 通用強化學(xué)習(xí)(General RL)階段 ,訓(xùn)練團(tuán)隊為模型設(shè)計了一個包含 20 多個任務(wù)的復(fù)雜獎勵系統(tǒng),這些任務(wù)涵蓋了指令遵循、格式遵循、偏好對齊、智能體能力和特定場景能力等多個方面,期望全面提升模型在各種場景下的綜合能力和穩(wěn)定性。在獎勵計算方面,采用了規(guī)則基礎(chǔ)獎勵、基于參考答案的模型基礎(chǔ)獎勵和無參考答案的模型基礎(chǔ)獎勵等多種方式,確保模型能夠準(zhǔn)確理解并遵循用戶指令,生成符合格式要求、符合人類偏好的高質(zhì)量回應(yīng)。通過這一階段的訓(xùn)練,模型在指令遵循、格式遵循、偏好對齊等任務(wù)上的表現(xiàn)有了顯著提升,例如在 IFEval(指令遵循評估)中的嚴(yán)格提示準(zhǔn)確率和 Arena - Hard(高級競技場任務(wù))中的表現(xiàn)均大幅提高,充分證明了通用強化學(xué)習(xí)在提升模型綜合性能方面的關(guān)鍵作用。

強到弱的知識蒸餾(Strong - to - Weak Distillation):高效傳承知識,優(yōu)化輕量級模型

除了上述針對旗艦?zāi)P偷纳疃葍?yōu)化訓(xùn)練,Qwen3 還特別注重將大型模型的先進(jìn)知識有效傳遞給輕量級模型,以實現(xiàn)整個模型家族的協(xié)同進(jìn)化。通過強到弱的知識蒸餾技術(shù),Qwen3 成功地將大型模型的推理能力和知識儲備高效地傳授給輕量級模型,使其在保持較小模型規(guī)模的同時,也能展現(xiàn)出強大的性能和推理能力。這一過程分為離線蒸餾和在線蒸餾兩個階段,在離線蒸餾階段,首先將大型教師模型在思考模式和非思考模式下生成的輸出 logits 傳遞給輕量級學(xué)生模型,為其提供豐富的知識引導(dǎo);隨后,在在線蒸餾階段,學(xué)生模型根據(jù)這些知識引導(dǎo)生成自己的輸出,并通過與教師模型的 logits 對比,調(diào)整自身參數(shù),最小化 KL 散度,從而實現(xiàn)知識的高效傳承。與傳統(tǒng)的強化學(xué)習(xí)方法相比,知識蒸餾不僅能夠顯著提升輕量級模型的性能,還能大幅減少訓(xùn)練所需的 GPU 小時數(shù),提高訓(xùn)練效率,為輕量級模型的快速開發(fā)和優(yōu)化提供了有力支持,確保了 Qwen3 模型家族在不同應(yīng)用場景中的廣泛適用性和高效實用性。

模型性能與表現(xiàn):全方位卓越成就開源新標(biāo)桿

旗艦?zāi)P?Qwen3 - 235B - A22B 的卓越表現(xiàn)

Qwen3 - 235B - A22B 作為 Qwen3 模型家族中的旗艦型號,在多個領(lǐng)域的表現(xiàn)堪稱卓越,充分展現(xiàn)了其作為開源大語言模型新標(biāo)桿的強大實力。在思考模式下,它在 AIME’24 和 AIME’25 這兩場極具挑戰(zhàn)性的數(shù)學(xué)競賽模擬測試中分別取得了 85.7 和 81.5 的優(yōu)異成績,這一成績不僅在開源模型中遙遙領(lǐng)先,甚至與一些封閉源代碼的頂尖模型相比也毫不遜色,充分證明了其在數(shù)學(xué)推理領(lǐng)域的強大能力。在 LiveCodeBench v5(代碼生成與執(zhí)行測試)中,它以 70.7 的高分展現(xiàn)了出色的代碼生成能力,能夠準(zhǔn)確理解編程任務(wù)需求并生成高質(zhì)量、可運行的代碼,為開發(fā)者提供了有力的輔助工具。此外,在 BFCL v3(智能體任務(wù)測試)中,它也取得了 70.8 的高分,表明其在智能體任務(wù)中的出色表現(xiàn),能夠高效協(xié)調(diào)資源、完成復(fù)雜任務(wù),展現(xiàn)出強大的智能體能力。

圖片

在非思考模式下,Qwen3 - 235B - A22B 的表現(xiàn)同樣出色。在 MMLU - Redux(多任務(wù)語言理解測試)中,它以 87.81 的高分證明了其在通用語言理解任務(wù)上的卓越性能,能夠準(zhǔn)確理解并回答各種領(lǐng)域的問題;在 GPQA - Diamond(高級問題解答測試)中,它取得了 44.06 的成績,展現(xiàn)了其在處理復(fù)雜問題時的高效能力;在 SuperGPQA(超級問題解答測試)中,它以 88.87 的高分再次證明了其在問題解答領(lǐng)域的強大實力。這些成績不僅展示了 Qwen3 - 235B - A22B 在不同任務(wù)場景下的全面性,更凸顯了其在開源大語言模型領(lǐng)域的領(lǐng)先地位,無論是在思考模式還是非思考模式下,都能為用戶提供高質(zhì)量、高效率的服務(wù),滿足多樣化的應(yīng)用需求。

圖片

其他 Qwen3 模型的亮眼表現(xiàn)

除了旗艦?zāi)P?Qwen3 - 235B - A22B 外,Qwen3 模型家族中的其他成員也均展現(xiàn)出色的性能,各自在不同基準(zhǔn)測試中取得了優(yōu)異成績,充分證明了 Qwen3 模型體系的全面性和競爭力。如下表為 Qwen3 模型性能對比

模型名稱

思考模式

非思考模式

Qwen3 - 32B

65.54 (MMLU - Pro)

89.2 (MMLU - Redux)

Qwen3 - 30B - A3B

61.49 (MMLU - Pro)

81.38 (MMLU - Redux)

Qwen3 - 14B

56.73 (MMLU - Pro)

82.63 (MMLU - Redux)

Qwen3 - 8B

52.70 (MMLU - Pro)

79.54 (MMLU - Redux)

Qwen3 - 4B

42.71 (MMLU - Pro)

72.99 (MMLU - Redux)

Qwen3 - 1.7B

36.76 (MMLU - Pro)

62.63 (MMLU - Redux)

Qwen3 - 0.6B

24.74 (MMLU - Pro)

54.47 (MMLU - Redux)

模型的多語言能力:全球視野下的語言革新

多語言支持的擴(kuò)展:跨越語言障礙,擁抱全球用戶

在全球化的今天,語言的多樣性既是文化交流的豐富源泉,也是技術(shù)應(yīng)用的一大挑戰(zhàn)。Qwen3 模型在多語言支持方面的顯著提升,無疑是其技術(shù)革新的一大亮點。與前代 Qwen2.5 模型相比,Qwen3 的多語言支持范圍從 29 種語言大幅擴(kuò)展至 119 種語言和方言,這一跨越式的增長使其能夠更好地滿足全球用戶的多樣化語言需求,極大地增強了其在全球范圍內(nèi)的可訪問性和實用性。無論是英語、中文、西班牙語等使用人數(shù)眾多的主流語言,還是一些相對小眾的語言和方言,Qwen3 都能夠提供高質(zhì)量的語言理解和生成服務(wù),為不同語言背景的用戶搭建起溝通與交流的橋梁,讓技術(shù)的紅利惠及更廣泛的人群。

下表為 Qwen3 支持的語言家族和語言代碼

語言家族

語言數(shù)量

語言代碼

印歐語系

40

por Latn, deu Latn, tgk Cyrl, ces Latn, nob Latn, dan Latn, snd Arab, spa Latn, isl Latn, slv Latn, eng Latn, ory Orya, hrv Latn, ell Grek, ukr Cyrl, pan Guru, srp Cyrl, npi Deva, mkd Cyrl, guj Gujr, nld Latn, swe Latn, hin Deva, rus Cyrl, asm Beng, cat Latn, als Latn, sin Sinh, urd Arab, mar Deva, lit Latn, slk Latn, ita Latn, pol Latn, bul Cyrl, afr Latn, ron Latn, fra Latn, ben Beng, hye Armn

漢藏語系

3

zho Hans, mya Mymr, zho Hant

閃含語系

8

heb Hebr, apc Arab, acm Arab, ary Arab, ars Arab, arb Arab, mlt Latn, erz Arab

南島語系

7

ilo Latn, ceb Latn, tgl Latn, sun Latn, jav Latn, war Latn, ind Latn

達(dá)羅毗荼語系

4

mal Mlym, kan Knda, tel Telu, tam Taml

突厥語系

4

kaz Cyrl, azj Latn, tur Latn, uzn Latn

臺 - 卡岱語系

2

tha Thai, lao Laoo

烏拉爾語系

3

fin Latn, hun Latn, est Latn

南亞語系

2

vie Latn, khm Khmr

其他

7

eus Latn, kor Hang, hat Latn, swh Latn, kea Latn, jpn Jpan, kat Geor

多語言任務(wù)評估:以卓越表現(xiàn)證明實力

為了全面評估 Qwen3 在多語言任務(wù)上的性能表現(xiàn),訓(xùn)練團(tuán)隊精心挑選了一系列具有代表性的多語言基準(zhǔn)測試,涵蓋指令遵循、知識理解、數(shù)學(xué)推理和邏輯推理等多個方面。在 Belebele 基準(zhǔn)測試中,Qwen3 面對 80 種語言的自然語言理解挑戰(zhàn),展現(xiàn)出卓越的跨語言能力,其成績與同樣規(guī)模的 Gemma 模型不相上下,而遠(yuǎn)超前代 Qwen2.5 模型,充分證明了其在多語言領(lǐng)域的強大競爭力。在 Multi - IF(多語言指令遵循)測試中,Qwen3 在多種語言上均取得了優(yōu)異成績,例如在西班牙語、法語、葡萄牙語等常用語言上,其準(zhǔn)確率均超過 70%,表明其能夠準(zhǔn)確理解并遵循不同語言的指令,為用戶提供符合要求的服務(wù)。在 MMMLU(多語言多任務(wù)語言理解)測試中,Qwen3 在 14 種語言上取得了平均 86.7 的高分,充分展現(xiàn)了其在多語言知識理解方面的強大能力,無論是科學(xué)知識、文化常識還是專業(yè)領(lǐng)域知識,Qwen3 都能夠準(zhǔn)確理解和回答。在 MT - AIME2024(多語言數(shù)學(xué)競賽模擬測試)中,Qwen3 在 55 種語言上展現(xiàn)了出色的數(shù)學(xué)推理能力,其平均成績達(dá)到 80.8,證明了其能夠跨越語言障礙,準(zhǔn)確解答復(fù)雜的數(shù)學(xué)問題。在 PolyMath(多語言數(shù)學(xué)推理)測試中,Qwen3 在 18 種語言上取得了平均 54.7 的成績,進(jìn)一步證明了其在數(shù)學(xué)領(lǐng)域的強大跨語言推理能力。在 MLogiQA(多語言邏輯推理)測試中,Qwen3 在 10 種語言上取得了平均 77.1 的成績,表明其能夠準(zhǔn)確理解并解答不同語言的邏輯推理問題,展現(xiàn)出強大的邏輯思維能力。

這些多語言基準(zhǔn)測試成績充分證明了 Qwen3 在多語言理解和生成能力方面的強大實力,無論是在指令遵循、知識理解還是數(shù)學(xué)和邏輯推理等復(fù)雜任務(wù)上,Qwen3 都能夠以多種語言為用戶提供高質(zhì)量的服務(wù),真正實現(xiàn)了技術(shù)的全球化應(yīng)用,為不同語言背景的用戶帶來了前所未有的便利和高效體驗。

Qwen3 的未來研究方向:持續(xù)探索,引領(lǐng)技術(shù)前行

盡管 Qwen3 已經(jīng)取得了令人矚目的成就,但技術(shù)的進(jìn)步永無止境。根據(jù)論文描述,Qwen3 的未來研究方向主要集中在以下幾個關(guān)鍵領(lǐng)域,希望進(jìn)一步提升模型性能,拓展其應(yīng)用范圍,為人工智能的未來發(fā)展提供更強大的動力。

擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)規(guī)模與多樣性

數(shù)據(jù)是語言模型的基石,Qwen3 團(tuán)隊計劃繼續(xù)擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性。通過引入更多高質(zhì)量、多領(lǐng)域的數(shù)據(jù)源,模型將能夠接觸到更廣泛的知識和語言表達(dá)方式,從而進(jìn)一步提升其語言理解和生成能力。例如,增加跨學(xué)科領(lǐng)域的專業(yè)數(shù)據(jù),如醫(yī)學(xué)、法律、金融等,將使模型在這些特定領(lǐng)域的表現(xiàn)更加專業(yè)和精準(zhǔn);同時,引入更多低資源語言的數(shù)據(jù),將進(jìn)一步提升 Qwen3 在全球范圍內(nèi)的語言覆蓋能力,為更多小眾語言用戶提供更好的服務(wù)。此外,數(shù)據(jù)的多樣性還將包括不同風(fēng)格、不同語境的文本,如文學(xué)作品、新聞報道、社交媒體對話等,使模型能夠更好地適應(yīng)各種語言風(fēng)格和應(yīng)用場景,生成更加自然、貼合語境的文本內(nèi)容。

改進(jìn)模型架構(gòu)與訓(xùn)練方法

為了進(jìn)一步提升模型的性能和效率,Qwen3 團(tuán)隊將致力于改進(jìn)模型架構(gòu)和訓(xùn)練方法。一方面,通過優(yōu)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計,如引入更高效的注意力機制、改進(jìn)的歸一化方法等,模型將能夠更有效地處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù),同時降低計算資源消耗。例如,研究新型的自注意力機制,使其在捕捉長距離依賴關(guān)系時更加高效,同時減少計算復(fù)雜度;探索更先進(jìn)的歸一化技術(shù),以提高模型的訓(xùn)練穩(wěn)定性和收斂速度。另一方面,團(tuán)隊還將探索更先進(jìn)的訓(xùn)練策略,如動態(tài)調(diào)整學(xué)習(xí)率、采用更優(yōu)化的優(yōu)化算法等,以進(jìn)一步提升模型的訓(xùn)練效果和性能表現(xiàn)。例如,根據(jù)訓(xùn)練過程中的不同階段和任務(wù)特點,動態(tài)調(diào)整學(xué)習(xí)率,使其在模型收斂初期快速下降,在后期精細(xì)調(diào)整,以達(dá)到更好的訓(xùn)練效果;研究新型的優(yōu)化算法,如基于動量的優(yōu)化方法或自適應(yīng)學(xué)習(xí)率優(yōu)化算法,以提高模型在大規(guī)模數(shù)據(jù)集上的訓(xùn)練效率和收斂速度。

增加強化學(xué)習(xí)的計算資源投入

強化學(xué)習(xí)在提升模型的推理能力和智能體任務(wù)表現(xiàn)方面具有重要作用。為了進(jìn)一步挖掘強化學(xué)習(xí)的潛力,Qwen3 團(tuán)隊計劃增加在強化學(xué)習(xí)方面的計算資源投入。通過擴(kuò)大強化學(xué)習(xí)的訓(xùn)練規(guī)模,模型將能夠更充分地與環(huán)境進(jìn)行交互,學(xué)習(xí)到更有效的策略和行為模式,從而在復(fù)雜任務(wù)中表現(xiàn)出更高的智能水平。例如,在智能體任務(wù)中,增加強化學(xué)習(xí)的計算資源將使模型能夠更好地學(xué)習(xí)如何在動態(tài)環(huán)境中做出最優(yōu)決策,完成復(fù)雜的任務(wù)目標(biāo);在數(shù)學(xué)推理和邏輯推理任務(wù)中,強化學(xué)習(xí)將有助于模型進(jìn)一步提升其推理能力和解題技巧,生成更準(zhǔn)確、更高效的解決方案。此外,團(tuán)隊還將探索如何將強化學(xué)習(xí)與現(xiàn)有的預(yù)訓(xùn)練和后訓(xùn)練流程更緊密地結(jié)合,實現(xiàn)模型性能的全面提升,為人工智能的未來發(fā)展提供更強大的技術(shù)支持。

總結(jié)

Qwen3 作為開源模型領(lǐng)域的明星模型,憑借其在性能、效率和多語言能力上的全方位提升,以及一系列創(chuàng)新性的技術(shù)設(shè)計和優(yōu)化策略,已經(jīng)在人工智能領(lǐng)域樹立了新的標(biāo)桿。它不僅在代碼生成、數(shù)學(xué)推理、智能體任務(wù)等多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越的性能,為相關(guān)行業(yè)的技術(shù)發(fā)展和應(yīng)用創(chuàng)新提供了強大動力;而且其廣泛的多語言支持能力,極大地拓展了其在全球范圍內(nèi)的應(yīng)用前景,為不同語言背景的用戶帶來了前所未有的便利和高效體驗。

我讀完 Qwen3 技術(shù)報告,從模型架構(gòu)設(shè)計來看,Qwen3 將思考模式與非思考模式巧妙融合,這種創(chuàng)新的架構(gòu)理念,極大地提升了模型的靈活性和適應(yīng)性,使其能夠根據(jù)不同任務(wù)需求靈活切換模式,為用戶提供更加精準(zhǔn)、高效的服務(wù)。同時,思考預(yù)算機制的引入,更是體現(xiàn)了 Qwen3 在資源管理上的智慧,它讓用戶能夠根據(jù)實際需求精準(zhǔn)控制模型的思考深度,既避免了資源浪費,又確保了模型在復(fù)雜任務(wù)中的出色表現(xiàn)。

在預(yù)訓(xùn)練階段,Qwen3 所采用的龐大且多元的數(shù)據(jù)集,以及精心設(shè)計的多階段訓(xùn)練策略,為模型奠定了堅實的知識基礎(chǔ)。36 萬億個 token 的數(shù)據(jù)規(guī)模,涵蓋了 119 種語言和方言,如此豐富多樣的數(shù)據(jù),讓模型在語言理解和生成上具備了強大的通用性和適應(yīng)性。從通用階段的語言基礎(chǔ)構(gòu)建,到推理階段的專項能力提升,再到長文本上下文階段的長距離依賴關(guān)系學(xué)習(xí),這一循序漸進(jìn)的訓(xùn)練過程,充分體現(xiàn)了 Qwen3 團(tuán)隊對模型成長規(guī)律的深刻理解,也為后續(xù)的后訓(xùn)練優(yōu)化提供了有力支撐。

后訓(xùn)練階段的深度優(yōu)化也很吸引眼球。從長鏈推理冷啟動到推理強化學(xué)習(xí),再到思考模式融合和通用強化學(xué)習(xí),以及強到弱的知識蒸餾,這一系列復(fù)雜而精細(xì)的訓(xùn)練流程,全方位地提升了模型的性能和穩(wěn)定性。尤其是知識蒸餾技術(shù)的應(yīng)用,不僅讓輕量級模型能夠繼承大型模型的先進(jìn)知識,還大幅提高了訓(xùn)練效率,這種對模型家族整體性能提升的系統(tǒng)性思考和優(yōu)化策略,還是讓人期待Qwen3 的實際落地表現(xiàn)的。

在性能表現(xiàn)方面,Qwen3 無論是旗艦?zāi)P瓦€是其他不同規(guī)模的型號,均在多項基準(zhǔn)測試中取得了優(yōu)異成績,充分證明了其在代碼生成、數(shù)學(xué)推理、智能體任務(wù)和多語言能力等多個關(guān)鍵領(lǐng)域的強大實力。

其實,整個技術(shù)報告中,最令我開心的就是關(guān)于思考與非思考模式的切換,以及思考預(yù)算這兩個特性。對于思考模式的切換這個 trick,設(shè)計的很巧妙,學(xué)習(xí)到了。而對于思考預(yù)算,是我對行業(yè)推理類模型的一個預(yù)判,并且我曾發(fā)過一篇文,里面也提到過思考預(yù)算的基本訓(xùn)練原理。正因為此,當(dāng)我看到 Qwen3 的技術(shù)報告中說明,Qwen3 支持思考預(yù)算,這與我的預(yù)判產(chǎn)生了共鳴。看上去一切都很美好,此時應(yīng)有轉(zhuǎn)折,然鵝,我并沒有從任何官方渠道,包括技術(shù)報告中,找到如何使用思考預(yù)算的方式。所以借助強大的網(wǎng)絡(luò),看到已經(jīng)有人代碼推理嘗試了思考預(yù)算(thinking Budget)。如下:

如何推理“Thinking Budget”

要實現(xiàn)思考預(yù)算,需要對 Qwen3 的推理代碼做一些手動改變。transformers 有一個稱為 LogitProcessor 的類,正如其名,它將在 model.generate() 期間對 logits 執(zhí)行一些邏輯

#| filename: thinking_budget_processor.py
#| language: python

from transformers.generate import LogitsProcessor

class ThinkingTokenBudgetProcessor(LogitsProcessor):
    """
    A processor where after a maximum number of tokens are generated,
    a </think> token is added at the end to stop the thinking generation,
    and then it will continue to generate the response.
    """
    def __init__(self, tokenizer, max_thinking_tokens=None):
        self.tokenizer = tokenizer
        self.max_thinking_tokens = max_thinking_tokens
        self.think_end_token = self.tokenizer.encode("</think>", add_special_tokens=False)[0]
        self.nl_token = self.tokenizer.encode("\n", add_special_tokens=False)[0]
        self.tokens_generated = 0
        self.stopped_thinking = False
        self.neg_inf = float('-inf')

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
        self.tokens_generated += 1
        if self.max_thinking_tokens == 0 and not self.stopped_thinking andself.tokens_generated > 0:
            scores[:] = self.neg_inf
            scores[0][self.nl_token] = 0
            scores[0][self.think_end_token] = 0
            self.stopped_thinking = True
            return scores

        if self.max_thinking_tokens isnot None and not self.stopped_thinking:
            if (self.tokens_generated / self.max_thinking_tokens) > .95:
                scores[0][self.nl_token] = scores[0][self.think_end_token] * (1 + (self.tokens_generated / self.max_thinking_tokens))
                scores[0][self.think_end_token] = (
                    scores[0][self.think_end_token] * (1 + (self.tokens_generated / self.max_thinking_tokens))
                )

            if self.tokens_generated >= (self.max_thinking_tokens - 1):
                ifself.tokens_generated == self.max_thinking_tokens-1:
                    scores[:] = self.neg_inf
                    scores[0][self.nl_token] = 0
                else:
                    scores[:] = self.neg_inf
                    scores[0][self.think_end_token] = 0
                    self.stopped_thinking = True

        return scores

以下是一段測試代碼,這只是把這段思考預(yù)算的邏輯塞到了 transformers,但是這也應(yīng)該適用于 vllm(或者可以輕松轉(zhuǎn)換為 vllm):

from transformers import AutoTokenizer, pipeline
messages = [
    {"role": "system", "content": "When answering questions, always only respond with only the correct answer, no explanation or other text is required."},
    {"role": "user", "content": "What is the square root of 2722?"},
]
tokenizer = AutoTokenizer.from_pretrained("/mnt/models/Qwen3-0.6B")
processor = ThinkingTokenBudgetProcessor(tokenizer, max_thinking_tokens=100)
pipe = pipeline(
    "text-generation", model="/mnt/models/Qwen3-0.6B", max_new_tokens=1500, logits_processor=[processor], device=0
)
print(pipe(messages)[0]["generated_text"][-1]["content"])

注意: max_new_tokens 需要大于 max_thinking_tokens ,否則它只會思考然后結(jié)束。使用0:

</think>

The square root of 2722 is approximately 52.18.

在 100 個 token 時:

<think>
Okay, so I need to find the square root of 2722. Hmm, let's think. I remember that the square root of a number is a value that, when multiplied by itself, gives the original number. So, I need to find a number that, when multiplied by itself, equals 2722.

First, maybe I should check if 2722 is a perfect square. I know that perfect squares are numbers that can be
</think>

2722

在 300 個 token 時:

<think>
Okay, so I need to find the square root of 2722. Hmm, let's think. I remember that the square root of a number is a value that, when multiplied by itself, gives the original number. So, I need to find a number that, when multiplied by itself, equals 2722.

First, maybe I should check if 2722 is a perfect square. I know that perfect squares are numbers that can be expressed as a product of two equal integers. For example, 16 is 4 squared because 4*4=16. But 2722... Let me think of some numbers near the square root of 2722.

Wait, the square root of 2722. Let me approximate it. The square of 50 is 2500, and the square of 52 is 52*52 = 2704. Oh, right! 52 squared is 2704. Then 53 squared would be 53*53. Let me calculate that. 50*50=2500, 50*3=150, 3*50=150, and 3*3=9. So adding those up: 2500 + 150 + 150 + 9
</think>

2722

在 600 個 token 時:

<think>
Okay, so I need to find the square root of 2722. Hmm, let's think. I remember that the square root of a number is a value that, when multiplied by itself, gives the original number. So, I need to find a number that, when multiplied by itself, equals 2722.

First, maybe I should check if 2722 is a perfect square. I know that perfect squares are numbers that can be expressed as a product of two equal integers. For example, 16 is 4 squared because 4*4=16. But 2722... Let me think of some numbers near the square root of 2722.

Wait, the square root of 2722. Let me approximate it. The square of 50 is 2500, and the square of 52 is 52*52 = 2704. Oh, right! 52 squared is 2704. Then 53 squared would be 53*53. Let me calculate that. 50*50=2500, 50*3=150, 3*50=150, and 3*3=9. So adding those up: 2500 + 150 + 150 + 9 = 2709. Oh, so 53 squared is 2709. Then 54 squared would be 54*54. Let me calculate that. 50*50=2500, 50*4=200, 4*50=200, and 4*4=16. Adding those: 2500 + 200 + 200 + 16 = 2916. 

So, 53 squared is 2709, and 54 squared is 2916. The original number is 2722. That's between 53 and 54. Let me check 53.5 squared. Maybe I can use a better approximation. Alternatively, since 53^2=2709 and 54^2=2916, the difference between 2722 and 2709 is 13. So, 2722 - 2709 = 13. So, approximately, the square root is 53 + (13)/(2*53) by linear approximation. Let me calculate that. 13 divided by 106 is approximately 0.122. So, approximately 53.122. But since we need
</think>

53.122

為什么思考預(yù)算如此重要?自 inference-time-scaling 在 GPT-O1 模型上成功實踐,并且 DeepSeek 開源了 R1 模型的訓(xùn)練方法之后,眾多模型廠商以及垂直領(lǐng)域的 AI 業(yè)務(wù)公司紛紛開始采用這一推理范式。Reason Model 的推理效果固然出色,但其代價是消耗大量的時間和算力。然而,在實際應(yīng)用模型時,并非所有場景都需要復(fù)雜的推理步驟。因此,如果能夠通過思考預(yù)算進(jìn)行控制,那么 Agent 就能夠具備更好的推理自適應(yīng)能力。這不僅能夠節(jié)省算力,還能提升響應(yīng)效率,從而為用戶提供更優(yōu)質(zhì)的體驗。在這里,我想大膽地做出一個判斷:無論是思考預(yù)算本身,還是思考與非思考模式之間的靈活切換這種雙模式融合的架構(gòu),或許都只是語言模型發(fā)展過程中的一個過渡階段。從長遠(yuǎn)來看,隨著技術(shù)的不斷進(jìn)步,我相信頂尖的研究者和模型廠商將能夠開發(fā)出更加智能的模型。這些模型將能夠像人類一樣,根據(jù)不同的場景自動判斷何時需要深度推理,何時可以直接快速反饋用戶,從而實現(xiàn)真正的自適應(yīng)思考模式。

參考資料

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-06 14:32:20

阿里開源Qwen3

2025-04-30 09:11:15

2021-06-29 21:48:32

開源語言架構(gòu)

2025-04-29 10:39:46

2025-05-21 09:04:38

2025-05-14 01:00:00

2025-05-06 00:35:33

2014-07-09 09:20:06

WPFWPF應(yīng)用

2025-06-06 09:12:53

2014-04-16 14:50:20

Spark

2024-03-04 14:15:16

OpenAI語言嵌入模型

2022-03-17 09:33:28

AI深度學(xué)習(xí)思考

2011-08-05 17:54:33

Cocoa Touch 多語言

2012-04-19 11:40:21

Titanium

2009-08-25 10:44:50

C#實現(xiàn)多語言

2013-05-11 19:37:10

移動開發(fā)App測試Testin云測試

2021-09-07 10:17:35

iOS多語言適配設(shè)計

2024-05-09 08:14:09

系統(tǒng)設(shè)計語言多語言

2023-10-18 15:21:23

點贊
收藏

51CTO技術(shù)棧公眾號