偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="7aswh"><th id="7aswh"></th></pre>

<rt id="7aswh"><code id="7aswh"></code></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Qwen3家族訓(xùn)練秘籍公開：思考/非思考融進(jìn)一個模型，大模型蒸餾帶動小模型

作者：量子位 2025-05-14 13:22:08

Qwen3系列包括6個密集模型，參數(shù)量分別為0.6B、1.7B、4B、8B、14B和32B；以及2個MoE模型，總參數(shù)量分別為30B和235B，激活參數(shù)量對應(yīng)為3B和22B。

Qwen3技術(shù)報告新鮮出爐，8款模型背后的關(guān)鍵技術(shù)被揭曉！

采用了雙模式架構(gòu)，一個模型同時支持推理和非推理任務(wù)，根據(jù)需要自動切換。
訓(xùn)練和微調(diào)過程采取分段式策略，逐步構(gòu)建模型能力。
采取了“大帶小”的模式，從大號模型中蒸餾數(shù)據(jù)訓(xùn)練小號模型。

圖片

有已經(jīng)讀完報告的網(wǎng)友，還發(fā)現(xiàn)了其中的更多亮點(diǎn)。

比如這位Hugging Face研究員感嘆，Qwen3在RL階段的樣本量，竟然不到4k。

圖片

思考/非思考，一個模型搞定

Qwen3系列包括6個密集模型，參數(shù)量分別為0.6B、1.7B、4B、8B、14B和32B；以及2個MoE模型，總參數(shù)量分別為30B和235B，激活參數(shù)量對應(yīng)為3B和22B。

密集模型的架構(gòu)與Qwen2.5相似，但移除了Qwen2中使用的QKV偏置，并在注意力機(jī)制中引入了QK-Norm，以確保Qwen3的穩(wěn)定訓(xùn)練。

圖片

與Qwen2.5-MoE不同，Qwen3-MoE設(shè)計不包含共享專家，另外Qwen3采用了全批次負(fù)載均衡損失來促進(jìn)專家專業(yè)化。

圖片

Qwen3的一個核心創(chuàng)新就是其雙重工作模式，也就是思考模式和非思考模式的融合，兩種模式分別對應(yīng)了復(fù)雜推理任務(wù)和快速應(yīng)答任務(wù)的需求。

為了靈活地在兩種模式間切換，Qwen3引入了thinking budget（思考預(yù)算）的概念。

Thinking budget本質(zhì)上是一個決定thinking mode下計算資源投入的參數(shù)，它的大小與輸入問題的復(fù)雜程度成正相關(guān)。

當(dāng)接收到輸入后，模型會評估其復(fù)雜程度，動態(tài)分配thinking budget。

簡單問題會被分配較少的thinking budget，使得模型傾向于快速給出答案；復(fù)雜問題則會分配較高的thinking budget，模型會投入更多算力深入思考后再給出答案。

圖片

Qwen3這樣訓(xùn)練

預(yù)訓(xùn)練環(huán)節(jié)，Qwen3采用了三階段策略，逐步構(gòu)建和強(qiáng)化模型的語言理解和生成能力。

第一階段的目的是讓模型掌握語言和通用基本知識，這部分的訓(xùn)練在通用語料上進(jìn)行，采用了4096個token的序列長度。

第二階段側(cè)重于增強(qiáng)模型的推理能力。此階段采用了更高質(zhì)量的語料，主要來自于STEM、編程、推理等領(lǐng)域。

通過在這些語料上的訓(xùn)練，模型的邏輯分析、因果推理等能力得到了顯著提升。此階段的序列長度仍為4096個token，但學(xué)習(xí)率衰減速度加快。

第三階段則專注于長文本能力，使用了研究團(tuán)隊(duì)專門收集的高質(zhì)量長文檔語料，并將訓(xùn)練序列長度擴(kuò)展到了32768個token。

通過在這些超長文本上的訓(xùn)練，模型學(xué)會了處理復(fù)雜的長距離依賴關(guān)系，掌握了跨段落、跨文檔的信息整合技能。

圖片

后訓(xùn)練同樣采用了分段式的方法，一共可以分為四個階段。

圖片

第一階段稱為長思維鏈冷啟動，目標(biāo)是為模型在數(shù)學(xué)和編程領(lǐng)域的推理任務(wù)建立初始的解題能力。

Qwen團(tuán)隊(duì)構(gòu)建了一個包含大量高質(zhì)量數(shù)學(xué)和編程問題的數(shù)據(jù)集，并為每個問題標(biāo)注了詳細(xì)的解題步驟，然后使用這些標(biāo)注數(shù)據(jù)對模型進(jìn)行監(jiān)督微調(diào)，使其掌握解題的關(guān)鍵技能和常見思路。

具體來說，他們通過Qwen2.5-72B對問題進(jìn)行篩選，然后使用QwQ-32B模型自動生成初步的解題步驟，這當(dāng)中，人類專家對這些自動生成的解題步驟進(jìn)行核對和修正，確保其準(zhǔn)確性和可讀性。

這個階段的訓(xùn)練樣本數(shù)量和訓(xùn)練步數(shù)都被控制在一個較小的規(guī)模，目的是讓模型掌握基本的解題能力，而不是過度專門化。

圖片

第二階段則是推理強(qiáng)化學(xué)習(xí)，在第一階段的基礎(chǔ)上進(jìn)一步引入了強(qiáng)化學(xué)習(xí)，以優(yōu)化模型的解題策略。

他們從第一階段的數(shù)據(jù)集中篩選出了3995個問題，這些問題需要覆蓋一定領(lǐng)域、具備一定難度，但可被模型學(xué)習(xí)。

這一階段當(dāng)中，會通過GRPO對模型參數(shù)進(jìn)行更新。

圖片

第三階段思維模式融合，顧名思義，目的是將思考和非思考兩種模式融合進(jìn)同一個模型，這一過程使用了同時包含思考和非思考內(nèi)容的SFT數(shù)據(jù)集。

對于思考類型的樣本，Qwen團(tuán)隊(duì)沿用了前兩個階段的數(shù)據(jù)生成方法；對于非思考類型的樣本，則是廣泛收集了一些開放域?qū)υ挃?shù)據(jù)，并針對性地生成了一些問候語、指令等樣本。

此外，團(tuán)隊(duì)還設(shè)計了一種聊天模板，在輸入側(cè)用一些特殊標(biāo)記來區(qū)分思考和非思考模式。

通過在這個混合數(shù)據(jù)集上進(jìn)行繼續(xù)預(yù)訓(xùn)練，并融入人類反饋，模型學(xué)會了根據(jù)輸入信號靈活切換兩種模式，形成了一個無縫集成的雙模態(tài)系統(tǒng)。

圖片

最后一個階段是通用強(qiáng)化學(xué)習(xí)，目的是進(jìn)一步增強(qiáng)模型在多種場景下的能力和穩(wěn)定性。

該階段中，Qwen團(tuán)隊(duì)構(gòu)建了一個覆蓋廣泛任務(wù)的強(qiáng)化學(xué)習(xí)環(huán)境，包括問答、寫作、代碼生成、數(shù)學(xué)推理等20多個種類的任務(wù)。每個任務(wù)都設(shè)計了獨(dú)特的評分標(biāo)準(zhǔn)。

并且，這些特別針對指令遵循、格式遵循、偏好遵循等能力的提升。

圖片

除了這樣的訓(xùn)練模式之外，Qwen3家族還采用了“大帶小”的數(shù)據(jù)蒸餾模式。

蒸餾分為Off-policy蒸餾和On-policy蒸餾兩個主要階段。

類比人類學(xué)習(xí)的話，第一個階段像是背書，第二個階段則是刷題并自己根據(jù)答案訂正。

圖片

在Off-policy蒸餾階段，首先使用教師模型（MoE模型使用235B蒸餾30B，密集模型使用32B蒸餾其他）在大規(guī)模的數(shù)據(jù)集上生成大量高質(zhì)量的輸出。

然后，這些數(shù)據(jù)作為監(jiān)督信號，對學(xué)生模型進(jìn)行訓(xùn)練，使之盡可能地模仿教師模型的輸出分布。

在這個階段，教師模型使用的是思考和非思考模式的混合輸出，這使得學(xué)生模型也能夠同時學(xué)習(xí)到應(yīng)對兩種模式的能力。

在On-policy蒸餾階段，研究團(tuán)隊(duì)采用了一種更加動態(tài)和交互式的學(xué)習(xí)方式。

這個階段首先讓學(xué)生模型在實(shí)際任務(wù)中自主生成一系列輸出，然后將這些輸出與教師模型在相同任務(wù)上的輸出進(jìn)行比對。

學(xué)生模型的優(yōu)化目標(biāo)是最小化其輸出分布與教師模型輸出分布之間的差異。

通過這種持續(xù)的自我生成和比對過程，學(xué)生模型可以在實(shí)踐中不斷修正和完善其知識體系，使其輸出分布逐步逼近教師模型。

Qwen版DeepResearch上線

除了發(fā)布Qwen3的技術(shù)報告，Qwen Chat還全量上線了深度研究功能，此前該功能進(jìn)行了分階段測試。

按官方介紹，只要描述問題，然后回答模型給出的細(xì)化提問，等過一杯咖啡的時間，Qwen就能整理出一份研究報告。

圖片

官方案例中，Qwen研究了這樣的一個問題：

醫(yī)療保健行業(yè)在過去三年中如何適應(yīng)遠(yuǎn)程醫(yī)療和數(shù)字健康工具？必要時使用表格讓表達(dá)更加清晰。

可以看到，在明確具體需求之后，Qwen規(guī)劃了方案，然后分成子問題進(jìn)行檢索、總結(jié)，研究過程用時約8分半，最終生成了帶有表格的報告，并自動導(dǎo)出pdf。

圖片

感興趣的話不妨體驗(yàn)一下~

報告地址：https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat：https://chat.qwen.ai

責(zé)任編輯：武曉燕來源：量子位

Qwen3 訓(xùn)練小模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營