偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<menuitem id="r9vlz"></menuitem>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

實(shí)測(cè)！Qwen下一代基礎(chǔ)架構(gòu)突襲！秒解AIME數(shù)學(xué)競(jìng)賽題，提速10倍+，性價(jià)比提升10倍

2025-09-12 17:19:38

基于Qwen3-Next，團(tuán)隊(duì)先開源了Qwen3-Next-80B-A3B-Base。模型參數(shù)80B，但訓(xùn)練成本連Qwen3-32B的十分之一都不到，并且在32 k以上的上下文推理吞吐能達(dá)到后者的十倍以上。

Qwen下一代模型架構(gòu)，搶先來(lái)襲！

Qwen3-Next發(fā)布，Qwen團(tuán)隊(duì)負(fù)責(zé)人林俊旸說(shuō)，這就是Qwen3.5的搶先預(yù)覽版。

基于Qwen3-Next，團(tuán)隊(duì)先開源了Qwen3-Next-80B-A3B-Base。

模型參數(shù)80B，但訓(xùn)練成本連Qwen3-32B的十分之一都不到，并且在32 k以上的上下文推理吞吐能達(dá)到后者的十倍以上。

基于這一模型，團(tuán)隊(duì)接連出手，同步開發(fā)并發(fā)布了兩大新模型：

Qwen3-Next-80B-A3B-Instruct：在256K超長(zhǎng)上下文處理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。
Qwen3-Next-80B-A3B-Thinking：在多項(xiàng)基準(zhǔn)測(cè)試中超越閉源模型Gemini-2.5-Flash-Thinking。

網(wǎng)友表示，這更新頻率令人震驚。

圖片

話不多說(shuō)，趕緊來(lái)看看新模型有哪些改進(jìn)吧。

4大重要改進(jìn)

Qwen3-Next的核心改進(jìn)有4方面：

混合注意力機(jī)制
高稀疏度MoE結(jié)構(gòu)
穩(wěn)定性優(yōu)化
多token預(yù)測(cè)機(jī)制

混合注意力機(jī)制

線性注意力在長(zhǎng)上下文處理中效率很高，但召回能力有限，而標(biāo)準(zhǔn)注意力計(jì)算開銷大、推理效率低，單獨(dú)使用均存在局限。

為此，Qwen團(tuán)隊(duì)引入Gated DeltaNet，其在上下文學(xué)習(xí)能力上優(yōu)于常用的滑動(dòng)窗口注意力和Mamba2，并在采用3:1的混合策略（75%層使用 Gated DeltaNet，25%層保留標(biāo)準(zhǔn)注意力）時(shí)，兼顧性能與效率。

同時(shí)，在保留的標(biāo)準(zhǔn)注意力層中，他們進(jìn)一步引入了多項(xiàng)優(yōu)化設(shè)計(jì)：

1、延續(xù)先前工作的輸出門控機(jī)制，以緩解注意力中的低秩問(wèn)題；

2、將單個(gè)注意力頭的維度從128擴(kuò)展至256；

3、僅對(duì)注意力頭前25%的維度加入旋轉(zhuǎn)位置編碼，以增強(qiáng)長(zhǎng)序列外推能力。

圖片

高稀疏度MoE結(jié)構(gòu)

Qwen3-Next采用高稀疏度的MoE架構(gòu)，總參數(shù)量達(dá)800億，但每次推理僅激活約30億參數(shù)。

相比Qwen3-MoE的128個(gè)總專家和8個(gè)路由專家，Qwen3-Next 擴(kuò)展到512個(gè)總專家，并采用10路由專家加1共享專家的組合設(shè)計(jì)，在保證性能的前提下最大化資源利用率。

訓(xùn)練穩(wěn)定性優(yōu)化

在Qwen3-Next中，團(tuán)隊(duì)為進(jìn)一步提高模型穩(wěn)定性，采用了Zero-Centered RMSNorm，并在此基礎(chǔ)上，對(duì)norm weight施加weight decay，以避免權(quán)重?zé)o界增長(zhǎng)。

不僅如此，他們還在初始化時(shí)歸一化了MoE router的參數(shù)，確保每個(gè)expert在訓(xùn)練早期都能被無(wú)偏地選中，減小初始化對(duì)實(shí)驗(yàn)結(jié)果的擾動(dòng)。

多token預(yù)測(cè)機(jī)制

Qwen3-Next引入了原生Multi-Token Prediction（MTP）機(jī)制，不僅獲得了Speculative Decoding接受率較高的MTP模塊，還提升了模型主干的整體性能。

此外，它還對(duì)MTP的多步推理進(jìn)行了專項(xiàng)優(yōu)化，即通過(guò)訓(xùn)練推理一致的多步策略，進(jìn)一步提高了在實(shí)際應(yīng)用場(chǎng)景下Speculative Decoding的接受率。

快10倍，但便宜10倍

接下來(lái)，讓我們一起看看新模型表現(xiàn)如何。

首先，Qwen3-Next使用了Qwen3 36T預(yù)訓(xùn)練語(yǔ)料的均勻采樣子集，僅包含15T tokens。

圖片

其訓(xùn)練所需的GPU Hours不到 Qwen3-30A-3B的80%，相比 Qwen3-32B，僅需9.3%的GPU計(jì)算資源就能取得更優(yōu)性能。

不僅如此，得益于創(chuàng)新的混合模型架構(gòu)，Qwen3-Next在推理效率上也表現(xiàn)突出。

與Qwen3-32B相比，Qwen3-Next-80B-A3B在預(yù)填充（prefill）階段就展現(xiàn)出卓越的吞吐能力：

在4k tokens的上下文長(zhǎng)度下，吞吐量接近前者的7倍；當(dāng)上下文長(zhǎng)度超過(guò)32k時(shí)，吞吐提升更是達(dá)到10倍以上。

圖片

在解碼（decode）階段，該模型同樣高效。4k上下文吞吐量提升約4倍，長(zhǎng)上下文（32k+）場(chǎng)景中仍可保持超過(guò)10倍的吞吐優(yōu)勢(shì)。

圖片

基于Qwen3-Next，Qwen團(tuán)隊(duì)首先訓(xùn)練了Qwen3-Next-80B-A3B-Base模型。

該模型僅使用十分之一的Non-Embedding激活參數(shù)，就已在大多數(shù)基準(zhǔn)測(cè)試中超越Qwen3-32B-Base，并顯著優(yōu)于Qwen3-30B-A3B，展現(xiàn)出出色的效率與性能優(yōu)勢(shì)。

圖片

基于Qwen3-Next-80B-A3B-Base的優(yōu)異表現(xiàn)，團(tuán)隊(duì)進(jìn)一步開發(fā)并發(fā)布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。

Qwen3-Next-80B-A3B-Instruct

首先，Qwen3-Next-80B-A3B-Instruct的表現(xiàn)顯著優(yōu)于 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking，并在多數(shù)指標(biāo)上接近Qwen3-235B-A22B-Instruct-2507。

圖片

除此之外，在RULER測(cè)試中，無(wú)論上下文長(zhǎng)度如何，Qwen3-Next-80B-A3B-Instruct 的表現(xiàn)均超過(guò)了層數(shù)相同但注意力層更多的Qwen3-30B-A3B-Instruct-2507。

圖片

甚至在256 k范圍內(nèi)也優(yōu)于層數(shù)更多的Qwen3-235B-A22B-Instruct-2507，充分體現(xiàn)了Gated DeltaNet與Gated Attention混合模型在長(zhǎng)文本處理場(chǎng)景下的優(yōu)勢(shì)。

Qwen3-Next-80B-A3B-Thinking

再來(lái)看Qwen3-Next-80B-A3B-Thinking，其表現(xiàn)也相當(dāng)不錯(cuò)。

在多項(xiàng)基準(zhǔn)測(cè)試中都超過(guò)了閉源模型Gemini-2.5-Flash-Thinking，并在部分指標(biāo)上接近Qwen最新的旗艦?zāi)Ｐ?Qwen3-235B-A22B-Thinking-2507。

圖片

推理能力相當(dāng)可以

接下來(lái)讓我們實(shí)測(cè)一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat網(wǎng)頁(yè)，一上來(lái)就給它扔一道AIME數(shù)學(xué)競(jìng)賽題試試：

圖片

由于Qwen3-Next-80B-A3B支持多模態(tài)，這里我們可以直接上傳圖片。

圖片

幾乎瞬間，模型就開始飛快地列出了詳細(xì)解題思路和計(jì)算過(guò)程，最終得到的答案“588”與AIME標(biāo)準(zhǔn)答案完全吻合。

圖片

小試牛刀之后，接下來(lái)進(jìn)入編程環(huán)節(jié)。

用p5js創(chuàng)建一個(gè)可直接玩的掃雷游戲。

代碼成功運(yùn)行后，我們也簡(jiǎn)單試玩了一下，流暢度還可以（doge）。

就是誰(shuí)能解釋一下為什么這個(gè)游戲背景是大紅色，還沒有網(wǎng)格線？？？

圖片

還有網(wǎng)友奇思妙想，用它生成了天氣卡片。

圖片

不過(guò)，看到這個(gè)更新時(shí)，網(wǎng)友開心之余還是忍不住吐槽：

名字實(shí)在太復(fù)雜了。

圖片

目前，新模型已在魔搭社區(qū)和抱抱臉開源，大家可通過(guò)Qwen Chat免費(fèi)體驗(yàn)，也可直接調(diào)用阿里云百煉平臺(tái)提供的API服務(wù)。

魔搭社區(qū)直通車：https://t.co/mld9lp8QjK

抱抱臉直通車：https://t.co/zHHNBB2l5XQwen

Chat直通車：https://t.co/V7RmqMaVNZ

阿里云API直通車：https://t.co/RdmUF5m6JA

參考鏈接：

[1]https://x.com/Alibaba_Qwen/status/1966197643904000262

[2]https://x.com/JustinLin610/status/1966199996728156167

[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

責(zé)任編輯：武曉燕來(lái)源：量子位

Qwen AIME 模型參數(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)