偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

實(shí)測(cè)!Qwen下一代基礎(chǔ)架構(gòu)突襲!秒解AIME數(shù)學(xué)競(jìng)賽題,提速10倍+,性價(jià)比提升10倍

人工智能
基于Qwen3-Next,團(tuán)隊(duì)先開源了Qwen3-Next-80B-A3B-Base。模型參數(shù)80B,但訓(xùn)練成本連Qwen3-32B的十分之一都不到,并且在32 k以上的上下文推理吞吐能達(dá)到后者的十倍以上。

Qwen下一代模型架構(gòu),搶先來(lái)襲!

Qwen3-Next發(fā)布,Qwen團(tuán)隊(duì)負(fù)責(zé)人林俊旸說(shuō),這就是Qwen3.5的搶先預(yù)覽版。

圖片

基于Qwen3-Next,團(tuán)隊(duì)先開源了Qwen3-Next-80B-A3B-Base。

模型參數(shù)80B,但訓(xùn)練成本連Qwen3-32B的十分之一都不到,并且在32 k以上的上下文推理吞吐能達(dá)到后者的十倍以上。

基于這一模型,團(tuán)隊(duì)接連出手,同步開發(fā)并發(fā)布了兩大新模型:

  • Qwen3-Next-80B-A3B-Instruct:在256K超長(zhǎng)上下文處理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。
  • Qwen3-Next-80B-A3B-Thinking:在多項(xiàng)基準(zhǔn)測(cè)試中超越閉源模型Gemini-2.5-Flash-Thinking。

網(wǎng)友表示,這更新頻率令人震驚。

圖片圖片

話不多說(shuō),趕緊來(lái)看看新模型有哪些改進(jìn)吧。

4大重要改進(jìn)

Qwen3-Next的核心改進(jìn)有4方面:

  • 混合注意力機(jī)制
  • 高稀疏度MoE結(jié)構(gòu)
  • 穩(wěn)定性優(yōu)化
  • 多token預(yù)測(cè)機(jī)制

混合注意力機(jī)制

線性注意力在長(zhǎng)上下文處理中效率很高,但召回能力有限,而標(biāo)準(zhǔn)注意力計(jì)算開銷大、推理效率低,單獨(dú)使用均存在局限。

為此,Qwen團(tuán)隊(duì)引入Gated DeltaNet,其在上下文學(xué)習(xí)能力上優(yōu)于常用的滑動(dòng)窗口注意力和Mamba2,并在采用3:1的混合策略(75%層使用 Gated DeltaNet,25%層保留標(biāo)準(zhǔn)注意力)時(shí),兼顧性能與效率。

同時(shí),在保留的標(biāo)準(zhǔn)注意力層中,他們進(jìn)一步引入了多項(xiàng)優(yōu)化設(shè)計(jì):

1、延續(xù)先前工作的輸出門控機(jī)制,以緩解注意力中的低秩問(wèn)題;

2、將單個(gè)注意力頭的維度從128擴(kuò)展至256;

3、僅對(duì)注意力頭前25%的維度加入旋轉(zhuǎn)位置編碼,以增強(qiáng)長(zhǎng)序列外推能力。

圖片圖片

高稀疏度MoE結(jié)構(gòu)

Qwen3-Next采用高稀疏度的MoE架構(gòu),總參數(shù)量達(dá)800億,但每次推理僅激活約30億參數(shù)。

相比Qwen3-MoE的128個(gè)總專家和8個(gè)路由專家,Qwen3-Next 擴(kuò)展到512個(gè)總專家,并采用10路由專家加1共享專家的組合設(shè)計(jì),在保證性能的前提下最大化資源利用率。

訓(xùn)練穩(wěn)定性優(yōu)化

在Qwen3-Next中,團(tuán)隊(duì)為進(jìn)一步提高模型穩(wěn)定性,采用了Zero-Centered RMSNorm,并在此基礎(chǔ)上,對(duì)norm weight施加weight decay,以避免權(quán)重?zé)o界增長(zhǎng)。

不僅如此,他們還在初始化時(shí)歸一化了MoE router的參數(shù),確保每個(gè)expert在訓(xùn)練早期都能被無(wú)偏地選中,減小初始化對(duì)實(shí)驗(yàn)結(jié)果的擾動(dòng)。

多token預(yù)測(cè)機(jī)制

Qwen3-Next引入了原生Multi-Token Prediction(MTP) 機(jī)制,不僅獲得了Speculative Decoding接受率較高的MTP模塊,還提升了模型主干的整體性能。

此外,它還對(duì)MTP的多步推理進(jìn)行了專項(xiàng)優(yōu)化,即通過(guò)訓(xùn)練推理一致的多步策略,進(jìn)一步提高了在實(shí)際應(yīng)用場(chǎng)景下Speculative Decoding的接受率。

快10倍,但便宜10倍

接下來(lái),讓我們一起看看新模型表現(xiàn)如何。

首先,Qwen3-Next使用了Qwen3 36T預(yù)訓(xùn)練語(yǔ)料的均勻采樣子集,僅包含15T tokens。

圖片圖片

其訓(xùn)練所需的GPU Hours不到 Qwen3-30A-3B的80%,相比 Qwen3-32B,僅需9.3%的GPU計(jì)算資源就能取得更優(yōu)性能。

不僅如此,得益于創(chuàng)新的混合模型架構(gòu),Qwen3-Next在推理效率上也表現(xiàn)突出。

與Qwen3-32B相比,Qwen3-Next-80B-A3B在預(yù)填充(prefill)階段就展現(xiàn)出卓越的吞吐能力:

在4k tokens的上下文長(zhǎng)度下,吞吐量接近前者的7倍;當(dāng)上下文長(zhǎng)度超過(guò)32k時(shí),吞吐提升更是達(dá)到10倍以上。

圖片圖片

在解碼(decode)階段,該模型同樣高效。4k上下文吞吐量提升約4倍,長(zhǎng)上下文(32k+)場(chǎng)景中仍可保持超過(guò)10倍的吞吐優(yōu)勢(shì)。

圖片圖片

基于Qwen3-Next,Qwen團(tuán)隊(duì)首先訓(xùn)練了Qwen3-Next-80B-A3B-Base模型。

該模型僅使用十分之一的Non-Embedding激活參數(shù),就已在大多數(shù)基準(zhǔn)測(cè)試中超越Qwen3-32B-Base,并顯著優(yōu)于Qwen3-30B-A3B,展現(xiàn)出出色的效率與性能優(yōu)勢(shì)。

圖片圖片

基于Qwen3-Next-80B-A3B-Base的優(yōu)異表現(xiàn),團(tuán)隊(duì)進(jìn)一步開發(fā)并發(fā)布了Qwen3-Next-80B-A3B-InstructQwen3-Next-80B-A3B-Thinking

Qwen3-Next-80B-A3B-Instruct

首先,Qwen3-Next-80B-A3B-Instruct的表現(xiàn)顯著優(yōu)于 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并在多數(shù)指標(biāo)上接近Qwen3-235B-A22B-Instruct-2507。

圖片圖片

除此之外,在RULER測(cè)試中,無(wú)論上下文長(zhǎng)度如何,Qwen3-Next-80B-A3B-Instruct 的表現(xiàn)均超過(guò)了層數(shù)相同但注意力層更多的Qwen3-30B-A3B-Instruct-2507。

圖片圖片

甚至在256 k范圍內(nèi)也優(yōu)于層數(shù)更多的Qwen3-235B-A22B-Instruct-2507,充分體現(xiàn)了Gated DeltaNet與Gated Attention混合模型在長(zhǎng)文本處理場(chǎng)景下的優(yōu)勢(shì)。

Qwen3-Next-80B-A3B-Thinking

再來(lái)看Qwen3-Next-80B-A3B-Thinking,其表現(xiàn)也相當(dāng)不錯(cuò)。

在多項(xiàng)基準(zhǔn)測(cè)試中都超過(guò)了閉源模型Gemini-2.5-Flash-Thinking,并在部分指標(biāo)上接近Qwen最新的旗艦?zāi)P?Qwen3-235B-A22B-Thinking-2507。

圖片圖片

推理能力相當(dāng)可以

接下來(lái)讓我們實(shí)測(cè)一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat網(wǎng)頁(yè),一上來(lái)就給它扔一道AIME數(shù)學(xué)競(jìng)賽題試試:

圖片圖片

由于Qwen3-Next-80B-A3B支持多模態(tài),這里我們可以直接上傳圖片。

圖片圖片

幾乎瞬間,模型就開始飛快地列出了詳細(xì)解題思路和計(jì)算過(guò)程,最終得到的答案“588”與AIME標(biāo)準(zhǔn)答案完全吻合。

圖片圖片

小試牛刀之后,接下來(lái)進(jìn)入編程環(huán)節(jié)。

用p5js創(chuàng)建一個(gè)可直接玩的掃雷游戲。

代碼成功運(yùn)行后,我們也簡(jiǎn)單試玩了一下,流暢度還可以(doge)。

就是誰(shuí)能解釋一下為什么這個(gè)游戲背景是大紅色,還沒有網(wǎng)格線???

圖片圖片

還有網(wǎng)友奇思妙想,用它生成了天氣卡片。

圖片圖片

不過(guò),看到這個(gè)更新時(shí),網(wǎng)友開心之余還是忍不住吐槽:

名字實(shí)在太復(fù)雜了。

圖片圖片

目前,新模型已在魔搭社區(qū)和抱抱臉開源,大家可通過(guò)Qwen Chat免費(fèi)體驗(yàn),也可直接調(diào)用阿里云百煉平臺(tái)提供的API服務(wù)。

魔搭社區(qū)直通車:https://t.co/mld9lp8QjK

抱抱臉直通車:https://t.co/zHHNBB2l5XQwen

Chat直通車:https://t.co/V7RmqMaVNZ

阿里云API直通車:https://t.co/RdmUF5m6JA

參考鏈接:

[1]https://x.com/Alibaba_Qwen/status/1966197643904000262

[2]https://x.com/JustinLin610/status/1966199996728156167

[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2013-05-10 09:47:31

日本開發(fā)超算機(jī)

2013-05-27 13:59:39

銅纜布線技術(shù)綜合布線技術(shù)網(wǎng)絡(luò)綜合布線

2013-07-27 21:28:44

2023-05-10 15:07:00

Mojo開發(fā)選項(xiàng)

2025-01-03 09:24:10

模型架構(gòu)論文

2016-10-08 16:02:37

WIFIMegaMIMO系統(tǒng)

2009-08-21 17:44:00

寬帶接入EPON

2013-06-27 11:21:17

2019-07-12 14:30:43

Windows 10搜索框Windows

2019-07-12 09:36:37

Windows操作系統(tǒng)功能

2013-09-24 09:40:41

Java圖形加速

2021-05-27 09:19:55

Windows10操作系統(tǒng)微軟

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2011-07-01 10:11:39

2020-06-05 10:40:33

Windows 10Windows微軟

2015-10-19 17:15:33

網(wǎng)絡(luò)架構(gòu)/華三

2021-03-03 07:12:47

Windows10操作系統(tǒng)微軟

2017-12-27 08:53:17

Java JDK 10敏捷軟件區(qū)塊鏈

2016-02-18 09:36:52

光纖wifi

2016-01-26 11:58:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)