AIME'25滿分炸場!Qwen一波七連發(fā),全家桶大更新
它來了,它來了!
新一代旗艦?zāi)P?/span>Qwen3-Max帶著滿分成績,正式地來了——
國產(chǎn)大模型首次在AIME25和HMMT這兩個(gè)數(shù)學(xué)評測榜單拿下100分!

和前不久Qwen3-Max-Preview一致,參數(shù)量依舊是超萬億的規(guī)模。
但這次正式的發(fā)布在版本上有了一個(gè)劃分:
- 指令版(Instruct)
- 思考版(Thinking)
而且Qwen3-Max在性能上也有了一定的提升(情商智商,雙商增強(qiáng))。
剛才我們提到的數(shù)學(xué)滿分,正是思考版所拿下的成績。
至于指令版,則是在SWE-Bench評測(大模型用coding解決真實(shí)世界問題)中斬獲69.6分,位列全球第一梯隊(duì)。
以及在Tau2 Bench測試(考察Agent工具調(diào)用能力)中,超過Claude Opus4和DeepSeek V3.1,拿下74.8分的成績。

強(qiáng),確實(shí)是有點(diǎn)強(qiáng)。
但有一說一,如果說Qwen3-Max是一把“火”,那么在剛剛的云棲大會(huì)上,通義團(tuán)隊(duì)還散出了很多的“星”。
視覺:Qwen3-VL重磅開源
從Qwen3-Max散出來的第一個(gè)“星”,就是視覺理解模型Qwen3-VL。
其實(shí)它在今天凌晨的時(shí)候已經(jīng)開源,屬于“微鮮”出爐,但確實(shí)是大家比較期待的那一個(gè)。

具體而言,這次的型號(hào)叫做Qwen3-VL-235B-A22B,同樣分為指令版和推理版。
其中,指令版本在多項(xiàng)主流視覺感知評測中,性能達(dá)到甚至超過Gemini 2.5 Pro;而推理版本則是在眾多多模態(tài)推理的評測基準(zhǔn)下取得了SOTA的表現(xiàn)。

除此之外,Qwen3-VL-235B-A22B指令版還支持在帶圖推理,并且在四項(xiàng)基準(zhǔn)測試中的成績均有所提升。

網(wǎng)友在看到成績之后,甚至直呼:
Qwen3-VL真是個(gè)怪物(太強(qiáng)了)。

實(shí)際測試效果現(xiàn)在也已經(jīng)放出來了。
例如把一張手繪的網(wǎng)頁“喂”給Qwen3-VL,它就能唰唰唰地給出HTML和CSS:

再如給它下面這張圖:

并讓Qwen3-VL完成如下任務(wù):
找出屬于以下類別的所有實(shí)例:“頭部、手部、男性、女性、眼鏡”。請以JSON格式報(bào)告邊界框坐標(biāo)。

更復(fù)雜的視頻理解,Qwen3-VL也是不在話下:

更多案例可以通過下面的視頻了解一下:

從技術(shù)層面來看,Qwen3-VL還是采用了原生動(dòng)態(tài)分辨率設(shè)計(jì),但在結(jié)構(gòu)設(shè)計(jì)上進(jìn)行了更新

一是采用MRoPE-Interleave。原始MRoPE按時(shí)間 (t)、高度 (h)、寬度 (w) 順序劃分,使時(shí)間信息集中在高頻維度。Qwen3-VL改為t、h、w交錯(cuò)分布,實(shí)現(xiàn)全頻覆蓋,提升對長視頻的理解,同時(shí)保持圖像理解能力。
二是引入DeepStack,融合ViT多層特征,增強(qiáng)視覺細(xì)節(jié)捕捉和圖文對齊。
團(tuán)隊(duì)將視覺tokens的單層注入擴(kuò)展為LLM多層注入,并優(yōu)化特征token化:對ViT不同層輸出分別token化并輸入模型,從而保留從低層到高層的多層次視覺信息。實(shí)驗(yàn)表明,該設(shè)計(jì)顯著提升了多種視覺理解任務(wù)的表現(xiàn)。
三是將視頻時(shí)序建模由T-RoPE升級(jí)為 文本時(shí)間戳對齊機(jī)制。通過“時(shí)間戳-視頻幀”交錯(cuò)輸入,實(shí)現(xiàn)幀級(jí)時(shí)間與視覺內(nèi)容的精細(xì)對齊,并原生支持“秒數(shù)”和“HMS”兩種輸出。如此一來,便改進(jìn)提升了模型在事件定位、動(dòng)作邊界檢測、跨模態(tài)時(shí)間問答等復(fù)雜時(shí)序任務(wù)中的語義感知與時(shí)間精度。
全模態(tài):Qwen3-Omni開源
Qwen3-Omni雖然是昨天凌晨已經(jīng)開源,但在這次云棲大會(huì)中也是一同亮相,主打的就是一個(gè)全模態(tài)。
它是首個(gè)原生端到端全模態(tài)人工智能模型,在一個(gè)模型中統(tǒng)一了文本、圖像、音頻和視頻,并且在22個(gè)音視頻基準(zhǔn)測試中達(dá)到了SOTA的水平。
目前已經(jīng)開源的版本包括:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner
不過基于Qwen3-Omni還衍生出了更多好玩且強(qiáng)悍的細(xì)分大模型。
例如今天發(fā)布的Qwen3-LiveTranslate就是其中一個(gè)——視、聽、說全模態(tài)同傳大模型!
目前,它已經(jīng)實(shí)現(xiàn)了覆蓋18種語言的離線和實(shí)時(shí)兩種音視頻翻譯能力。
從公開測試的成績來看,Qwen3-LiveTranslate-Flash的準(zhǔn)確率已經(jīng)超過了Gemini-2.5-Flash、GPT-4o-Audio-Preview等:

即便是在環(huán)境嘈雜的地方,Qwen3-LiveTranslate-Flash依舊是能hold得住:

至于具體效果,來感受一下具體實(shí)操的效果:

英文原文:What is mask? This is mask. This is mask. This is mask. This is Musk.
視覺增強(qiáng)前:什么是口罩?這是口罩,這是口罩,這是口罩,這是口罩。
視覺增強(qiáng)后:什么是口罩?這是面膜,這是口罩,這是面具,這是馬斯克。
網(wǎng)友看罷,也是有億點(diǎn)點(diǎn)震驚在身上的:
我都覺得有點(diǎn)恐怖了。

除了翻譯之外,Qwen版Banana——Qwen3-Image-Edit的新版本,也是非常有趣的一個(gè)模型。
不僅支持多圖融合,提供“人物+人物”,“人物+商品”,“人物+場景” 等多種玩法,還增強(qiáng)了人物、商品、文字等單圖一致性。
而且它還原生支持ControlNet,可通過關(guān)鍵點(diǎn)圖改變?nèi)宋镒藙荩€可輕松實(shí)現(xiàn)換裝需求。

編程:Qwen3-Coder升級(jí)
新升級(jí)的Qwen3-Coder-Plus玩了一套“組合拳”:Qwen Code、Claude Code系統(tǒng)聯(lián)合訓(xùn)練。
如此打法之下,它的性能效果得到了顯著的提升;可以看到相較于之前的版本,在各項(xiàng)基準(zhǔn)測試中的分?jǐn)?shù)都有所增長:

與此同時(shí),與之相關(guān)的編程產(chǎn)品Qwen Code也有了升級(jí)動(dòng)作,增加了對多模態(tài)模型和sub-agent的支持。
換言之,你現(xiàn)在用Qwen Code的時(shí)候,可以輸入圖像了:

然后已經(jīng)有網(wǎng)友開始在實(shí)測了,Qwen3-Coder-Plus打造的一座3D寶塔效果是這樣的:

Qwen的終點(diǎn),不只是開源
最后,總結(jié)一下這次云棲大會(huì)中的亮點(diǎn)。
首先就是從前天至今,阿里通義千問已經(jīng)陸陸續(xù)續(xù)發(fā)布、開源大大小小近十款模型,已經(jīng)是讓國內(nèi)外業(yè)界人士對阿里云的開源速度嘆為觀止。

但有一說一,在聽完阿里云智能集團(tuán)董事長兼CEO吳泳銘的演講之后,我們發(fā)現(xiàn),通義千問要做的事情,遠(yuǎn)不止于此。
因?yàn)閰怯俱懕硎?,?shí)現(xiàn)AGI已然是確定性事件,但這還僅是起點(diǎn),終極目標(biāo)是發(fā)展出能自我迭代、全面超越人類的超級(jí)人工智能(ASI)。
而要實(shí)現(xiàn)ASI,則需要以互聯(lián)網(wǎng)為起點(diǎn),經(jīng)歷四個(gè)階段:
第一階段是智能涌現(xiàn)(學(xué)習(xí)人)、其次是自主行動(dòng)(輔助人)、接下來是自我迭代(超越人),最后就是超級(jí)人工智能(ASI)。

除此之外,吳泳銘還非常有遠(yuǎn)見地認(rèn)為:
大模型將是下一代操作系統(tǒng),自然語言是以后的源代碼,AI Cloud是下一代計(jì)算機(jī)。
未來全世界或只會(huì)有5-6個(gè)超級(jí)云計(jì)算平臺(tái)。

但需要明確的一點(diǎn)是,AI越強(qiáng),人類越強(qiáng)。
One More Thing
哦對了,通義千問那個(gè)新一代基礎(chǔ)模型架構(gòu)——Qwen3-Next,今天也正式發(fā)布了!
它的模型總參數(shù)量大約是80B,但實(shí)際上,僅僅在激活3B的情況下,它的性能就可以跟Qwen3-235B媲美。
計(jì)算效率,可以說是直接Pro Max了~
而且與密集模型Qwen3-32B相比,它的訓(xùn)練成本降低了超90%,長文本推理吞吐量提升超過10倍。
不得不說,未來大模型的訓(xùn)練和推理效率,要變得更加有意思了。



























