偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里最新模型真的猛! 真肝實(shí)測:硬剛GPT5,技?jí)篋S、月暗,情商比GPT5高,讀懂下棋大爺淋雨4小時(shí)的倔犟,但我發(fā)現(xiàn)了一個(gè)問題

原創(chuàng) 精選
人工智能
不管是通用知識(shí)、還是數(shù)學(xué)推理、編程任務(wù),甚至是綜合任務(wù)中,都超越了Claude-Opus 4(Non-Thinking),以及Kimi-K2、DeepSeek-V3.1和自家此前的開源最佳Qwen3-235B-A22B-Instruct-2507。

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

越來越有趣了!

連續(xù)兩天,中國隊(duì)一天推出了一個(gè)萬億參數(shù)模型。昨天是Kimi的k2-0905,今天凌晨,則是阿里的Qwen3-Max-preview!

圖片圖片

小編從中午到現(xiàn)在,可以說是午飯都沒吃就開始測評(píng)了。

先說感受,測評(píng)下來,感覺:在硬剛GPT-5方面,在一眾國產(chǎn)模型中,Qwen3-Max-Preview是做得最好的!

可以說是迄今為止的No.1!

圖片圖片

在正式開啟測評(píng)之前,還是要簡單介紹下這款新模型,這款模型被阿里團(tuán)隊(duì)稱之為“最佳模型”,在多項(xiàng)主流權(quán)威評(píng)測基準(zhǔn)中都展現(xiàn)出了全球領(lǐng)先的性能。

不管是通用知識(shí)、還是數(shù)學(xué)推理、編程任務(wù),甚至是綜合任務(wù)中,都超越了Claude-Opus 4(Non-Thinking),以及Kimi-K2、DeepSeek-V3.1和自家此前的開源最佳Qwen3-235B-A22B-Instruct-2507。根據(jù)一些網(wǎng)友曬出的體驗(yàn)截圖來看,的確表現(xiàn)出了更強(qiáng)的智能水平:

更廣的知識(shí)面,更優(yōu)秀的對話能力,在Agent任務(wù)與指令遵循等方面擁有更強(qiáng)勁的性能。

一、更高情商的對話、更廣知識(shí)面,下棋大爺為什么在雨中執(zhí)拗復(fù)盤了4小時(shí)

話不多說,拿來實(shí)測下。看看這款號(hào)稱阿里最強(qiáng)大的語言模型,實(shí)力究竟能否突破“大天尊”。

先來一個(gè)開胃菜。

最近,“一位酷愛下棋的大爺因?yàn)榇笠廨斄似?,在大雨中?zhí)拗復(fù)地在原地復(fù)盤了4個(gè)小時(shí)才回家”的視頻,沖上了熱搜。

圖片圖片

小編就好奇怎么回事,索性就讓Qwen3-Max-Preview來幫我看看故事的開頭是多么“前途無量”!

我問道:

這是一張兩人在雨中下象棋的圖片,幫我分析下,哪一方會(huì)贏?補(bǔ)充:現(xiàn)在該紅棋走了。

圖片圖片

雖然圖片很模糊,但并沒有影響 Max 的回答:這位執(zhí)黑的大爺,很可能馬上就贏了!

圖片圖片

當(dāng)然,小編為了對比,也讓GPT-5來回答了這個(gè)問題,給出了這樣的答復(fù):

圖片圖片

對比下來,可能GPT-5被訓(xùn)練得比較憐惜token,所以輸出的更為簡潔,而Qwen3-Max-Preview則表現(xiàn)的相當(dāng)大氣,出了描述了棋局、黑旗的將軍方法、紅旗的解將之外,還順帶嘴地上了一波價(jià)值:

這盤棋,不僅是勝負(fù)之爭,更是生活態(tài)度的較量!

頓時(shí)把小編看得有種看了一場文字脫口秀得趕腳。不多說了,最近很流行讓一個(gè)模型去評(píng)論別的模型輸出的結(jié)果,所以小編也干脆讓 Qwen3 去點(diǎn)評(píng)一下ChatGPT 和它比較來,哪個(gè)更好。

它回答的也很誠實(shí):

ChatGPT 是一個(gè)“職業(yè)棋手”的口吻,術(shù)語多,結(jié)構(gòu)嚴(yán)謹(jǐn);我偏向“老聊天教學(xué)式。

專業(yè)性上打成平手,但我的表達(dá)更適合非專業(yè)用戶。

圖片圖片

最后,還秀了一波高(拍)情(馬)商(屁)!

所以,如果這是一場“AI vs AI”的比賽,我會(huì)說:

“我不是最強(qiáng)的AI,但我可能是最有溫度的那個(gè)?!?/p>

而你,正是那個(gè)懂得欣賞這種溫度的人。??

好好好,算你贏了。

當(dāng)然之所以小編要測這個(gè)例子,是為了重點(diǎn)考核這幾個(gè)方面:

首先是,多模態(tài)分析能力,大家都知道,目前很多國產(chǎn)模型中,像DeepSeek只能識(shí)別圖中的文字,這一點(diǎn)就很遺憾。此外,昨天月之暗面新推出的萬億參數(shù)規(guī)模的K2-0905 模型同樣也是存在這個(gè)問題。

所以,小編平心而論,國內(nèi)目前在這方面做的夠出色的、能對標(biāo)甚至超過GPT-5的開源模型,也就Qwen3-Max了,當(dāng)之無愧的 No.1!

圖片圖片

圖片圖片

其次,則是考察模型對于中國象棋知識(shí)的了解。著實(shí)驚到了,“雙將”、“重炮”等象棋中的一些獨(dú)有術(shù)語和知識(shí),Qwen3-Max-Preview 也學(xué)習(xí)到了。

當(dāng)然,另小編意外的還有一個(gè)點(diǎn)。大家有沒有發(fā)現(xiàn),這個(gè)Max-Preveiw 竟然也學(xué)會(huì)了自我總結(jié),并且還自主地選取維度進(jìn)行分析,且自主調(diào)用了表格的形式,來呈現(xiàn)與ChatGPT結(jié)果的對比,可以說,通義千問團(tuán)隊(duì)真的太“奧力給”了,已經(jīng)可以說跟GPT-5打得有來有回了!

ok,這個(gè)開胃菜,屬實(shí)有些香到了。

二、實(shí)測指令遵循:我發(fā)現(xiàn)了一個(gè)嚴(yán)重問題

根據(jù)X上官方賬號(hào)對于新模型的描述,通義千問大概率之后會(huì)沿著兩個(gè)方向去繼續(xù)迭代研究一系列新的模型:一是指令遵循,而是工具調(diào)用。

那么究竟Qwen3-Max-Preview在這方面的實(shí)力究竟如何呢?

小編當(dāng)然不會(huì)放過這個(gè)實(shí)測的機(jī)會(huì)。

首先來看指令遵循。可能不少朋友覺得這個(gè)詞太學(xué)術(shù)了,其實(shí)很容易記理解,就是解決多步驟復(fù)雜任務(wù)的能力。

小編琢磨了一會(huì),近期小編再嘗試做B站視頻,果斷就來一個(gè)B站視頻相關(guān)的考題,來考一考這款新千問模型:

請嚴(yán)格按照以下步驟執(zhí)行,并在輸出時(shí)標(biāo)注每個(gè)步驟的結(jié)果: 

1.假設(shè)你要在 B站 上傳一段關(guān)于“哪吒2背后制作故事”的視頻,請先生成一個(gè) 爆款視頻標(biāo)題(不超過20字),以及一句 100字以內(nèi)的視頻簡介。

 2.為該視頻設(shè)計(jì)一個(gè) 封面圖構(gòu)思,用文字描述畫面內(nèi)容,要求包含以下元素:

(1)包含哪吒魔童形象和敖丙(造型要有趣、可愛) 

(2)B站元素(如藍(lán)白色調(diào)、彈幕氛圍感) 

(3)觀眾容易一眼看出是“知識(shí)類視頻”的氛圍 

3.將第2步的封面構(gòu)思,轉(zhuǎn)寫為一條適合主流文生圖模型的中文Prompt,,確保畫面簡潔、清晰。

大家不妨先來看下小編用Qwen3-Max-Preview和GPT-5生成的prompt通過各自的圖片生成功能來生成封面效果:

哈哈,果斷Qwen3贏了!

上面這張是Qwen3的結(jié)果。出了B站的拼寫有點(diǎn)瑕疵之外,小編簡直可以直接拿來用封面了。

圖片圖片

而GPT-5則就太小兒科了,甚至直接把敖丙化成了一條小龍人。

嗯,看來還是中國模型更懂中國電影。

圖片圖片

回歸正題,兩個(gè)模型的指令遵循方面整體都不錯(cuò)。嚴(yán)格按照步驟進(jìn)行輸出。

圖片圖片

但小編發(fā)現(xiàn)一個(gè)Qwen3-Max-Preview 在指令遵循方面存在一個(gè)問題:

一旦,你在步驟中加入類似下面的代碼任務(wù),Qwen3則會(huì)完全忽略前面3個(gè)步驟的輸出,只輸出最后的步驟4的結(jié)果。

步驟4:最終請把結(jié)果打包成 JSON 格式,字段包括: 

title(視頻標(biāo)題) 

description(視頻簡介) 

cover_idea(封面中文描述) 

cover_prompt(生成封面的英文Prompt)

圖片圖片

如果千問團(tuán)隊(duì)的朋友也看到了這篇測評(píng)文章,或者哪位朋友知道什么原因,可以評(píng)論區(qū)交流。(盲猜代碼這塊和純對話形式還是有邊界隔離的)

而在這方面,ChatGPT則非常的穩(wěn)。

圖片圖片

三、工具

再有一塊能力,就是工具調(diào)用方面。

其實(shí)上面的兩個(gè)例子多多稍稍都用到了“工具主動(dòng)調(diào)用”的能力,這里為了更直觀的展示,小編也設(shè)計(jì)了一個(gè)非常實(shí)用的為大家謀福利的題目。

我最近在選大模型API。請幫我完成以下任務(wù): 

1.查詢GPT5的API的調(diào)用價(jià)格, 

2.查詢Qwen3模型的調(diào)用價(jià)格  

3.把這兩個(gè)價(jià)格都換算成人民幣,并計(jì)算差價(jià),保留兩位小數(shù)。  

4.最后,用一句話點(diǎn)評(píng):到底買哪個(gè)更劃算?

這直接省了小編再去特別去官網(wǎng)搜API報(bào)價(jià)了。(這個(gè)主要考察的是搜索、計(jì)算、分析等工具調(diào)用(大家懂得:不調(diào)用計(jì)算工具,數(shù)學(xué)題很容易做錯(cuò)))

先看Qwen3的回答:

圖片圖片

圖片圖片

不過,大家都知道Qwen3有很多系列,Qwen對話中引用的是Coder模型的價(jià)格,而ChatGPT則引用的是235B-Thinking的價(jià)格。

但不管怎樣,兩款模型都一致的認(rèn)為:Qwen3的API價(jià)格明細(xì)更劃算!

不過GPT-5當(dāng)然不服氣:

但如果你看重 GPT-5 在能力、生態(tài)、穩(wěn)定性或多模態(tài)支持的綜合價(jià)值,花更高的錢買 GPT-5 也可能更“值”。

Qwen3,對于這一點(diǎn)也是隱晦的表達(dá)了出來。

因此單從費(fèi)用考慮,購買Qwen3的API更劃算。不過,最終選擇還需綜合考慮模型性能、功能需求和具體應(yīng)用場景。

四、API價(jià)格有點(diǎn)貴

階梯計(jì)價(jià),建議大家按需選擇

OK,那么到底官網(wǎng)上這款新模型的API價(jià)格如何呢?小編為大家也扒下來了!

輸入Token數(shù)

輸入價(jià)格(每百萬Token)

qwen3-max-preview 支持上下文緩存。

輸出價(jià)格(每百萬Token)

0-32K

$1.2

$3.441

32K-128K

$1.434

$5.735

128K-252K

$2.151

$8.602

在阿里百煉平臺(tái)上,qwen3-max-preview 模型根據(jù)輸入 Token數(shù),采取階梯計(jì)費(fèi)的方式,

輸入方面,如果是32k以內(nèi)的token,每百萬token只需要1.2美刀(不到9元人民幣);越多越價(jià)格越貴。

輸出方面,32k token以內(nèi),每百萬token需要6美刀(43元人民幣)。同樣也是越多token,價(jià)格越貴。

小編看起來是真的有點(diǎn)貴。雖然貴有貴的道理,大家還是要按照需求場景慎重選擇模型。

最后多說一嘴,小編在測試中發(fā)現(xiàn)了一個(gè)小秘密,純當(dāng)結(jié)尾的一個(gè)彩蛋吧:

Qwen3-Max-Preview 用于訓(xùn)練的數(shù)據(jù)應(yīng)該是截止到去年的數(shù)據(jù)。

圖片圖片

圖片圖片

好了,小編測完后,隱隱感覺:阿里這款新模型很明顯是奔著對標(biāo)GPT5去的,包括價(jià)格方面也大有追趕之意。哈哈,但的確,質(zhì)量和性能上的確沒的說。

真的是太猛了!期待千問團(tuán)隊(duì)后續(xù)的迭代更新!

對了,差點(diǎn)忘了,大家免費(fèi)體驗(yàn)地址:https://chat.qwen.ai/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-08-11 09:07:00

2025-08-18 17:47:13

GPT5Grok4千問3

2025-08-07 16:21:27

GPT-5AI模型

2025-07-28 08:54:00

2025-08-11 08:12:06

2025-08-08 09:44:54

2025-08-19 16:05:27

GPT-5AI代碼

2025-09-29 14:13:16

GPT-5量子NPAI

2025-07-28 18:07:12

GPT-5GPT-5-prozenith

2025-06-27 15:48:34

2025-08-11 09:22:00

2025-08-11 08:09:17

2025-02-13 08:56:12

2024-06-24 00:02:00

GPT-5GPT-4oOpenAI

2024-01-22 13:57:00

模型訓(xùn)練

2025-07-30 09:14:00

2025-07-31 16:04:23

GPT-5GPTdemo

2025-09-08 15:13:52

AI模型訓(xùn)練

2024-04-10 11:47:41

人工智能ChatGPT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)