阿里剛剛開源Qwen3新思考模型:Agent能力超強,支持100萬上下文
今天凌晨,阿里巴巴開源了Qwen3家族最新模型Qwen3-30B-A3B-Thinking-2507。
2507與之前阿里開源的Qwen3-30B-A3B-Thinking和Qwen3-235B-A22B-Thinking相比,在Agent智能體、AIME25數(shù)學(xué)、LiveCodeBench編程、GPQA解決復(fù)雜能力等方面,性能全部實現(xiàn)大幅度提升。
同時,2507也超過了谷歌的最新小參數(shù)模型Gemini-2.5-Flash-Thinking。

開源地址:https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507
對于阿里的新模型,網(wǎng)友表示,瘋狂優(yōu)秀的本地模型,絕對是我能在 20GB 以內(nèi)裝下的最佳選擇。思考模式真的帶來了天壤之別,恭喜你們,太給力了!

對于這么小的一個模型而言,它在各方面的性能提升都令人印象深刻。

不錯,性能很強?,F(xiàn)在只需要融合多模態(tài)能力,并支持 8 小時的音頻和視頻轉(zhuǎn)錄等功能就更好了。

干得漂亮,各位。真難以想象完成這項工作付出了多少努力,那些不眠之夜和全神貫注的時刻。

Qwen 團隊的工作令人贊嘆!Qwen3-30B-A3B-Thinking-2507模型在推理能力上的提升以及超大的上下文窗口具有顛覆性意義,為復(fù)雜問題的解決開辟了令人期待的新可能。期待探索它的潛力!

干的非常好,Qwen做的很棒。

Qwen3-30B-A3B-Thinking-2507總參數(shù)量達到 305 億,其中激活的參數(shù)量為 33億,非嵌入?yún)?shù)量為 299 億。該模型包含 48層,采用 Grouped Query Attention機制,Q 的注意力頭數(shù)為 32,KV 的注意力頭數(shù)為 4。
此外,它還具備 128 個專家,其中激活的專家數(shù)量為8。原生支持256K上下文,但通過擴展可增加至100萬。
在性能方面,Qwen3-30B-A3B-Thinking-2507相比其他模型在多個任務(wù)上都有出色表現(xiàn)。例如,在知識類的 MMLU-Pro 任務(wù)中得分為 80.9、MMLU-Redux為91.4、GPQA為73.4、SuperGPQA為56.8;在推理類的AIME25任務(wù)中得分為85.0、HMMT25為71.4、LiveBench 20241125 為 76.8;

在編碼類的LiveCodeBench v6(25.02 - 25.05)任務(wù)中得分為66.0、CFEval 為 2044、OJBench 為 25.1;在對齊類的IFEval 任務(wù)中得分為88.9、Arena-Hard v2 為 56.0、Creative Writing v3為84.4、WritingBench為85.0;
在Agent智能體類的BFCL - v3 任務(wù)中得分為72.4、TAU1 - Retail 為67.8、TAU1 - Airline為48.0、TAU2 - Retail 為 58.8、TAU2 - Airline 為 58.0、TAU2 - Telecom 為 26.3;
在多語言類的 MultiIF 任務(wù)中得分為 76.4、MMLU-ProX 為 76.4、INCLUDE為 74.4、PolyMATH為52.6。
Qwen3-30B-A3B-Thinking-2507在工具調(diào)用能力方面表現(xiàn)出色,推薦使用 Qwen - Agent 來充分發(fā)揮其代理能力,Qwen - Agent 內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器,大大降低了編碼復(fù)雜性??梢酝ㄟ^ MCP 配置文件、Qwen - Agent 的集成工具或自行集成其他工具來定義可用工具。
為了達到最佳性能,建議采用這些設(shè)置:在采樣參數(shù)方面,建議使用溫度為0.6、TopP 為 0.95、TopK為20、MinP為0,對于支持的框架,還可以在0到2之間調(diào)整 presence_penalty 參數(shù)以減少無休止的重復(fù),但使用較高值可能會偶爾導(dǎo)致語言混合和模型性能略有下降;
在輸出長度方面,建議大多數(shù)查詢使用 32768個token的輸出長度,對于高度復(fù)雜問題如數(shù)學(xué)和編程競賽的基準測試,建議將最大輸出長度設(shè)置為 81920 個token,為模型提供足夠的空間來生成詳細全面的回答,從而提升整體性能。




































