偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里剛剛開源Qwen3新思考模型:Agent能力超強,支持100萬上下文

人工智能 新聞
2507與之前阿里開源的Qwen3-30B-A3B-Thinking和Qwen3-235B-A22B-Thinking相比,在Agent智能體、AIME25數(shù)學(xué)、LiveCodeBench編程、GPQA解決復(fù)雜能力等方面,性能全部實現(xiàn)大幅度提升。

今天凌晨,阿里巴巴開源了Qwen3家族最新模型Qwen3-30B-A3B-Thinking-2507。

2507與之前阿里開源的Qwen3-30B-A3B-Thinking和Qwen3-235B-A22B-Thinking相比,在Agent智能體、AIME25數(shù)學(xué)、LiveCodeBench編程、GPQA解決復(fù)雜能力等方面,性能全部實現(xiàn)大幅度提升。

同時,2507也超過了谷歌的最新小參數(shù)模型Gemini-2.5-Flash-Thinking。

圖片

開源地址:https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

對于阿里的新模型,網(wǎng)友表示,瘋狂優(yōu)秀的本地模型,絕對是我能在 20GB 以內(nèi)裝下的最佳選擇。思考模式真的帶來了天壤之別,恭喜你們,太給力了!

圖片

對于這么小的一個模型而言,它在各方面的性能提升都令人印象深刻。

圖片

不錯,性能很強?,F(xiàn)在只需要融合多模態(tài)能力,并支持 8 小時的音頻和視頻轉(zhuǎn)錄等功能就更好了。

圖片

干得漂亮,各位。真難以想象完成這項工作付出了多少努力,那些不眠之夜和全神貫注的時刻。

圖片

Qwen 團隊的工作令人贊嘆!Qwen3-30B-A3B-Thinking-2507模型在推理能力上的提升以及超大的上下文窗口具有顛覆性意義,為復(fù)雜問題的解決開辟了令人期待的新可能。期待探索它的潛力!

圖片

干的非常好,Qwen做的很棒。

圖片

Qwen3-30B-A3B-Thinking-2507總參數(shù)量達到 305 億,其中激活的參數(shù)量為 33億,非嵌入?yún)?shù)量為 299 億。該模型包含 48層,采用 Grouped Query Attention機制,Q 的注意力頭數(shù)為 32,KV 的注意力頭數(shù)為 4。

此外,它還具備 128 個專家,其中激活的專家數(shù)量為8。原生支持256K上下文,但通過擴展可增加至100萬。

在性能方面,Qwen3-30B-A3B-Thinking-2507相比其他模型在多個任務(wù)上都有出色表現(xiàn)。例如,在知識類的 MMLU-Pro 任務(wù)中得分為 80.9、MMLU-Redux為91.4、GPQA為73.4、SuperGPQA為56.8;在推理類的AIME25任務(wù)中得分為85.0、HMMT25為71.4、LiveBench 20241125 為 76.8;

圖片

在編碼類的LiveCodeBench v6(25.02 - 25.05)任務(wù)中得分為66.0、CFEval 為 2044、OJBench 為 25.1;在對齊類的IFEval 任務(wù)中得分為88.9、Arena-Hard v2 為 56.0、Creative Writing v3為84.4、WritingBench為85.0;

在Agent智能體類的BFCL - v3 任務(wù)中得分為72.4、TAU1 - Retail 為67.8、TAU1 - Airline為48.0、TAU2 - Retail 為 58.8、TAU2 - Airline 為 58.0、TAU2 - Telecom 為 26.3;

在多語言類的 MultiIF 任務(wù)中得分為 76.4、MMLU-ProX 為 76.4、INCLUDE為 74.4、PolyMATH為52.6。

Qwen3-30B-A3B-Thinking-2507在工具調(diào)用能力方面表現(xiàn)出色,推薦使用 Qwen - Agent 來充分發(fā)揮其代理能力,Qwen - Agent 內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器,大大降低了編碼復(fù)雜性??梢酝ㄟ^ MCP 配置文件、Qwen - Agent 的集成工具或自行集成其他工具來定義可用工具。

為了達到最佳性能,建議采用這些設(shè)置:在采樣參數(shù)方面,建議使用溫度為0.6、TopP 為 0.95、TopK為20、MinP為0,對于支持的框架,還可以在0到2之間調(diào)整 presence_penalty 參數(shù)以減少無休止的重復(fù),但使用較高值可能會偶爾導(dǎo)致語言混合和模型性能略有下降;

在輸出長度方面,建議大多數(shù)查詢使用 32768個token的輸出長度,對于高度復(fù)雜問題如數(shù)學(xué)和編程競賽的基準測試,建議將最大輸出長度設(shè)置為 81920 個token,為模型提供足夠的空間來生成詳細全面的回答,從而提升整體性能。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-07-25 10:06:05

2025-05-15 09:16:00

2025-05-14 01:00:00

2025-06-06 14:32:20

阿里開源Qwen3

2025-06-06 09:12:53

2025-08-21 10:14:18

2025-04-29 09:06:00

2025-04-30 02:00:00

2025-07-23 08:33:00

2025-08-07 09:07:21

2025-07-08 08:34:04

2025-10-20 09:06:00

2025-03-18 08:14:05

2025-07-03 09:31:52

2025-01-15 13:09:12

2025-07-31 07:11:53

2025-05-21 09:04:38

2025-08-08 09:06:00

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2025-08-01 08:50:08

點贊
收藏

51CTO技術(shù)棧公眾號