偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Qwen緊追OpenAI開源4B端側(cè)大模型,AIME25得分超越Claude 4 Opus

人工智能 新聞
Qwen官方推文中對這倆模型的介紹是:更智能、更精準(zhǔn),并且支持256k上下文,更具上下文感知能力。

三天不開源,Qwen團(tuán)隊手就癢。

昨天深夜再次放出兩個端側(cè)模型:

  • Qwen3-4B-Instruct-2507:非推理模型,大幅提升通用能力
  • Qwen3-4B-Thinking-2507:高級推理模型,專為專家級任務(wù)設(shè)計

4B這個尺寸對端側(cè)非常友好,甚至意味著可以在樹莓派上運(yùn)行它。

圖片

Qwen官方推文中對這倆模型的介紹是:

更智能、更精準(zhǔn),并且支持256k上下文,更具上下文感知能力。

在AIME25上,Qwen3-4B-Thinking-2507四兩撥千斤,最后得分是81.3。

這個成績已經(jīng)超過了Gemini 2.5 Pro(49.8~88.0)和Claude 4 Opus(75.5)在AIME25的得分——僅僅靠一個4B的模型!

圖片

而且,4B參數(shù)量意味著對端側(cè)極其友好。

也難怪網(wǎng)友在Ycombinator上驚呼:

感謝中國公司!

圖片

4B模型大升級,四兩撥千斤

官方推文上,是這么介紹兩位Qwen3家族新成員的:

  • Qwen3-4B-Instruct-2507:提升通用能力、多語言覆蓋和長上下文指令理解。
  • Qwen3-4B-Thinking-2507:邏輯、數(shù)學(xué)、科學(xué)及代碼中的高級推理能力——專為專家級任務(wù)設(shè)計。

Qwen團(tuán)隊直言不諱,稱這兩個模型“更加強(qiáng)大”。

淺淺回顧一下,今年4月底,Qwen3系列首登場時,Qwen-4B-Base作為第一批八個成員之一亮相。

當(dāng)時,Qwen3-4B就能在數(shù)學(xué)、代碼能力上“以小博大”,和比自身大10倍模型水平相當(dāng)。

現(xiàn)在同樣在多個測試集上可以看到,Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507對于前作都有非常明顯的能力提升。

Qwen3-4B-Instruct-2507

Qwen3-4B-Instruct-2507是一個非推理模型,具有以下關(guān)鍵改進(jìn):

  • 在通用能力方面有顯著提升,包括指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編程和工具使用。
  • 在多語言長尾知識覆蓋方面有大幅增長。
  • 在主觀和開放性任務(wù)中與用戶偏好顯著匹配,能夠提供更有幫助的響應(yīng)和更高質(zhì)量的文本生成。
  • 256K長上下文理解能力增強(qiáng),可擴(kuò)展至1M。

在諸多測試集上,該模型通用能力超越了閉源的小尺寸模型GPT-4.1-nano。

(注:GPT-4.1-nano是GPT-4.1系列中最小規(guī)模的模型,未公開參數(shù)量)

和Qwen3-30B-A3B(Non-Thinking)對比,Qwen3-4B-Instruct-2507與其性能接近,還小勝一籌。

換句話說,這個4B的密集模型在性能上與30B的MoE模型能力非常接近,但“占地面積”卻小了7.5倍。

圖片

Qwen3-4B-Thinking-2507

在抱抱臉上,Qwen團(tuán)隊寫道:

在過去三個月中,我們持續(xù)提升Qwen3-4B的思考能力,增強(qiáng)了推理的質(zhì)量和深度。

于是,Qwen3-4B-Thinking-2507誕生了,這是一個僅支持推理模式的模型。

在前作基礎(chǔ)上,這一模型主要有以下改進(jìn):

  • 在推理任務(wù)上性能顯著提升,包括邏輯推理、數(shù)學(xué)、科學(xué)、編程以及通常需要人類專業(yè)知識的學(xué)術(shù)基準(zhǔn)測試。
  • 通用能力顯著提升,包括指令理解、工具使用、文本生成以及與人類偏好的對齊。
  • 增強(qiáng)的256K長上下文理解能力。

官方在抱抱臉表示,由于Qwen3-4B-Thinking-2507增加了思考長度,“強(qiáng)烈建議在高度復(fù)雜的推理任務(wù)中使用它”。

在重點考察數(shù)學(xué)能力的AIME25測評中,Qwen3-4B-Thinking-2507以4B參數(shù)量斬獲81.3的好成績。

此外,在GPQA上,其得分與Qwen-30B-A3B(Thinking)得分相當(dāng);Agent方面的每一項測試,Qwen3-4B-Thinking-2507碾壓了前代版本以及Qwen-30B-A3B(Thinking)。

圖片

端側(cè)開發(fā)者福音

現(xiàn)在,Qwen3-4B-Instruct-2507以及Qwen3-4B-Thinking-2507的代碼可在抱抱臉和魔搭社區(qū)找到,文末放上了直通車,方便大家尋找。

官方還貼心地給出了部署建議:

第一,對于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等應(yīng)用程序也已支持模型部署。

對于極小型設(shè)備(如樹莓派4B),可使用量化版本Qwen3-4B-GGUF,搭配llama.cpp運(yùn)行。

第二,如果遇到內(nèi)存不足(OOM)問題,可以考慮將上下文長度減少到一個更短的值。

由于Qwen3-4B-Thinking-2507是一個推理模型,在推理時可能需要更長的詞元序列,強(qiáng)烈建議在可能的情況下使用大于131,072的上下文長度。

第三,雖然倆模型一個是推理模型一個是非推理模型,但官方對prompt給出了同樣的建議。

面對數(shù)學(xué)問題時,推薦在prompt中包含“請逐步推理,并將最終答案放在\boxed{}內(nèi)?!?/span>

面對選擇題時,推薦在prompt中添加以下JSON 結(jié)構(gòu)以標(biāo)準(zhǔn)化回答:”請在 answer 字段中僅顯示選項字母,例如 “answer”: “C” ?!?/span>

最后,已經(jīng)有網(wǎng)友在呼吁開源永動機(jī)Qwen團(tuán)隊趕緊交出Qwen3-8B系列了:

圖片

One More Thing

Qwen3系列到底有多少款模型?

答案是:不知道。

吃瓜群眾們只知道這次小·大模型的更新非常使用,以及時間錢選得剛剛好——

昨天,久不Open的OpenAI終于開源了一次。

不僅和谷歌、Anthropic大撞期,而且gpt-oss-120b和gpt-oss-20b兩個模型似乎并沒有用性能征服開發(fā)者們。

圖片

而今天半夜,也就是8月8日凌晨1點(太平洋時間8月7日上午10點),打了800集預(yù)告的GPT-5,或許就要來了……

圖片

8月剛開始就戰(zhàn)況這么激烈,咱能怎么辦?

搬小板凳,乖巧坐等唄~

抱抱臉直通車:
[1]https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
[2]https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社區(qū)直通車:
[1]https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
[2]https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-09 09:25:33

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2025-08-25 08:53:00

2025-09-24 14:50:58

2025-07-31 09:06:00

2025-09-08 08:40:00

AI模型編程

2024-03-28 14:26:51

人工智能

2025-06-11 14:28:34

SOTAQwenR1

2023-06-19 19:26:54

模型開源

2024-03-05 09:16:32

AI模型GPT-4

2025-09-02 10:14:35

2024-04-12 17:41:28

GPT-4TurboClaude

2022-06-21 11:02:27

系統(tǒng)移植鴻蒙

2022-01-04 15:35:51

鴻蒙HarmonyOS應(yīng)用

2025-01-22 16:57:32

字節(jié)跳動豆包大模型

2023-09-11 15:57:16

人工智能模型GPT-4

2025-06-17 08:45:00

模型智能工具

2024-11-12 14:00:00

AI編程

2025-08-26 15:31:35

英偉達(dá)模型架構(gòu)

2024-09-06 13:00:29

點贊
收藏

51CTO技術(shù)棧公眾號