歐洲黑馬Mistral Medium 3來(lái)了!跑分對(duì)標(biāo)最強(qiáng)Claude,實(shí)測(cè)大翻車
就在剛剛, Mistral AI發(fā)布了他們最新多模態(tài)模型Mistral Medium 3。
Mistral興奮地宣稱Mistral Medium 3的性能接近甚至達(dá)到了Claude Sonnet 3.7的水平,但成本卻比DeepSeek V3還低。
性價(jià)比拉滿!

在Mistral官方的博客中,列出了Mistral Medium 3的核心亮點(diǎn):
1. Mistral Medium 3平衡了:
- 頂尖性能
 - 成本降低至原來(lái)的八分之一
 - 更易于部署,從而加速企業(yè)應(yīng)用
 
2. 模型在代碼編寫和多模態(tài)理解等專業(yè)應(yīng)用場(chǎng)景中表現(xiàn)出色。
3. 模型提供一系列企業(yè)功能,包括:
- 支持混合云部署、本地部署以及在VPC內(nèi)部署
 - 定制化后訓(xùn)練
 - 集成到企業(yè)工具和系統(tǒng)中
 
Mistral Medium 3 API,現(xiàn)已在Mistral La Plateforme和Amazon Sagemaker上線,并將很快登陸IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex。
完美平衡
Mistral Medium 3在提供前沿性能的同時(shí),成本卻降低了一個(gè)數(shù)量級(jí)。
例如,在各項(xiàng)基準(zhǔn)測(cè)試中,Mistral Medium 3的性能達(dá)到甚至超過(guò)了Claude Sonnet 3.7的90%,但成本卻顯著降低(每百萬(wàn)Token的輸入成本為0.4美元,輸出成本為2美元)。
Mistral Medium 3的性能也超越了領(lǐng)先的開(kāi)源模型,如Llama 4 Maverick和Cohere Command A等企業(yè)模型。
無(wú)論是API還是自主部署,Mistral Medium 3的成本都要比DeepSeek V3還低。
此外,Mistral Medium 3還可以部署在任何云上,包括四個(gè)GPU及以上的自托管環(huán)境。
頂級(jí)性能
Mistral表示,Mistral Medium 3的目標(biāo)是成為一款性能頂尖的模型,尤其是在編碼和STEM任務(wù)中表現(xiàn)突出,性能直逼那些規(guī)模更大、速度更慢的競(jìng)爭(zhēng)對(duì)手。
從Mistral給出的表中可以看出Mistral Medium 3性能已經(jīng)基本上超越Llama 4 Maverick和GPT-4o,接近Claude Sonnet 3.7以及DeepSeek 3.1的水平。

人工評(píng)估結(jié)果
除了學(xué)術(shù)基準(zhǔn)之外,Mistral還公布了第三方人工評(píng)估,后者更能代表真實(shí)世界的用例。
可以看到,Mistral Medium 3在編碼領(lǐng)域表現(xiàn)出色,并且在各個(gè)方面都比其他競(jìng)爭(zhēng)對(duì)手提供了更好的性能。


專為企業(yè)級(jí)應(yīng)用打造
Mistral Medium 3在適應(yīng)企業(yè)環(huán)境的能力方面優(yōu)于其他SOTA模型。
在企業(yè)面臨通過(guò)API進(jìn)行微調(diào),或從零開(kāi)始自部署并定制模型行為的艱難選擇時(shí),Mistral Medium 3提供了一條將智能全面集成到企業(yè)系統(tǒng)中的途徑。
Mistral還推出了由Mistral Medium 3模型驅(qū)動(dòng)的Le Chat Enterprise,一款面向企業(yè)的聊天機(jī)器人服務(wù)。
它提供了一個(gè)AI智能體構(gòu)建工具,并將Mistral的模型與Gmail、Google Drive和SharePoint等第三方服務(wù)整合。
這就可以解決企業(yè)面臨的AI挑戰(zhàn),如工具碎片化、不安全的知識(shí)集成、僵化的模型以及緩慢的投資回報(bào)率等,為所有組織工作提供統(tǒng)一的AI平臺(tái)。
Le Chat Enterprise很快將支持MCP協(xié)議,這是Anthropic提出的連接AI與數(shù)據(jù)系統(tǒng)和軟件的標(biāo)準(zhǔn)。
One more thing…
Mistral還在博客中透露,雖然Mistral Small和Mistral Medium都已經(jīng)發(fā)布,但在未來(lái)幾周內(nèi),他們有一個(gè)「大」計(jì)劃,也就是Mistral Large。
他們表示剛發(fā)布的Mistral Medium性能已經(jīng)遠(yuǎn)勝Llama 4 Maverick等頂尖開(kāi)源模型,Mistral Large的性能更加值得期待。
網(wǎng)友實(shí)測(cè):就這?
號(hào)稱超越Claude Sonnet 3.7的90%,Medium 3果然有這么強(qiáng)嗎?
媒體和網(wǎng)友們立刻展開(kāi)了實(shí)測(cè)。
在基于《紐約時(shí)報(bào)》Connections欄目詞匯分類題的評(píng)測(cè)中,Medium 3處于倒數(shù)的位置,幾乎找不到它。

在全新的100題測(cè)評(píng)中,它在前排模型中也排不上號(hào)。

有人測(cè)試Medium 3后表示,它的寫作能力還是老樣子,沒(méi)啥進(jìn)步。不過(guò)在LLM評(píng)測(cè)中,它倒是處在帕累托前沿。



而Zhu Liang測(cè)試后發(fā)現(xiàn),模型在代碼編寫和文本生成方面表現(xiàn)都很扎實(shí),在這兩項(xiàng)評(píng)測(cè)中都躋身前五。
在簡(jiǎn)單編碼任務(wù)(Next.js TODO應(yīng)用)中:
- 它生成了簡(jiǎn)潔明了的回復(fù)
 - 評(píng)分和Gemini 2.5 Pro、Claude 3.5 Sonnet差不多
 - 遜于DeepSeek V3 (新) 和GPT-4.1
 
在復(fù)雜編碼任務(wù)(基準(zhǔn)測(cè)試可視化)中:
- 產(chǎn)生的平均結(jié)果與Gemini 2.5 Pro和DeepSeek V3(新)相似
 - 不如GPT-4.1、o3和Claude 3.7 Sonnet
 
在寫作上:
- 它的內(nèi)容覆蓋了大部分要點(diǎn),但格式不正確
 - 評(píng)分與DeepSeek V3 (新) 和Claude 3.7 Sonnet相近
 - 不如GPT-4.1和Gemini 2.5 Pro
 


知名大佬「karminski-牙醫(yī)」實(shí)測(cè)后發(fā)現(xiàn),它的性能并不像官方吹得那么強(qiáng)。
建議我們不必下載,浪費(fèi)流量和硬盤空間了。
















 
 
 















 
 
 
 