性能碾壓GPT-4.1-mini!Mistral開源Devstral,還能在筆記本上跑
法國 AI 初創(chuàng)公司 Mistral 強(qiáng)勢回歸,再次大力投身開源 AI 社區(qū)。先前,其因未開源 Medium 3 大模型而受到開發(fā)者廣泛批評。
剛剛,該公司宣布,他們與開源初創(chuàng)公司 All Hands AI(Open Devin 的創(chuàng)建者)合作,發(fā)布了 全新的開源語言模型 Devstral,擁有 240 億個參數(shù) —— 比許多競爭對手的模型小得多,所需的算力也低得多。
因而,Devstral 可在單塊 RTX 4090 顯卡或配備 32GB RAM 的 Mac 上運(yùn)行,是本地部署和設(shè)備端使用的理想之選。
值得一提的是,該模型現(xiàn)已根據(jù)寬松的 Apache 2.0 許可證免費(fèi)提供,允許開發(fā)者和組織不受限制地部署、修改和商業(yè)化。
Mistral 表示,雖然典型的 LLM 擅長編碼任務(wù),例如編寫?yīng)毩⒑瘮?shù)或代碼補(bǔ)全,但它們難以解決現(xiàn)實(shí)世界的軟件工程問題。在現(xiàn)實(shí)世界中,需要在大型代碼庫中對代碼進(jìn)行上下文關(guān)聯(lián),以識別不同組件之間的關(guān)系,并識別復(fù)雜函數(shù)中的細(xì)微錯誤。
Devstral 的設(shè)計(jì)初衷就是為了解決這個問題。它能解決真實(shí)的 GitHub 問題;還能運(yùn)行在 OpenHands 或 SWE-Agent 等代碼智能體框架上。
在頂級 SWE 基準(zhǔn)測試中,Devstral 表現(xiàn)優(yōu)于其他大型模型。
具體而言,Devstral 在 SWE-Bench Verified 基準(zhǔn)測試中取得了 46.8% 的得分,領(lǐng)先于先前發(fā)布的所有開源模型,并領(lǐng)先于包括 GPT-4.1-mini 在內(nèi)的多個閉源模型,它比 GPT-4.1-mini 高出 20 多個百分點(diǎn)。
注:SWE-Bench Verified 是一個專門用于評估 AI 編程能力的基準(zhǔn)測試,主要測試 AI 模型在真實(shí) GitHub 代碼庫問題(如 bug 修復(fù)、功能實(shí)現(xiàn))上的表現(xiàn)。
在相同的測試框架(OpenHands,由 All Hands AI 提供)下進(jìn)行評估時,Devstral 的表現(xiàn)遠(yuǎn)超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等規(guī)模更大的模型。
最后,Devstral 可通過 Mistral 的 Le Platforme API 訪問,型號為 devstral-small-2505,定價為每百萬輸入 Token 0.10 美元,每百萬輸出 Token 0.30 美元。
很多網(wǎng)友已經(jīng)用起來了!