DeepSeek 更新了!
昨日,Deepseek推出了V3.1-Terminus,據(jù)介紹,這是其混合AI模型Deepseek-V3.1的改進版本。

新模型首先解決了語言區(qū)分問題,能夠更準確地區(qū)分中文與英文,從而避免出現(xiàn)隨機特殊字符等低級錯誤。
同時,Deepseek對內(nèi)置的代碼和搜索代理進行了調(diào)整,這讓模型在調(diào)用外部工具時的穩(wěn)定性更高,結(jié)果也更可靠。
基準測試數(shù)據(jù)顯示,最顯著的提升出現(xiàn)在需要工具使用的任務(wù)中。在BrowseComp基準測試中,成績從30.0分提升到38.5分,在Terminal-bench上則從31.3分躍升到36.7分。

不過,圖表也揭示了一個微妙的權(quán)衡。模型在英語BrowseComp中的表現(xiàn)提升明顯,但在中文網(wǎng)絡(luò)上的BrowseComp-ZH卻出現(xiàn)小幅下滑。這說明,在優(yōu)化英文任務(wù)的同時,中文任務(wù)的表現(xiàn)可能受到影響。
值得一提的是,對于不依賴工具的純推理任務(wù),提升幅度較為有限,模型在思維能力上的進展沒有工具使用那樣突出。
模式與訓(xùn)練
V3.1-Terminus延續(xù)了V3.1的“雙模式”設(shè)計。所謂的“思考模式”(Deepseek-reasoner)專門用于復(fù)雜的工具任務(wù),而“非思考模式”(Deepseek-chat)則適合直接對話。
這兩種模式都支持長達128,000 tokens的上下文窗口,足以應(yīng)對長文檔、復(fù)雜對話和跨領(lǐng)域任務(wù)。
新版本的訓(xùn)練規(guī)模也進一步擴大。團隊在原有數(shù)據(jù)基礎(chǔ)上額外加入了8400億tokens,并配合全新的分詞器和更新后的提示模版。
在與國際競爭對手的對比中,Deepseek-V3.1已經(jīng)展示出強勁的表現(xiàn)。它在多個混合模型的基準上超越了OpenAI和Anthropic的一些版本,同時也勝過了Deepseek自己研發(fā)的純推理模型R1。
除了功能上的提升,Deepseek也保持了此前的定價策略。輸出tokens的價格仍然是每百萬1.68美元,遠低于GPT-5的10美元,以及Claude Opus 4.1的最高75美元。
API的緩存機制同樣維持在低價水平,每百萬tokens的緩存命中收費0.07美元,緩存未命中則為0.56美元。這樣的定價明顯是為了吸引開發(fā)者和企業(yè)在大規(guī)模部署時選擇Deepseek。
此外,V3.1-Terminus不僅可以通過App和網(wǎng)頁端使用,也對外提供API,并且在Hugging Face上開源了模型權(quán)重,采用MIT許可協(xié)議。
模型已發(fā)布:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus


































