DeepSeek終極版震撼發(fā)布!
從15.9分跳到21.7分——當(dāng)我看到DeepSeek V3.1-Terminus在"人類終極測(cè)試"中的得分時(shí),第一反應(yīng)是檢查了下數(shù)據(jù)有沒有看錯(cuò)。36%的提升幅度,這在AI模型優(yōu)化中簡(jiǎn)直是質(zhì)的飛躍。
圖片
昨天DeepSeek正式發(fā)布了V3.1-Terminus"終極版",這個(gè)名字挺有意思。Terminus在拉丁語里是"終點(diǎn)"的意思,聽起來像是V3系列的收官之作。果然,業(yè)界已經(jīng)開始猜測(cè)DeepSeek是不是要憋大招準(zhǔn)備發(fā)布V4了。
但先不聊未來,這次的V3.1-Terminus確實(shí)解決了不少實(shí)際問題。
修復(fù)了最讓人頭疼的問題
說實(shí)話,之前用DeepSeek的時(shí)候確實(shí)遇到過一些奇怪的情況。有時(shí)候問它一個(gè)中文問題,回答到一半突然冒出英文,或者偶爾蹦出幾個(gè)莫名其妙的字符。雖然不影響大體使用,但總感覺有點(diǎn)不夠穩(wěn)定。
這次V3.1-Terminus針對(duì)性地解決了這些問題:
? 中英文混雜問題 - 不再出現(xiàn)莫名其妙的語言切換
? 隨機(jī)異常字符 - 告別那些突然出現(xiàn)的亂碼
? 輸出一致性 - 確?;卮鸬姆€(wěn)定性和連貫性
智能體能力的大幅提升
除了基礎(chǔ)穩(wěn)定性的改進(jìn),這次最大的亮點(diǎn)是Code Agent和Search Agent的能力優(yōu)化。
Code Agent就是編程智能體,主要負(fù)責(zé)代碼生成、調(diào)試和優(yōu)化。Search Agent是搜索智能體,能夠幫你快速找到和整理信息。這兩個(gè)功能在實(shí)際工作中還挺實(shí)用的,特別是對(duì)程序員和研究人員來說。
雖然DeepSeek沒有公布具體的技術(shù)細(xì)節(jié),但從用戶反饋來看,編程能力確實(shí)有明顯提升。有開發(fā)者測(cè)試后表示,代碼生成的準(zhǔn)確性和可執(zhí)行性都比之前版本好了不少。
HLE測(cè)試得分的意義
再回到開頭提到的那個(gè)數(shù)據(jù)。"Humanity's Last Exam"(人類終極測(cè)試)是一個(gè)比較權(quán)威的AI能力評(píng)估基準(zhǔn),主要測(cè)試模型在復(fù)雜推理、邏輯分析等方面的表現(xiàn)。
從15.9分提升到21.7分,意味著DeepSeek在處理復(fù)雜任務(wù)時(shí)的準(zhǔn)確性和邏輯性都有了質(zhì)的飛躍。
這個(gè)分?jǐn)?shù)提升不是簡(jiǎn)單的數(shù)字游戲。在AI模型評(píng)測(cè)中,每一分的提升都代表著大量的技術(shù)優(yōu)化和算法改進(jìn)。36%的提升幅度,在業(yè)界算是相當(dāng)顯著的進(jìn)步了。
技術(shù)架構(gòu)依然強(qiáng)悍
V3.1-Terminus依然采用MoE(專家混合)架構(gòu),總參數(shù)量達(dá)到6710億,但每個(gè)token只激活其中的37億參數(shù)。這種設(shè)計(jì)既保證了強(qiáng)大的能力,又控制了計(jì)算成本。
說白了,就是用最少的計(jì)算資源發(fā)揮最大的性能。這對(duì)國(guó)產(chǎn)AI來說特別重要,畢竟算力成本是個(gè)現(xiàn)實(shí)問題。
"終極版"背后的戰(zhàn)略意圖
Terminus這個(gè)命名挺有意思的。在科幻小說《銀河帝國(guó)》中,Terminus是銀河邊緣的一個(gè)重要星球,象征著舊秩序的終結(jié)和新時(shí)代的開始。
DeepSeek選擇這個(gè)名字,可能暗示V3系列即將收官,下一步要推出更重磅的版本。從時(shí)間節(jié)點(diǎn)來看,如果V4確實(shí)在路上,那時(shí)間窗口應(yīng)該就在今年年底或明年年初。
不過這只是猜測(cè)。目前V3.1-Terminus已經(jīng)在DeepSeek的官網(wǎng)、App和API接口全面上線,用戶可以直接體驗(yàn)。
實(shí)際體驗(yàn)怎么樣?
我試用了幾個(gè)小時(shí),整體感受確實(shí)比之前的版本要穩(wěn)定。特別是在處理中文邏輯推理問題時(shí),回答的連貫性明顯提升了。
編程能力方面,我讓它幫我寫了幾個(gè)Python腳本,生成的代碼質(zhì)量還不錯(cuò),基本可以直接運(yùn)行。當(dāng)然,復(fù)雜的算法設(shè)計(jì)還是需要人工審查,但對(duì)于日常的編碼任務(wù)已經(jīng)很實(shí)用了。
搜索能力我沒有深度測(cè)試,但從簡(jiǎn)單的信息查找來看,確實(shí)比之前快了一些,整理的信息也更有條理。
總的來說,這次更新主要解決的是用戶體驗(yàn)問題,讓DeepSeek變得更加可靠和實(shí)用。雖然沒有革命性的功能突破,但在穩(wěn)定性和智能體能力上的提升還是很明顯的。
如果你之前因?yàn)榉€(wěn)定性問題對(duì)DeepSeek有所保留,現(xiàn)在可能是個(gè)重新試試的好時(shí)機(jī)。畢竟免費(fèi)使用,試錯(cuò)成本也不高。
































