偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek V3.1 Base突襲上線!擊敗Claude 4編程爆表,全網(wǎng)在蹲R2和V4

人工智能
DeepSeek V3.1新版正式上線,上下文128k,編程實力碾壓Claude 4 Opus,成本低至1美元。

就在昨晚,DeepSeek官方悄然上線了全新的V3.1版本,上下文長度拓展到128k。

圖片圖片

本次開源的V3.1模型擁有685B參數(shù),支持多種精度格式,從BF16到FP8。

綜合公開信息和國內(nèi)大咖karminski3的實測,V3.1此次更新亮點有:

  • 編程能力:表現(xiàn)突出,根據(jù)社區(qū)使用Aider測試數(shù)據(jù),V3.1在開源模型中霸榜。
  • 性能突破:V3.1在Aider編程基準(zhǔn)測試中取得71.6%高分,超越Claude Opus 4,同時推理和響應(yīng)速度更快。
  • 原生搜索:新增了原生「search token」的支持,這意味著搜索的支持更好。
  • 架構(gòu)創(chuàng)新:線上模型去除「R1」標(biāo)識,分析稱DeepSeek未來有望采用「混合架構(gòu)」。
  • 成本優(yōu)勢:每次完整編程任務(wù)僅需1.01美元,成本僅為專有系統(tǒng)的六十分之一。

值得一提的是,官方群中強調(diào)拓展至128K上下文,此前V3版本就已經(jīng)支持。

圖片圖片

對于這波更新,大家的熱情可謂是相當(dāng)高漲。

即便還未公布模型卡,DeepSeek V3.1就已經(jīng)在Hugging Face的趨勢榜上排到了第四。

圖片圖片

DeepSeek粉絲數(shù)已破8萬DeepSeek粉絲數(shù)已破8萬

看到這里,網(wǎng)友們更期待R2的發(fā)布了!

圖片圖片

混合推理,編程擊敗Claude 4

這次最明顯的變化是,DeepSeek在官方APP和網(wǎng)頁端上,把深度思考(R1)中的「R1」去掉了。

圖片圖片

同時,與V3-base相比,DeepSeek V3.1新增了四個特殊Token:

  • <|search▁begin|> (id: 128796)
  • <|search▁end|> (id: 128797)
  • <think> (id: 128798)
  • </think> (id: 128799)

圖片圖片

對此,有推測認為,這可能暗示推理模型與非推理模型的融合。

圖片圖片

在編程方面,根據(jù)網(wǎng)友曝出的結(jié)果,DeepSeek V3.1在Aider Polyglot多語言編程測試中拿下了71.6%高分,一舉擊敗了Claude 4 Opus、DeepSeek R1。

圖片圖片

而且,它的成本僅1美元,成為非推理模型中的SOTA。

圖片圖片

最鮮明的對比,V3.1編程性能比Claude 4高1%,成本要低68倍。

圖片圖片

在SVGBench基準(zhǔn)上,V3.1實力僅次于GPT-4.1-mini,遠超DeepSeek R1的實力。

圖片圖片

在MMLU多任務(wù)語言理解方面,DeepSeek V3.1毫不遜色于GPT-5。不過在,編程、研究生級基準(zhǔn)問答、軟件工程上,V3.1與之有一定的差距。

圖片圖片

一位網(wǎng)友實測,模擬六邊形中小球自由落體的物理測試,DeepSeek V3.1理解力明顯提升。

圖片圖片

一手實測

第一時間,我們對V3.1進行了實測,首先是此次模型更新的重點:上下文長度。

假設(shè)對于中文而言,1個token ≈ 1–1.3個漢字,那么這128K tokens ≈ 100,000–160,000漢字。

相當(dāng)于整本《紅樓夢》正文(約80–100萬字)的1/6–1/8,或者一篇超長博士論文/大部頭學(xué)術(shù)專著。

實際測試也很準(zhǔn)確,DeepSeek告訴我們它只能閱讀差不多9%,也就是大約十分之一。

圖片圖片

由于總結(jié)內(nèi)容太長,我們截取了前三回,你覺得這個總結(jié)的怎么樣?

圖片圖片

在128K上下文測試中,DeepSeek-V3.1輸出速度相比以往獲得較大提升,并且在工程上做了一些優(yōu)化。

圖片圖片

此次更新,DeepSeek重點強調(diào)了對上下文的支持。

整個活,給DeepSeek-V3.1上點壓力,讓它根據(jù)「夢」這個字,輸出盡可能多的內(nèi)容,盡量達到上下文極限。

圖片圖片

不過最后,差不多只輸出了3000字左右,模型就停止了輸出。

圖片圖片

再來看下推理能力。

經(jīng)典的9.11和9.9比大小問題,兩種詢問方式都能正確做答。

這次更新的一大體感還是速度變快了很多。

圖片圖片

最后再來看看編程能力。

DeepSeek的上一個模型是R1-0528,主打的是編程能力。

看看這次V3.1是否有更大的提升。

圖片圖片

最終結(jié)果只能說,打個80分吧,基本要求都滿足了,但是畫面風(fēng)格和顏色變換功能并沒有完美實現(xiàn)。

圖片圖片

并且和R1-0528的結(jié)果相比,兩者之間還是有些差距的,但孰好孰壞還需看個人偏好。

以下是開啟思考模式后的結(jié)果,你覺得哪個更好?

圖片圖片

接下來,看看DeepSeek V3.1能否復(fù)刻出GPT-5發(fā)布會上的法語學(xué)習(xí)小程序。

我們再來讓V3.1畫一個自己的SVG自畫像,兩種效果著實有些抽象。

圖片圖片

圖片圖片

圖片圖片

參考資料:HYX

https://weibo.com/2169039837/Q0FC4lmeo  

https://x.com/karminski3/status/1957928641884766314  

https://github.com/johnbean393/SVGBench/  

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-08-19 21:23:45

DeepSeekAPP接口

2025-08-20 09:08:00

2025-09-23 06:47:21

2025-08-23 08:20:29

2025-08-20 09:35:20

2010-08-05 16:00:14

NFS v4

2017-07-26 08:17:03

V4AppLaunchChApi

2009-10-29 15:30:54

Hyper-V R2

2010-07-28 15:17:07

2018-04-18 09:39:07

深度學(xué)習(xí)

2025-02-27 12:31:40

2025-08-27 09:02:00

AI模型測試

2014-04-28 15:58:46

PrintUsage 打印

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2025-02-20 08:26:28

2009-09-09 08:57:39

Hyper-V

2024-05-09 16:21:46

Deepseek技術(shù)算法

2011-12-03 19:13:18

Android

2025-09-29 09:14:10

點贊
收藏

51CTO技術(shù)棧公眾號