
譯者 | 李睿
審校 | 重樓
DeepSeek V3.1的發(fā)布并沒有舉辦大張旗鼓的新聞發(fā)布會,也沒有鋪天蓋地的宣傳活動。它在Hugging Face平臺上悄然發(fā)布,在短短數(shù)小時內(nèi)就吸引了眾人的目光。該模型擁有6850億個參數(shù),上下文窗口可擴展至128k個令牌,這不僅僅是增量更新,而是開源人工智能領(lǐng)域的一個重要里程碑。本文將深入探討DeepSeek V3.1的關(guān)鍵特性和能力,并提供一份操作指南。
DeepSeek V3.1到底是什么?
DeepSeek V3.1是DeepSeek V3系列的最新成員。與之前的6710億參數(shù)版本相比,V3.1不僅規(guī)模更大,而且更加靈活。該模型支持多種精度格式(BF16、FP8、F32),因此可以根據(jù)目前擁有的計算資源對其進行調(diào)整。
然而,V3.1的魅力遠不止于龐大的規(guī)模。它將對話能力、推理能力和代碼生成能力集成在一個統(tǒng)一模型或混合模型之中,這無疑是一個重大突破!早期版本的模型往往在某一方面表現(xiàn)出色,但在其他方面則表現(xiàn)平平。而V3.1則實現(xiàn)了各方面能力的無縫集成。
如何訪問DeepSeek V3.1

用戶訪問DeepSeek V3.1,有以下幾種不同的方式:
- 官方網(wǎng)絡(luò)應(yīng)用程序:訪問deepseek.com并使用瀏覽器聊天。V3.1已經(jīng)是默認版本,所以用戶無需進行任何配置。
- API訪問:開發(fā)人員可以通過官方API調(diào)用deepseek-chat(通用)或deepseek-reasoner(推理模式)端點。該界面與OpenAI兼容,因此如果用戶使用過OpenAI的軟件開發(fā)工具包(SDK),那么工作流程是一致的。
- Hugging Face平臺:V3.1的原始權(quán)重在開放許可下發(fā)布。用戶可以從DeepSeek的“Hugging Face”頁面下載,并在擁有相應(yīng)硬件的情況下在本地運行。
如果只是想與DeepSeek V3.1進行對話,那么使用瀏覽器訪問網(wǎng)站是最快捷的途徑。如果用戶想進行微調(diào)、基準測試或?qū)⑵浼傻阶约旱墓ぞ咧校敲纯梢赃x擇API或Hugging Face權(quán)重。
DeepSeek V3.1和DeepSeek V3有什么不同?
與早期版本的DeepSeek V3相比,DeepSeek V3.1帶來了一系列重要的升級:
- 具有思維模式的混合模型:增加了一個可切換的推理層,加強了解決問題的能力,同時避免混合模型常見的性能下降問題。
- 原生搜索詞元支持:改進了檢索和搜索任務(wù),盡管社區(qū)測試顯示該功能激活頻率極高。官方文檔中仍期待出現(xiàn)適當?shù)那袚Q選項。
- 更強的編程能力:基準測試表明,V3.1在開源權(quán)重編碼模型中名列前茅,證實了其在軟件相關(guān)任務(wù)中的優(yōu)勢。
- 上下文長度不變:128k令牌窗口與V3-Base相同,因此仍然可以獲得小說長度的上下文容量。

綜上所述,這些更新使V3.1不僅是規(guī)模方面有擴展,而且功能方面有改進。
為何它備受關(guān)注
以下是DeepSeek V3.1的一些突出特性:
- 上下文窗口:128k令牌。其長度相當于一部長篇小說,或者是一份完整的研究報告。
- 精度靈活性:根據(jù)硬件和性能需求,可在BF16、FP8或F32格式下運行。
- 混合設(shè)計:該模型可以在不破壞上下文的情況下聊天、推理和編碼。
- 基準測試結(jié)果:在Aider編碼基準的測試得分為71.6%,略高于Claude Opus 4。
- 效率:運行相同的測試,一些競爭對手的成本是其成本的60~70倍。
- 開源:這可能是唯一一個在更新迭代上能夠與閉源版本并駕齊驅(qū)的開源模型。

實際應(yīng)用
現(xiàn)在將使用網(wǎng)頁界面測試DeepSeek V3.1的功能:
1.長文檔摘要
E.M. Forster所著的《看得見風(fēng)景的房間》(A Room with A View)小說被用作以下提示的輸入。這本書的長度超過6萬字??梢栽?a target="_blank">Gutenberg找到這本書的內(nèi)容。
提示:“用結(jié)構(gòu)化的提綱總結(jié)要點?!?strong>
回應(yīng):

2.逐步推理
提示:“逐步推理
逐步地解決這個難題。在這里顯示所有的計算過程和中間時間。保持單位一致。不要跳過任何步驟。在思考模塊結(jié)束時快速檢查結(jié)果。
一列火車于08:00從A站出發(fā),駛向B站。A站與B站之間的距離為410公里。
火車A:
- 勻速行駛速度:80公里/小時
- 計劃停靠站:10分鐘到達C站,距離A站150公里
- 軌道施工區(qū)域:從距離A站220公里的標記處到240公里的標記處,在這20公里區(qū)間內(nèi)限速為40公里/小時
- 在施工區(qū)外,以80公里/小時速度行駛(為簡潔起見,部分內(nèi)容省略;完整版本見以下視頻)回答格式(僅限思考塊外使用)
- 相遇時間:[HH:MM],[到A的距離,單位km,十進制]
- 相遇前行駛時間:列車A[分鐘],列車B[分鐘]
- 最終到達時間:列車A在[HH:MM],列車B在[HH:MM],最先到達站:[A或B]
僅在思考塊外包含最終結(jié)果和簡要說明。所有詳細推理過程保留在思考塊內(nèi)?!?/p>
回應(yīng):

3.代碼生成
提示:“編寫一個Python腳本,用于讀取CSV文件并輸出JSON格式,每個部分都有注釋?!?strong>
回應(yīng):

4.搜索樣式查詢
提示:“< | search_begin | >
美國《獨立宣言》是哪一年發(fā)表的?
< | search_end | >”
回應(yīng):

5.混合搜索查詢
提示:“簡要總結(jié)一下小說《無人生還》(And Then There Were None)的主要情節(jié)。”
現(xiàn)在,<|search_begin|>提供一個鏈接,可以從哪里購買那本書。< | search_end | >。最后,請思考一下,如果這個故事設(shè)定在現(xiàn)代印度,這些主題將如何轉(zhuǎn)變?< /認為>”
回應(yīng):

觀察結(jié)果
以下是在測試該模型時發(fā)現(xiàn)的一些問題:
- 如果輸入長度超過限制,輸入的部分將被用作輸入(如第一個任務(wù)所示)。
- 如果任務(wù)較為簡單,則模型可能會給出過于冗長的響應(yīng)(如第二個任務(wù)所示)。
- 用于探測搜索和推理能力的令牌不可靠。有時模型不會調(diào)用它們,或者會繼續(xù)執(zhí)行默認的提示處理流程。
- 令牌<search_begin>和<search_end>是模型詞匯表的一部分。
- 它們作為提示或觸發(fā)器來指導(dǎo)模型應(yīng)該如何處理提示。但是由于它們是文本空間中的令牌,因此模型通常會在其輸出中逐字逐句地回顯它們。
與消失在后臺的API“開關(guān)”不同,這些標簽更像是嵌入文本流的控制指令。這就是有時會在最后的回復(fù)中看到它們的原因。

基準測試:DeepSeek V3.1與競爭對手的比較
社區(qū)測試已經(jīng)顯示,DeepSeek V3.1在開源編程任務(wù)排行榜上名列前茅。它不僅得分很高,而且成本只是Claude或GPT-4等模型的一小部分。
以下是基準測試對比:

基準測試圖對DeepSeek V3.1、Claude Opus 4和GPT-4的三個關(guān)鍵指標進行比較:
- Aider(編碼基準測試)
- SVGBench(編程任務(wù))
- MMLU(廣泛知識和推理)
這些課程涵蓋了實際的編碼能力、結(jié)構(gòu)化推理和通用的學(xué)術(shù)知識。
結(jié)語
DeepSeek V3.1是那種能夠改變對話的版本。其開源,參數(shù)規(guī)模龐大,并且不將用戶拒之門外。用戶可以現(xiàn)在就可以下載、運行并試用它。
對于開發(fā)人員來說,這是一個突破長上下文摘要、推理鏈和代碼生成限制的機會,而無需完全依賴于閉源API。對于更廣泛的人工智能生態(tài)系統(tǒng)來說,這證明高端能力不再局限于少數(shù)專有的實驗室。用戶不再局限于為特定用例選擇正確的工具。人工智能模型現(xiàn)在可以自行完成這一任務(wù),或者可以通過定義語法來建議使用。這極大地拓寬了模型不同能力被用于解決復(fù)雜查詢的范圍。
這次發(fā)布不僅僅是另一個版本的更新,這預(yù)示著開源模型的發(fā)展方向:更大、更智能,并且更加經(jīng)濟實惠。
常見問題解答
Q1:DeepSeek V3.1與早期模型相比有何突出之處?
A:DeepSeek V3.1引入了混合推理模式、原生搜索令牌支持和改進的編碼基準。雖然它的參數(shù)數(shù)量略高于V3,但真正的區(qū)別在于它的靈活性和更精細的性能。它將聊天、推理和編碼無縫集成,同時保持128k的上下文窗口。
Q2:人們?nèi)绾卧L問和使用DeepSeek V3.1 ?
A:可以通過官方DeepSeek網(wǎng)站在瀏覽器中試用DeepSeek V3.1,也可以通過API(deepseek-chat或deepseek-reasoner)或從Hugging Face下載開放權(quán)重來使用。網(wǎng)頁應(yīng)用最適合進行隨意測試,而API和Hugging Face則適用于高級用例。
Q3:DeepSeek V3.1中的上下文窗口有什么特別之處?
A:DeepSeek V3.1支持龐大的128,000個令牌上下文窗口,相當于數(shù)百頁的文本。這使得它適用于整本書長度的文檔或大型數(shù)據(jù)集。其上下文長度與V3相同,但對于摘要和推理任務(wù)來說,這仍然是最實用的優(yōu)勢之一。
Q4:像<think>或<|search_begin|>這樣的特殊令牌是如何工作的?
A:這些令牌充當引導(dǎo)模型行為的觸發(fā)器。<think>鼓勵逐步推理,而<search_begin>和<search_end>則激活類似搜索的檢索。它們經(jīng)常出現(xiàn)在輸出中,因為它們是模型詞匯表的一部分,但可以指示模型不顯示它們。
Q5:與競爭對手相比,DeepSeek V3.1在基準測試中的表現(xiàn)如何?
A:社區(qū)測試表示,DeepSeek V3.1在開源代碼基準測試中表現(xiàn)最佳,超過了Claude Opus 4,接近GPT-4的推理水平。其主要優(yōu)勢是效率——以更低的成本提供相當或更好的結(jié)果,這對開發(fā)人員和研究人員極具吸引力。
原文標題:DeepSeek V3.1: Quiet Release, Big Statement,作者:Vasu Deo Sankrityayan






























