突發(fā)!DeepSeek剛剛開源V3.1-Base
今天凌晨,全球著名大模型開源平臺DeepSeek開源了Deepseek V3.1-Base版本。
非常低調沒有任何介紹,只是把模型放上去了。但在Hugging Face的趨勢榜單中已經上升到第4名,還是相當受歡迎的。

開源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/tree/main
Hugging Face聯(lián)合創(chuàng)始人Clement Delangue特意發(fā)了推文祝賀,他表示,Deepseek V3.1 已經悄無聲息地發(fā)布,沒有附帶模型卡片,卻已登上 Hugging Face 趨勢榜第四位,太有意思了。
這就是在 Hugging Face 上擁有 8 萬名關注者的力量。

根據網友的推測,新升級版本,速度更快、智能程度更高,可與GPT級模型媲美。該模型擁有 6850 億參數(shù),支持 BF16、F8_E4M3、F32三種張量類型,以Safetensors格式發(fā)布,便于高效推理,還具備擴展的上下文窗口。
同時非常欣賞DeepSeek這種 “先放權重,后補說明”的風格,能讓社區(qū)能夠優(yōu)先開展模型探索。

很高興看到仍有公司在發(fā)布基礎模型。

它應該是一個結合了 v3 和 r1 的模型。其對話模板包含一個思考參數(shù),用于控制思考過程。

我試著在我的 4GB 顯卡上加載新的 DeepSeek-V3.1-Base 685B 模型,結果它崩潰了,不知道為啥?

那近期R2還會有希望嗎?
















 
 
 
















 
 
 
 