DeepSeek新模型上線!引入DSA新稀疏注意力,還又狙了CUDA一槍
剛發(fā)V3.1“最終版”,DeepSeek最新模型又來了!
DeepSeek-V3.2-Exp剛剛官宣上線,不僅引入了新的注意力機(jī)制——DeepSeek Sparse Attention。
還開源了更高效的TileLang版本GPU算子!

目前,官方App、網(wǎng)頁端、小程序均已同步更新,同時(shí)還有API大減價(jià):5折起。

這波DeepSeek國慶大禮包,屬實(shí)有點(diǎn)驚喜了。
新注意力機(jī)制
DeepSeek-V3.2-Exp基于上周剛更新的DeepSeek-V3.1-Terminus打造,核心創(chuàng)新是引入了DeepSeek Sparse Attention(DSA)稀疏注意力機(jī)制。
DSA首次實(shí)現(xiàn)了細(xì)粒度注意力機(jī)制,能在幾乎不影響模型輸出效果的前提下,實(shí)現(xiàn)長文本和推理效率大幅提升。

與前不久更新的DeepSeek-V3.1-Terminus對比,在各領(lǐng)域公開測評集上,DeepSeek-V3.2-Exp和V3.1-Terminus基本持平。
V3.1-Terminus是在 DeepSeek-V3.1基礎(chǔ)上的一個(gè)強(qiáng)化版本,在穩(wěn)定性、工具調(diào)用能力、語言一致性、錯(cuò)誤修正等方面進(jìn)行迭代改進(jìn)。

另外,論文提到,使用DSA的模型在處理128K長上下文時(shí),推理成本顯著低于DeepSeek-V3.1-Terminus,尤其在解碼階段。

TileLang & CUDA雙版本算子開源
DeepSeek還表示,在新模型研發(fā)過程中,需要設(shè)計(jì)和實(shí)現(xiàn)很多新的GPU算子。
他們使用高級語言TileLang進(jìn)行快速原型開發(fā),并在最后階段,以TileLang作為精度基線,逐步使用底層語言實(shí)現(xiàn)更高效的版本。
因此,V3.2開源的主要算子包括TileLang和CUDA兩種版本。
官方還附上一句:
我們建議社區(qū)在進(jìn)行研究性實(shí)驗(yàn)時(shí),使用基于TileLang的版本以方便調(diào)試和快速迭代。
官方API的價(jià)格也順勢來了個(gè)5折起,新價(jià)格即刻生效。
這還等什么…朋友們國慶整起來吧。
指路↓
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
論文:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
One More Thing
除了DeepSeek-V3.2之外,據(jù)說智譜的GLM-4.6也在路上了。

從下拉菜單可以看到,他們已經(jīng)把GLM-4.5標(biāo)成了“上一代旗艦?zāi)P汀薄?/span>
下午還剛在GitHub上刷到這張“國慶是休息日,請給我們關(guān)注的同學(xué)一點(diǎn)時(shí)間”的圖:

好好好,為了放假,都打算在節(jié)前卷了是吧(手動(dòng)狗頭)。


































