剛剛，DeepSeek開源V3.2-Exp，公開新稀疏注意力機制DSA

2025-09-29 18:51:01

人工智能新聞

剛剛，DeepSeek-V3.2-Exp 開源了！

還是熟悉的節(jié)奏！

在假期前一天，DeepSeek 果然搞事了。

剛剛，DeepSeek-V3.2-Exp 開源了！

該模型參數(shù)量為 685B，HuggingFace 鏈接：

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外，此次發(fā)布竟然也同步公開了論文，公開了 DeepSeek 新的稀疏注意力機制，為我們提供了更多結束細節(jié)：

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek Sparse Attention（DSA）稀疏注意力機制

在官方介紹中，DeepSeek 表示 DeepSeek-V3.2-Exp 是實驗版本。作為邁向下一代架構的過渡，V3.2-Exp 在 V3.1-Terminus 的基礎上引入了 DeepSeek 稀疏注意力機制（DeepSeek Sparse Attention，DSA）—— 一種旨在探索和驗證在長上下文場景下訓練和推理效率優(yōu)化的稀疏注意力機制。

DSA 也是 3.2 版本的唯一架構改進。

DeepSeek-V3.2-Exp 的架構，其中 DSA 在 MLA 下實例化。

重點要說的是，DeepSeek 稱該實驗版本代表了他們對更高效的 Transformer 架構的持續(xù)研究，特別注重提高處理擴展文本序列時的計算效率。

在 v3.2 版本中，DeepSeek 稀疏注意力 (DSA) 首次實現(xiàn)了細粒度稀疏注意力，在保持幾乎相同的模型輸出質量的同時，顯著提高了長上下文訓練和推理效率。

為了嚴格評估引入稀疏注意力機制的影響，DeepSeek 特意將 DeepSeek-V3.2-Exp 的訓練配置與 9 月 22 日剛剛推出的 V3.1-Terminus 進行了對比。在各個領域的公開基準測試中，DeepSeek-V3.2-Exp 的表現(xiàn)與 V3.1-Terminus 相當。