DeepSeek-V3.2-Exp 論文快速解讀
架構變化
V3.2-Exp 在 V3.1-Terminus 的基礎上,模型架構引入稀疏注意力DSA,核心由兩部分組成:
Lightning Indexer:輕量化索引器計算 query 與歷史 token 的相似度分數(shù),選出前 k 個最相關的 token。
Top-k Token Selection:基于索引分數(shù)只保留少量關鍵 Key-Value 對,再進行注意力計算。

訓練方法
持續(xù)預訓練,凍結主模型,僅訓練索引器,使其分布對齊原始注意力分布。啟用稀疏選擇機制,優(yōu)化主模型 + 索引器。
后訓練專家蒸餾,先針對數(shù)學、編程、邏輯推理、智能體編碼與搜索等任務訓練專門模型,再將其蒸餾回通用模型。
混合強化學習,采用 GRPO 算法,將推理、智能體行為與對齊訓練合并為單階段,避免多階段訓練中的“災難性遺忘”。
類似筆者在??DeepSeek-R1 登 Nature,再看 GRPO,附改進建議??文中的建議嗎?
實驗效果
與 V3.1-Terminus 對比,V3.2-Exp 在多數(shù)任務上性能差距不大。

但DSA 帶來巨大效率優(yōu)勢:主模型注意力復雜度從O(L2)降為O(L·k),其中 k ? L。
索引器雖然仍為 O(L2),但由于頭數(shù)少、支持 FP8,計算量遠小于原 MLA。


深層機制
表面上 V3.2-Exp 的創(chuàng)新點是 DSA,讓大模型處理長文本更快更省,
但從??大模型的數(shù)理認知框架??的角度,可以看到更深層的機制:
稀疏注意 = 主動投影
傳統(tǒng)注意力是對全體 token 做全局配對,復雜度 O(L2),對應的是高維全連接計算。
稀疏注意力通過 Lightning Indexer 選擇前 k 個最相關 token,等于在高維空間中做了一次 投影 + 篩選:
把原本密集的“信息幾何”關系,投影到一個“低秩近似”的子空間里。
這類似于物理系統(tǒng)里,把所有相互作用簡化為少數(shù)“主導相互作用”,降低了系統(tǒng)的熵耗。
減少冗余,保留主要信號
在長文本中,信息冗余度高。DSA 的 Top-k 選擇機制,相當于一次 壓縮感知:
不需要完整采樣所有數(shù)據(jù)點,只要選出信息貢獻最大的部分,就能重建主要結構。
這基于一個假設:信息并不是均勻分布的,而是集中在流形上的少數(shù)維度,DSA 是主動做 信息維度縮減。
索引器,動態(tài)自適應的能量函數(shù)
Lightning Indexer 通過輕量的計算來決定哪些 token 被激活,本質上是為每個 query 構建一個動態(tài)能量地形。
統(tǒng)計物理角度看相當于:原全局相互作用,替換為稀疏相互作用;系統(tǒng)能量函數(shù)由密集矩陣轉為動態(tài)稀疏矩陣。
潛在問題
DSA 帶來了效率與成本優(yōu)勢,但同時可能帶來一些潛在問題與風險:
信息丟失
Top-k 機制讓模型只看少數(shù) token,如果篩選標準不夠穩(wěn)健,可能會漏掉關鍵的遠距信息。
等同于人類只關注“顯眼的信號”,而忽略“隱含的線索”,在復雜邏輯推理、長鏈條因果中,可能導致推理鏈斷裂。
相空間收縮過度
DSA 相當于把推理限制在某個子流形,如果選取過度保守,可能讓模型掉進“局部相空間”,導致視野狹窄,無法跨范疇推理。
像是大腦只在某個習慣性范疇內循環(huán),而難以跨域聯(lián)想,可能削弱模型的創(chuàng)造性和泛化能力。
索引器偏差累積
Lightning Indexer 本身是輕量近似器,如果在某些語境下“選錯token”,主模型后續(xù)計算都會建立在錯誤子集上。
就像大腦前額葉“注意力調度中心”判斷失誤,導致大腦聚焦在無關刺激上。表現(xiàn)為推理過程走偏、答案不穩(wěn)定。
自由能最小化“過擬合”
稀疏注意力減少冗余,自由能下降,但過度壓縮可能讓模型錯過復雜但必要的高能路徑。
類似只走“最省力”的道路,放棄了探索潛在的復雜解釋。模型可能趨向于“簡短回答”,推理 token 數(shù)減少,犧牲深度。
筆者看來,某種意義上,DSA 是一種量化措施。
硬件實現(xiàn)隱患
稀疏機制對 內存管理、并行通信更敏感,稍有實現(xiàn)不當可能導致吞吐量抖動。
如果未來結合硬件加速,可能在不同 GPU 架構之間出現(xiàn)不一致,這是DeepSeek 同時開源 TileLang & CUDA 算子的原因嗎?!
總體看,DeepSeek-V3.2-Exp 本質上是“效率 vs 性能”的權衡:
工程上,犧牲全局注意力,換取效率;認知上,把模型推向更“局部約束”的推理模式。
效率提升了,但可能在推理深度、跨范疇泛化和創(chuàng)造性上付出代價。
本文轉載自??清熙??,作者:王慶法

















