偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

效率與性能的平衡:DeepSeek-V3.2-Exp 用稀疏注意力將長(zhǎng)上下文成本砍掉85%

人工智能
DeepSeek AI推出V3.2-Exp,以稀疏注意力技術(shù)重構(gòu)長(zhǎng)上下文處理范式,在性能持平下實(shí)現(xiàn)推理成本驟降,為大模型高效落地提供創(chuàng)新方案。

大家好,我是肆〇柒。就在昨日,Deepseek 團(tuán)隊(duì)推出了DeepSeek-V3.2-Exp實(shí)驗(yàn)性模型,通過(guò)創(chuàng)新的稀疏注意力技術(shù),在幾乎不損失性能的前提下,將128K長(zhǎng)上下文的推理成本大幅降低。

大語(yǔ)言模型在處理長(zhǎng)上下文任務(wù)時(shí)面臨嚴(yán)峻挑戰(zhàn)。傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度為O(L2),其中L代表序列長(zhǎng)度。當(dāng)上下文長(zhǎng)度擴(kuò)展至128K甚至更高時(shí),計(jì)算成本和內(nèi)存需求急劇上升,使得訓(xùn)練和推理變得極其昂貴。這一瓶頸不僅限制了模型的實(shí)際應(yīng)用范圍,也阻礙了長(zhǎng)上下文AI能力的進(jìn)一步發(fā)展。

想象一下,如果讓一個(gè)精通128,000字長(zhǎng)篇巨著的AI助手為你解答問(wèn)題,卻要等待數(shù)分鐘才能得到回復(fù),這種體驗(yàn)是否令人沮喪?這正是當(dāng)前長(zhǎng)上下文大語(yǔ)言模型(LLM)面臨的效率困境。DeepSeek-V3.2-Exp模型,通過(guò)創(chuàng)新性的DeepSeek Sparse Attention(DSA,稀疏注意力)技術(shù),成功將128K長(zhǎng)上下文處理的推理成本降低近85%,同時(shí)幾乎保持了原始模型的性能水平。這一突破不僅解決了實(shí)際應(yīng)用中的關(guān)鍵瓶頸,也為長(zhǎng)上下文模型的發(fā)展提出了新的行業(yè)啟示。下面我們一起來(lái)了解一下這一創(chuàng)新成果,如何在效率與性能之間取得平衡,揭示其背后的科學(xué)原理與工程智慧。


模型架構(gòu)與DSA

DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus的核心區(qū)別在于引入了DeepSeek Sparse Attention(DSA)技術(shù)。這一架構(gòu)改進(jìn)通過(guò)繼續(xù)訓(xùn)練實(shí)現(xiàn),而非從頭訓(xùn)練,確保了模型性能的平穩(wěn)過(guò)渡。

DeepSeek-V3.2-Exp的注意力架構(gòu),其中DSA在MLA下實(shí)現(xiàn)

為確保與DeepSeek-V3.1-Terminus的兼容性,DSA基于Multi-Head Latent Attention(MLA)實(shí)現(xiàn)??紤]到內(nèi)核級(jí)實(shí)現(xiàn)的計(jì)算效率,研究團(tuán)隊(duì)選擇了Multi-Query Attention(MQA)模式的MLA,其中每個(gè)潛在向量(MLA的key-value條目)將在所有查詢頭之間共享。如下圖所示,MLA框架下MHA(多頭注意力)與MQA(多查詢注意力)模式存在本質(zhì)區(qū)別。

圖示了MLA的MHA模式和MQA模式

對(duì)于DeepSeek-V3.1-Terminus,MHA模式用于訓(xùn)練和預(yù)填充,而MQA模式用于解碼。但在DeepSeek-V3.2-Exp中,DSA基于MQA模式實(shí)現(xiàn),這是因?yàn)閮?nèi)核級(jí)實(shí)現(xiàn)中鍵值條目必須在多個(gè)查詢間共享才能確保計(jì)算效率。這一設(shè)計(jì)選擇是DSA技術(shù)成功的關(guān)鍵基礎(chǔ),也是理解模型效率提升的重要視角。 

上文中第一張圖(DeepSeek-V3.2-Exp的注意力架構(gòu))詳細(xì)展示了基于MLA的DSA架構(gòu),綠色部分展示了DSA如何根據(jù)索引器選擇top-k key-value條目。圖中"partially apply RoPE"模塊表明旋轉(zhuǎn)位置編碼僅部分應(yīng)用,""操作則整合了不同來(lái)源的查詢向量,共同構(gòu)成了高效稀疏注意力機(jī)制的實(shí)現(xiàn)基礎(chǔ)。

這種架構(gòu)設(shè)計(jì)使得DSA技術(shù)能夠?qū)⒑诵淖⒁饬?fù)雜度從O(L2)降低到O(Lk),其中k(遠(yuǎn)小于L)是所選token的數(shù)量。雖然lightning indexer仍具有O(L2)的復(fù)雜度,但由于其計(jì)算量遠(yuǎn)小于DeepSeek-V3.1-Terminus中的MLA,結(jié)合優(yōu)化實(shí)現(xiàn),DSA實(shí)現(xiàn)了顯著的端到端加速效果。這一設(shè)計(jì)選擇確保了模型在引入稀疏注意力機(jī)制后仍能保持高質(zhì)量性能,為后續(xù)訓(xùn)練方法奠定了堅(jiān)實(shí)基礎(chǔ)。

激活函數(shù)的變化

除了上面稀疏注意力和與檢索機(jī)制的創(chuàng)新調(diào)整以外,在技術(shù)報(bào)告中,沒(méi)有很多篇幅來(lái)說(shuō)Deepseek 3.2 在激活函數(shù)上的變化。我在這里多做一些闡述吧。在Deepseek昨日開(kāi)源的 3.2 版本之前,Deepseek 的激活函數(shù)是SiLU,而剛開(kāi)源的 3.2 版本則適用了 ReLU。

我們先看 SiLU。SiLU(Sigmoid Linear Unit)是一種激活函數(shù),也被稱為 Swish 函數(shù)。其數(shù)學(xué)表達(dá)式為:

SiLU(Sigmoid Linear Unit)激活函數(shù)具有以下優(yōu)勢(shì):
  • 平滑性與非單調(diào)性:SiLU是連續(xù)可微的函數(shù),其輸出值是連續(xù)且可導(dǎo)的,這有助于梯度下降算法在優(yōu)化過(guò)程中穩(wěn)定更新參數(shù)。此外,SiLU在負(fù)值區(qū)域存在小的負(fù)值輸出,有助于梯度傳播。
  • 緩解梯度消失問(wèn)題:SiLU在負(fù)數(shù)部分也有一定的響應(yīng),這使得它在深度神經(jīng)網(wǎng)絡(luò)中能夠更好地緩解梯度消失問(wèn)題。其導(dǎo)數(shù)包含線性項(xiàng),在輸入較大時(shí)導(dǎo)數(shù)接近1,避免了Sigmoid在深層網(wǎng)絡(luò)中的梯度衰減問(wèn)題。
  • 避免死神經(jīng)元問(wèn)題:與ReLU不同,SiLU在負(fù)輸入時(shí)也有非零的輸出,使得所有神經(jīng)元都可以參與訓(xùn)練,避免了ReLU的“死神經(jīng)元”現(xiàn)象。
  • 增加網(wǎng)絡(luò)的表達(dá)能力:與ReLU相比,SiLU具有更多的非線性,能夠?qū)W習(xí)更復(fù)雜的特征。
  • 硬件友好:SiLU的計(jì)算僅涉及指數(shù)運(yùn)算和乘法,GPU通過(guò)Tensor Core可高效實(shí)現(xiàn)。

在3.2之前版本的DeepSeek前饋網(wǎng)絡(luò)(FFN)采用了SiLU激活函數(shù)。這種激活函數(shù)在負(fù)值部分也有響應(yīng),避免了梯度消失問(wèn)題,同時(shí)提升了模型的非線性表達(dá)能力。此外,SiLU的平滑性有助于優(yōu)化過(guò)程中的穩(wěn)定更新,其非單調(diào)性能夠捕捉更復(fù)雜的模式,增強(qiáng)模型的表達(dá)能力。這些特性使得SiLU在處理大規(guī)模語(yǔ)言數(shù)據(jù)時(shí)表現(xiàn)出色,因此之前DeepSeek選擇了SiLU作為其激活函數(shù)。

ReLU(Rectified Linear Unit)相對(duì)于silu 的優(yōu)勢(shì)有哪些?

ReLU 是目前使用較為廣泛的激活函數(shù)之一。它定義為 f(x) = max(0,x)。ReLU 的優(yōu)點(diǎn)有很多。它計(jì)算簡(jiǎn)單,只需要一個(gè)閾值判斷和一個(gè)線性操作。并且,它能夠有效緩解梯度消失問(wèn)題。在深度神經(jīng)網(wǎng)絡(luò)中,如果使用像 Sigmoid 這樣的激活函數(shù),隨著網(wǎng)絡(luò)層數(shù)的增加,梯度會(huì)逐漸變小,導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練。而 ReLU 在 x>0 時(shí),梯度是 1,這使得信號(hào)能夠很好地在神經(jīng)網(wǎng)絡(luò)中傳播。不過(guò),ReLU 也存在一些問(wèn)題,比如“死亡 ReLU”現(xiàn)象,當(dāng)輸入為負(fù)時(shí),ReLU 的輸出和梯度都是 0,如果網(wǎng)絡(luò)中大量神經(jīng)元處于這種狀態(tài),就會(huì)導(dǎo)致這些神經(jīng)元不再學(xué)習(xí)。

ReLU 在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)能夠顯著加快訓(xùn)練速度。因?yàn)樗奶荻仍谡齾^(qū)間是恒定的。例如,在訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行圖像識(shí)別時(shí),使用 ReLU 作為隱藏層激活函數(shù),可以讓網(wǎng)絡(luò)更快地收斂,得到更好的分類準(zhǔn)確率。而且,ReLU 的稀疏激活特性也有一定的優(yōu)勢(shì)。它只在輸入為正時(shí)有輸出,這使得神經(jīng)網(wǎng)絡(luò)的激活是稀疏的,減少了神經(jīng)元之間的相互作用,一定程度上提高了模型的泛化能力。不過(guò),如前面提到的“死亡 ReLU”問(wèn)題,如果輸入數(shù)據(jù)的分布不合理,或者學(xué)習(xí)率設(shè)置不當(dāng),可能會(huì)導(dǎo)致一些神經(jīng)元永遠(yuǎn)不被激活。

計(jì)算效率

  • ReLU:計(jì)算簡(jiǎn)單,僅需進(jìn)行一次閾值操作,計(jì)算復(fù)雜度低。在硬件上,ReLU的實(shí)現(xiàn)非常高效,尤其是在GPU等并行計(jì)算設(shè)備上,其計(jì)算速度更快。
  • SiLU:需要計(jì)算Sigmoid函數(shù),涉及指數(shù)運(yùn)算和乘法,計(jì)算復(fù)雜度較高。在高性能硬件上,雖然這種差異可以忽略不計(jì),但在大規(guī)模數(shù)據(jù)和復(fù)雜網(wǎng)絡(luò)中,ReLU的計(jì)算效率優(yōu)勢(shì)仍然明顯。

梯度傳播

  • ReLU:在正區(qū)間梯度恒為1,避免了梯度消失問(wèn)題。這使得ReLU在訓(xùn)練過(guò)程中能夠快速傳播梯度,加速模型的收斂。
  • SiLU:雖然SiLU的梯度在正負(fù)區(qū)間均有非零值,緩解了梯度消失問(wèn)題,但其梯度計(jì)算更為復(fù)雜,且在某些情況下可能會(huì)導(dǎo)致梯度爆炸。

神經(jīng)元死亡問(wèn)題

  • ReLU:雖然ReLU存在“神經(jīng)元死亡”問(wèn)題,即在訓(xùn)練過(guò)程中某些神經(jīng)元的輸出始終為0,從而導(dǎo)致無(wú)法更新其權(quán)重。但通過(guò)適當(dāng)?shù)某跏蓟椒ê蛯W(xué)習(xí)率調(diào)整,可以有效減少這種情況的發(fā)生(下文有提到訓(xùn)練步驟)。
  • SiLU:SiLU不會(huì)出現(xiàn)“神經(jīng)元死亡”問(wèn)題,因?yàn)槠湓谪?fù)輸入時(shí)仍然有非零輸出。然而,ReLU的“神經(jīng)元死亡”問(wèn)題在實(shí)際應(yīng)用中并不總是導(dǎo)致嚴(yán)重后果,且可以通過(guò)一些變體(如Leaky ReLU)來(lái)解決。

適用場(chǎng)景

  • ReLU:廣泛用于早期CNN(如VGG、ResNet),因其計(jì)算高效,適合圖像特征提取。在RNN中,ReLU雖然易導(dǎo)致梯度爆炸,但通過(guò)適當(dāng)?shù)臋?quán)重初始化和梯度裁剪等技術(shù),也可以有效使用。
  • SiLU:在一些對(duì)精度要求較高的任務(wù)中,如語(yǔ)音識(shí)別、NLP等,SiLU表現(xiàn)更好。在Transformer架構(gòu)中,SiLU常用于前饋網(wǎng)絡(luò)(FFN)的激活函數(shù),提升模型性能。

綜上所述,ReLU在計(jì)算效率和梯度傳播方面具有明顯優(yōu)勢(shì),而SiLU則在平滑性和非線性建模能力方面表現(xiàn)更強(qiáng)。至此,大家應(yīng)能理解 deepseek 在算法上做的極致稀疏化的優(yōu)化目的,是指向?qū)λ懔Φ墓?jié)約、對(duì)吞吐的提升,并通過(guò)下文所提到的訓(xùn)練方法,來(lái)盡量消弭極致稀疏化帶來(lái)的模型性能下降以及精度損失等問(wèn)題。

訓(xùn)練方法的科學(xué)設(shè)計(jì)

基于上述架構(gòu)設(shè)計(jì),DeepSeek-V3.2-Exp的訓(xùn)練方法同樣經(jīng)過(guò)精心規(guī)劃,確保模型能夠有效適應(yīng)稀疏注意力模式。訓(xùn)練從已擴(kuò)展至128K上下文長(zhǎng)度的DeepSeek-V3.1-Terminus基礎(chǔ)檢查點(diǎn)開(kāi)始,采用繼續(xù)預(yù)訓(xùn)練加后訓(xùn)練的策略。這一方法確保了模型在引入稀疏注意力機(jī)制后仍能保持高質(zhì)量性能。

繼續(xù)預(yù)訓(xùn)練分為兩個(gè)精心設(shè)計(jì)的階段,且兩個(gè)階段的訓(xùn)練數(shù)據(jù)分布完全與用于DeepSeek-V3.1-Terminus的128K長(zhǎng)上下文擴(kuò)展數(shù)據(jù)保持一致,這一設(shè)計(jì)確保了模型能力的平穩(wěn)過(guò)渡。

在稀疏訓(xùn)練階段,研究團(tuán)隊(duì)將索引器輸入從計(jì)算圖中顯式分離(detached),實(shí)現(xiàn)了訓(xùn)練信號(hào)的嚴(yán)格隔離:索引器的優(yōu)化僅依賴于KL散度損失LI,而主模型的參數(shù)更新則完全基于語(yǔ)言建模損失。這一設(shè)計(jì)確保了兩個(gè)組件能夠獨(dú)立高效地收斂,避免了相互干擾,是DSA技術(shù)成功實(shí)施的關(guān)鍵工程細(xì)節(jié)。此階段采用7.3×10??的學(xué)習(xí)率,為每個(gè)查詢token選擇2048個(gè)key-value token,訓(xùn)練15000步(每步包含480個(gè)128K token序列,總計(jì)943.7B tokens)。

后訓(xùn)練階段保持與DeepSeek-V3.1-Terminus相同的流程和算法。Specialist Distillation環(huán)節(jié)針對(duì)五個(gè)專業(yè)領(lǐng)域開(kāi)發(fā)專門(mén)模型:數(shù)學(xué)、競(jìng)爭(zhēng)性編程、通用邏輯推理、智能體編碼和智能體搜索。所有專家模型均從同一DeepSeek-V3.2基礎(chǔ)檢查點(diǎn)微調(diào)而來(lái),這一設(shè)計(jì)確保了各專家模型具有相同的基礎(chǔ)能力,使后續(xù)生成的領(lǐng)域特定訓(xùn)練數(shù)據(jù)保持一致性。

在Specialist Distillation環(huán)節(jié),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:"在蒸餾數(shù)據(jù)上訓(xùn)練的模型,其性能水平僅略低于領(lǐng)域特定專家模型,且通過(guò)后續(xù)RL訓(xùn)練可以有效消除性能差距。"這一發(fā)現(xiàn)對(duì)模型訓(xùn)練策略具有重要指導(dǎo)意義,表明通過(guò)合理的數(shù)據(jù)蒸餾和強(qiáng)化學(xué)習(xí),單一模型可以達(dá)到接近專業(yè)模型的性能水平,為模型能力的均衡發(fā)展提供了理論支持。每個(gè)專家模型都經(jīng)過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)訓(xùn)練,并用于生成特定領(lǐng)域的訓(xùn)練數(shù)據(jù)。研究還采用不同模型為長(zhǎng)鏈?zhǔn)剿季S推理(思維模式)和直接響應(yīng)生成(非思維模式)生成訓(xùn)練數(shù)據(jù)。

混合RL訓(xùn)練采用Group Relative Policy Optimization(GRPO)算法,創(chuàng)新性地將推理、智能體和人類對(duì)齊訓(xùn)練合并為一個(gè)RL階段。這種方法有效平衡了不同領(lǐng)域間的性能,同時(shí)避免了多階段訓(xùn)練中常見(jiàn)的災(zāi)難性遺忘問(wèn)題。對(duì)于推理和智能體任務(wù),采用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)、長(zhǎng)度懲罰和語(yǔ)言一致性獎(jiǎng)勵(lì);對(duì)于一般任務(wù),則使用生成式獎(jiǎng)勵(lì)模型,每個(gè)prompt都有其特定的評(píng)估標(biāo)準(zhǔn)。這種獎(jiǎng)勵(lì)設(shè)計(jì)精心平衡了兩個(gè)關(guān)鍵權(quán)衡:(1)長(zhǎng)度與準(zhǔn)確性;(2)語(yǔ)言一致性與準(zhǔn)確性。

通過(guò)后續(xù)評(píng)估可見(jiàn)(見(jiàn)下圖),DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中展現(xiàn)出高度一致的訓(xùn)練曲線,證實(shí)了DSA技術(shù)不會(huì)破壞模型的訓(xùn)練穩(wěn)定性。

DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 BrowseComp 和 SWE Verified 上的強(qiáng)化學(xué)習(xí)訓(xùn)練曲線

這種兩階段訓(xùn)練策略確保了lightning indexer的有效初始化和模型對(duì)稀疏注意力模式的全面適應(yīng),為后續(xù)性能評(píng)估奠定了堅(jiān)實(shí)基礎(chǔ)。同時(shí),訓(xùn)練數(shù)據(jù)分布的一致性保證了模型能力的平穩(wěn)過(guò)渡,使DeepSeek-V3.2-Exp能夠在保持原始模型性能的同時(shí),實(shí)現(xiàn)顯著的效率提升。

全面性能評(píng)估:數(shù)據(jù)說(shuō)話

DeepSeek-V3.2-Exp在多個(gè)基準(zhǔn)測(cè)試上的表現(xiàn)令人印象深刻。下表展示了該模型與DeepSeek-V3.1-Terminus的詳細(xì)對(duì)比,揭示了其在保持性能的同時(shí)實(shí)現(xiàn)效率提升的實(shí)質(zhì)。

DeepSeek-V3.1-Terminus 與 DeepSeek-V3.2-Exp 的評(píng)估

在通用能力方面,DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus基本持平:MMLU-Pro(EM)保持85.0%,GPQA-Diamond(Pass@1)從80.7%微降至79.9%,Humanity's Last Exam(Pass@1)從21.7%降至19.8%。上表數(shù)據(jù)顯示,DeepSeek-V3.2-Exp在GPQA-Diamond、Humanity's Last Exam和HMMT 2025三項(xiàng)測(cè)試中的性能略低于DeepSeek-V3.1-Terminus,原因在于DeepSeek-V3.2-Exp生成的推理token數(shù)量較少。在技術(shù)報(bào)告中顯示,DeepSeek-V3.2-Exp在2025年的GPQA、HLE和HMMT上的表現(xiàn)不如DeepSeek-V3.1-Terminus,原因是DeepSeek-V3.2-Exp生成的推理Token數(shù)量較少。然而,當(dāng)使用生成相當(dāng)數(shù)量Token的中間check point時(shí),這種性能差距就會(huì)消失。這一發(fā)現(xiàn)準(zhǔn)確地解釋了性能差異的原因。

在搜索智能體能力方面,DeepSeek-V3.2-Exp展現(xiàn)了小幅提升:BrowseComp(Acc.)從38.5%增至40.1%,BrowseComp_zh(Acc.)從45.0%提升至47.9%,SimpleQA(Acc.)保持高位穩(wěn)定在97.1%(原為96.8%)。這些改進(jìn)表明DSA技術(shù)不僅沒(méi)有削弱模型的搜索能力,反而可能通過(guò)更高效的注意力機(jī)制增強(qiáng)了某些任務(wù)的表現(xiàn)。

代碼能力評(píng)估呈現(xiàn)了略有不同的情況。LiveCodeBench(2408-2505)(Pass@1)從74.9%微降至74.1%,而Codeforces-Div1評(píng)級(jí)則從2046顯著提升至2121,Aider-Polyglot(Acc.)從76.1%降至74.5%。這種不一致的表現(xiàn)表明,稀疏注意力機(jī)制對(duì)不同類型代碼任務(wù)的影響可能有所差異。

在代碼智能體能力方面,模型表現(xiàn)高度穩(wěn)定:SWE Verified(智能體模式)保持在67.8%(原為68.4%),SWE-bench Multilingual(智能體模式)甚至從57.8%微增至57.9%,Terminal-bench(Terminus 1框架)從36.7%提升至37.7%。這些結(jié)果證實(shí)了DSA技術(shù)在復(fù)雜代碼推理任務(wù)中的可靠性。

數(shù)學(xué)推理能力評(píng)估顯示了有趣的趨勢(shì):AIME 2025(Pass@1)從88.4%提升至89.3%,而HMMT 2025(Pass@1)則從86.1%降至83.6%。研究團(tuán)隊(duì)將HMMT 2025性能下降歸因于推理token數(shù)量減少,再次驗(yàn)證了token生成數(shù)量與復(fù)雜推理任務(wù)表現(xiàn)之間的相關(guān)性。

整體而言,DeepSeek-V3.2-Exp在絕大多數(shù)基準(zhǔn)測(cè)試中與DeepSeek-V3.1-Terminus的表現(xiàn)相當(dāng),性能差異通常在1-2個(gè)百分點(diǎn)以內(nèi)。這種輕微的性能折衷與顯著的效率提升相比,具有極高的性價(jià)比。同時(shí),RL訓(xùn)練曲線的高度一致性(見(jiàn)下圖)進(jìn)一步證實(shí)了DSA技術(shù)的穩(wěn)定性,表明稀疏注意力機(jī)制不會(huì)破壞模型的訓(xùn)練動(dòng)態(tài)或收斂特性。

效率革命:量化分析

在確認(rèn)DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus在模型性能上基本持平后,計(jì)算效率的提升成為評(píng)估該模型價(jià)值的核心維度。尤其在長(zhǎng)上下文場(chǎng)景中,傳統(tǒng)注意力機(jī)制的O(L2)復(fù)雜度已成為實(shí)際應(yīng)用的主要瓶頸,而DeepSeek Sparse Attention技術(shù)正是解決這一問(wèn)題的關(guān)鍵創(chuàng)新。以下將通過(guò)量化分析,深入探討DSA技術(shù)如何實(shí)現(xiàn)效率革命。

DeepSeek-V3.2-Exp最引人注目的優(yōu)勢(shì)在于其顯著提升的計(jì)算效率,尤其是在長(zhǎng)上下文場(chǎng)景中。下圖直觀展示了這一優(yōu)勢(shì),基于H800 GPU集群的實(shí)際服務(wù)基準(zhǔn)測(cè)試,以每GPU小時(shí)2美元的租賃價(jià)格計(jì)算。

DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp在H800集群上的推理成本

在預(yù)填充階段,隨著序列位置從0K增加到128K,DeepSeek-V3.2-Exp的成本優(yōu)勢(shì)逐漸顯現(xiàn)。上圖(a)中橫軸表示序列中的token位置(0K-128K),縱軸表示每百萬(wàn)token的成本(美元)。當(dāng)序列位置達(dá)到128K時(shí),DeepSeek-V3.2-Exp的成本約為0.35美元/百萬(wàn)token,而DeepSeek-V3.1-Terminus則高達(dá)0.65美元/百萬(wàn)token,成本降低近50%。

在解碼階段,這一差距更為顯著,上圖(b)顯示,從序列開(kāi)始處的約0.4美元差距擴(kuò)大到128K位置的約2.0美元以上。具體而言,在128K序列位置,DeepSeek-V3.2-Exp的解碼成本約為0.35美元/百萬(wàn)token,而DeepSeek-V3.1-Terminus高達(dá)2.35美元/百萬(wàn)token,差距接近6.7倍。這一指數(shù)級(jí)差異凸顯了DSA技術(shù)在實(shí)際長(zhǎng)上下文應(yīng)用中的巨大價(jià)值,特別是在需要持續(xù)生成長(zhǎng)文本的場(chǎng)景中。上圖(b)解碼階段成本曲線揭示了一個(gè)關(guān)鍵現(xiàn)象:隨著序列長(zhǎng)度增加,兩種模型的成本差距不斷擴(kuò)大。這表明DSA技術(shù)在長(zhǎng)序列處理中具有越來(lái)越顯著的優(yōu)勢(shì)。

值得注意的是,針對(duì)短序列預(yù)填充,研究團(tuán)隊(duì)特別實(shí)現(xiàn)了masked MHA模式來(lái)模擬DSA,從而在短上下文條件下實(shí)現(xiàn)更高效率。這一優(yōu)化使得模型在各種序列長(zhǎng)度下都能保持優(yōu)異的性能表現(xiàn),體現(xiàn)了DeepSeek團(tuán)隊(duì)對(duì)實(shí)際應(yīng)用場(chǎng)景的全面考慮,確保模型在各種使用條件下都能提供卓越的用戶體驗(yàn)。

訓(xùn)練穩(wěn)定性驗(yàn)證

模型訓(xùn)練的穩(wěn)定性是評(píng)估新技術(shù)可行性的重要指標(biāo)。下圖展示了DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中的性能對(duì)比,為DSA技術(shù)的穩(wěn)定性提供了有力證據(jù)。

在BrowseComp訓(xùn)練曲線中,兩條模型的準(zhǔn)確率曲線高度一致,均隨著訓(xùn)練步數(shù)增加而穩(wěn)步提升。實(shí)線和虛線分別表示準(zhǔn)確率和平均輸出token數(shù),表明模型在提升性能的同時(shí)保持了合理的輸出長(zhǎng)度。特別值得注意的是,兩條曲線從初始階段到1400步訓(xùn)練結(jié)束始終保持高度重合,差異幾乎不可見(jiàn)。SWE訓(xùn)練曲線同樣展示了相似的趨勢(shì),兩條曲線在整個(gè)14000步訓(xùn)練過(guò)程中幾乎完全重疊,從9000步到14000步的訓(xùn)練過(guò)程中,準(zhǔn)確率曲線的差異微乎其微。

這些結(jié)果明確表明,引入DSA技術(shù)后,模型的訓(xùn)練過(guò)程保持了高度穩(wěn)定性,性能提升軌跡與原始模型幾乎一致。這對(duì)于驗(yàn)證稀疏注意力機(jī)制的可行性至關(guān)重要,因?yàn)樗C明了DSA不會(huì)破壞模型的訓(xùn)練動(dòng)態(tài)或收斂特性。

上圖中的訓(xùn)練曲線對(duì)比不僅是技術(shù)可行性的證明,更是對(duì)DSA架構(gòu)設(shè)計(jì)合理性的驗(yàn)證。在BrowseComp訓(xùn)練曲線中,兩條模型的準(zhǔn)確率從初始的約0.32穩(wěn)步提升至約0.40,平均輸出token數(shù)也從約10,000增加到約12,000,顯示出模型在提升能力的同時(shí)保持了合理的推理長(zhǎng)度。SWE訓(xùn)練曲線則展示了從約0.64到約0.68的準(zhǔn)確率提升,同樣伴隨著輸出token數(shù)的穩(wěn)步增長(zhǎng)。

這種高度一致的訓(xùn)練曲線表明,DSA技術(shù)不僅在推理階段有效,在訓(xùn)練過(guò)程中也能保持與原始模型相當(dāng)?shù)膬?yōu)化動(dòng)態(tài)。這一發(fā)現(xiàn)對(duì)于稀疏注意力技術(shù)的實(shí)際應(yīng)用具有重要意義,因?yàn)樗藢?duì)稀疏注意力可能影響模型學(xué)習(xí)能力的擔(dān)憂。

優(yōu)勢(shì)與局限的客觀評(píng)估

綜合評(píng)估顯示,DeepSeek-V3.2-Exp在長(zhǎng)上下文場(chǎng)景中展現(xiàn)出顯著優(yōu)勢(shì)。在訓(xùn)練和推理效率方面,特別是在128K長(zhǎng)上下文處理中,DSA技術(shù)帶來(lái)了實(shí)質(zhì)性的性能提升,使長(zhǎng)上下文AI應(yīng)用變得更加可行和經(jīng)濟(jì)。

模型性能方面,DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus相比沒(méi)有顯著下降。在大多數(shù)基準(zhǔn)測(cè)試中,性能差異在1-2個(gè)百分點(diǎn)以內(nèi),且研究團(tuán)隊(duì)已準(zhǔn)確歸因于推理token數(shù)量的減少。這一輕微性能折衷與顯著的效率提升相比,具有極高的性價(jià)比。

然而,技術(shù)報(bào)告中的評(píng)估結(jié)果也存在一定局限性。所有測(cè)試均在內(nèi)部環(huán)境中進(jìn)行,可能無(wú)法完全反映真實(shí)世界場(chǎng)景中的表現(xiàn)。此外,短上下文與長(zhǎng)上下文場(chǎng)景下的性能表現(xiàn)可能存在差異,需要進(jìn)一步驗(yàn)證。研究團(tuán)隊(duì)也坦誠(chéng)指出,某些復(fù)雜推理任務(wù)(如HMMT 2025)的性能略有下降,盡管這一差異可通過(guò)調(diào)整推理token數(shù)量來(lái)彌補(bǔ)。

從技術(shù)角度看,稀疏注意力機(jī)制可能在某些需要全局上下文理解的任務(wù)上存在局限性。例如,當(dāng)關(guān)鍵信息分散在整個(gè)長(zhǎng)序列中,而非集中在某些局部區(qū)域時(shí),稀疏選擇機(jī)制可能遺漏重要信息。不過(guò),從評(píng)估結(jié)果看,這種潛在問(wèn)題在實(shí)際測(cè)試中并未導(dǎo)致顯著的性能下降,表明DSA的設(shè)計(jì)有效平衡了效率與信息保留。

真實(shí)世界驗(yàn)證

盡管內(nèi)部評(píng)估結(jié)果令人鼓舞,DeepSeek團(tuán)隊(duì)依然保持謹(jǐn)慎態(tài)度,并且正在積極規(guī)劃更大規(guī)模的真實(shí)場(chǎng)景測(cè)試。正如技術(shù)報(bào)告中明確提及:“Deepseek正在積極進(jìn)行更大規(guī)模的真實(shí)場(chǎng)景測(cè)試(開(kāi)源),以發(fā)現(xiàn)稀疏注意力架構(gòu)的潛在局限性”,研究團(tuán)隊(duì)正致力于通過(guò)這些測(cè)試來(lái)揭示稀疏注意力架構(gòu)可能存在的限制。

稀疏注意力架構(gòu)的潛在局限性可能體現(xiàn)在特定任務(wù)類型上,例如需要全局上下文理解的任務(wù),或?qū)﹂L(zhǎng)距離依賴關(guān)系高度敏感的場(chǎng)景。此外,在極端長(zhǎng)序列(如遠(yuǎn)超128K)條件下,稀疏模式是否仍能保持性能穩(wěn)定性,以及在高并發(fā)服務(wù)場(chǎng)景下的表現(xiàn),都是需要通過(guò)大規(guī)模真實(shí)測(cè)試驗(yàn)證的關(guān)鍵問(wèn)題。這些驗(yàn)證不僅關(guān)乎DeepSeek-V3.2-Exp的實(shí)用性,也將為下一代稀疏注意力模型的設(shè)計(jì)提供寶貴指導(dǎo)。

真實(shí)世界驗(yàn)證將重點(diǎn)關(guān)注稀疏注意力架構(gòu)在多樣化應(yīng)用場(chǎng)景中的表現(xiàn),包括但不限于:不同領(lǐng)域文本的處理能力、極端長(zhǎng)序列的穩(wěn)定性、以及在高并發(fā)場(chǎng)景下的服務(wù)性能。這些測(cè)試將幫助識(shí)別DSA可能存在的邊緣情況問(wèn)題,并為未來(lái)模型迭代提供方向。這種主動(dòng)探索不僅針對(duì)稀疏注意力架構(gòu)在多樣化應(yīng)用場(chǎng)景中的表現(xiàn),更著眼于發(fā)現(xiàn)可能存在的邊緣情況問(wèn)題,為未來(lái)模型迭代提供方向。這種嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,正是推動(dòng)AI技術(shù)穩(wěn)健發(fā)展的關(guān)鍵所在。

此外,研究團(tuán)隊(duì)可能探索DSA技術(shù)的進(jìn)一步優(yōu)化,例如動(dòng)態(tài)調(diào)整所選token數(shù)量k,或針對(duì)特定任務(wù)定制稀疏模式。這些方向有望在保持效率優(yōu)勢(shì)的同時(shí),進(jìn)一步提升模型性能。

總結(jié):效率與性能的平衡

DeepSeek-V3.2-Exp代表了長(zhǎng)上下文AI發(fā)展與算力推理平衡的重要里程碑。通過(guò)創(chuàng)新的DeepSeek Sparse Attention技術(shù),該模型成功實(shí)現(xiàn)了效率與性能的精妙平衡:在保持與原始模型相當(dāng)?shù)男阅芩降耐瑫r(shí),顯著提升了長(zhǎng)上下文場(chǎng)景中的計(jì)算效率。

DSA技術(shù)的核心價(jià)值在于將注意力機(jī)制的計(jì)算復(fù)雜度從O(L2)降低到O(Lk),同時(shí)通過(guò)lightning indexer和細(xì)粒度token選擇機(jī)制確保關(guān)鍵信息不被遺漏。這種設(shè)計(jì)不僅解決了實(shí)際應(yīng)用中的計(jì)算瓶頸,也為未來(lái)長(zhǎng)上下文AI的發(fā)展提供了新范式。

對(duì)行業(yè)而言,DeepSeek-V3.2-Exp的突破具有深遠(yuǎn)啟示。它證明了在不犧牲性能的前提下大幅提高效率的可能性,為大語(yǔ)言模型在實(shí)際應(yīng)用中的部署鋪平了道路。在AI技術(shù)快速迭代的今天,效率與性能的平衡已成為決定技術(shù)能否落地的關(guān)鍵因素。DeepSeek-V3.2-Exp通過(guò)創(chuàng)新的算法設(shè)計(jì)和嚴(yán)謹(jǐn)?shù)墓こ虒?shí)現(xiàn),我們完全可以在兩者之間找到最優(yōu)解,為AI技術(shù)的廣泛應(yīng)用創(chuàng)造更多可能性。這一探索不僅關(guān)乎技術(shù)本身,更關(guān)乎如何讓AI真正服務(wù)于人類,成為我們工作和生活中的高效助手,而非資源消耗的負(fù)擔(dān)。

經(jīng)過(guò)深夜閱讀 Deepseek 的技術(shù)報(bào)告,我內(nèi)心是充滿敬意的,從報(bào)告里我看到了一個(gè)精益求精的團(tuán)隊(duì)在拼盡全力通過(guò)算法來(lái)優(yōu)化算力,拼盡全力適配、支持國(guó)產(chǎn)卡。算力“卡脖子”,那些殺不死的必將強(qiáng)大!

責(zé)任編輯:龐桂玉 來(lái)源: 覺(jué)察流
相關(guān)推薦

2025-10-14 09:00:48

DeepSeek人工智能性能

2025-09-29 18:51:01

2025-02-19 09:18:04

2025-10-10 09:13:09

2023-11-13 18:19:54

模型訓(xùn)練

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2024-09-30 14:10:00

2025-10-31 01:00:00

2025-10-11 04:22:00

人工海馬體網(wǎng)絡(luò)LV-Eval

2025-10-20 09:06:00

2025-01-15 12:27:11

2025-10-13 08:00:00

2025-02-26 00:16:56

RAGAI服務(wù)

2025-10-27 09:38:26

2025-10-13 01:22:00

2025-03-18 09:23:22

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2024-09-05 08:24:09

2025-05-07 09:12:00

模型研究LLM

2025-02-10 00:00:55

MHAValue向量
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)