偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！

發(fā)布于 2025-2-5 17:58

瀏覽

0收藏

最近，DeepSeek在國際上很火，一方面其效果比肩非開源模型ChatGPT，另一方面其運(yùn)行成本很低。可以說，DeepSeek是目前為止最先進(jìn)的大模型之一。

今天這篇文章，就帶大家梳理一下從2024年至今DeepSeek發(fā)布的V1版本到V3版本的核心技術(shù)點(diǎn)，看看DeepSeek采用了哪些技術(shù)構(gòu)建了最先進(jìn)的大模型，每一次的升級基本都伴隨著訓(xùn)練數(shù)據(jù)的優(yōu)化、模型結(jié)構(gòu)的升級、優(yōu)化方式的更新。

為了方便大家閱讀，本文會用比較簡潔的語言進(jìn)行主要技術(shù)的介紹，一些其他相關(guān)的技術(shù)細(xì)節(jié)深度解析，后續(xù)也會陸續(xù)進(jìn)行更新。

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！-AI.x社區(qū)

1.DeepSeek V1

DeepSeek V1是2024年1月份發(fā)布的第一版DeepSeek模型，包含DeepSeek的核心構(gòu)建方式，核心技術(shù)點(diǎn)分為數(shù)據(jù)端、模型端、優(yōu)化端、對齊4個部分，前面3個部分處于模型的預(yù)訓(xùn)練階段，對齊階段使用SFT進(jìn)行人類風(fēng)格對齊。

數(shù)據(jù)端：在數(shù)據(jù)的處理上，包括去重、過濾、混合3個步驟，目的是構(gòu)建一個多樣性強(qiáng)、純凈的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)。在去重階段，對于Common Crawl數(shù)據(jù)集進(jìn)行全局的去重過濾，可以提升去重比例。在過濾階段，構(gòu)建了一套詳細(xì)的包括文法語法分析在內(nèi)的評估流程，去除低質(zhì)量數(shù)據(jù)。在混合階段，對不同domain的數(shù)據(jù)進(jìn)行采樣，平衡不同domain數(shù)據(jù)量，讓數(shù)據(jù)量較少的domain也能有足夠的樣本占比，提升數(shù)據(jù)集多樣性和全面性。

此外，在數(shù)據(jù)處理方面，使用Byte-level Byte-Pair Encoding (BBPE)作為tokenizer，相比BPE是在字符粒度進(jìn)行字符串分割，BBPE在字節(jié)粒度進(jìn)行處理，整體算法邏輯和BPE類似。

整體參與預(yù)訓(xùn)練的token數(shù)量為2 trillion。在V2和V3中，訓(xùn)練的token數(shù)量不斷上升，V2為8 trillion，V3為14 trillion。

模型端：模型的主體結(jié)構(gòu)基本沿用LLaMA。LLaMA主體就是Transformer結(jié)構(gòu)，主要差異包括RMSNorm的Pre-normalization（每層Transformer輸入使用RMSNorm進(jìn)行歸一化）、激活函數(shù)采用SwiGLU、位置編碼采用Rotary Embeddings。模型包括7B和67B兩種尺寸，67B尺寸的Transformer中的attention采用了Grouped Query Attention代替最普通的self-attention降低inference開銷。Grouped Query Attention每組query共用同一組key和value。

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！-AI.x社區(qū)

優(yōu)化端：使用multi-step learning rate代替LLaMA中的cosine learning rate schedule，主要原因是實(shí)驗發(fā)現(xiàn)兩者雖然最終收斂到的loss差不多，但是前者在連續(xù)學(xué)習(xí)上loss能夠保證一致性，連續(xù)學(xué)習(xí)更加方便。先用2000個step的warmup將學(xué)習(xí)率提升到最大值，然后在訓(xùn)練完80%的訓(xùn)練數(shù)據(jù)后將學(xué)習(xí)率降低到31.6%，在訓(xùn)練完90%的訓(xùn)練數(shù)據(jù)后進(jìn)一步降低到10%。

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！-AI.x社區(qū)

對齊：使用Supervised Fine-Tuning、DPO兩種方式進(jìn)行預(yù)訓(xùn)練模型的finetune，進(jìn)行風(fēng)格對齊。Supervised Fine-Tuning使用120w搜集到的SFT數(shù)據(jù)（一些根據(jù)指令給出答案的文本，由人類標(biāo)注的高質(zhì)量數(shù)據(jù)，幫助預(yù)訓(xùn)練模型遷移人類風(fēng)格）進(jìn)行finetune。DPO是針對之前ChatGPT中基于強(qiáng)化學(xué)習(xí)的RHLF風(fēng)格遷移的一種升級，不用強(qiáng)化學(xué)習(xí)，只使用一個指定對應(yīng)的兩個答案之前的相對偏好關(guān)系作為損失函數(shù)加入到模型中。

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！-AI.x社區(qū)

2.DeepSeek V2

DeepSeek V2最核心的2點(diǎn)改動都在模型結(jié)構(gòu)上，一個是提出了一種Multi-head Latent Attention提升了inference效率；另一個是構(gòu)建了基于DeepSeekMoE的語言模型結(jié)構(gòu)。

Multi-head Latent Attention：MLA的主要目的是減少KV緩存占用的空間。KV緩存是大模型都會使用的技術(shù)，在inference階段，每一個token的輸出都要和歷史所有token計算attention，每次新增token都有很多重復(fù)計算，因此可以將前面token計算出的key和value緩存起來。但是直接緩存key和value占用較大的空間，因此MLA對KV進(jìn)行了一個低維映射，只存儲這個低維的向量，節(jié)省了緩存存儲空間。

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！-AI.x社區(qū)

DeepSeekMoE：MoE是目前大模型在探索應(yīng)用的一項技術(shù)，基礎(chǔ)的MoE將原來的每個token的單個FFN層變成多個并行的FFN層（對應(yīng)多個expert），并根據(jù)輸入生成一個路由到各個FFN的打分，選擇topN個專家，實(shí)現(xiàn)在單token運(yùn)算量沒有顯著提升的前提下，擴(kuò)大模型的參數(shù)空間的目的。如下圖a中，即是一個激活2個專家的MoE。

而DeepSeekMoE相比MoE有2個核心優(yōu)化。一個是把Expert變多了（文中稱為Fine-Grained Expert），其實(shí)就是把原來每個Expert的FFN維度調(diào)小，增加Expert數(shù)量，并且最終激活的Expert數(shù)量也變多。另一個就是增加了幾個所有token都走的公用Expert，通過讓所有token都走這些Expert，讓這些Expert提取通用信息，其他Expert就能更專注于提取差異化的信息。

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！-AI.x社區(qū)

3.DeepSeek V3

DeepSeekV3在模型結(jié)構(gòu)上的核心優(yōu)化，一方面是對DeepSeekMoE中的多專家負(fù)載均衡問題，提出了一種不需要輔助loss就能實(shí)現(xiàn)的解決方案，相比使用輔助loss提升了模型性能；另一方面是引入了Multi-Token Prediction技術(shù)，相比原來每次只能預(yù)測一個token，顯著提升了infer的速度。

Auxiliary-Loss-Free Load Balancing：MoE的一個核心問題是有可能會出現(xiàn)坍縮問題，即訓(xùn)練到最后，激活的總是那么幾個Expert，沒有實(shí)現(xiàn)各個Expert的均衡，從而失去了多專家的意義。一般的解決方法會顯示引入一個負(fù)載均衡loss（DeepSeekV2，以及一些其他MoE的做法），但是顯示引入一個和目標(biāo)不相關(guān)的loss會影響訓(xùn)練效果。因此，DeepSeek V3采用了無需loss的負(fù)載均衡方法，在每個Expert打分增加一個這個相應(yīng)的bias項，bias項只影響路由不影響后續(xù)的Expert加權(quán)求和計算，每個step都會監(jiān)控各個Expert的負(fù)載均衡情況，對于過載的Expert降低bias項減少其相應(yīng)的激活數(shù)量，對于比較稀疏的Expert增大其bias項提升激活其的樣本比例。

Multi-Token Prediction：語言模型都是逐個預(yù)測的，每次將當(dāng)前預(yù)測結(jié)果作為最新的一個輸入，再次預(yù)測下一個。改成多token預(yù)測，一方面可以顯著提升infer的速度，另一方面也可以讓模型在生成后續(xù)token的時候有一個全局性，提升生成效果，對訓(xùn)練數(shù)據(jù)利用的也更加充分，加速收斂。

具體做法為，在訓(xùn)練階段，除了原來的主模型外，還會有幾個并行的MTP模塊，這些MTP模塊的Embedding層和Output Head和主模型共享，內(nèi)部有一個Transformer層。在主模型預(yù)測了next token后，將這個預(yù)測token的表征和之前token的Embedding拼接到一起，生成一個新的輸入（超出長度的更久遠(yuǎn)的token被才減掉）。這個拼接好的Embedding輸入到第一個MTP中預(yù)測next next token。以此類推，將MTP Module1的當(dāng)前預(yù)測token表征和歷史token拼接到一起，作為MTP Module2的輸入，再預(yù)測next next next token。

文中引入Multi-Token Prediction主要為了提升訓(xùn)練效果，inference階段直接去掉這些MTP模塊，也可以引入這些MTP模塊提升inference效率。

DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??，作者： Fareise ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

谷歌發(fā)布Veo：文生超1分鐘、1080P視頻，媲美Sora

Aceryt ? 4660瀏覽 ? 0回復(fù)
僅需1分鐘，文本生成高質(zhì)量3D模型—Meta 3D-Gen

Aceryt ? 3618瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 3478瀏覽 ? 0回復(fù)
DeepSeek的V3，爆火了

51CTO技術(shù)棧 ? 7330瀏覽 ? 0回復(fù)
10分鐘讓W(xué)PS接入DeepSeek，實(shí)現(xiàn)AI賦能

AI取經(jīng)路 ? 5100瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計被開源了！

PaperAgent ? 2349瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關(guān)鍵技術(shù)

amei2000go ? 5871瀏覽 ? 0回復(fù)
以前做PPT要3天，現(xiàn)在只要10分鐘！DeepSeek+Kimi 讓我效率起飛！

AI取經(jīng)路 ? 2859瀏覽 ? 0回復(fù)
Trae + Dify 10分鐘構(gòu)建 Data McpServer 與 Agent ，和 Excel 說再見！

九歌AI大模型 ? 5201瀏覽 ? 0回復(fù)
Markdown + AI = 效率神器：10分鐘就能學(xué)會的大模型文本格式！

九歌AI大模型 ? 4434瀏覽 ? 0回復(fù)
多模態(tài)大模型Ovis核心技術(shù)點(diǎn)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 2123瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：多頭潛在注意力機(jī)制（MLA）

Baihai_IDP ? 2646瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE

Baihai_IDP ? 1701瀏覽 ? 0回復(fù)
DeepSeek這招五分鐘腦圖法讓你少熬10夜

Bx玩AI ? 1935瀏覽 ? 0回復(fù)
DeepSeek開源新版V3，再次震驚國外

Aceryt ? 1674瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：無輔助損失函數(shù)的負(fù)載均衡

Baihai_IDP ? 1521瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：多詞元預(yù)測技術(shù)（Multi-Token Prediction, MTP）

Baihai_IDP ? 1658瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeek-V3-Base 預(yù)訓(xùn)練階段解析

Baihai_IDP ? 1666瀏覽 ? 0回復(fù)
10分鐘用ai制作系列動態(tài)表情包

馬克學(xué)ai ? 1270瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ICML'25 | 兼容不同數(shù)據(jù)源周期性差異的時間序列基礎(chǔ)模型 8天前發(fā)布
中科大&騰訊：通過提升各個專家網(wǎng)絡(luò)差異性提升基于MoE的CTR預(yù)估效果 8天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：一文梳理各類Large Language Model關(guān)系和實(shí)現(xiàn)要點(diǎn)

下一篇：一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn)，DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)

社區(qū)精華內(nèi)容

目錄

<em id="silex"></em>