中國(guó)MoE一夜爆火!大模型新王暴打GPT-4o,訓(xùn)練成本僅600萬(wàn)美元
一夜之間,來(lái)自中國(guó)的大模型刷屏全網(wǎng)。
圖片
DeepSeek-V3,一個(gè)擁有671B參數(shù)的MoE模型,吞吐量每秒高達(dá)60 token,比上一代V2直接飆升3倍。
在多項(xiàng)基準(zhǔn)測(cè)試中,V3性能直接與Claude 3.5 Sonnet、GPT-4o相匹敵。
在數(shù)學(xué)代碼方面,DeepSeek-V3完全碾壓GPT-4o。尤其是中文能力,全面領(lǐng)先國(guó)外的領(lǐng)先大模型。
圖片
就看這閃電般的推理速度,就知道模型有多強(qiáng)了。
圖片
值得一提的是,DeepSeek-V3在14.8T高質(zhì)量token上完成了訓(xùn)練,模型和論文100%開(kāi)源。

論文地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
新模型驚艷出世,徹底掀翻了整個(gè)AI圈。業(yè)界多位AI大佬,紛紛對(duì)此表示震驚,將重點(diǎn)轉(zhuǎn)向其訓(xùn)練成本GPU之上。
論文中,明確提出了DeepSeek-V3僅使用2048塊GPU訓(xùn)練了2個(gè)月,并且只花費(fèi)了557.6萬(wàn)美金。

Karpathy驚嘆道,「作為參考,要達(dá)到這種級(jí)別的能力,通常需要約1.6萬(wàn)個(gè)GPU的計(jì)算集群。不僅如此,當(dāng)前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達(dá)到了10萬(wàn)個(gè)GPU。
比如,Llama 3 405B消耗了3080萬(wàn)GPU小時(shí),而看起來(lái)更強(qiáng)大的DeepSeek-V3卻只用了280萬(wàn)GPU小時(shí)(計(jì)算量減少了約11倍)。
到目前為止,模型在實(shí)際應(yīng)用中的表現(xiàn)相當(dāng)出色——不僅在LLM競(jìng)技場(chǎng)名列前茅,而且從Karpathy本人的快速測(cè)試來(lái)看,結(jié)果也都很不錯(cuò)。
這說(shuō)明,即便是在資源受限情況下,模型也能展現(xiàn)出令人印象深刻的研究和工程能力。
這是否意味著前沿LLM不需要大型GPU集群?不是的,但這表明,你必須確保不浪費(fèi)已有的資源,這個(gè)案例很好地證明了在數(shù)據(jù)和算法方面還有很大的優(yōu)化空間」。

另外,賈揚(yáng)清針對(duì)推理提出了幾點(diǎn)自己的思考:
- 首先最重要的是,我們正式進(jìn)入了分布式推理時(shí)代。一臺(tái)單GPU機(jī)器(80×8=640G)的顯存已經(jīng)無(wú)法容納所有參數(shù)。雖然更新大顯存機(jī)器確實(shí)可以裝下模型,但不論如何,都需要分布式推理來(lái)保證性能和未來(lái)擴(kuò)展。
 - 即使在單個(gè)模型中,也需要關(guān)注MoE的負(fù)載均衡,因?yàn)槊看瓮评碇挥写蠹s5%的參數(shù)激活。
 - 論文中特別提到引入「redundantexpert」概念,正是為了解決這個(gè)問(wèn)題。這已經(jīng)不再是「一個(gè)模型多個(gè)副本」的問(wèn)題、而是「每個(gè)模型子模塊都有多個(gè)副本」,然后獨(dú)立擴(kuò)縮容。
 - 輸入token很容易實(shí)現(xiàn)盈利。根據(jù)個(gè)人專業(yè)判斷,需要大量?jī)?yōu)化才能使輸出token盈利或?qū)崿F(xiàn)收支平衡。但如果我們相信「軟件摩爾定律」,這就不是問(wèn)題:每18個(gè)月單token成本減半。
 - 需要進(jìn)行分塊(tile)或塊(block)級(jí)別的量化。
 - 等硬件支持FP4以后,肯定還有不少可以玩的花樣冷知識(shí):FP4乘法實(shí)際上就是個(gè)16×16的table lookup等等……
 

中國(guó)模型一夜擊敗GPT-4o,100%開(kāi)源
DeepSeek-V3不俗表現(xiàn),是在上一代V2進(jìn)一步升級(jí)和迭代。
在基準(zhǔn)測(cè)試中,數(shù)學(xué)領(lǐng)域MATH 500上,DeepSeek-V3拿下了90.2高分,比Claude 3.5 Sonnet、GPT-4o超出10分還要多。
同理,在AIME 2024測(cè)試中,DeepSeek-V3也取得了領(lǐng)先優(yōu)勢(shì),飆升近20分。
在代碼Codeforces基準(zhǔn)上,新模型以51.6分刷新SOTA,比國(guó)外大模型高出30分左右。
在軟件工程SWE-bench Verified基準(zhǔn)上,DeepSeek-V3略顯遜色,Claude 3.5 Sonnet以50.8分碾壓所有模型。
另外,在多語(yǔ)言能力(MMLU-Pro)方面,V3提升并不明顯。知識(shí)問(wèn)答基準(zhǔn)(GPQA-Diamond)上,V3也是僅次于Claude 3.5 Sonnet。

如下這張圖表,更詳細(xì)地展示了DeepSeek-V3在各種基準(zhǔn)測(cè)試中的結(jié)果。

53頁(yè)技術(shù)報(bào)告中,特比強(qiáng)調(diào)了V3的訓(xùn)練成本取得了最大的突破。
團(tuán)隊(duì)特意強(qiáng)調(diào)了,新模型的完整訓(xùn)練僅需要2.788M個(gè)GPU小時(shí)。即便如此,它在訓(xùn)練過(guò)程中非常穩(wěn)定,沒(méi)有遇到過(guò)任何不可恢復(fù)的loss突增,也沒(méi)有執(zhí)行任何rollback操作。
DeepSeek-V3訓(xùn)練成本如下表1所示,這是背后團(tuán)隊(duì)通過(guò)優(yōu)化算法、框架、硬件協(xié)同設(shè)計(jì)最終實(shí)現(xiàn)的。
在預(yù)訓(xùn)練階段,模型每訓(xùn)練1萬(wàn)億token僅需要180K個(gè)GPU小時(shí),即在配備2048個(gè)GPU的集群上只需3.7天。
因此,DeepSeek-V3預(yù)訓(xùn)練階段耗時(shí)不到2個(gè)月就完成了,總共消耗2664K個(gè)GPU小時(shí)。
另外,再加上上下文長(zhǎng)度scaling所需的119K GPU小時(shí)和后訓(xùn)練的5K GPU小時(shí),由此V3完整訓(xùn)練僅消耗2.788M個(gè)GPU小時(shí)。
團(tuán)隊(duì)表示,假設(shè)GPU的租用價(jià)格為2美元/每GPU小時(shí),DeepSeek-V3總訓(xùn)練成本僅為557.6萬(wàn)美元。

那么,究竟是怎樣的技術(shù)突破,使得DeepSeek-V3實(shí)現(xiàn)了質(zhì)的飛升?
訓(xùn)練細(xì)節(jié)
正如開(kāi)頭所述,DeepSeek-V3是一個(gè)強(qiáng)大的混合專家模型(MoE),總參數(shù)量為為671B,每個(gè)token激活37B參數(shù)。
它繼續(xù)采用了多頭潛在注意力(MLA)來(lái)實(shí)現(xiàn)高效推理,以及DeepSeekMoE實(shí)現(xiàn)低成本訓(xùn)練。
這兩種架構(gòu)的優(yōu)勢(shì),已經(jīng)在上一代V2中得到了驗(yàn)證。
除了基本框架之外,研究人員還采用了兩個(gè)額外的策略,來(lái)進(jìn)一步增強(qiáng)模型的能力:
- 采用無(wú)輔助損失(auxiliary-loss-free)方法來(lái)實(shí)現(xiàn)負(fù)載均衡,目的是最小化負(fù)載均衡對(duì)V3性能造成的不利影響。
 - 采用多token預(yù)測(cè)訓(xùn)練目標(biāo),結(jié)果證明能夠提升V3在評(píng)估基準(zhǔn)上的整體性能。
 

DeepSeek-V3框架
為了實(shí)現(xiàn)高效訓(xùn)練,團(tuán)隊(duì)采用了「FP8混合精度訓(xùn)練」,并對(duì)訓(xùn)練框架進(jìn)行了全面優(yōu)化。
通過(guò)支持FP8計(jì)算和存儲(chǔ),實(shí)現(xiàn)了訓(xùn)練加速和GPU內(nèi)存使用的減少。

在預(yù)訓(xùn)練階段,DeepSeek-V3在14.8T高質(zhì)量且多樣化的token完成了訓(xùn)練,然后又對(duì)模型進(jìn)行了監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)階段。
由此,我們才看了DeepSeek-V3在如上評(píng)測(cè)中,性能超過(guò)了其他開(kāi)源模型,并達(dá)到了與領(lǐng)先閉源模型相當(dāng)?shù)男阅芩健?/span>
網(wǎng)友炸鍋了
DeepSeek-V3現(xiàn)在已經(jīng)在官方平臺(tái)上直接可以測(cè)試,而且代碼全部開(kāi)源可以直接下載。
國(guó)外AI發(fā)燒友們紛紛開(kāi)啟了測(cè)試,有人直接將4/8個(gè)M4 Mac mini堆疊在一起來(lái)運(yùn)行DeepSeek-V3了...

一位開(kāi)發(fā)者驚訝地表示,DeepSeek-V3無(wú)需我解釋就能如此準(zhǔn)確地理解一切,這種感覺(jué)真讓人毛骨悚然。就好像機(jī)器里真的住著一個(gè)幽靈似的。

另有開(kāi)發(fā)者通過(guò)DeepSeek-V3創(chuàng)建了一個(gè)用AI公司logo制作的小行星游戲,分分鐘就完成了。

圖片
還有的人對(duì)用如此低成本,訓(xùn)練出一個(gè)強(qiáng)大得模型,難以置信。
Stability AI前CEO表示,以每秒60個(gè)token(相當(dāng)于人類閱讀速度5倍)的速度全天候運(yùn)行DeepSeek v3,每天僅需要2美元。
那么,你是要選擇一杯拿鐵咖啡,還是一個(gè)AI助手呢?

參考資料:















 
 
 


















 
 
 
 