DeepSeek-V3新論文:軟硬協(xié)同,砸碎“算力神話”!
當(dāng)AI大模型越來越“吃”硬件,把內(nèi)存、算力、帶寬逼到極限,追趕者們,或者說整個(gè)行業(yè),除了干等硬件升級(jí),還能怎么辦?
ChatGPT橫空出世,大模型競(jìng)賽白熱化。英偉達(dá)的GPU成了硬通貨,算力就是一切。各大公司和研究機(jī)構(gòu)瘋狂堆砌資源,試圖追趕甚至超越。
但到了2024、2025年,大家發(fā)現(xiàn),硬件的升級(jí)速度,似乎有點(diǎn)跟不上模型的膨脹速度了。內(nèi)存墻、功耗墻、帶寬墻,每一堵都讓人頭疼。
Deepseek,一家圍繞“現(xiàn)有硬件的極限優(yōu)化”和“軟硬件協(xié)同設(shè)計(jì)”,對(duì)抗“暴力堆料”的領(lǐng)先者,最近發(fā)布了一篇關(guān)于DeepSeek-V3的論文。
論文由梁文鋒署名
論文標(biāo)題翻譯成中文是《洞察DeepSeek-V3:規(guī)?;魬?zhàn)與AI架構(gòu)硬件的思考》,主要展示了如何在內(nèi)存、計(jì)算和互聯(lián)帶寬都受限的情況下,通過硬件感知的模型協(xié)同設(shè)計(jì),實(shí)現(xiàn)高性價(jià)比的大規(guī)模訓(xùn)練和推理。
那些信奉“完美硬件”或者試圖用“無限金錢”抹平一切技術(shù)挑戰(zhàn)的思路,可能在DeepSeek-V3這樣的實(shí)踐面前,顯得不那么“經(jīng)濟(jì)適用”了。
DeepSeek-V3的“武功秘籍”主要有這么幾招:
多頭隱注意力 (MLA)——提升內(nèi)存效率
大幅壓縮KV緩存,解決內(nèi)存瓶頸。別人還在愁顯存不夠用的時(shí)候,DeepSeek-V3通過MLA技術(shù),讓每個(gè)token的KV緩存低至70KB,比LLaMA-3.1 405B(516KB)和Qwen-2.5 72B(327KB)少得多。這相當(dāng)于,在有限的“土地”上種出了更多的“糧食”。
專家混合 (MoE) 架構(gòu)優(yōu)化——優(yōu)化計(jì)算與通信平衡
在擴(kuò)大模型總參數(shù)量的同時(shí),只激活一小部分專家參數(shù)進(jìn)行計(jì)算。DeepSeek-V3有6710億參數(shù),但每個(gè)token只激活370億。這既保證了模型的“大塊頭”,又控制了實(shí)際運(yùn)算的“飯量”,實(shí)現(xiàn)了計(jì)算和通信的更優(yōu)平衡。
FP8混合精度訓(xùn)練——充分釋放硬件潛能
大膽采用更低精度的FP8進(jìn)行訓(xùn)練,進(jìn)一步降低了計(jì)算和內(nèi)存開銷。同時(shí),通過細(xì)粒度的量化和高精度累加等技術(shù),把精度損失控制在極小范圍。這要求硬件對(duì)低精度計(jì)算有更好的支持,論文也對(duì)此提出了明確的建議。
多平面網(wǎng)絡(luò)拓?fù)洹钚』壕W(wǎng)絡(luò)開銷
針對(duì)大規(guī)模集群的網(wǎng)絡(luò)開銷問題,設(shè)計(jì)了多平面胖樹網(wǎng)絡(luò),用兩層胖樹實(shí)現(xiàn)了傳統(tǒng)三層胖樹的擴(kuò)展能力,同時(shí)降低了成本和延遲。
圖片
圖注:DeepSeek-V3 的基礎(chǔ)架構(gòu)。在 DeepSeek-V2 的 MLA 和 DeepSeekMoE 基礎(chǔ)上,DeepSeek-V3 引入了多Token預(yù)測(cè)模塊(Multi-Token Prediction Module)以及 FP8 混合精度訓(xùn)練
DeepSeek-V3的這些創(chuàng)新,很多都是在現(xiàn)有硬件的“條條框框”里“憋”出來的。比如,H800的NVLink帶寬相較H100有所縮減,他們就強(qiáng)化了Pipeline并行和Expert并行,并針對(duì)性地設(shè)計(jì)了“節(jié)點(diǎn)限制路由”策略,優(yōu)先利用節(jié)點(diǎn)內(nèi)的高帶寬。 這就像一位經(jīng)驗(yàn)豐富的大廚,手頭只有普通的食材,卻能烹飪出令人驚艷的菜肴。
圖片
圖注:八平面兩層胖樹擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè) GPU 與 IB 網(wǎng)卡(NIC)配對(duì)后,歸屬于一個(gè)網(wǎng)絡(luò)平面??缙矫媪髁勘仨毻ㄟ^另一張網(wǎng)卡,并借助 PCIe 或 NVLink 在節(jié)點(diǎn)內(nèi)部進(jìn)行轉(zhuǎn)發(fā)。
訓(xùn)練DeepSeek-V3的成本雖然沒有具體公布,但其明確強(qiáng)調(diào)了“高性價(jià)比”。 論文中提到,MoE模型的計(jì)算成本遠(yuǎn)低于同等激活參數(shù)量的密集模型,DeepSeek-V3每token的訓(xùn)練計(jì)算成本約為250 GFLOPS,而參數(shù)量小得多的Qwen-72B(密集模型)則需要394 GFLOPS。
“改變AI硬件的設(shè)計(jì)思路”
作為基礎(chǔ)設(shè)施,大模型的底層硬件架構(gòu)很大程度上決定了其效率和成本。DeepSeek-V3的實(shí)踐,不僅是模型設(shè)計(jì)的勝利,更是對(duì)未來AI硬件設(shè)計(jì)方向的深刻反思和具體建議。
論文花了大量篇幅,從DeepSeek-V3開發(fā)中遇到的硬件瓶頸出發(fā),向硬件廠商提出了改進(jìn)建議:
- 低精度計(jì)算單元要更“精準(zhǔn)”:比如FP8累加精度要夠,要原生支持細(xì)粒度量化。
- 內(nèi)外互聯(lián)要“融合”:別讓CPU和GPU之間、節(jié)點(diǎn)內(nèi)外之間的數(shù)據(jù)搬運(yùn)那么費(fèi)勁,要統(tǒng)一管理,減少軟件復(fù)雜度和資源浪費(fèi)。
- 網(wǎng)絡(luò)要“智能”且“低延遲”:無論是IB還是RoCE,都要優(yōu)化路由、擁塞控制,并且最好能原生支持一些通信壓縮和網(wǎng)絡(luò)內(nèi)計(jì)算。
- 系統(tǒng)魯棒性要加強(qiáng):別動(dòng)不動(dòng)就因?yàn)橛布∶?dǎo)致訓(xùn)練中斷。
這幾乎是在說:“硬件大佬們,請(qǐng)看看我們應(yīng)用端的需求吧!我們需要的是能更好配合我們的硬件,而不僅僅是更高頻率、更大顯存的‘傻大個(gè)’?!?/span>
就像當(dāng)年Android通過開源團(tuán)結(jié)了眾多手機(jī)廠商對(duì)抗iOS的封閉生態(tài)一樣,DeepSeek-V3所代表的這種通過極致的軟硬件協(xié)同設(shè)計(jì)來對(duì)抗單純的硬件軍備競(jìng)賽的思路,也可能為AI領(lǐng)域帶來新的競(jìng)爭(zhēng)格局。 它不是直接提供一個(gè)“開源平替”,而是提供了一種“更聰明的追趕方式”。
在這種新的競(jìng)爭(zhēng)態(tài)勢(shì)下,即使是硬件領(lǐng)先者,也需要思考如何讓自己的產(chǎn)品更好地被“用盡潛能”。 論文中對(duì)未來硬件的展望,如內(nèi)存語義通信、網(wǎng)絡(luò)內(nèi)計(jì)算、DRAM堆疊加速器等,都指向了一個(gè)趨勢(shì):未來的AI系統(tǒng),一定是軟硬件高度協(xié)同、深度優(yōu)化的產(chǎn)物。
論文地址:https://arxiv.org/pdf/2505.09343