DeepSeek 自爆低成本高性能的秘密,展示DeepSeek-V3 如何用 2048 枚 GPU 實(shí)現(xiàn)規(guī)?;悄? 精華
要訓(xùn)練一個(gè)性能卓越的 LLM,計(jì)算資源是首要門檻。從數(shù)千顆 GPU 到優(yōu)化的內(nèi)存管理,再到高速網(wǎng)絡(luò)互連,每個(gè)環(huán)節(jié)都決定著模型的最終表現(xiàn)。傳統(tǒng)的 AI 計(jì)算架構(gòu)無法輕松支持如此龐大的計(jì)算負(fù)載,內(nèi)存容量不足、計(jì)算效率受限、網(wǎng)絡(luò)帶寬瓶頸 成為橫亙?cè)?nbsp;AI 發(fā)展道路上的三座大山。
5月14日,DeepSeek-AI 團(tuán)隊(duì)發(fā)表技術(shù)論文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,公布了DeepSeek-V3 相關(guān)技術(shù)內(nèi)容,該論文計(jì)劃在第52屆國(guó)際計(jì)算機(jī)架構(gòu)研討會(huì)(ISCA '25)的工業(yè)軌道上發(fā)表。
DeepSeek-V3的解決方案便是硬件感知的模型設(shè)計(jì)(Hardware-Aware Model Design),即讓模型結(jié)構(gòu)主動(dòng)適配底層計(jì)算架構(gòu),充分利用硬件資源,做到高效推理與低成本訓(xùn)練。這不僅是技術(shù)優(yōu)化,更是一種突破 AI 計(jì)算瓶頸的戰(zhàn)略性思考。
傳統(tǒng)的 AI 訓(xùn)練往往在兩種極端之間徘徊:要么依賴強(qiáng)大的硬件集群,成本高昂;要么局限于標(biāo)準(zhǔn)計(jì)算資源,模型性能受限。DeepSeek-V3 展示了一種新的路徑——軟件算法與硬件架構(gòu)深度協(xié)同,使得大型模型的訓(xùn)練和推理在有限資源條件下實(shí)現(xiàn)優(yōu)化。
這一點(diǎn)在 DeepSeek-V3 的多個(gè)關(guān)鍵技術(shù)中得到了體現(xiàn):
- FP8 混合精度訓(xùn)練(FP8 Mixed-Precision Training)降低計(jì)算開銷,同時(shí)提升硬件適配能力。
- 專家混合模型(MoE)通過激活少量專家參數(shù),大幅提升推理效率。
- 多令牌預(yù)測(cè)(MTP)打破自回歸推理的單步生成瓶頸,讓推理速度更進(jìn)一步。
在 AI 計(jì)算不斷升級(jí)的時(shí)代,僅靠算法優(yōu)化已經(jīng)不足夠,將 AI 計(jì)算架構(gòu)與硬件深度結(jié)合才是可持續(xù)的進(jìn)化方向。
《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》由DeepSeek-AI 研發(fā)團(tuán)隊(duì)共同完成,成員有Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y.X. Wei,涵蓋人工智能科學(xué)家、深度學(xué)習(xí)工程師和計(jì)算架構(gòu)專家,在 AI 計(jì)算基礎(chǔ)設(shè)施優(yōu)化領(lǐng)域擁有深厚的技術(shù)積累。
DeepSeek-AI 在過去的 AI 研究浪潮中始終堅(jiān)持開源創(chuàng)新,他們的 DeepSeek-V3 不僅優(yōu)化了大型模型訓(xùn)練,還推動(dòng)了 AI 計(jì)算架構(gòu)的演進(jìn),為整個(gè) AI 研究社區(qū)提供了重要的技術(shù)參考。
論文鏈接:??https://arxiv.org/pdf/2505.09343??
1.設(shè)計(jì)與實(shí)現(xiàn)原理
硬件感知的模型架構(gòu):軟件與硬件協(xié)同演進(jìn)
當(dāng) AI 計(jì)算邁向更高階的規(guī)?;瘯r(shí),硬件架構(gòu)與模型設(shè)計(jì)不再是孤立存在的兩個(gè)范疇,而是相輔相成的。DeepSeek-V3 采用硬件感知的模型設(shè)計(jì)理念,即在構(gòu)建大型語言模型時(shí),主動(dòng)適配現(xiàn)有計(jì)算架構(gòu)的特點(diǎn),使其最大化利用底層硬件資源。
圖1:DeepSeek-V3的基本架構(gòu)?;贒eepSeek-V2的MLA和DeepSeekMoE,引入了多令牌預(yù)測(cè)模塊和FP8混合精度訓(xùn)練,以提高推理和訓(xùn)練效率。該圖顯示了架構(gòu)不同部分計(jì)算所使用的精度。所有組件在BF16中進(jìn)行輸入和輸出。
具體而言,DeepSeek-V3 在訓(xùn)練和推理過程中,需要處理巨量數(shù)據(jù),而傳統(tǒng)的 GPU 互連架構(gòu)存在帶寬瓶頸。NVLink 提供更快的 GPU 之間數(shù)據(jù)交換,PCIe 則用于 CPU-GPU 通信,這兩者的平衡決定了推理速度。為了適應(yīng) NVLink 帶寬受限的挑戰(zhàn),DeepSeek-V3 采用節(jié)點(diǎn)限制路由策略,減少跨節(jié)點(diǎn)數(shù)據(jù)傳輸,提高 GPU 內(nèi)部數(shù)據(jù)交換的效率。這一優(yōu)化策略不僅減少了 IB 傳輸開銷,還提升了專家并行(EP)的計(jì)算穩(wěn)定性。
低精度驅(qū)動(dòng)設(shè)計(jì):計(jì)算資源的精準(zhǔn)利用
AI 計(jì)算架構(gòu)的最大挑戰(zhàn)之一是如何降低計(jì)算成本,而不犧牲模型質(zhì)量。DeepSeek-V3 采用FP8 混合精度訓(xùn)練,通過低精度計(jì)算減少內(nèi)存占用,同時(shí)保持模型精度。這種策略相比 BF16 減少了一半的內(nèi)存需求,有效提升計(jì)算效率。
FP8 訓(xùn)練也存在局限性,例如:
- 累積精度受限:Tensor Core 僅保留 13 個(gè)尾數(shù)位進(jìn)行累加,可能影響超大規(guī)模模型訓(xùn)練的穩(wěn)定性。
- 細(xì)粒度量化的計(jì)算開銷:在 Tensor Core 與 CUDA Core 之間,頻繁數(shù)據(jù)傳輸可能降低計(jì)算效率。
為了解決這些問題,DeepSeek-V3 提出了硬件優(yōu)化建議:
- 增加 FP8 的累積精度,使其更適用于大模型訓(xùn)練。
- 讓 Tensor Core 直接支持細(xì)粒度量化計(jì)算,減少數(shù)據(jù)傳輸負(fù)擔(dān)。
此外,DeepSeek-V3 還采用LogFMT 低精度通信壓縮,用于減少專家并行(EP)的通信數(shù)據(jù)量。LogFMT 通過對(duì)數(shù)空間映射優(yōu)化數(shù)據(jù)存儲(chǔ),使數(shù)據(jù)更均勻分布,提高低精度存儲(chǔ)能力。這項(xiàng)技術(shù)可以大幅降低網(wǎng)絡(luò)通信成本,提升數(shù)據(jù)傳輸?shù)姆€(wěn)定性。
高效內(nèi)存管理與 KV 緩存優(yōu)化
Transformer 架構(gòu)的核心之一是自注意力機(jī)制,但它的 KV 緩存開銷極大,成為 AI 計(jì)算的內(nèi)存瓶頸。DeepSeek-V3 通過多頭潛在注意力(MLA),減少 KV 緩存存儲(chǔ)需求,使其更適用于長(zhǎng)文本推理。
MLA 技術(shù)將多個(gè)注意力頭的 KV 表示壓縮為更小的潛在向量,降低存儲(chǔ)占用。相比于傳統(tǒng)的 GQA 和 MQA 方法,MLA 能夠在保證推理質(zhì)量的同時(shí),大幅減少 KV 緩存需求。例如:DeepSeek-V3 每個(gè)令牌的 KV 存儲(chǔ)僅 70 KB,而LLaMA-3.1 405B 需要 516 KB,Qwen-2.5 72B 需要 327 KB。MLA 技術(shù)使 DeepSeek-V3 在長(zhǎng)文本處理場(chǎng)景下具有更高的可擴(kuò)展性。
除了 MLA 之外,DeepSeek-V3 還探索了其他 KV 緩存優(yōu)化策略,例如共享 KV、窗口 KV 和量化壓縮。這些技術(shù)在內(nèi)存效率上各有優(yōu)劣,MLA 方案最終被選為 DeepSeek-V3 的核心優(yōu)化策略。
專家并行與推理加速:突破 LLM 推理速度瓶頸
深度學(xué)習(xí)模型在推理時(shí)面臨計(jì)算負(fù)擔(dān)大、推理速度慢的問題。DeepSeek-V3 通過專家混合模型(MoE),只激活部分專家參數(shù),減少計(jì)算資源消耗。例如:
- DeepSeek-V3 具有671B規(guī)模的參數(shù),但每個(gè)推理令牌僅激活 37B。
- 相比于 Qwen2.5-72B 和 LLaMA3.1-405B 必須激活所有參數(shù),DeepSeek-V3 的 MoE 架構(gòu)在計(jì)算效率上更具優(yōu)勢(shì)。
此外,DeepSeek-V3 還采用多令牌預(yù)測(cè)(MTP) 技術(shù),解決傳統(tǒng)自回歸推理的單步生成問題。MTP 通過并行預(yù)測(cè)多個(gè)令牌,使推理速度提高 1.8 倍,而且其預(yù)測(cè)接受率達(dá)到80%-90%,保證推理質(zhì)量不受影響。
這些優(yōu)化策略共同構(gòu)建了 DeepSeek-V3低成本、高效推理 的技術(shù)優(yōu)勢(shì),使其能夠在有限的計(jì)算資源下,依然提供卓越的 AI 模型性能。
2.互連與網(wǎng)絡(luò)優(yōu)化解讀
硬件互連現(xiàn)狀:讓 AI 計(jì)算更高速、更可擴(kuò)展
DeepSeek-V3 的成功,離不開對(duì)硬件互連架構(gòu)的深度優(yōu)化。傳統(tǒng)的 AI 計(jì)算架構(gòu)往往受到帶寬限制,而 NVIDIA H800 GPU 采用 Hopper 架構(gòu),盡管整體計(jì)算性能強(qiáng)大,但 NVLink 帶寬卻從 H100 的 900GB/s 降至 400GB/s,這對(duì)大規(guī)模推理任務(wù)帶來了挑戰(zhàn)。
圖2:H800節(jié)點(diǎn)互連。
為了彌補(bǔ) NVLink 帶寬下降帶來的影響,DeepSeek-V3 采用了 CX7 InfiniBand 網(wǎng)卡,每個(gè)節(jié)點(diǎn)配置 8×400Gbps IB NIC,以增強(qiáng) Scale-Out 能力。這種做法意味著即使 NVLink 在單節(jié)點(diǎn)內(nèi)部的帶寬受限,集群之間仍然可以通過 IB 高速互連,保持分布式 AI 計(jì)算的高吞吐量。換句話說,DeepSeek-V3 在 Scale-Up 受限時(shí),巧妙地通過 Scale-Out 解決問題。
互連驅(qū)動(dòng)設(shè)計(jì)策略:優(yōu)化計(jì)算并行,加速推理
面對(duì) GPU 互連帶寬的挑戰(zhàn),DeepSeek-V3 采用硬件感知的并行計(jì)算策略,在訓(xùn)練和推理過程中優(yōu)化計(jì)算任務(wù)的分布,確保計(jì)算資源的高效利用。
首先,DeepSeek-V3 避免使用 Tensor 并行(TP),因?yàn)?nbsp;TP 依賴NVLink,而 NVLink 帶寬下降導(dǎo)致 TP 在大規(guī)模訓(xùn)練中效率低下。然而,在推理階段,TP 仍可被選擇性啟用,用于降低推理延遲。
與此同時(shí),DeepSeek-V3 強(qiáng)化流水線并行(DualPipe) 計(jì)算架構(gòu),允許注意力計(jì)算和專家選擇計(jì)算同時(shí)進(jìn)行,減少流水線中的空閑時(shí)間,提高 GPU 計(jì)算利用率。此外,DeepSeek-V3 還開源了 DeepEP(高效專家并行實(shí)現(xiàn)),以優(yōu)化專家并行(EP)的分布式計(jì)算性能,使 AI 計(jì)算集群能夠更穩(wěn)定地?cái)U(kuò)展。
值得注意的是,DeepSeek-V3 采用了節(jié)點(diǎn)限制路由策略,利用 NVLink 進(jìn)行本地 GPU 互連,減少 IB 傳輸數(shù)據(jù)量。例如:
- 每個(gè)節(jié)點(diǎn)包含 8 GPUs 和 256 個(gè)專家,模型會(huì)根據(jù)TopK Expert Selection規(guī)則,將令牌傳輸至最多4 個(gè)目標(biāo)節(jié)點(diǎn)。
- 在傳統(tǒng) AI 集群中,每個(gè)令牌需要跨多個(gè)節(jié)點(diǎn)傳輸,而 DeepSeek-V3 通過NVLink 進(jìn)行本地轉(zhuǎn)發(fā),確保數(shù)據(jù)盡量在同一節(jié)點(diǎn)內(nèi)傳播,從而降低 IB 傳輸負(fù)擔(dān),提高數(shù)據(jù)交換效率。
帶寬競(jìng)爭(zhēng)與低延遲優(yōu)化:保障數(shù)據(jù)流動(dòng)的高效與穩(wěn)定
在推理任務(wù)中,數(shù)據(jù)流動(dòng)的穩(wěn)定性至關(guān)重要。然而,DeepSeek-V3 需要同時(shí)進(jìn)行 KV 緩存?zhèn)鬏敚–PU 到 GPU)和專家并行通信(EP通信),這兩者都會(huì)大量占用 PCIe 帶寬,導(dǎo)致帶寬爭(zhēng)奪現(xiàn)象。
圖3:八平面雙層脂肪樹鱗片網(wǎng)絡(luò):每個(gè)GPU和IB NIC對(duì)屬于一個(gè)網(wǎng)絡(luò)平面。跨平面流量必須使用另一個(gè)NIC和PCIe或NVLink進(jìn)行節(jié)點(diǎn)內(nèi)轉(zhuǎn)發(fā)。
為了解決這個(gè)問題,DeepSeek-V3 采用 動(dòng)態(tài)流量?jī)?yōu)先級(jí),確保 EP 計(jì)算與 KV 傳輸不會(huì)發(fā)生嚴(yán)重沖突。此外,在網(wǎng)絡(luò)層面,DeepSeek-V3 使用IB(InfiniBand)而非 RoCE(RDMA over Converged Ethernet),因?yàn)?nbsp;IB 具有更低的通信延遲。例如:
- RoCE 同葉交換延遲:3.6μs,RoCE 跨葉交換延遲:5.6μs
- IB 同葉交換延遲:2.8μs,IB 跨葉交換延遲:3.7μs
圖4:AllGather和ReduceScatter通信原語在不同路由方法(ECMP、AR、靜態(tài)路由)和TP維度下的RoCE網(wǎng)絡(luò)帶寬。
可以看到,IB 的延遲比 RoCE 更低,因此DeepSeek-V3 優(yōu)先選擇 IB 作為 AI 計(jì)算集群的主要網(wǎng)絡(luò)通信標(biāo)準(zhǔn),以確保模型訓(xùn)練和推理任務(wù)的低延遲。
此外,DeepSeek-V3 還采用 InfiniBand GPUDirect Async(IBGDA) 技術(shù),優(yōu)化 GPU-CPU 之間的通信方式:
- 傳統(tǒng)的 GPU-CPU 數(shù)據(jù)交換需要 先通知 CPU,再由 CPU 向 NIC 發(fā)送數(shù)據(jù)請(qǐng)求,這種做法增加了通信開銷。
- IBGDA 允許 GPU 直接訪問 RDMA 設(shè)備,跳過 CPU 代理,從而降低通信延遲,提高推理吞吐量。
圖5:理想的多平面網(wǎng)絡(luò):每個(gè)NIC都配備了多個(gè)物理端口,每個(gè)端口都連接到一個(gè)不同的網(wǎng)絡(luò)平面。單個(gè)隊(duì)列對(duì)(QP)可以同時(shí)利用所有可用端口來傳輸和接收數(shù)據(jù)包,這需要對(duì)NIC內(nèi)無序放置的本地支持。
DeepSeek-V3 在硬件互連與網(wǎng)絡(luò)優(yōu)化方面采取了一系列針對(duì)性措施,從NVLink 帶寬優(yōu)化、IB 高速互連、節(jié)點(diǎn)路由策略到 InfiniBand GPUDirect Async 技術(shù),這些設(shè)計(jì)共同確保了 AI 計(jì)算的高效性。
3.未來硬件架構(gòu)設(shè)計(jì)思考
提升系統(tǒng)穩(wěn)健性:AI 計(jì)算的容錯(cuò)性與數(shù)據(jù)可靠性
在大規(guī)模 AI 計(jì)算環(huán)境中,穩(wěn)健性不僅是系統(tǒng)運(yùn)行的關(guān)鍵,也是保證長(zhǎng)期訓(xùn)練任務(wù)穩(wěn)定性的基礎(chǔ)。DeepSeek-V3在架構(gòu)設(shè)計(jì)上特別關(guān)注兩類問題:互連故障與數(shù)據(jù)損壞。
高性能計(jì)算集群往往依賴復(fù)雜的網(wǎng)絡(luò)互連,如InfiniBand、NVLink,這些互連技術(shù)的故障可能會(huì)導(dǎo)致 GPU 之間的數(shù)據(jù)傳輸受阻,進(jìn)而影響整個(gè) AI 計(jì)算任務(wù)的進(jìn)行。同時(shí),單點(diǎn)硬件故障,如GPU 崩潰、ECC 內(nèi)存錯(cuò)誤,也可能導(dǎo)致訓(xùn)練任務(wù)中斷,甚至讓大規(guī)模數(shù)據(jù)丟失,影響模型質(zhì)量。
DeepSeek-V3 提出的優(yōu)化方向包括高級(jí)錯(cuò)誤檢測(cè)與校驗(yàn)機(jī)制,通過硬件冗余設(shè)計(jì)降低系統(tǒng)故障率。例如,可以采用增強(qiáng)的 ECC來檢測(cè)多比特翻轉(zhuǎn)問題,同時(shí)配合數(shù)據(jù)完整性校驗(yàn)(Checksum),確保存儲(chǔ)數(shù)據(jù)在長(zhǎng)期訓(xùn)練過程中不會(huì)發(fā)生隱性損壞。此外,DeepSeek-V3 還鼓勵(lì)標(biāo)準(zhǔn)化診斷工具,讓用戶可以實(shí)時(shí)監(jiān)測(cè)硬件健康狀態(tài),避免長(zhǎng)時(shí)間運(yùn)行導(dǎo)致的不可見錯(cuò)誤堆積。
CPU與互連瓶頸改進(jìn):突破數(shù)據(jù)傳輸與計(jì)算性能限制
在 AI 計(jì)算架構(gòu)中,CPU-GPU 之間的數(shù)據(jù)交換 往往成為系統(tǒng)的瓶頸,尤其是在大規(guī)模訓(xùn)練和推理任務(wù)中。DeepSeek-V3 采用 NVLink 和 Infinity Fabric作為 CPU-GPU 直連方案,使其能夠繞過傳統(tǒng) PCIe 傳輸瓶頸,提高數(shù)據(jù)吞吐量。
傳統(tǒng) PCIe 的帶寬限制了 GPU 獲取CPU 側(cè) KV 緩存的速度,同時(shí)在大規(guī)模參數(shù)傳輸(如梯度更新)過程中,會(huì)因PCIe 爭(zhēng)奪產(chǎn)生顯著延遲。采用NVLink 或 Infinity Fabric直連 CPU 與 GPU,可以減少數(shù)據(jù)在 PCIe 總線上的傳輸,提高 AI 計(jì)算速度。此外,DeepSeek-V3 提出的優(yōu)化方案之一是提高單核 CPU 的計(jì)算頻率(>4GHz),確保內(nèi)核啟動(dòng)任務(wù)、網(wǎng)絡(luò)數(shù)據(jù)處理等關(guān)鍵計(jì)算任務(wù)不會(huì)因 CPU 計(jì)算速度不足而拖慢 AI 計(jì)算進(jìn)程。
在多核架構(gòu)優(yōu)化方面,DeepSeek-V3 也提出了多核協(xié)同計(jì)算的設(shè)計(jì)思路。例如,在芯粒(Chiplet)架構(gòu)下,每個(gè)獨(dú)立計(jì)算芯片可以擁有多個(gè)專屬計(jì)算核心,分別用于緩存感知任務(wù)劃分和高效數(shù)據(jù)隔離。這一優(yōu)化策略確保 AI 計(jì)算在大規(guī)模集群中不會(huì)因 CPU 計(jì)算壓力而導(dǎo)致吞吐量下降。
智能網(wǎng)絡(luò)與自適應(yīng)互連:讓 AI 計(jì)算架構(gòu)更智能
未來的 AI 計(jì)算不僅僅是更快、更強(qiáng),更需要智能化的網(wǎng)絡(luò)架構(gòu)來優(yōu)化數(shù)據(jù)流動(dòng)和降低系統(tǒng)故障率。DeepSeek-V3 提出的幾項(xiàng)關(guān)鍵優(yōu)化方向包括集成硅光子、無損網(wǎng)絡(luò)與智能自適應(yīng)路由。
硅光子技術(shù)(Silicon Photonics)已經(jīng)被證明在高帶寬計(jì)算場(chǎng)景下具有極強(qiáng)的優(yōu)勢(shì)。DeepSeek-V3 建議未來GPU 互連可以采用光學(xué)數(shù)據(jù)傳輸技術(shù) 來替代傳統(tǒng)電子傳輸,從而降低功耗并提高大規(guī)模 AI 計(jì)算集群的帶寬吞吐量。
此外,DeepSeek-V3 還討論了無損網(wǎng)絡(luò)(Lossless Network)的必要性。例如,InfiniBand 采用信用流量控制(CBFC)來確保數(shù)據(jù)傳輸不會(huì)丟失,但在大規(guī)模集群中,無效流量堵塞(HOL Blocking) 仍然會(huì)影響系統(tǒng)穩(wěn)定性。因此,DeepSeek-V3 提倡采用智能擁塞控制(CC)算法,例如基于 RTT 的 CC(RTTCC)或用戶可編程 CC(PCC),從而提升 AI數(shù)據(jù)傳輸?shù)膭?dòng)態(tài)優(yōu)化能力。
在數(shù)據(jù)路由方面,DeepSeek-V3 采用動(dòng)態(tài)路由(Adaptive Routing)方案,使 AI 數(shù)據(jù)流量可以根據(jù)實(shí)時(shí)網(wǎng)絡(luò)條件自動(dòng)調(diào)整路徑,優(yōu)化全對(duì)全(All-to-All)和歸約(Reduce-Scatter)計(jì)算任務(wù)的吞吐率。這種智能數(shù)據(jù)流動(dòng)的策略確保即使 AI 計(jì)算任務(wù)達(dá)到超大規(guī)模,仍然可以保持穩(wěn)定的系統(tǒng)響應(yīng)速度。
內(nèi)存中心的創(chuàng)新策略:突破 AI 計(jì)算架構(gòu)的核心瓶頸
無論 AI 計(jì)算如何進(jìn)化,內(nèi)存始終是影響計(jì)算效率的核心因素。DeepSeek-V3 提出的兩項(xiàng)關(guān)鍵優(yōu)化方向分別是DRAM 疊層加速器(DRAM-Stacked Accelerators)和System-on-Wafer(SoW)技術(shù)。
當(dāng)前 AI 模型的擴(kuò)展速度遠(yuǎn)超高帶寬內(nèi)存(HBM)的發(fā)展速度,導(dǎo)致AI 計(jì)算的內(nèi)存瓶頸越來越嚴(yán)重。DeepSeek-V3 提出的DRAM 疊層技術(shù),采用3D 立體集成方式,將 DRAM 直接疊加到 GPU 計(jì)算單元上,實(shí)現(xiàn)更快的數(shù)據(jù)交換。這種技術(shù)可以有效解決專家混合模型(MoE)中計(jì)算-內(nèi)存之間的帶寬問題,提高推理效率。例如SeDRAM架構(gòu)已經(jīng)展示了該技術(shù)的可行性,其高帶寬、低延遲 的特性對(duì) AI 計(jì)算極為友好。
此外,DeepSeek-V3 還探索了晶圓級(jí)集成(System-on-Wafer,SoW) 的可能性,使計(jì)算芯片可以在整個(gè)晶圓范圍內(nèi)完成高速數(shù)據(jù)交互,避免傳統(tǒng)單一芯片設(shè)計(jì)中的數(shù)據(jù)傳輸瓶頸。SoW 技術(shù)的突破可以為 AI 計(jì)算提供更大規(guī)模的并行計(jì)算支持,推動(dòng) AI 計(jì)算架構(gòu)進(jìn)入更高維度的性能優(yōu)化。
AI 計(jì)算架構(gòu)的發(fā)展,離不開硬件穩(wěn)健性提升、CPU-互連優(yōu)化、智能網(wǎng)絡(luò)架構(gòu)升級(jí)以及內(nèi)存技術(shù)的突破。DeepSeek-V3以硬件感知的設(shè)計(jì)理念,結(jié)合新興的計(jì)算架構(gòu)優(yōu)化策略,為大規(guī)模 AI 計(jì)算提供了一種更加高效、低成本、可擴(kuò)展的解決方案。
隨著 AI 技術(shù)的不斷演進(jìn),如何讓計(jì)算架構(gòu)在更智能、更穩(wěn)定、更低成本的前提下實(shí)現(xiàn)突破,將是 AI 產(chǎn)業(yè)發(fā)展的關(guān)鍵命題。而 DeepSeek-V3 提供的優(yōu)化方向,不僅是一種工程技術(shù)的進(jìn)步,更是 AI 計(jì)算架構(gòu)演進(jìn)的長(zhǎng)期趨勢(shì)。未來 AI 計(jì)算,或許將因這些創(chuàng)新而迎來新的突破。(END)
參考資料:???https://arxiv.org/pdf/2505.09343??
本文轉(zhuǎn)載自??獨(dú)角噬元獸??,作者:FlerkenS
