DeepSeek開源通用矩陣乘法庫,300行代碼加速V3、R1,R2被曝五月前問世
DeepSeek 的開源周已經(jīng)進(jìn)行到了第三天(前兩天報道見文末「相關(guān)閱讀」)。今天開源的項目名叫 DeepGEMM,是一款支持密集型和專家混合(MoE)GEMM 的 FP8 GEMM 庫,為 V3/R1 的訓(xùn)練和推理提供了支持,在 Hopper GPU 上可以達(dá)到 1350+ FP8 TFLOPS 的計算性能。
具體來說,DeepGEMM 是一個旨在實(shí)現(xiàn)簡潔高效的 FP8 通用矩陣乘法(GEMM)的庫,它采用了 DeepSeek-V3 中提出的細(xì)粒度 scaling 技術(shù)。該庫支持普通 GEMM 以及專家混合(MoE)分組 GEMM。該庫采用 CUDA 編寫,在安裝過程中無需編譯,而是通過一個輕量級的 Just-In-Time(JIT)模塊在運(yùn)行時編譯所有內(nèi)核。
目前,DeepGEMM 僅支持英偉達(dá) Hopper 張量核心。為了解決 FP8 張量核心累加不精確的問題,它采用了 CUDA 核心的兩級累加(提升)機(jī)制。盡管它借鑒了 CUTLASS 和 CuTe 的一些概念,但避免了對其模板或代數(shù)的重度依賴。相反,該庫的設(shè)計注重簡潔性,僅包含一個核心內(nèi)核函數(shù),代碼量僅為 300 行。這使其成為學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化技術(shù)的一個簡潔且易于獲取的資源。
盡管設(shè)計輕量,DeepGEMM 在各種矩陣形狀上的性能與專家調(diào)優(yōu)的庫相當(dāng),甚至在某些情況下更優(yōu)。
開源地址:https://github.com/deepseek-ai/DeepGEMM
早期試用者評價說,「DeepGEMM 聽起來就像是數(shù)學(xué)界的超級英雄。它比高速計算器還快,比多項式方程還強(qiáng)大。我試著用了一下,現(xiàn)在我的 GPU 都在炫耀它的 1350+ TFLOPS,仿佛已經(jīng)準(zhǔn)備好參加 AI 奧賽了!」
這個計算性能如果加上高質(zhì)量的數(shù)據(jù),沒準(zhǔn)兒能貢獻(xiàn)更大的驚喜?
除了性能,「300 行代碼的性能超越了專家調(diào)優(yōu)的內(nèi)核」同樣讓不少人感到驚訝,有人認(rèn)為「要么 DeepSeek 破解了 GPU 矩陣的奧秘,要么我們剛剛見證了最高等級的編譯器魔法。」
看來,DeepSeek 團(tuán)隊里有一批掌握編譯器神秘技巧的頂級 GPU 工程師。
還有人評價說,「DeepGEMM 正在改變我們使用 FP8 GEMM 庫的方式,它簡潔、快速且開源。這正是 AI 計算的未來?!?/span>
在項目的貢獻(xiàn)者列表中,有人發(fā)現(xiàn)了一個姓 Liang 的工程師,難道是 DeepSeek 創(chuàng)始人梁文鋒(真實(shí)性有待考證)?
性能
DeepSeek 在 H800 上使用 NVCC 12.8 測試了 DeepSeek-V3/R1 推理中可能使用的所有形狀(包括預(yù)填充和解碼,但不包括張量并行),最高可以實(shí)現(xiàn) 2.7 倍加速。所有加速指標(biāo)均基于內(nèi)部精心優(yōu)化的 CUTLASS 3.6 實(shí)現(xiàn)。
但根據(jù)項目介紹,DeepGEMM 在某些形狀上表現(xiàn)不佳。
快速啟動
首先需要這些配置
- Hopper 架構(gòu)的 GPU,必須支持 sm_90a;
- Python 3.8 或更高版本;
- CUDA 12.3 或更高版本,但為了獲得最佳性能,DeepSeek 強(qiáng)烈推薦使用 12.8 或更高版本;
- PyTorch 2.1 或更高版本;
- CUTLASS 3.6 或更高版本(可通過 Git 子模塊克?。?。
配置完成后,就是部署:
# Submodule must be cloned
git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git
# Make symbolic links for third-party (CUTLASS and CuTe) include directories
python setup.py develop
# Test JIT compilation
python tests/test_jit.py
# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py
然后是安裝:
python setup.py install
最后在你的 Python 項目中導(dǎo)入 deep_gem,就可以使用了。
更多信息請參見 GitHub 開源庫。
路透社:DeepSeek R2 大模型又提前了,5 月之前發(fā)布
就在 DeepSeek 緊鑼密鼓地開源的同時,人們也在四處探尋該公司下一代大模型的信息。昨天晚上,路透社突然爆料說 DeepSeek 可能會在 5 月之前發(fā)布下一代 R2 模型,引發(fā)了關(guān)注。
據(jù)多位知情人士透露,DeepSeek 正在加速推出 R1 強(qiáng)推理大模型的后續(xù)版本。其中有兩人表示,DeepSeek 原本計劃在 5 月初發(fā)布 R2,但現(xiàn)在希望盡早發(fā)布。DeepSeek 希望新模型擁有更強(qiáng)大的代碼生成能力,并能夠推理除英語以外的語言。
可見在 Grok 3、Claude 3.7、Qwen 2.5-Max 等競品面世之后,DeepSeek 又加快了技術(shù)演進(jìn)的步伐。
值得一提的是,媒體也介紹了該公司的一些情況。DeepSeek 在北京開設(shè)的辦公室距離清華、北大很近(步行可至)。據(jù)兩名前員工稱,梁文鋒經(jīng)常會與工程師們深入研究技術(shù)細(xì)節(jié),并樂于與實(shí)習(xí)生、應(yīng)屆畢業(yè)生一起工作。他們還描述了通常在協(xié)作氛圍中每天工作八小時的情況。
據(jù)三位了解 DeepSeek 薪酬情況的人士稱,這幻方量化與 DeepSeek 都以薪酬豐厚而聞名。有人表示在幻方的高級數(shù)據(jù)科學(xué)家年薪 150 萬元人民幣并不罕見,而競爭對手的薪酬很少超過 80 萬元。
幻方是 AI 交易的早期先驅(qū),一位該公司高管早在 2020 年表示將「All in」人工智能,將公司 70% 的收入投資于人工智能研究。該公司在 2020 年和 2021 年斥資 12 億元人民幣建設(shè)了兩個超級計算 AI 集群。第二個集群 Fire-Flyer II 由約一萬塊英偉達(dá) A100 芯片組成,主要用于訓(xùn)練 AI 模型。
在 DeepSeek V3、R1 模型推出之后,全世界對于 AI 技術(shù)的期待已經(jīng)進(jìn)入了高點(diǎn)。科技公司都在消化 DeepSeek 提出的新技術(shù),修正發(fā)展方向,消費(fèi)者們則紛紛開始嘗試各類生成式 AI 應(yīng)用。
或許下一次 DeepSeek 的發(fā)布,會是 AI 行業(yè)的又一次關(guān)鍵時刻。