偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek開源周,第三彈, DeepGEMM來襲!

發(fā)布于 2025-2-26 13:47
瀏覽
0收藏

今天開源了deepseek-v3中提到的的FP8 GEMM內(nèi)核。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

300行代碼的暴力cuda美學(xué),看不太懂,但是每天都可以打個(gè)醬油~

支持普通的矩陣乘法以及 Mix-of-Experts 分組矩陣乘法。使用 CUDA 編寫,安裝時(shí)無需編譯,所有內(nèi)核在運(yùn)行時(shí)通過輕量級的即時(shí)編譯(JIT)模塊動態(tài)編譯。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

DeepGEMM設(shè)計(jì),避免了對CUTLASS和CuTe的過度依賴,采用了更簡潔的設(shè)計(jì),核心代碼只有大約300行。整個(gè)庫就是非?!拜p量化”,但同時(shí)性能又很強(qiáng)大,甚至超過了專家調(diào)優(yōu)的庫。在某些場景下的加速比達(dá)到了2.7倍。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

使用這個(gè)倉庫,需要支持Hopper架構(gòu)的GPU、Python 3.8及以上版本、CUDA 12.3及以上版本。

項(xiàng)目地址:https://github.com/deepseek-ai/DeepGEMM/blob/main/README.md

貢獻(xiàn)者似乎包含梁文峰。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??,作者: NLP前沿

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦