偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek突然擁抱國產(chǎn)GPU語言!TileLang對標(biāo)CUDA替代Triton,華為昇騰Day0官宣支持適配

人工智能
DeepSeek顯然就屬于追求極致性能的專家用戶了,根據(jù)v3.2公告的說法,在早期DeepSeek團(tuán)隊(duì)使用TileLang快速開發(fā)原型,之后用更底層的方法進(jìn)一步優(yōu)化性能。

DeepSeek v3.2有一個新改動,在論文里完全沒提,只在官方公告中出現(xiàn)一次,卻引起墻裂關(guān)注。

開源TileLang版本算子,其受關(guān)注程度甚至超過新稀疏注意力機(jī)制DSA,從畫線轉(zhuǎn)發(fā)的數(shù)量就可以看出來。

圖片圖片

海外社區(qū)也注意到DeepSeek使用了它而不是OpenAI開發(fā)的Triton語言。

有接觸過的開發(fā)者感嘆TileLang是一種非常優(yōu)雅的語言,只需不到100行代碼就能寫出比Flash Attention 2原版快30%的注意力實(shí)現(xiàn)。

圖片圖片

那么什么是TileLang,又為何引人矚目?

首先,TileLang是一種專門用來開發(fā)GPU內(nèi)核的領(lǐng)域?qū)S谜Z言,性能上可以對標(biāo)英偉達(dá)CUDA,DeepSeek官方推薦使用此版本做實(shí)驗(yàn),在方便調(diào)試和快速迭代上有優(yōu)勢。

更重要的是,TileLang與國產(chǎn)算力生態(tài)適配,連華為昇騰都要在第一時(shí)間公告對TileLang的支持。

圖片圖片

在幾周前的華為全聯(lián)接大會2025的開發(fā)者日上,TileLang團(tuán)隊(duì)成員董宇騏就介紹了TileLang實(shí)現(xiàn)FlashAttention算子開發(fā),代碼量從500+行減少至80行,并保持了與官方版本持平的性能。

此外TileLang團(tuán)隊(duì)成員王磊和沐曦集成電路的高級總監(jiān)董兆華也在同一個圓桌沙龍上出現(xiàn)過,討論了沐曦GPU與TileLang的適配。

DeepSeek為什么選擇TileLang

DeepSeek與TileLang第一次同框亮相,其實(shí)是在6月的北京智元大會。

在DeepSeek實(shí)習(xí)過的北大博士袁境陽,在報(bào)告中就提到“TileLang的算子實(shí)現(xiàn)會更快一點(diǎn)”。

TileLang的發(fā)起人之一,北大博士研究生王磊當(dāng)時(shí)還專門發(fā)帖感謝DeepSeek嘗試他們的語言。

圖片圖片

TileLang由北大團(tuán)隊(duì)主導(dǎo)開發(fā),核心人物除了王磊、董宇騏,還有北大計(jì)算機(jī)學(xué)院的副研究員、博士生導(dǎo)師楊智。

圖片圖片

2025年1月,TileLang在GitHub上正式開源,至今已獲得1.9k標(biāo)星。

圖片圖片

簡單來說,Tile語言 ( tile-lang ) 是一種簡潔的領(lǐng)域?qū)S谜Z言,旨在簡化高性能 GPU/CPU 內(nèi)核的開發(fā)。tile-lang采用Python式語法,并在TVM之上構(gòu)建底層編譯器基礎(chǔ)架構(gòu),使開發(fā)者能夠?qū)W⒂谔岣呱a(chǎn)力,而無需犧牲實(shí)現(xiàn)最佳性能所需的底層優(yōu)化。

圖片圖片

王磊曾在7月HyperAI超神經(jīng)主辦的Meet AI Compiler技術(shù)沙龍分享TileLang的核心設(shè)計(jì)理念:

將調(diào)度空間(包括線程綁定、內(nèi)存布局、張量化和流水線等)與數(shù)據(jù)流解耦,并將其封裝為一組可自定義的注解和原語。這種方法允許用戶專注于內(nèi)核的數(shù)據(jù)流本身,而將大部分優(yōu)化工作交給編譯器完成。

TileLang將“Tile”作為編程模型的核心概念,通過顯式的Tile抽象,讓開發(fā)者能夠直觀地控制數(shù)據(jù)在全局內(nèi)存、共享內(nèi)存和寄存器之間的流動。

TileLang提供了三個不同層次的編程接口,滿足不同水平開發(fā)者的需求。

初學(xué)者可以使用硬件無關(guān)的高層接口,專注于算法邏輯而不必關(guān)心底層細(xì)節(jié)。

有經(jīng)驗(yàn)的開發(fā)者可以使用ile Library,這里包含了各種針對不同硬件架構(gòu)優(yōu)化過的預(yù)定義操作。

對于追求極致性能的專家用戶,TileLang還提供了線程原語級別的控制,允許他們直接操作線程同步、內(nèi)存合并等底層特性。

圖片圖片

DeepSeek顯然就屬于追求極致性能的專家用戶了,根據(jù)v3.2公告的說法,在早期DeepSeek團(tuán)隊(duì)使用TileLang快速開發(fā)原型,之后用更底層的方法進(jìn)一步優(yōu)化性能。

v3.2論文中提到在內(nèi)核層面共享k-v提升計(jì)算效率,讓DSA的閃電索引器機(jī)制(lightning indexer)運(yùn)行速度遠(yuǎn)超傳統(tǒng)實(shí)現(xiàn)。

圖片圖片

在TileLang的文檔中也有相關(guān)的技術(shù)介紹,在計(jì)算過程中緩存中間數(shù)據(jù),比全局內(nèi)存快得多。

圖片圖片

TileLang與DeepSeek雙向奔赴

更早之前,在DeepSeek連續(xù)一周發(fā)布開源代碼庫的第一天,王磊就曾向DeepSeek團(tuán)隊(duì)推薦TileLang語言。

圖片圖片

后來TileLang也以DeepSeek在這天發(fā)布的FlashMLA內(nèi)核作為評測基準(zhǔn),在H100上的MLA解碼速度,TileLang編寫的內(nèi)核做到與FlashMLA相當(dāng)。

圖片圖片

在最新的DeepSeek v3.2發(fā)布之后,王磊也發(fā)帖致敬DeepSeek敢于使用一門新的編程語言來開發(fā)核心產(chǎn)品。

并且DeepSeek v3.2也驗(yàn)證了TileLang確實(shí)可以用來訓(xùn)練模型。

圖片圖片

DeepSeek V3.2技術(shù)報(bào)告:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang:
https://github.com/tile-ai/tilelang

參考鏈接:
[1]https://x.com/Lei_Wang_1999/status/1932331703747698786
[2]https://x.com/nathancgy4/status/1972613835598299245
[3]https://bbs.pku.edu.cn/v2/post-read-single.php?bid=322&postid=28065519
[4]https://hub.baai.ac.cn/view/46173

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2021-07-29 15:40:50

編程語言計(jì)算模型

2025-03-14 10:43:27

2025-02-23 09:52:37

2021-07-09 22:54:38

昇騰產(chǎn)業(yè)升級智能化

2020-07-27 13:53:58

華為

2020-07-26 09:56:33

昇騰

2022-10-18 11:37:03

鯤鵬

2022-02-14 12:11:49

Java 8JavaJava 17

2025-04-14 09:40:00

2020-07-14 13:19:31

華為技術(shù)開放日昇騰

2023-05-29 07:45:55

2025-03-28 04:45:00

2018-11-15 11:17:46

智慧城市

2025-02-18 11:02:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號