偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型能否為不同硬件平臺生成高性能內(nèi)核?南大、浙大提出跨平臺內(nèi)核生成評測框架MultiKernelBench

人工智能 新聞
近日,南京大學與浙江大學聯(lián)合推出全新開源評測框架 MultiKernelBench,打破平臺、維度與擴展性的限制,為 LLM 驅(qū)動的高性能內(nèi)核生成提供了新的測評標準。

在深度學習模型的推理與訓練過程中,絕大部分計算都依賴于底層計算內(nèi)核(Kernel)來執(zhí)行。計算內(nèi)核是運行在硬件加速器(如 GPU、NPU、TPU)上的 “小型高性能程序”,它負責完成矩陣乘法、卷積、歸一化等深度學習的核心算子運算。

當前,這些內(nèi)核通常由開發(fā)者使用 CUDA、AscendC、Pallas 等硬件專用并行編程語言手工編寫 —— 這要求開發(fā)者具備精湛的性能調(diào)優(yōu)技巧,并對底層硬件架構(gòu)有深入理解。

近年來,大語言模型(LLM)在代碼生成領域的突破,使 “自動生成高性能深度學習內(nèi)核” 成為新的研究熱點。KernelBench、TritonBench 等評測基準相繼出現(xiàn),主要聚焦于評估 LLM 在 NVIDIA GPU 內(nèi)核生成上的表現(xiàn)。

已有研究表明,現(xiàn)有 LLM 已具備一定的 GPU 內(nèi)核生成能力。例如,英偉達工程師基于 DeepSeek-R1 設計了一套工作流程,在簡單的 CUDA 內(nèi)核生成任務中,該流程生成的內(nèi)核在數(shù)值上全部正確,達到了 100% 的通過率。

然而,當前 AI 加速器架構(gòu)日趨多樣(如 NVIDIA GPU、華為昇騰 NPU、Google TPU、Intel GPU 等),其底層內(nèi)核語言差異顯著?,F(xiàn)有評測基準普遍存在平臺覆蓋單一、評估維度粗糙、可擴展性不足等局限。在此背景下,關(guān)鍵問題浮現(xiàn):大模型在 CUDA 生態(tài)下的優(yōu)勢能否有效遷移至異構(gòu)平臺?我們距離自動化生成高性能計算內(nèi)核究竟還有多遠?

針對這些問題,近日,南京大學與浙江大學聯(lián)合推出全新開源評測框架 MultiKernelBench,打破平臺、維度與擴展性的限制,為 LLM 驅(qū)動的高性能內(nèi)核生成提供了新的測評標準。

  • 論文鏈接:https://arxiv.org/pdf/2507.17773
  • 代碼鏈接:https://github.com/wzzll123/MultiKernelBench

MultiKernelBench 提出了一個開放評測場景:在 GPU、NPU、TPU 等多平臺上,LLM 自動生成高性能深度學習內(nèi)核,并在真實設備中完成編譯、運行與性能驗證。它首次跨越單一硬件生態(tài),推動 LLM 從 “單平臺選手” 邁向 “全能型選手”。

值得注意的是,MultiKernelBench 的設計充分考慮了算子多后端的可擴展性。例如,Intel 工程師基于該框架高效地實現(xiàn)了 Intel GPU 的適配。

MultiKernelBench 是如何構(gòu)建的?

 為了確保任務覆蓋全面且具有可擴展性,研究團隊設計了一套模塊化評測體系,包含四大核心特性:

1、 跨硬件平臺支持

首批覆蓋三大主流架構(gòu):

  • NVIDIA GPU(CUDA / Triton)
  • 華為昇騰 NPU(AscendC)
  • Google TPU(Pallas)

通過統(tǒng)一 Backend 接口與裝飾器機制,實現(xiàn)無需修改核心邏輯即可快速接入新平臺。

論文作者后續(xù)計劃逐步擴展對不同 GPU 和 NPU 廠商架構(gòu)的支持,同時也誠邀各廠商參與開源生態(tài)的共建。

2、 細粒度任務體系

 在 Stanford KernelBench 基礎上重構(gòu)分類框架,覆蓋 14 類核心深度學習算子(卷積、歸一化、優(yōu)化器、稀疏計算等),不僅繼承了 250 個經(jīng)典任務,還新增 35 個未被現(xiàn)有基準覆蓋的關(guān)鍵算子,全面反映 LLM 在不同算子類型上的生成能力。

3、 端到端自動化評測

構(gòu)建標準化流程:內(nèi)核生成 → 編譯 → 硬件執(zhí)行 → 性能分析,確保在真實硬件環(huán)境中完成全流程驗證。

4、 類別感知 One-shot 提示策略

針對不同算子類別動態(tài)選取典型樣例作為上下文提示,顯著提升生成代碼的語義相關(guān)性與功能正確性,尤其在 AscendC、Pallas 等訓練語料稀缺的平臺上效果顯著。

此外,MultiKernelBench 提供插件式提示模板系統(tǒng),方便研究者探索多樣化的提示工程策略。

對比現(xiàn)有基準,MultiKernelBench 帶來三大突破:

  • 平臺覆蓋更廣:打破對單一生態(tài)的依賴,真正實現(xiàn)跨 GPU / NPU / TPU 的統(tǒng)一評測。
  • 評估維度更細:任務分類粒度精細化,可定位 LLM 在不同算子類型上的優(yōu)勢與短板。
  • 擴展性更強:模塊化架構(gòu)與統(tǒng)一接口設計,使其能夠伴隨 AI 硬件生態(tài)快速演進。

多模型實測,模型表現(xiàn)如何?

基于 MultiKernelBench,評估了包括 GPT-4o、Claude、DeepSeek-V3、Qwen 等在內(nèi)的 7 個主流大模型,參數(shù)規(guī)模涵蓋 32B ~ 681B。

評估指標包括:

  • Compilation@k:生成代碼是否能成功編譯 
  • Pass@k:是否輸出功能正確的結(jié)果 
  • SpeedUp@k:運行時是否實現(xiàn)性能優(yōu)化

實測結(jié)果顯示:

  • Claude-4-Sonnet 在整體評測中表現(xiàn)最佳;推理模型表現(xiàn)優(yōu)異。
  • CUDA 平臺的 Kernel 執(zhí)行通過率顯著高于 Pallas 與 AscendC,反映出當前 LLM 對 CUDA 更具適應性。
  • 類別感知式 Prompting 明顯優(yōu)于通用模板,尤其在 AscendC 等訓練語料較少的平臺上,能顯著提升生成效果與成功率。

展望與未來計劃

MultiKernelBench 的評測結(jié)果表明,即便是當前最先進的大語言模型(LLM),在多平臺高性能內(nèi)核生成任務中仍存在明顯短板:在非 CUDA 平臺上的成功率顯著下降,生成代碼的性能也普遍落后于手工優(yōu)化版本。

未來,論文作者希望與社區(qū)共同推進 MultiKernelBench 的演進,重點探索以下方向:

  • 更智能的提示策略:利用已有的插件式提示模板系統(tǒng),開發(fā)反饋式、文檔增強等新型提示方法,提升低資源平臺的生成質(zhì)量。
  • 跨平臺協(xié)同生成:實現(xiàn)多平臺版本的同步生成與優(yōu)化思路共享,增強跨架構(gòu)泛化能力。
  • 支持更多硬件后端:與社區(qū)合作接入更多新平臺,進一步覆蓋異構(gòu)計算全景。

目前,MultiKernelBench 的全量數(shù)據(jù)集、框架代碼與評測流程已全部開源,歡迎研究者與工程師提出新方法、貢獻平臺支持,共同推動多平臺高性能內(nèi)核自動生成的發(fā)展。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-03 09:27:44

2025-07-23 10:07:31

2024-01-19 12:12:17

騰訊SecBenc

2014-04-11 10:06:55

微軟SQL Server BI

2024-08-06 11:30:00

2023-07-27 13:58:19

2009-12-03 19:02:05

Linux

2011-12-13 20:07:26

跨平臺工具

2025-06-03 09:25:00

XNet-DNN大語言模型神經(jīng)網(wǎng)絡

2012-07-23 10:23:25

CloudStackOpenStack云平臺

2015-06-02 09:54:12

云服務大數(shù)據(jù)平臺云平臺

2011-03-18 15:22:25

Linux內(nèi)核2.6.38

2024-09-12 12:46:36

2025-06-06 09:15:00

2024-04-07 11:40:40

Android框架

2023-08-03 10:59:49

人工智能

2024-09-14 15:25:48

2021-08-12 16:42:09

WireGuardWindows內(nèi)核NT

2025-01-03 10:30:00

2025-10-17 17:50:01

大模型推理AI
點贊
收藏

51CTO技術(shù)棧公眾號