偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開放創(chuàng)新,昇騰 CANN 再向深處

企業(yè)動態(tài)
隨著開發(fā)者的開發(fā)方式逐漸從上層軟件走向底層硬件,昇騰 CANN 的開放深度和開放策略也持續(xù)演進(jìn),構(gòu)建起了覆蓋算子開發(fā)、系統(tǒng)調(diào)優(yōu)到編譯鏈優(yōu)化的全場景賦能體系。

AI 領(lǐng)域有自己的速度。

4月29日凌晨4點(diǎn),Qwen3 正式發(fā)布,并開源全部8款混合推理模型。發(fā)布僅2小時(shí),Qwen3 模型在 GitHub 上的 Star 數(shù)已近17k。更有趣的是,開源5小時(shí)后,華為計(jì)算發(fā)文宣布實(shí)現(xiàn) Qwen3 的 0Day 適配,即在 MindSpeed 和 MindIE 中開箱即用。這意味著,開發(fā)者可以第一時(shí)間零門檻使用最新的 AI 能力。

這樣軟硬件閃電協(xié)同的背后,華為昇騰異構(gòu)計(jì)算架構(gòu) CANN 的深度開放策略提供了核心支撐。

能力解耦,技術(shù)優(yōu)勢的最后一公里

據(jù)IDC預(yù)測,2026年中國智能算力規(guī)模將達(dá)到1460.3 EFLOPS,為2024年的兩倍,AI 算力需求正經(jīng)歷指數(shù)級增長。這一增長不僅標(biāo)志著 AI 技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的加速,也對異構(gòu)計(jì)算架構(gòu)提出了更高的要求。

然而,傳統(tǒng) AI 開發(fā)在落地過程中面臨的“三座大山”正在吞噬技術(shù)革命的紅利。

一是開發(fā)效率低下。算子開發(fā)門檻高,業(yè)務(wù)需求的響應(yīng)時(shí)間也動輒數(shù)周,“創(chuàng)新誕生即過時(shí)”成為常態(tài)。

二是性能釋放不足。當(dāng)前 AI 算力資源普遍存在靜態(tài)分配僵化與動態(tài)需求錯(cuò)配的矛盾,硬件能力常常因原子能力組合方式固化,導(dǎo)致有效性能輸出遭遇供給瓶頸。

三是生態(tài)協(xié)同缺失。隨著計(jì)算需求的多樣化,CPU、GPU、FPGA、ASIC 等不同架構(gòu)計(jì)算單元被廣泛應(yīng)用,但多元計(jì)算架構(gòu)因技術(shù)標(biāo)準(zhǔn)割裂及調(diào)度機(jī)制缺位,通常難以實(shí)現(xiàn)資源最優(yōu)調(diào)配,造成算力限制與效率不足。

當(dāng)開發(fā)遲滯、性能折損、生態(tài)割裂鎖死產(chǎn)業(yè)創(chuàng)新,鋪向最后一公里的重點(diǎn)不再只是算力堆砌,而在能力解耦——這正是昇騰 CANN深度開放的戰(zhàn)略原點(diǎn)。

作為昇騰 AI 基礎(chǔ)軟硬件平臺的核心,昇騰異構(gòu)計(jì)算架構(gòu) CANN 自2023年宣布深度開放策略至今,已構(gòu)建起覆蓋全技術(shù)棧的開發(fā)者賦能體系,并成為中國開發(fā)者生態(tài)最活躍、技術(shù)迭代最迅猛的 AI 創(chuàng)新平臺,在使能 AI 開發(fā)效率和性能方面始終保持業(yè)界前列。

我們發(fā)現(xiàn),昇騰 CANN 的進(jìn)化始終錨定更深層的技術(shù)突破。從大模型爆發(fā)初期沉淀底層能力,到分層開放助力千行百業(yè)敏捷創(chuàng)新,再到扎根底層的技術(shù)創(chuàng)新,這條從能用到易用、好用的深度開放之路并不是一蹴而就的。

深度開放,CANN 的三層解耦戰(zhàn)略

隨著開發(fā)者的開發(fā)方式逐漸從上層軟件走向底層硬件,昇騰 CANN 的開放深度和開放策略也持續(xù)演進(jìn),構(gòu)建起了覆蓋算子開發(fā)、系統(tǒng)調(diào)優(yōu)到編譯鏈優(yōu)化的全場景賦能體系。

過去,開發(fā)者往往受限于框架接口,難以直接干預(yù)硬件底層的精細(xì)調(diào)度。如今,得益于 CANN 深度開放,開發(fā)者既可以快速集成預(yù)置模塊完成敏捷交付,也可以直接調(diào)用最底層資源,靈活組合原子功能實(shí)現(xiàn)極致性能調(diào)優(yōu)。這意味著開發(fā)者已能夠在性能與效率之間實(shí)現(xiàn)自由平衡。

具體來看,針對不同技術(shù)層級的開發(fā)者,昇騰 CANN 推出了差異化開放策略。

算法創(chuàng)新層,昇騰 CANN 在 Gitee 社區(qū)開源了包括 FlashAttention、Matmul 在內(nèi)的260多個(gè)高性能算子及10余種 MESH/RING 通信算法的最佳實(shí)踐代碼庫,并提供了80多個(gè)高階API,開發(fā)者可基于業(yè)務(wù)場景直接調(diào)用預(yù)置算子庫或自定義優(yōu)化已有算子及通信策略,顯著縮短開發(fā)周期。

同時(shí)在系統(tǒng)優(yōu)化層,昇騰 CANN 也向開發(fā)者開放了190多個(gè) Runtime 底層接口,支持開發(fā)者像拼裝樂高積木一樣靈活組合原子級能力,充分釋放昇騰硬件性能潛力。

編譯生態(tài)層,通過開放畢昇編譯器的 AscendNPU IR 接口,屏蔽硬件差異,底層硬件能力被高度抽象化,無感對接 Triton、FlagTree 等編程框架,開發(fā)者可直接使用 Python 語法編寫高性能算子。

全棧使能,核心突破加速產(chǎn)業(yè)創(chuàng)新

計(jì)算架構(gòu)的核心使命,在于打通硬件性能釋放、軟件高效運(yùn)行與生態(tài)協(xié)同繁榮的技術(shù)閉環(huán)。除了分層開放帶來的性能與效率的提升,昇騰 CANN 在計(jì)算、通信、內(nèi)存三大維度也取得了核心技術(shù)的突破性進(jìn)展。

計(jì)算加速層面,針對 MoE 大模型訓(xùn)練場景的"卡脖子"難題,昇騰 CANN 推出了超級算子 MLAPO,通過將數(shù)個(gè)小算子融合,對 Vector 與 Cube 計(jì)算單元的并行化改造,成功將 MLA 前處理耗時(shí)從行業(yè)平均109us壓縮至45us,在金融風(fēng)控模型、廣告推薦系統(tǒng)等業(yè)務(wù)實(shí)踐中實(shí)現(xiàn)了20%以上端到端的性能提升,打破了 Transformer 架構(gòu)的算力瓶頸。

通信加速層面,傳統(tǒng) RDMA 通信一次消息的傳輸需要三次同步,涉及到至少七次讀寫校驗(yàn)核算過程,嚴(yán)重影響通信效率。昇騰 CANN 打造的 NPUDirect 通信算法可實(shí)現(xiàn)一個(gè)消息一次同步,端到端通信耗時(shí)降低了50%,大幅降低了推理時(shí)延。

內(nèi)存優(yōu)化層面,面對動態(tài) shape 場景帶來的內(nèi)存碎片化挑戰(zhàn),昇騰 CANN 的多重地址映射技術(shù)能夠自動拼接利用內(nèi)存碎片,顯著提升內(nèi)存利用率。這項(xiàng)技術(shù)目前已在商品搜索、短視頻推薦等業(yè)務(wù)場景中,成功將內(nèi)存利用率提升20%以上,并實(shí)現(xiàn)了單卡并發(fā)請求量的行業(yè)級突破。

實(shí)踐證明,架構(gòu)開放的深度決定了技術(shù)的高度。昇騰 CANN 通過算法、系統(tǒng)、編譯三層深度解耦開放,賦予開發(fā)者直達(dá)硬件底層的能力,并以此為基礎(chǔ)在計(jì)算、通信、內(nèi)存三大核心領(lǐng)域?qū)崿F(xiàn)單點(diǎn)性能的指數(shù)級提升,同時(shí)構(gòu)建起"芯片級優(yōu)化-系統(tǒng)級調(diào)度-集群級協(xié)同"的全棧能力,開啟 AI 算力技術(shù)"原子級精準(zhǔn)調(diào)優(yōu)"的新紀(jì)元。

時(shí)間永遠(yuǎn)站在行動者這邊。六年來,昇騰 CANN 深度開放策略的推進(jìn),驅(qū)動著技術(shù)突破與生態(tài)繁榮相互成就。無論是華南理工大學(xué)團(tuán)隊(duì)利用全新發(fā)布的 CATLASS 算子模板庫開發(fā) Matmul 算子,將開發(fā)周期從傳統(tǒng)4人周壓縮至2人周,還是科大訊飛星火大模型借 NPUDirect 通信算法,使跨機(jī)通信時(shí)延驟降90%,可以確定的是,越來越多的創(chuàng)新者正從中受益。

如今,昇騰 CANN 算子認(rèn)證開發(fā)者已突破6000人,攜手互聯(lián)網(wǎng)、運(yùn)營商、金融等30余個(gè)領(lǐng)域伙伴聯(lián)合開發(fā)核心算子超過260個(gè)。此外,昇騰還獲得了 Pytorch、vLLM 等主流社區(qū)的主動支持,一個(gè)根植于昇騰的開放 AI 大生態(tài)已蔚然成型。

開放層級的下探,正在重構(gòu) AI 創(chuàng)新效率的基線。伴隨模型迭代的急速演進(jìn)與異構(gòu)算力的協(xié)同瓶頸,解鎖硬件潛能的焦點(diǎn)已無爭議地轉(zhuǎn)向底層能力開放的更深處。這不僅是效率躍升的技術(shù)路徑,更是產(chǎn)業(yè)創(chuàng)新的核心范式??梢钥吹?,當(dāng)深度開放在算力底層扎下根系,創(chuàng)新應(yīng)用的規(guī)模化落地浪潮已勢不可擋。

來源:思否編輯部

責(zé)任編輯:張誠
相關(guān)推薦

2025-07-01 16:04:52

2025-05-28 11:58:29

2025-06-18 13:29:42

昇騰CANN

2024-07-18 19:19:14

2020-08-12 18:29:25

昇騰

2022-11-11 15:47:00

昇騰AI

2022-10-18 11:37:03

鯤鵬

2023-06-19 13:27:46

昇騰AI

2020-08-18 10:17:48

昇騰上海技術(shù)開放日

2023-10-17 19:37:34

昇騰

2023-02-22 16:11:41

昇騰

2022-11-18 11:20:40

昇騰AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號