華為重磅亮相 KubeCon China 2025:驅(qū)動(dòng)云原生向AI原生技術(shù)融合躍遷
6月10日-11日,由云原生計(jì)算基金會(huì)(CNCF)和Linux基金會(huì)聯(lián)合主辦的KubeCon+CloudNativeCon China 2025,在中國(guó)香港盛大召開(kāi)。作為全球云原生與開(kāi)源頂級(jí)會(huì)議,大會(huì)匯聚了來(lái)自全球的開(kāi)源開(kāi)發(fā)者、技術(shù)領(lǐng)袖、企業(yè)代表及終端用戶,深度探討云原生與AI融合的最新進(jìn)展與未來(lái)趨勢(shì),共同見(jiàn)證了這一技術(shù)盛宴。
作為全球云原生技術(shù)與開(kāi)源生態(tài)建設(shè)的先鋒,華為攜10多位大咖和技術(shù)專(zhuān)家深度參與本次大會(huì),帶來(lái)了3場(chǎng)Keynote 主題演講及10多個(gè)技術(shù)分會(huì)場(chǎng)的分享,全方位展現(xiàn)了在云原生與 AI 融合領(lǐng)域的突破性成果。
開(kāi)源生態(tài)引領(lǐng)AI時(shí)代技術(shù)躍遷
開(kāi)源作為加速創(chuàng)新協(xié)同的重要范式,匯聚全球智慧、縮短創(chuàng)新周期、催化更多創(chuàng)新應(yīng)用落地,也為下一輪技術(shù)革命創(chuàng)造指數(shù)級(jí)價(jià)值。
會(huì)上,華為首席開(kāi)源聯(lián)絡(luò)官、CNCF基金會(huì)董事任旭東帶來(lái)《Towards Clouds of AI Clusters》的Keynote主題演講,分享了AI時(shí)代的算力集群技術(shù)演進(jìn)趨勢(shì),華為在異構(gòu)集群管理、超大規(guī)模集群調(diào)度、云邊協(xié)同AI等領(lǐng)域的應(yīng)用實(shí)踐等。
任旭東表示,當(dāng)前企業(yè)在管理AI工作負(fù)載時(shí),仍面臨嚴(yán)峻挑戰(zhàn),尤其是在大模型訓(xùn)練、推理中對(duì)算力規(guī)模和集群協(xié)同的極高要求。集群并行計(jì)算提升算力規(guī)模將是企業(yè)突破算力瓶頸、實(shí)現(xiàn)大模型落地的必由之路。
為響應(yīng)上述需求,華為從硬件驅(qū)動(dòng)到集群資源調(diào)度實(shí)現(xiàn)算力設(shè)備的統(tǒng)一管理,支持HyperNode與多集群拓?fù)涓兄{(diào)度,并對(duì)PyTorch/TensorFlow/MindSpore等主流框架、大語(yǔ)言模型(LLMs)及智能體開(kāi)發(fā)場(chǎng)景提供統(tǒng)一支持的全棧開(kāi)源基礎(chǔ)設(shè)施解決方案。
“通過(guò)openEuler、Volcano、Karmada、KubeEdge、openFuyao五大項(xiàng)目,華為實(shí)現(xiàn)了從操作系統(tǒng)到平臺(tái)層的全棧開(kāi)源打通與落地,幫助企業(yè)實(shí)現(xiàn)AI集群內(nèi)優(yōu)化、跨集群協(xié)同和云邊協(xié)同,從而破解人工智能發(fā)展算力基礎(chǔ)設(shè)施上面臨的困局?!?/span>
Volcano+Karmada驅(qū)動(dòng)
B站億級(jí)月活云原生AI調(diào)度躍遷
華為云云原生開(kāi)源負(fù)責(zé)人,CNCF技術(shù)監(jiān)督委員會(huì)副主席王澤鋒聯(lián)合BiliBili資深開(kāi)發(fā)工程師許龍,發(fā)表《Bilibili構(gòu)建高效云原生AI平臺(tái)的實(shí)踐之路》的Keynote主題演講,深入探討視頻網(wǎng)站人工智能工作負(fù)載調(diào)度優(yōu)化路徑。
Bilibili 擁有上億月活用戶,圍繞視頻業(yè)務(wù)覆蓋搜索推薦、圖像處理、視頻編解碼等多種應(yīng)用場(chǎng)景。在 AI 技術(shù)深度滲透視頻處理、模型訓(xùn)練等場(chǎng)景的當(dāng)下,B站面對(duì)負(fù)載多樣性、多集群管理等算力挑戰(zhàn),構(gòu)建了以 Volcano 和 Karmada 為核心的調(diào)度框架:?jiǎn)渭簜?cè)通過(guò) Volcano 實(shí)現(xiàn) Workload 統(tǒng)一調(diào)度,引入等價(jià)類(lèi)調(diào)度與 JobSet 對(duì)象優(yōu)化性能;多集群層用 Karmada 支撐在線任務(wù)聯(lián)邦調(diào)度,自研輕量系統(tǒng)解決離線高吞吐需求。結(jié)合 GPU 共享調(diào)度、編解碼混合等三種模式,在提升資源利用率的同時(shí),為 B站 AI 應(yīng)用落地提供了高效的云原生算力支撐。
Volcano 助力科大訊飛實(shí)現(xiàn)AI基礎(chǔ)設(shè)施突破,
贏得 CNCF 最終用戶案例
會(huì)上,華為云云原生團(tuán)隊(duì)高級(jí)工程師常旭征聯(lián)合科大訊飛平臺(tái)架構(gòu)師董江,發(fā)表《Scaling Model Training with Volcano: iFlytek's Kubernetes Breakthrough》的Keynote主題演講,分享基于Volcano的云原生 AI 訓(xùn)練資源調(diào)度優(yōu)化方案。
科大訊飛在大規(guī)模模型訓(xùn)練中借助 Volcano 實(shí)現(xiàn)關(guān)鍵突破:通過(guò)構(gòu)建基于 Volcano 的統(tǒng)一計(jì)算平臺(tái),集成 AirFlow / Spark 等傳統(tǒng)任務(wù)框架,以隊(duì)列機(jī)制解決多租戶資源公平分配問(wèn)題,同時(shí)運(yùn)用 Gang 調(diào)度、Binpack 算法及拓?fù)涓兄呗裕瑢?nbsp;GPU 利用率提升 40% 以上,故障恢復(fù)時(shí)間縮短 70%,資源干擾率降低 50%,保障業(yè)務(wù)穩(wěn)定性和資源使用靈活性。
Volcano 是華為云發(fā)起開(kāi)源的業(yè)界首個(gè)云原生批量計(jì)算引擎,也是 CNCF 首個(gè)批量計(jì)算項(xiàng)目,主要用于 AI、大數(shù)據(jù)、基因、渲染等諸多高性能計(jì)算場(chǎng)景,能力涵蓋隊(duì)列與資源管理、統(tǒng)一作業(yè) API、多樣化調(diào)度策略、在離線混部、GPU 虛擬化、異構(gòu)算力支持及性能優(yōu)化等關(guān)鍵領(lǐng)域。針對(duì)當(dāng)前大規(guī)模AI集群的性能問(wèn)題,Volcano 新增基于 HyperNode 的網(wǎng)絡(luò)拓?fù)涓兄{(diào)度策略,大幅提升人工智能訓(xùn)練和推理效率。
Cloud Native for AI:
多領(lǐng)域技術(shù)創(chuàng)新使能產(chǎn)業(yè)升級(jí)
Karmada:破解AI任務(wù)部署多集群編排難題,支撐大規(guī)模數(shù)據(jù)平臺(tái)的彈性與可靠性
Karmada 作為云原生多云多集群管理引擎?zhèn)涫苡脩襞c開(kāi)發(fā)者歡迎。來(lái)自華為云的Karmada 社區(qū) Maintainer 任洪彩,圍繞 Karmada 的技術(shù)更新、核心特性、實(shí)際應(yīng)用案例及社區(qū)生態(tài),講解了近期版本中備受關(guān)注的應(yīng)用跨集群滾動(dòng)更新,有狀態(tài)應(yīng)用故障遷移,優(yōu)先級(jí)調(diào)度機(jī)制,Dashboard,聯(lián)邦資源配額等特性。
同時(shí),華為云技術(shù)團(tuán)隊(duì)也與Bloomberg 進(jìn)行了社區(qū)合作交流。Bloomberg 分享了其利用 Karmada 構(gòu)建彈性數(shù)據(jù)分析平臺(tái)的實(shí)踐經(jīng)驗(yàn),展示了 Karmada 在多集群管理場(chǎng)景下的優(yōu)勢(shì)性能。通過(guò)功能迭代和生態(tài)擴(kuò)展,Karmada 解決了企業(yè)在跨集群管理中的核心挑戰(zhàn),Bloomberg 等企業(yè)的實(shí)踐證明,Karmada 能夠有效支撐大規(guī)模數(shù)據(jù)平臺(tái)的彈性與可靠性需求,未來(lái)在 AI 訓(xùn)練、邊緣計(jì)算等場(chǎng)景的拓展值得期待。
KubeEdge賦能多領(lǐng)域、多場(chǎng)景邊云協(xié)同AI智算
來(lái)自華為云云原生團(tuán)隊(duì)的KubeEdge社區(qū)Maintainer鮑玥,攜手社區(qū)伙伴,帶來(lái)4場(chǎng)云原生邊緣計(jì)算技術(shù)演講,議題涵蓋KubeEdge大規(guī)模實(shí)現(xiàn)、落地案例分享以及社區(qū)治理工作等多個(gè)方向。在 “KubeEdge社區(qū)新特性解讀及多元場(chǎng)景案例” 、“使用混沌工程構(gòu)建超大規(guī)模云原生邊緣系統(tǒng)” 、“KubeEdge 深度探索:架構(gòu)、用例和項(xiàng)目畢業(yè)動(dòng)態(tài)” 系列議題中,KubeEdge分享了社區(qū)在智慧物流、機(jī)器人編排等領(lǐng)域的行業(yè)案例,介紹了項(xiàng)目在邊緣場(chǎng)景中發(fā)揮的統(tǒng)一化管理、邊緣自愈、實(shí)時(shí)性等優(yōu)勢(shì),同時(shí)也帶來(lái)了社區(qū)最新的新特性,包括支持批量邊緣節(jié)點(diǎn)管理,全新DashBoard,子項(xiàng)目Sedna支持HPA等,以及在支持大規(guī)模場(chǎng)景的探索實(shí)踐。
作為CNCF 首個(gè)云原生邊緣計(jì)算畢業(yè)級(jí)項(xiàng)目,KubeEdge 的畢業(yè)旅程備受關(guān)注,在“ KubeEdge畢業(yè)探索:從零開(kāi)始構(gòu)建多元化、協(xié)作型開(kāi)源社區(qū)”圓桌中,KubeEdge TSC 等技術(shù)專(zhuān)家, 共同向參會(huì)者分享總結(jié)了 KubeEdge 在社區(qū)發(fā)展與畢業(yè)歷程中所做的工作,從技術(shù)成熟度、采用率、社區(qū)多樣化、中立性等多個(gè)角度探討社區(qū)健康發(fā)展的關(guān)鍵要素,并對(duì) KubeEdge 畢業(yè)后的工作進(jìn)行了規(guī)劃與展望。
Kmesh:內(nèi)核級(jí)流量治理引擎, 高效應(yīng)對(duì)大規(guī)模流量應(yīng)用需求
Kmesh是集高性能、低開(kāi)銷(xiāo)及安全可靠于一身的內(nèi)核級(jí)云原生流量治理引擎。本次大會(huì)上,來(lái)自華為云的 Kmesh 社區(qū)技術(shù)專(zhuān)家徐中虎一行,在 4 場(chǎng)議題演講中分享,涵蓋 Service Mesh 高性能、低底噪、安全性,易用性方面的探討。本著輕量、易用、應(yīng)用無(wú)侵入的設(shè)計(jì)原則,Kmesh 使用 eBPF 將 Service Mesh 徹底革命,推出業(yè)界極具競(jìng)爭(zhēng)力的 Sidecarless 方案,在性能和可靠性上遙遙領(lǐng)先。
Kmesh 從高性能、低開(kāi)銷(xiāo)技術(shù)愿景出發(fā),借助kfunc,內(nèi)核原生模式將流量治理能力完全下沉到 Kernel Space。同時(shí),為解決 Service Mesh 重啟升級(jí)影響用戶業(yè)務(wù)穩(wěn)定性的問(wèn)題,Kmesh 用 eBPF prog 和 BPF Map 與 Kmesh Daemon 運(yùn)行進(jìn)程分離的方式,實(shí)現(xiàn)重啟升級(jí)不影響業(yè)務(wù)已有連接,減少了Service Mesh 對(duì)業(yè)務(wù)穩(wěn)定性的影響。Kmesh 創(chuàng)新性地利用 Linux 內(nèi)核的 XDP 技術(shù),在網(wǎng)絡(luò)包進(jìn)入內(nèi)核協(xié)議棧之前就進(jìn)行快速處理,極大地降低了時(shí)延,提高了吞吐,克服了在處理大規(guī)模流量時(shí),用戶態(tài)鑒權(quán)存在的瓶頸,實(shí)現(xiàn)了服務(wù)間極致的鑒權(quán)性能。
openGemini:高性能時(shí)序數(shù)據(jù)庫(kù),降低企業(yè)業(yè)務(wù)成本
openGemini 是一款高性能時(shí)序數(shù)據(jù)庫(kù),主要面向物聯(lián)網(wǎng),車(chē)聯(lián)網(wǎng)和運(yùn)維監(jiān)控等場(chǎng)景,為用戶提供海量時(shí)序數(shù)據(jù)的高效存儲(chǔ)和查詢。openGemini 目前已經(jīng)在能源、電力、航空航天、devops、物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、礦山、大宗物流等 9 大領(lǐng)域應(yīng)用落地。本屆 KubeCon China,openGemini 正式以 CNCF Sandbox 項(xiàng)目的身份參與。
會(huì)上,來(lái)自華為云的openGemini 社區(qū) Maintainer 向宇,向與會(huì)者介紹了openGemini 技術(shù)特性與未來(lái)規(guī)劃,并重點(diǎn)介紹了數(shù)據(jù)多副本及流式計(jì)算兩個(gè)重要新特性,多副本可滿足多數(shù)業(yè)務(wù)對(duì)數(shù)據(jù)可靠性的需求,同時(shí)社區(qū)將流式計(jì)算融入內(nèi)核,簡(jiǎn)化業(yè)務(wù)架構(gòu),降低業(yè)務(wù)成本。
openFuyao:為世界提供多樣化算力集群軟件生態(tài)
openFuyao架構(gòu)師姚曉忠帶來(lái)“構(gòu)建計(jì)算親和性云原生生態(tài)系統(tǒng)”主題演講,他表示, 在“云原生+AI”的新范式時(shí)代,面臨軟件生態(tài)適配不足、AI負(fù)載特性復(fù)雜、軟件工程復(fù)雜度提升等技術(shù)挑戰(zhàn)。為此,openFuyao打造多樣化算力互聯(lián)的集群管理與調(diào)度體系,促進(jìn)AI和大數(shù)據(jù)場(chǎng)景有效算力的高效釋放,構(gòu)筑算力親和的高性能應(yīng)用生態(tài)社區(qū),為開(kāi)發(fā)者和伙伴提供創(chuàng)新解決方案。會(huì)上同步介紹了首批開(kāi)源的五大集群調(diào)度能力及兩類(lèi)面向常用場(chǎng)景的參考實(shí)現(xiàn),并在現(xiàn)場(chǎng)同與會(huì)專(zhuān)家熱烈討論如何通過(guò)openFuyao來(lái)構(gòu)建具有高效計(jì)算集群管理能力的云原生系統(tǒng)。
AI-Native創(chuàng)新,加速全球智能化
除了以上提到的主題分享之外,華為展區(qū)更是引來(lái)眾多參會(huì)者駐足交流。華為云講解專(zhuān)家向與會(huì)者展示了AI-Native的云原生基礎(chǔ)設(shè)施,包括 UCS,CCI,CCE Autopilot,CCE Turbo 等多個(gè)行業(yè)級(jí)云原生代表產(chǎn)品,并介紹了在 KubeEdge、Volcano、Karmada、Kuasar、openGemini、Kmesh 等業(yè)界首創(chuàng)開(kāi)源項(xiàng)目中的技術(shù)創(chuàng)新成果。
openFuyao攜“云原生+AI”產(chǎn)業(yè)融合硬核方案驚艷亮相,吸引開(kāi)發(fā)者駐足交流,共探落地實(shí)踐場(chǎng)景。
展區(qū)還展示了華為圍繞鯤鵬、昇騰所構(gòu)建的全棧生態(tài)和最新進(jìn)展,通過(guò)發(fā)起包括服務(wù)器操作系統(tǒng)openEuler、企業(yè)級(jí)開(kāi)源數(shù)據(jù)庫(kù)openGauss、AI框架昇思MindSpore、昇騰AI算力底座CANN等在內(nèi)的開(kāi)源社區(qū)和項(xiàng)目為世界提供第二選擇。同時(shí)積極參與主流上游開(kāi)源社區(qū)的鯤鵬、昇騰使能和優(yōu)化,已經(jīng)實(shí)現(xiàn)了覆蓋從底層硬件、操作系統(tǒng)、數(shù)據(jù)庫(kù)到AI框架的全棧能力,通過(guò)軟硬協(xié)同、多元硬件生態(tài)及云原生技術(shù)整合,以規(guī)?;涞爻晒麨锳I原生時(shí)代提供了堅(jiān)實(shí)的“算力+生態(tài)”一體化基礎(chǔ)設(shè)施藍(lán)圖。
未來(lái),華為將繼續(xù)與全球企業(yè)和開(kāi)發(fā)者攜手,通過(guò)開(kāi)源匯聚全球智慧,共同應(yīng)對(duì)當(dāng)前的挑戰(zhàn),推動(dòng)AI和云原生技術(shù)的創(chuàng)新與應(yīng)用,為千行萬(wàn)業(yè)智能化轉(zhuǎn)型、為構(gòu)建全球智能化未來(lái),貢獻(xiàn)力量!