大模型時(shí)代,九章云極DataCanvas點(diǎn)亮五座“燈塔”?
原創(chuàng)“計(jì)算”是貫穿人類(lèi)文明史的一大主題。
早在茹毛飲血的原始社會(huì),先民們就開(kāi)始結(jié)繩記事;進(jìn)入20世紀(jì),世界上首臺(tái)數(shù)字式電子計(jì)算機(jī)ENIAC誕生,標(biāo)志著人類(lèi)算力正式跨越閾限;隨后半導(dǎo)體技術(shù)出現(xiàn),芯片成為了算力的主要載體;科技巨輪駛?cè)?1世紀(jì),云計(jì)算的發(fā)展再度為算力迎來(lái)巨變。
如今當(dāng)我們習(xí)慣算力云化后,大模型的崛起又帶來(lái)變數(shù),各色生成式AI應(yīng)用落地,各地智算中心拔地而起,新一輪底層算力變革正式啟幕。
眾所周知,底層計(jì)算歷來(lái)都是軟硬件適配協(xié)同的結(jié)果。一方面,計(jì)算需求的演進(jìn),催生了硬件形態(tài)與功能的變革,另一方面,以操作系統(tǒng)為代表的軟件作為中樞神經(jīng),橋接著底層硬件與上層應(yīng)用。
在此背景下,人工智能基礎(chǔ)軟件供應(yīng)商九章云極DataCanvas于日前發(fā)布了DATACANVAS AIDC OS智算操作系統(tǒng)。這個(gè)團(tuán)隊(duì)從智算操作系統(tǒng)入手,為算力的效能瓶頸求得一個(gè)新解。
迷失:算力利用率的困局
在大模型的狂飆突進(jìn)中,算力需求的爆發(fā)式增長(zhǎng)只是故事的開(kāi)始。
在企業(yè)千帆競(jìng)發(fā),掘金AI新大陸之前,無(wú)法忽視的是橫亙眼前的巨大鴻溝。這種“鴻溝”不僅表現(xiàn)在算力供需兩端的矛盾上,還表現(xiàn)在算力利用率上。公開(kāi)數(shù)據(jù)顯示,目前整體算力利用率不足30%。
一方面,面對(duì)算力需求缺口,計(jì)算資源捉襟見(jiàn)肘;另一方面,現(xiàn)實(shí)中卻普遍存在大量算力資源未得到有效利用,以致被閑置和浪費(fèi)的現(xiàn)象。
落實(shí)到智算中心的籌建中,這也是無(wú)法回避的問(wèn)題。
下游算力需求的集中爆發(fā),催生了智算中心的建設(shè)熱潮。相比傳統(tǒng)IDC,智算中心的設(shè)計(jì)理念有著鮮明的差異:其一,在內(nèi)部,GPU取代CPU成為主角,高速連接的 GPU 構(gòu)成了新的計(jì)算中心;其二,就功能定位來(lái)說(shuō),其工作載荷高度聚焦,即大模型的訓(xùn)練、調(diào)優(yōu)和推理。換言之,大模型反向驅(qū)動(dòng)底層的資源管理。
從這個(gè)意義上說(shuō),智算中心可以被視為“模型的算力工廠”。
可是在智算中心的建設(shè)過(guò)程中,依舊面臨重重困難。九章云極DataCanvas聯(lián)合創(chuàng)始人&CTO尚明棟在接受采訪時(shí),強(qiáng)調(diào)了兩個(gè)不可回避的問(wèn)題:一是高額的成本;二是穩(wěn)定性的挑戰(zhàn)。
他提到:以構(gòu)建1000P算力的智算中心為例,包括硬件、能源在內(nèi),總成本可能高達(dá)5.5億,其中硬件成本占比約80%,而能源成本每年約合1000到1500萬(wàn)(根據(jù)不同地區(qū)的電力計(jì)價(jià)水平)。如此高昂的投入如何獲得穩(wěn)定持續(xù)的收入是必須思考的議題。
與此同時(shí),隨著算力集群規(guī)模的增大,整個(gè)算力集群的穩(wěn)定性也越來(lái)越難以保障,因此,其效率也始終低于常規(guī)默認(rèn)的基準(zhǔn)。
要解決這些問(wèn)題,提升算力利用率是當(dāng)務(wù)之急。九章云極DataCanvas為之找到的突破口就是——智算操作系統(tǒng)。
尋路:操作系統(tǒng)躍遷的轉(zhuǎn)機(jī)
提到操作系統(tǒng),大家可能會(huì)想到 Windows、Linux、macOS等等。但到了大模型時(shí)代,當(dāng)?shù)讓佑布軜?gòu)從 以CPU為核心 變成以 GPU 為核心時(shí),當(dāng)大規(guī)模、高性能的 AI 計(jì)算任務(wù)逐漸成為剛需時(shí),新一代操作系統(tǒng)的誕生成為必然。
相較傳統(tǒng)操作系統(tǒng),智算操作系統(tǒng)可以說(shuō)是專(zhuān)門(mén)為適應(yīng)AI時(shí)代計(jì)算需求而設(shè)計(jì)的操作系統(tǒng),它在硬件支持、資源調(diào)度、AI服務(wù)集成等方面進(jìn)行了深度優(yōu)化和革新,旨在為用戶提供一個(gè)高效、易用、智能的平臺(tái)。
圍繞DATACANVAS AIDC OS智算操作系統(tǒng),尚明棟介紹了其整體的設(shè)計(jì)思路:
“智算中心操作系統(tǒng)的定位是管理好硬件和軟件的協(xié)同,能夠使GPU發(fā)揮出最大的算力。所以,在智算中心的操作系統(tǒng)里,需要協(xié)調(diào)上層和下層的生態(tài),下層面向智算基礎(chǔ)資源,能夠去協(xié)調(diào)高速算力、存儲(chǔ)和網(wǎng)絡(luò),上層需要面對(duì)智算中心使用群體提供完整的大模型工具鏈。”
可說(shuō),在智算中心內(nèi)部,AIDC OS 扮演了一個(gè)“頂天立地”的角色:上接大模型應(yīng)用,下管萬(wàn)卡集群,是智算中心進(jìn)行運(yùn)營(yíng)和管理的基礎(chǔ)。如果把目光調(diào)整至外部,就會(huì)發(fā)現(xiàn)AIDC OS也是一個(gè)開(kāi)放的生態(tài)。
“不僅可以在系統(tǒng)之上像九章云極DataCanvas開(kāi)源的Alaya一樣,預(yù)訓(xùn)練一個(gè)7B、13B、35B的大模型,同時(shí)也可以開(kāi)放兼容其他開(kāi)源大模型的微調(diào)和統(tǒng)一的模型納管?!?/span>
而對(duì)九章云極DataCanvas的研發(fā)團(tuán)隊(duì)來(lái)說(shuō),打造 AIDC OS 是為了更好地利用算力,因此他們有著清晰的目標(biāo)。
尚明棟對(duì)此做了進(jìn)一步說(shuō)明:
首先,降低用戶使用門(mén)檻。因?yàn)橹撬阒行暮诵氖敲嫦蚰P停?/span>軟件供應(yīng)商提供模型全生命周期的所有能力,通過(guò)軟件方式,能夠讓用戶無(wú)縫無(wú)感地將智算算力使用起來(lái)。
再者,能夠持續(xù)地降低成本,提升算力的有效性。通過(guò)提高整個(gè)智算中心運(yùn)維的穩(wěn)定性,以及硬件的使用效率,最終達(dá)成降低智算中心的使用成本的目的。
至此,一幅在算力新紀(jì)元中乘風(fēng)破浪的理想藍(lán)圖已然徐徐鋪開(kāi):以智算操作系統(tǒng)為橋梁,持續(xù)優(yōu)化算力資源配置,加速千行百業(yè)落地大模型的進(jìn)程,增強(qiáng)其為產(chǎn)業(yè)創(chuàng)造的價(jià)值與經(jīng)濟(jì)效益。那么九章云極要如何做到呢?
點(diǎn)燈:五大價(jià)值內(nèi)核的聚力
在求索之路上,九章云極持續(xù)打磨 AIDC OS的功能和性能,最終提煉出五大價(jià)值內(nèi)核,宛如在算力利用的困局中點(diǎn)亮了五座燈塔,照亮了算力飛躍的新航路。
尚明棟對(duì)這五大核心價(jià)值,進(jìn)行了逐一說(shuō)明。
告別“裸金屬”:紓解算力調(diào)度能力不足且利用率低的癥結(jié)
裸金屬服務(wù)器通??梢蕴峁┫鄬?duì)更安全的物理隔離,而且由于沒(méi)有虛擬化層的介入,它能避免虛擬化技術(shù)帶來(lái)的額外性能損耗,提供更接近硬件性能的計(jì)算能力。
而九章云極DataCanvas在這里提出的“告別裸金屬”,是希望能在裸金屬之上提供新的價(jià)值。更確切地說(shuō),是提升智算中心資產(chǎn)的附加值,將運(yùn)營(yíng)方的運(yùn)營(yíng)和運(yùn)維的能力從裸算力設(shè)備提升到AI大模型運(yùn)維和服務(wù)能力的輸出上。
尚明棟介紹:我們的AIDC OS通過(guò)對(duì)資源的協(xié)同管理和彈性調(diào)度,旨在最大限度提升效率。如何實(shí)現(xiàn)效率最大化?其策略關(guān)鍵在于采取更小粒度的調(diào)度和管理,而不是按照整機(jī)或整卡的固定分配模式。如此一來(lái),就可以更加靈活地去分享內(nèi)存資源,更高效地利用計(jì)算單元,確保對(duì)各類(lèi)硬件資源進(jìn)行充分且合理的調(diào)度,從而達(dá)到對(duì)更多計(jì)算資源進(jìn)行高效利用的目的。
為AI而生:降低AI大模型訓(xùn)練微調(diào)門(mén)檻
如前文所述,AIDC 區(qū)別于傳統(tǒng)的 IDC,不同的建設(shè)目的和驅(qū)動(dòng)機(jī)制也導(dǎo)致兩者的計(jì)算方式和資源管理方式截然不同。
傳統(tǒng) IDC 的主要計(jì)算單元是 CPU,而且一定面向的是多任務(wù),在此之上通過(guò)虛擬機(jī)的方式提供服務(wù),從而實(shí)現(xiàn)普算服務(wù),比如提供OA的服務(wù)、視頻直播服務(wù)、電商服務(wù)等等。
而 AIDC 的建設(shè)目的從來(lái)都只專(zhuān)注于人工智能核心任務(wù)。所以,AIDC OS從來(lái)不是傳統(tǒng)的云管平臺(tái)的平移,同樣GPU的高度異構(gòu)也需要更強(qiáng)的抽象和隔離能力。針對(duì)大模型的訓(xùn)練、微調(diào)、部署和推理等任務(wù),AIDC OS提供的是集“算力、數(shù)據(jù)、算法、調(diào)度”為一體的融合服務(wù)。
全局加速優(yōu)化:彌補(bǔ)AI加速優(yōu)化能力不足
算力的成本高昂,決定了對(duì)其加速優(yōu)化本質(zhì)上是對(duì)經(jīng)濟(jì)效益的精打細(xì)算。如果加速優(yōu)化策略能實(shí)現(xiàn)10%的效率提升,則意味著在大模型的訓(xùn)練過(guò)程中,將成功削減同等比例的成本支出。
尚明棟介紹,AIDC OS在加速性能上的顯著優(yōu)勢(shì)集中體現(xiàn)于推理端與訓(xùn)練端,而這背后蘊(yùn)含著九章云極DataCanvas研發(fā)團(tuán)隊(duì)在工程實(shí)踐中的深厚積累。
“舉個(gè)例子,通過(guò)內(nèi)核的優(yōu)化,可以將多個(gè)運(yùn)算融合到一個(gè)內(nèi)核中,從而減少內(nèi)核的調(diào)用次數(shù)和跨內(nèi)核訪問(wèn)主內(nèi)存的延遲。通過(guò)對(duì)Transformer的優(yōu)化內(nèi)核,可以充分利用內(nèi)存的帶寬,最大限度提升算力利用率,同時(shí)結(jié)合其他加速策略,包括編譯優(yōu)化并行加速、緩存優(yōu)化模型壓縮等等,可以使我們的推理速度提高4倍,同時(shí)將Token吞吐量提高到5倍?!?/span>
訓(xùn)練端的優(yōu)化同樣卓有成效?!巴ㄟ^(guò)通信加速,通過(guò)梯度壓縮算法,將通信量減少了2到3倍,整體的訓(xùn)練效率在保持原有精度的同時(shí),單卡利用率提升50%。結(jié)合內(nèi)存的優(yōu)化、數(shù)據(jù)的三級(jí)緩存、算法的加速等策略,集群訓(xùn)練效率上可以提升100%?!?/span>
異構(gòu)算力納管與調(diào)度:直擊異構(gòu)算力資源納管困難
在智算中心構(gòu)建過(guò)程中,異構(gòu)算力的出現(xiàn)是常態(tài)。如果是在不同的智算中心,那么通過(guò)高速網(wǎng)絡(luò)異構(gòu)的分散性會(huì)表現(xiàn)得更加突出。如何去調(diào)度和管理異構(gòu)算力是必須直面的一大痛點(diǎn)。
而AIDC OS能夠做到的,不僅是可以支持不同廠商芯片模型的轉(zhuǎn)化,同時(shí)也可以實(shí)現(xiàn)在混合專(zhuān)家模型里進(jìn)行混合訓(xùn)練的技術(shù)。
九章云極DataCanvas對(duì)此同樣擁有大量工程化的積累。借助拓?fù)涓兄{(diào)度與Affinity調(diào)度策略,AIDC OS能夠根據(jù)拓?fù)湮恢脤?shí)現(xiàn)算力資源的就近部署,從而精準(zhǔn)優(yōu)化算力效能與作業(yè)性能。除拓?fù)涓兄{(diào)度外,系統(tǒng)還支持優(yōu)先級(jí)調(diào)度、故障感知調(diào)度以及動(dòng)態(tài)平衡調(diào)度等多種調(diào)度機(jī)制,大幅提升算力資源的利用率。
1度算力:實(shí)現(xiàn)“買(mǎi)到即用到”的算力服務(wù)
這一核心理念的價(jià)值在于:九章云極DataCanvas從用戶視角出發(fā),首次提出了統(tǒng)一的算力服務(wù)計(jì)量單位“度”(DCU)。就像水、電一樣,算力也有了自己的衡量單位,這為標(biāo)準(zhǔn)化的算力計(jì)量計(jì)費(fèi)、以及未來(lái)算力資源的互聯(lián)互通打下了基石。
尚明棟強(qiáng)調(diào),1度算力并不單純是物理的衡量,它將所有硬件投入、運(yùn)營(yíng)管理、運(yùn)維管理和運(yùn)維投入變化囊括其中,實(shí)現(xiàn)可度量??闪炕乃懔?duì)于算力的使用者和廣大的企業(yè)來(lái)說(shuō),意味著可以真正實(shí)現(xiàn)“買(mǎi)到即用到”的算力服務(wù)。
他談到:在訓(xùn)練大模型的時(shí)候經(jīng)常會(huì)遇到這樣的問(wèn)題,由于前期經(jīng)驗(yàn)不足,團(tuán)隊(duì)并不精準(zhǔn)地知道到底需要多大規(guī)模的算力。同時(shí),在此過(guò)程中,即使部署了大規(guī)模集群算力,依然會(huì)因?yàn)楦鞣N原因讓模型訓(xùn)練中斷,比如數(shù)據(jù)問(wèn)題,比如程序bug。一旦中斷,這些算力就會(huì)被浪費(fèi)。
“所以我們?cè)诖颂岬降挠行懔χ傅氖?,?dāng)你使用的時(shí)候算力是在計(jì)價(jià)的,當(dāng)你沒(méi)有使用的時(shí)候,不會(huì)被計(jì)價(jià),我們最終的用戶買(mǎi)到的是真正有效的算力。同時(shí)我們運(yùn)營(yíng)商也可以獲得更高的單價(jià),隨著算網(wǎng)建設(shè)的發(fā)展,同樣1度算力度量的算力也會(huì)促進(jìn)我們算力的流通進(jìn)行公平的結(jié)算?!?/span>
遠(yuǎn)航:重構(gòu)計(jì)算,吾道不孤
僅從操作系統(tǒng)本身而言,生態(tài)的成功與否往往直接影響到其生存與繁榮。AIDC OS 同樣如此。而在智算中心的核心生態(tài)里,智算中心操作系統(tǒng)本身就處在承上啟下的關(guān)鍵連接位。如何不斷健全其生態(tài)構(gòu)建,是關(guān)乎長(zhǎng)遠(yuǎn)的發(fā)展要義。
尚明棟表示,九章云極DataCanvas希望與GPU廠商、大模型廠商、智能體廠商、行業(yè)客戶以及智算中心的建設(shè)者都成為朋友,廣結(jié)善緣、共建生態(tài)。
目前為止,AIDC OS已經(jīng)適配了中科、海光、N騰、天數(shù)智芯等主流GPU;另外,在大模型方面,除了九章云極DataCanvas自研的Alaya大模型之外,也可以支持一眾國(guó)內(nèi)的開(kāi)源大模型,在平臺(tái)上進(jìn)行模型的微調(diào)和統(tǒng)一納管。
站在又一次技術(shù)浪潮襲來(lái)的當(dāng)口,改變世界的能力可以被掌握在更多人手中。而要成為這場(chǎng)變革的舵手,不僅要有凌霄之志,更要有善利之懷,與志同道合者共繪智算新圖景。在駛向新大陸的征程里,革新之路,星漢燦爛;重構(gòu)計(jì)算,吾道不孤。