偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

OpenAI陷巨大算力荒，國(guó)內(nèi)大廠搶先破局！打破單芯片限制，算力效率提升33%

作者：新智元 2024-04-24 13:21:01

多模態(tài)Llama 3還未發(fā)布，已經(jīng)用在科幻中存在的AR眼鏡上了！不僅能為你搭配衣服，還能打視頻、實(shí)時(shí)翻譯，只要你能想到的，它全能實(shí)現(xiàn)。

國(guó)內(nèi)AI不行，是因?yàn)樾酒恍校?/span>

我們跟國(guó)外的差距，是因?yàn)楹陀ミ_(dá)芯片的差距過(guò)大？

最近，圈內(nèi)有許多這樣的論調(diào)。

其實(shí)深挖下去，就會(huì)發(fā)現(xiàn)事實(shí)完全不是這樣。即使是英偉達(dá)最先進(jìn)的芯片，依然無(wú)法滿足當(dāng)下人工智能在算力上的需求。

隨著模型參數(shù)量和數(shù)據(jù)量的增加，智慧不斷涌現(xiàn)，我們對(duì)更大集群的需求，也更加迫切。無(wú)論是國(guó)外，還是在國(guó)內(nèi)，大家離終點(diǎn)都很遙遠(yuǎn)。

算力≠芯片

如今，大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練現(xiàn)狀是這樣的。

新鮮出爐的8B和70B參數(shù)的Llama 3訓(xùn)練，需要24576塊H100組成的集群。

小扎曾透露截止今年底，Meta將建成由35萬(wàn)塊H100搭建的基礎(chǔ)設(shè)施

而據(jù)稱有1.8萬(wàn)億參數(shù)的GPT-4，是在10000-25000張A100上完成了訓(xùn)練。

圖片

爆火的Sora訓(xùn)練參數(shù)量可能僅有30億，爆料稱，估計(jì)使用了4200-10500塊H100訓(xùn)了1個(gè)月。

圖片

特斯拉FSD V12，則是在1000萬(wàn)個(gè)海量視頻片段進(jìn)行訓(xùn)練，需要用大概10000塊H100，耗資3億美元。

圖片

就連奧特曼最近在20VC的采訪中，提及了OpenAI目前增長(zhǎng)的「核心瓶頸」：

我們有世界上最優(yōu)秀的研究人員和研究文化。如果計(jì)算資源不足，將會(huì)拖慢我們的步伐。

一句話概括就是：給我算力！

然而，由于摩爾定律限制，從14nm到7nm再到5nm的制程進(jìn)步，所帶來(lái)的性能增益越來(lái)越有限。

我們需要有這樣一個(gè)認(rèn)知，即AI對(duì)算力的需求無(wú)窮盡，不能僅依靠AI芯片去滿足算力需求。

那該怎么辦？

瓶頸何解？

其實(shí)，英偉達(dá)在GTC 24大會(huì)上推出的由DGX GB200系統(tǒng)構(gòu)建的全新DGX SuperPOD，早已給出了答案。

通過(guò)在加速計(jì)算、網(wǎng)絡(luò)和軟件方面同時(shí)發(fā)力，新集群為萬(wàn)億參數(shù)模型的訓(xùn)練和推理，提供了穩(wěn)定的支持。

而且與上一代產(chǎn)品相比，新一代DGX SuperPOD架構(gòu)的網(wǎng)絡(luò)計(jì)算能力提升了4倍。

也就是說(shuō)，剛剛的問(wèn)題就迎刃而解了——通過(guò)更大的集群來(lái)突破算力的瓶頸。

然而，隨著集成的芯片越來(lái)越多，我們不得不應(yīng)對(duì)算法效率不高、計(jì)算資源不足、互聯(lián)帶寬受限等眾多技術(shù)挑戰(zhàn)。

圖片

計(jì)算資源不足

一方面，AI系統(tǒng)的性能主要源于GPU等加速器，因此需要其具備強(qiáng)大的異構(gòu)擴(kuò)展能力。

但是，傳統(tǒng)的計(jì)算機(jī)體系結(jié)構(gòu)將加速計(jì)算模塊作為CPU的配屬，通過(guò)PCI-e總線接入系統(tǒng)，只支持有限數(shù)量的異構(gòu)單元，限制了異構(gòu)加速器的擴(kuò)展性。

并且，同CPU的通信帶寬也十分有限。

互聯(lián)帶寬受限

另一方面，互聯(lián)成為了新的瓶頸。

AI集群早已從千卡、增長(zhǎng)到萬(wàn)卡、十萬(wàn)卡，節(jié)點(diǎn)間并行所產(chǎn)生的海量通信需求，嚴(yán)重挑戰(zhàn)了現(xiàn)有的互聯(lián)能力。

比如，剛剛提到的GPT-4集群有2.5萬(wàn)塊A100，而算力利用率（MFU）僅在32%到36%之間。

可見(jiàn)利用率非常之低，不過(guò)在當(dāng)前技術(shù)條件下，幾乎觸頂了。

圖片

文章地址：https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

部分原因是故障數(shù)量過(guò)多，需要從checkpoint重新啟動(dòng)訓(xùn)練。

如果OpenAI在云端使用A100的成本是1美元/h，那么僅這一次的訓(xùn)練，成本就會(huì)高達(dá)6300萬(wàn)美元。

算法效率不高

當(dāng)然，系統(tǒng)不是全部，AI訓(xùn)練是一個(gè)超級(jí)復(fù)雜的計(jì)算系統(tǒng)。

如果模型算法結(jié)構(gòu)與硬件結(jié)構(gòu)匹配不合理、并行化處理不科學(xué)等都會(huì)導(dǎo)致整個(gè)計(jì)算平臺(tái)的利用率偏低。

除此以外，機(jī)柜之間若想實(shí)現(xiàn)高速的互聯(lián)，不僅耗電，且散熱不夠的挑戰(zhàn)也需要面對(duì)。

總而言之，解決以上難題，我們需要?jiǎng)?chuàng)新：用系統(tǒng)性開(kāi)創(chuàng)思維去應(yīng)對(duì)AI的挑戰(zhàn)。

萬(wàn)卡集群

如今很多人都愛(ài)說(shuō)，AI產(chǎn)業(yè)的發(fā)展「缺芯少魂」，仿佛AI發(fā)展不起來(lái)，都是芯片制造業(yè)的責(zé)任。

但實(shí)際上呢？

稍微一分析就會(huì)知道，如今AI的算力設(shè)計(jì)已經(jīng)到了萬(wàn)卡級(jí)別，其中某一張卡的性能，并沒(méi)有決定性的作用。

對(duì)于動(dòng)輒千億、萬(wàn)億參數(shù)的大模型來(lái)說(shuō)，單機(jī)、單卡的效率不再那么重要了。這時(shí)要看的，是算力平臺(tái)的整體效率。

就拿GPT-3來(lái)說(shuō)，它的訓(xùn)練算法效率MFU只有21.3%，近79%的算力，都被浪費(fèi)掉了。

論文地址：https://arxiv.org/pdf/2204.02311.pdf

之所以有如此嚴(yán)重的浪費(fèi)，就是因?yàn)樵诖笠?guī)模計(jì)算中，單點(diǎn)效率很有限。因此算力再?gòu)?qiáng)都沒(méi)有用，接近80%的時(shí)間，都是在等。

為什么？一是由于互聯(lián)帶寬的限制，二是由于算法沒(méi)有考慮帶寬的優(yōu)化，導(dǎo)致效率奇低。

圖片

在這種情況下，系統(tǒng)的互聯(lián)優(yōu)化、高效組織協(xié)調(diào)、算法優(yōu)化，重要性也愈發(fā)凸顯。

硬件

為此，浪潮信息在去年發(fā)布了「融合架構(gòu)3.0」。

這是一個(gè)全新的大規(guī)模計(jì)算架構(gòu)，通過(guò)高速互聯(lián)總線，對(duì)計(jì)算存儲(chǔ)進(jìn)行了解耦。

圖片

當(dāng)GPU算力不足時(shí)，需要構(gòu)建一個(gè)GPU池，這樣一臺(tái)服務(wù)器可以對(duì)接不僅僅是8卡，可也以是16卡、32卡。

同時(shí)，用相對(duì)比較低的算力堆積也存在瓶頸，因?yàn)镃PU和GPU之間需要有個(gè)最佳的配比。

針對(duì)不同模型的類型、以及模型之間的交互量，有些GPU發(fā)揮的作用大一些，有些小一些。

通過(guò)高速的系統(tǒng)總線將多個(gè)節(jié)點(diǎn)連接，CPU、GPU、內(nèi)存全部基于池化去做，實(shí)現(xiàn)了融合架構(gòu)和算法模型之間的適配。

這種全新的架構(gòu)，不以芯片為核心的單機(jī)系統(tǒng)，而是以萬(wàn)卡集群為設(shè)計(jì)出發(fā)點(diǎn)、以系統(tǒng)為核心的架構(gòu)。

在未來(lái)，AI計(jì)算領(lǐng)域重要的創(chuàng)新點(diǎn)，就落在了如何發(fā)揮系統(tǒng)價(jià)值、提升系統(tǒng)效率上。

而這個(gè)系統(tǒng)里，接下來(lái)要解決的問(wèn)題，就是如何互聯(lián)。

互聯(lián)

顯然，從千卡走向萬(wàn)卡，系統(tǒng)集群之間的高速互聯(lián)變得愈加重要。

以往單一任務(wù)的AI工廠模式，早已不能滿足需求。

集群不僅僅是面向大模型訓(xùn)練，還需提供服務(wù)，正是AICloud模式所能解決的。

但過(guò)去面向超級(jí)計(jì)算的專用網(wǎng)絡(luò)，無(wú)法很好地支持多用戶、多任務(wù)、多租戶的靈活需求。

提升GPU與GPU之間的高速互聯(lián)，英偉達(dá)閉源NVLink網(wǎng)絡(luò)成為最典型的代表。

英偉達(dá)在DGX SuperPOD，利用了第五代NVLink鏈接，同時(shí)采用了Quantum-X800 InfiniBand網(wǎng)絡(luò)，可為系統(tǒng)中每個(gè)GPU提供高達(dá)每秒1800GB/s的帶寬。

可以看到，GPU點(diǎn)對(duì)點(diǎn)的通信效率已從2017年32GB/S，過(guò)渡到了如今最高的1800GB/S，提升了56倍。

圖片

而在未來(lái)大模型訓(xùn)練中，浪潮信息篤定的以「超級(jí)AI以太網(wǎng)」來(lái)支撐——相比于傳統(tǒng)RoCE可以實(shí)現(xiàn)1.6倍的效率提升。

為什么這么說(shuō)？

圖片

因?yàn)?，它能夠?qū)崿F(xiàn)「端網(wǎng)協(xié)同」，為模型訓(xùn)練帶來(lái)極致的計(jì)算效率。

端網(wǎng)協(xié)同，是指AI交換機(jī)和智能網(wǎng)卡之間，能夠?qū)崿F(xiàn)緊密配合，并結(jié)合開(kāi)放技術(shù)為網(wǎng)絡(luò)引入創(chuàng)新功能。

多路徑負(fù)載均衡功能，便是其中的一個(gè)最佳應(yīng)用。

交換機(jī)（網(wǎng)側(cè)）可以部署逐包噴灑技術(shù)，最大地提升帶寬利用率，但會(huì)導(dǎo)致數(shù)據(jù)包亂序。

這個(gè)問(wèn)題，是很難僅靠交換機(jī)本身去解決。

而智能網(wǎng)卡（端側(cè)）卻擁有足夠的算力和資源進(jìn)行亂序重排，將不可能變成可能，大大釋放了網(wǎng)絡(luò)潛力。

具體來(lái)說(shuō)，通過(guò)報(bào)文保序（亂序重組）技術(shù)，可將亂序達(dá)到的報(bào)文，重新編排順序上交到上層AI應(yīng)用，將帶寬效率從60%提升到95%以上。

正是超級(jí)AI以太網(wǎng)的出現(xiàn)，實(shí)現(xiàn)了交換機(jī)和網(wǎng)卡更加緊耦合的配合。

一邊，交換機(jī)可以對(duì)網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行精細(xì)化的路由調(diào)度。另一邊，智能網(wǎng)卡提供保序服務(wù)，實(shí)現(xiàn)了網(wǎng)絡(luò)流量的高效均衡。

與此同時(shí)，網(wǎng)卡可以針對(duì)交換機(jī)上標(biāo)注出的多維遙測(cè)信息，進(jìn)行動(dòng)態(tài)可編程的擁塞控制，實(shí)現(xiàn)全程無(wú)阻塞、零丟包。

由交換機(jī)+智能網(wǎng)卡實(shí)現(xiàn)高效的網(wǎng)絡(luò)，便是「超級(jí)AI以太網(wǎng)」很典型的特點(diǎn)。

可見(jiàn)，若要真正發(fā)揮網(wǎng)絡(luò)的性能，不僅需要提供大帶寬，更重要的是通過(guò)良好的調(diào)度，提高「有效帶寬」。

軟件

有了如此復(fù)雜的系統(tǒng)，就要開(kāi)發(fā)相應(yīng)的調(diào)度軟件，包括業(yè)務(wù)感知，資源自動(dòng)調(diào)度和彈性擴(kuò)展。

此外，在大模型開(kāi)發(fā)過(guò)程中，故障隔離自愈變得越來(lái)越重要。

對(duì)于這一點(diǎn)，同樣可以通過(guò)軟件系統(tǒng)實(shí)現(xiàn)斷點(diǎn)續(xù)算——一旦出現(xiàn)故障，就可以無(wú)縫退回到上一個(gè)checkpoint。

圖片

散熱

與此同時(shí)，在萬(wàn)卡集群里面，要提升效率，就要使得每個(gè)節(jié)點(diǎn)的計(jì)算力越來(lái)越強(qiáng)。

所以，高密度AI計(jì)算是必然趨勢(shì)，這樣機(jī)柜供電就要從12-16千瓦走到120千瓦，散熱將逐漸走向液冷。

無(wú)獨(dú)有偶，英偉達(dá)也在最新的DGX SuperPOD中，采用的也是液冷散熱。

圖片

算法

而且，算力是驅(qū)動(dòng)不僅僅是源于芯片，也要靠算法。

從2017年，Transformer誕生之日至今，如果按照摩爾定律（18個(gè)月芯片性能翻一番）來(lái)算，芯片性能只提升了8倍。

然而實(shí)際上，AI計(jì)算的性能，已經(jīng)提升了超過(guò)1000倍。

圖片

這就絕不僅僅是由于芯片制程的優(yōu)化，而是源于整個(gè)系統(tǒng)的提升。

從算法層面來(lái)看，過(guò)去的大模型精度是FP32，后來(lái)變成了FP16，到今年已經(jīng)進(jìn)入了FP8，在未來(lái)還會(huì)走向FP4。

這種變化之下，算法對(duì)算力的需求會(huì)急劇減小，但對(duì)創(chuàng)新會(huì)很饑渴。

而浪潮信息正是基于包括算法并行、參數(shù)并行等技術(shù)上的優(yōu)化，讓算力效率提升了33%之多。

圖片

具體來(lái)說(shuō)，浪潮信息在源2.0上采用了非均勻流水并行+優(yōu)化器參數(shù)并行（ZeRO）+ 數(shù)據(jù)并行 + Loss計(jì)算分塊的方法，相比于經(jīng)典的3D并行方法，對(duì)帶寬的需求更小，同時(shí)還能獲得高性能。

舉個(gè)例子，在均勻流水并行的時(shí)候，24層模型分到8個(gè)計(jì)算設(shè)備上，每個(gè)設(shè)備上會(huì)平均分到3層。

從下圖中可以看到，這時(shí)內(nèi)存在第一階段就已經(jīng)達(dá)到了GPU的上限。由此，模型的訓(xùn)練便需要更多設(shè)備、更長(zhǎng)的流水并行線路，從而導(dǎo)致更低的算力效率。

而采用非均勻流水并行的方法，就可以根據(jù)模型每層對(duì)于內(nèi)存的需求，結(jié)合內(nèi)存的容量進(jìn)行均衡分配，這樣就能在有限的算力資源里把模型訓(xùn)起來(lái)了。

圖片

不過(guò)，流水線并行策略下，整個(gè)階段依然是比較長(zhǎng)的。

針對(duì)這個(gè)問(wèn)題，團(tuán)隊(duì)通過(guò)引了優(yōu)化器參數(shù)并行，進(jìn)一步降低各個(gè)節(jié)點(diǎn)上內(nèi)存的開(kāi)銷。

內(nèi)存空間省下來(lái)了，就可以合并成更大的流水線，減少節(jié)點(diǎn)使用數(shù)量，節(jié)省算力資源。

圖片

算法創(chuàng)新的理念，在大模型領(lǐng)域也有一個(gè)佐證——MoE。

一個(gè)千億級(jí)模型很難做到萬(wàn)億級(jí)，是因?yàn)檫\(yùn)算量和計(jì)算時(shí)間都遠(yuǎn)遠(yuǎn)超過(guò)了承載，效率奇低。

但混合專家系統(tǒng)MoE架構(gòu)中，則是若干個(gè)千億參數(shù)模型的混合。

而且，這樣的專家調(diào)度系統(tǒng)，反而更符合人類大腦這種復(fù)雜的協(xié)同智慧涌現(xiàn)系統(tǒng)。

親身嘗試

發(fā)展AI應(yīng)當(dāng)「以系統(tǒng)為核心」的創(chuàng)新策略，正是浪潮信息多年來(lái)，在算力、大模型等領(lǐng)域深耕的結(jié)果。

早在2021年，ChatGPT還未出世之前，浪潮信息已然成為大模型的踐行者之一，并發(fā)布了「源1.0」。

圖片

經(jīng)過(guò)兩年多的迭代，千億級(jí)參數(shù)基礎(chǔ)大模型「源2.0」全面開(kāi)源。

從某種角度上來(lái)講，他們做大模型，并不是希望成為一個(gè)靠大模型「吃飯」的公司。

而只是為了探索：LLM對(duì)計(jì)算的需求多大？萬(wàn)卡互聯(lián)中什么最重要？應(yīng)用場(chǎng)景是什么？創(chuàng)新的價(jià)值點(diǎn)在哪？

因?yàn)?，只有親身嘗試去做，才能找到答案，獲得深刻的理解。

IPF 2024大會(huì)上，浪潮信息董事長(zhǎng)彭震給舉了一個(gè)栗子：

團(tuán)隊(duì)曾在國(guó)產(chǎn)平臺(tái)上做大模型訓(xùn)練時(shí)，發(fā)現(xiàn)了互聯(lián)帶寬速率并不理想。為了克服這個(gè)的難題，工程師們?cè)谒惴▽幼隽舜罅康膬?yōu)化，采用了算法并行、參數(shù)并行，使得整個(gè)算力效率提升了33%。

要知道，一個(gè)芯片的性能提升30%，至少要制程迭代一次才行。但通過(guò)實(shí)踐，浪潮信息發(fā)現(xiàn)，軟件算法很快就可以解決這個(gè)問(wèn)題。

再比如，在近2500億參數(shù)「源1.0」的開(kāi)發(fā)中，團(tuán)隊(duì)們獲得了一個(gè)認(rèn)知大模型的基礎(chǔ)，即參數(shù)量的增加，LLM精度也得到了提升。

圖片

所以說(shuō)，創(chuàng)新不是站在岸邊去想在水里怎么游泳，而是要投入其中，真干實(shí)干。

從解決問(wèn)題的過(guò)程中，找到創(chuàng)新的路徑。

這便是浪潮信息一直以來(lái)所踐行的理念，通過(guò)技術(shù)、框架和規(guī)范的全方位創(chuàng)新構(gòu)建計(jì)算系統(tǒng)，開(kāi)辟AI新時(shí)代！

參考資料：

https://mp.weixin.qq.com/s/Cl6lxxjs2UTXEMlh9-EDfg

責(zé)任編輯：武曉燕來(lái)源：新智元

Llama 3 視頻 AR

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)