地表超強(qiáng)AI超算震撼發(fā)布!4 ExaFLOPs算力破天,6000億參數(shù)模型10天訓(xùn)完
Cerebras又放大招了!
這個(gè)曾經(jīng)打造出世界最大AI芯片的Cerebras,這次又為我們帶來了世界最大的AI超級(jí)計(jì)算機(jī):Condor Galaxy1(CG-1)!
圖片
CG-1以禿鷹星系命名,比我們的銀河系要大上五倍。這個(gè)名字所代表的野心可謂是昭然若揭了!
那么就讓我們來看看,這個(gè)叫Condar Galaxy的超級(jí)計(jì)算機(jī)究竟有哪些過人之處?
Condor Galaxy:世界最大的人工智能訓(xùn)練超級(jí)計(jì)算機(jī)
CG-1是現(xiàn)今世界上最大的超級(jí)計(jì)算機(jī)之一。
擁有64個(gè)CS-2節(jié)點(diǎn)、5400萬核心、4 ExaFLOPs算力、并支持6000億參數(shù)模型,第一次訓(xùn)練運(yùn)行時(shí)間只需要10天。
CG-1旨在使大型突破性模型的訓(xùn)練更加輕松快速,從而加速創(chuàng)新。
Cerebras真的做到了......
做出更快、更強(qiáng)、更好的AI超級(jí)計(jì)算機(jī)!
不僅如此,Cerebas還與阿聯(lián)酋技術(shù)控股集團(tuán)G42達(dá)成了戰(zhàn)略合作,準(zhǔn)備聯(lián)手打造一個(gè)由9臺(tái)CG-1互聯(lián)、基于云的AI超級(jí)計(jì)算全球網(wǎng)絡(luò):Condor Galaxy。
目前CG-1已在加利福尼亞州圣克拉拉部署成功,其余的CG2、3......將在18月內(nèi)部署完成。
連Cerebras自家的CEO Andrew Feldman都表示:
「這太瘋狂了!Condor Galaxy完成后,我們將擁有一個(gè)能夠提供36 exaFLOPs訓(xùn)練能力的超級(jí)AI 計(jì)算網(wǎng)絡(luò)。這意味著我們屆時(shí)會(huì)擁有576個(gè)CS-2、近5億個(gè)核心,內(nèi)部帶寬達(dá)到3,490 TB。我們將需要超過5億個(gè)AMD Epyc來為我們提供數(shù)據(jù)?!?/span>
Condor Galaxy將顯著減少AI大模型訓(xùn)練所需的時(shí)間,同時(shí),Condor Galaxy 基于云的服務(wù)將允許其他人也能輕松訪問業(yè)界最優(yōu)秀的人工智能計(jì)算能力,從而推動(dòng)全球數(shù)百個(gè)人工智能項(xiàng)目的發(fā)展。
這個(gè)前所未有的AI超級(jí)計(jì)算網(wǎng)絡(luò),可能會(huì)徹底改變?nèi)蛉斯ぶ悄艿陌l(fā)展。
這格局、這能力,怪不得Cerebras被視為是威脅英偉達(dá)的強(qiáng)勁對(duì)手。
從Andromeda到Condor
Cerebras在官網(wǎng)上也是發(fā)布了Condor Galaxy1(CG-1)詳細(xì)的參數(shù)信息。
- 4 exaFLOPS的AI計(jì)算能力
- 5400萬個(gè)針對(duì)AI優(yōu)化的計(jì)算核心
- 82 TB內(nèi)存
- 64個(gè)Cerebras CS-2系統(tǒng)
- 基本配置支持6000億個(gè)參數(shù),可擴(kuò)展至100萬億個(gè)
- 386 Tbps內(nèi)部帶寬
- 72704個(gè)AMD EPYC第3代處理器
- 本機(jī)硬件支持50000個(gè)token的訓(xùn)練,無需第三方庫
- 具有線性性能擴(kuò)展的數(shù)據(jù)并行編程模型
圖片
而且像這么能打的超算總共有9個(gè),2024年完工??傆?jì)36 ExaFLOPS的AI算力,說一句世界最強(qiáng)不為過吧。
Cerebras將在7月24日的ICML 2023大會(huì)上分享在CG-1上訓(xùn)練新模型的結(jié)果。
2022年,Cerebras已經(jīng)是世界上最大、最強(qiáng)大的AI處理器芯片了。
要想做得更大,唯一的辦法就是讓晶圓級(jí)引擎在集群規(guī)模上運(yùn)行。
為了實(shí)現(xiàn)這一目標(biāo),Cerebras發(fā)明了兩項(xiàng)技術(shù):
- Cerebras Wafer-Scale集群
這是一種全新的系統(tǒng)架構(gòu),可連接多達(dá)192個(gè)Cerebras的CS-2系統(tǒng),并作為單個(gè)邏輯加速器運(yùn)行。這種設(shè)計(jì)將內(nèi)存與計(jì)算解耦,能夠?yàn)锳I模型部署TB級(jí)內(nèi)存,而僅使用GPU只能部署GB級(jí)的內(nèi)存。
- 權(quán)重流(Weight streaming)
在晶圓級(jí)集群上僅使用數(shù)據(jù)并行性訓(xùn)練大型模型的新方法。Cerebras表示,他們發(fā)現(xiàn)客戶在訓(xùn)練大型GPU模型時(shí)遇到了些困難。Cerebras的解決方案利用了硬件的大規(guī)模計(jì)算和內(nèi)存的特性,以純數(shù)據(jù)并行的方式,通過逐層流式傳輸模型來分配工作。
2022年11月,Cerebras將這兩項(xiàng)技術(shù)推向市場(chǎng),推出了Andromeda——這是一臺(tái)1 exaFLOP、16 CS-2 AI的超算。
Andromeda有這么三個(gè)意義:
首先,它為Cerebras的晶圓級(jí)集群提供了設(shè)計(jì)參考,使他們能夠更快速、輕松地為客戶構(gòu)建新的AI超算。
第二,它提供了一個(gè)訓(xùn)練大型生成模型的世界級(jí)平臺(tái),使Cerebras能夠在短短幾周內(nèi)訓(xùn)練出7個(gè)Cerebras-GPT模型,并與全世界共享這些開源模型。
第三,它成為了Cerebras云的旗艦產(chǎn)品,為客戶使用Cerebras的系統(tǒng)打開了大門,而無需采購和管理硬件。
而今天宣布的CG-1則是所有這些努力的結(jié)晶——它是Cerebras部署過的最大的AI超算,得益于Andromeda,Condor可以在短短兩周內(nèi)就完成部署。
目前,它已經(jīng)訓(xùn)練了多個(gè)大型語言模型,涵蓋阿拉伯語等全新數(shù)據(jù)集。它通過Cerebras云和G42云給全球的客戶提供服務(wù)。
Condor Galaxy四步走
官網(wǎng)中,Cerebras也是披露了Condor Galaxy未來發(fā)展的四步計(jì)劃。
- 第一階段:
CG-1目前由32個(gè)CS-2系統(tǒng)組成,已在圣克拉拉的Colovore數(shù)據(jù)中心啟動(dòng)并運(yùn)行。
- 第二階段:
Cerebras將把CG-1的規(guī)模擴(kuò)大一倍,將其擴(kuò)展到64個(gè)CS-2系統(tǒng),速度為4 exaFLOPS。一個(gè)64節(jié)點(diǎn)系統(tǒng)代表一個(gè)完整的超算實(shí)例。
- 第三階段:
Cerebras們將在全美再建立兩個(gè)完整的超算,使部署的計(jì)算中心總數(shù)達(dá)到3個(gè),計(jì)算能力達(dá)到12 exaFLOPS。
- 第四階段:
再建設(shè)6個(gè)超算中心,全部安裝達(dá)到9個(gè),人工智能計(jì)算能力達(dá)到36 exaFLOPS。
走完這四步,Cerebras就會(huì)是全球公共AI計(jì)算基礎(chǔ)設(shè)施排名前三的公司了。
圖片
2024年全面部署Condor Galaxy后,其將成為世界上最大的云AI超算之一。運(yùn)算能力達(dá)到36 exaflops,是英偉達(dá)以色列一號(hào)超算的9倍,是谷歌已發(fā)布的最大TPU v4 pod的4倍。
圖片
Cerebras云
Cerebras為G42管理和運(yùn)營CG-1,并通過Cerebras云提供,用于人工智能訓(xùn)練的專用超級(jí)計(jì)算實(shí)例對(duì)模型開發(fā)至關(guān)重要。
要知道,OpenAI的ChatGPT得益于微軟Azure建立的專用集群,DeepMind和Google Brain的突破則得益于GCP的預(yù)配置TPU pod。
自Andromeda發(fā)布以來,Cerebras一直在提供基于云的訪問Cerebras系統(tǒng)的服務(wù),最多可連接16個(gè)CS-2系統(tǒng)。
隨著CG-1的推出,Cerebras現(xiàn)在正在擴(kuò)大Cerebras的云服務(wù),包括最多64個(gè)系統(tǒng)的全配置人工智能超級(jí)計(jì)算機(jī),為客戶提供一鍵訪問4 exaFLOPs人工智能性能的服務(wù)。
圖片
不光如此,Cerebras還解決了GPU擴(kuò)展的難題。
雖然GPU是強(qiáng)大的通用加速器,但人們普遍認(rèn)為,對(duì)大型GPU集群進(jìn)行編程是ML開發(fā)人員面臨的巨大技術(shù)障礙。
幾乎所有公司都被迫要發(fā)明一種編程框架來管理這種復(fù)雜性,例如微軟的DeepSpeed、英偉達(dá)的Megatron、Meta的Fairscale和Mosaic的Foundry。
Cerebras對(duì)這些庫進(jìn)行了深入分析,發(fā)現(xiàn)在GPU集群上訓(xùn)練一個(gè)模型平均需要約38000行代碼。
對(duì)于大多數(shù)軟件團(tuán)隊(duì)來說,復(fù)雜性實(shí)在太高,根本無法管理。
圖片
Cerebras晶圓級(jí)的集群,無論是1個(gè)節(jié)點(diǎn)還是64個(gè)節(jié)點(diǎn),從根本上說都是作為一個(gè)單一的邏輯加速器來設(shè)計(jì)的。
由于CG-1具有82 TB的統(tǒng)一內(nèi)存,Cerebras的團(tuán)隊(duì)甚至可以將最大的模型直接放入內(nèi)存中,而無需任何分區(qū)或額外的代碼。
在Cerebras上,100B參數(shù)模型使用的代碼與1B模型相同,不需要任何流水線或模型并行性。
Cerebras本機(jī)支持多達(dá)50000個(gè)token的長序列訓(xùn)練。
效果就是,在Cerebras上實(shí)現(xiàn)標(biāo)準(zhǔn)的GPT僅需1200行代碼,比行業(yè)領(lǐng)先框架的平均代碼簡潔30倍。