地表超強AI超算震撼發(fā)布!4 ExaFLOPs算力破天,6000億參數(shù)模型10天訓(xùn)完
Cerebras又放大招了!
這個曾經(jīng)打造出世界最大AI芯片的Cerebras,這次又為我們帶來了世界最大的AI超級計算機:Condor Galaxy1(CG-1)!
圖片
CG-1以禿鷹星系命名,比我們的銀河系要大上五倍。這個名字所代表的野心可謂是昭然若揭了!
那么就讓我們來看看,這個叫Condar Galaxy的超級計算機究竟有哪些過人之處?
Condor Galaxy:世界最大的人工智能訓(xùn)練超級計算機
CG-1是現(xiàn)今世界上最大的超級計算機之一。
擁有64個CS-2節(jié)點、5400萬核心、4 ExaFLOPs算力、并支持6000億參數(shù)模型,第一次訓(xùn)練運行時間只需要10天。
CG-1旨在使大型突破性模型的訓(xùn)練更加輕松快速,從而加速創(chuàng)新。
Cerebras真的做到了......
做出更快、更強、更好的AI超級計算機!
不僅如此,Cerebas還與阿聯(lián)酋技術(shù)控股集團(tuán)G42達(dá)成了戰(zhàn)略合作,準(zhǔn)備聯(lián)手打造一個由9臺CG-1互聯(lián)、基于云的AI超級計算全球網(wǎng)絡(luò):Condor Galaxy。
目前CG-1已在加利福尼亞州圣克拉拉部署成功,其余的CG2、3......將在18月內(nèi)部署完成。
連Cerebras自家的CEO Andrew Feldman都表示:
「這太瘋狂了!Condor Galaxy完成后,我們將擁有一個能夠提供36 exaFLOPs訓(xùn)練能力的超級AI 計算網(wǎng)絡(luò)。這意味著我們屆時會擁有576個CS-2、近5億個核心,內(nèi)部帶寬達(dá)到3,490 TB。我們將需要超過5億個AMD Epyc來為我們提供數(shù)據(jù)。」
Condor Galaxy將顯著減少AI大模型訓(xùn)練所需的時間,同時,Condor Galaxy 基于云的服務(wù)將允許其他人也能輕松訪問業(yè)界最優(yōu)秀的人工智能計算能力,從而推動全球數(shù)百個人工智能項目的發(fā)展。
這個前所未有的AI超級計算網(wǎng)絡(luò),可能會徹底改變?nèi)蛉斯ぶ悄艿陌l(fā)展。
這格局、這能力,怪不得Cerebras被視為是威脅英偉達(dá)的強勁對手。
從Andromeda到Condor
Cerebras在官網(wǎng)上也是發(fā)布了Condor Galaxy1(CG-1)詳細(xì)的參數(shù)信息。
- 4 exaFLOPS的AI計算能力
- 5400萬個針對AI優(yōu)化的計算核心
- 82 TB內(nèi)存
- 64個Cerebras CS-2系統(tǒng)
- 基本配置支持6000億個參數(shù),可擴展至100萬億個
- 386 Tbps內(nèi)部帶寬
- 72704個AMD EPYC第3代處理器
- 本機硬件支持50000個token的訓(xùn)練,無需第三方庫
- 具有線性性能擴展的數(shù)據(jù)并行編程模型
圖片
而且像這么能打的超算總共有9個,2024年完工。總計36 ExaFLOPS的AI算力,說一句世界最強不為過吧。
Cerebras將在7月24日的ICML 2023大會上分享在CG-1上訓(xùn)練新模型的結(jié)果。
2022年,Cerebras已經(jīng)是世界上最大、最強大的AI處理器芯片了。
要想做得更大,唯一的辦法就是讓晶圓級引擎在集群規(guī)模上運行。
為了實現(xiàn)這一目標(biāo),Cerebras發(fā)明了兩項技術(shù):
- Cerebras Wafer-Scale集群
這是一種全新的系統(tǒng)架構(gòu),可連接多達(dá)192個Cerebras的CS-2系統(tǒng),并作為單個邏輯加速器運行。這種設(shè)計將內(nèi)存與計算解耦,能夠為AI模型部署TB級內(nèi)存,而僅使用GPU只能部署GB級的內(nèi)存。
- 權(quán)重流(Weight streaming)
在晶圓級集群上僅使用數(shù)據(jù)并行性訓(xùn)練大型模型的新方法。Cerebras表示,他們發(fā)現(xiàn)客戶在訓(xùn)練大型GPU模型時遇到了些困難。Cerebras的解決方案利用了硬件的大規(guī)模計算和內(nèi)存的特性,以純數(shù)據(jù)并行的方式,通過逐層流式傳輸模型來分配工作。
2022年11月,Cerebras將這兩項技術(shù)推向市場,推出了Andromeda——這是一臺1 exaFLOP、16 CS-2 AI的超算。
Andromeda有這么三個意義:
首先,它為Cerebras的晶圓級集群提供了設(shè)計參考,使他們能夠更快速、輕松地為客戶構(gòu)建新的AI超算。
第二,它提供了一個訓(xùn)練大型生成模型的世界級平臺,使Cerebras能夠在短短幾周內(nèi)訓(xùn)練出7個Cerebras-GPT模型,并與全世界共享這些開源模型。
第三,它成為了Cerebras云的旗艦產(chǎn)品,為客戶使用Cerebras的系統(tǒng)打開了大門,而無需采購和管理硬件。
而今天宣布的CG-1則是所有這些努力的結(jié)晶——它是Cerebras部署過的最大的AI超算,得益于Andromeda,Condor可以在短短兩周內(nèi)就完成部署。
目前,它已經(jīng)訓(xùn)練了多個大型語言模型,涵蓋阿拉伯語等全新數(shù)據(jù)集。它通過Cerebras云和G42云給全球的客戶提供服務(wù)。
Condor Galaxy四步走
官網(wǎng)中,Cerebras也是披露了Condor Galaxy未來發(fā)展的四步計劃。
- 第一階段:
CG-1目前由32個CS-2系統(tǒng)組成,已在圣克拉拉的Colovore數(shù)據(jù)中心啟動并運行。
- 第二階段:
Cerebras將把CG-1的規(guī)模擴大一倍,將其擴展到64個CS-2系統(tǒng),速度為4 exaFLOPS。一個64節(jié)點系統(tǒng)代表一個完整的超算實例。
- 第三階段:
Cerebras們將在全美再建立兩個完整的超算,使部署的計算中心總數(shù)達(dá)到3個,計算能力達(dá)到12 exaFLOPS。
- 第四階段:
再建設(shè)6個超算中心,全部安裝達(dá)到9個,人工智能計算能力達(dá)到36 exaFLOPS。
走完這四步,Cerebras就會是全球公共AI計算基礎(chǔ)設(shè)施排名前三的公司了。
圖片
2024年全面部署Condor Galaxy后,其將成為世界上最大的云AI超算之一。運算能力達(dá)到36 exaflops,是英偉達(dá)以色列一號超算的9倍,是谷歌已發(fā)布的最大TPU v4 pod的4倍。
圖片
Cerebras云
Cerebras為G42管理和運營CG-1,并通過Cerebras云提供,用于人工智能訓(xùn)練的專用超級計算實例對模型開發(fā)至關(guān)重要。
要知道,OpenAI的ChatGPT得益于微軟Azure建立的專用集群,DeepMind和Google Brain的突破則得益于GCP的預(yù)配置TPU pod。
自Andromeda發(fā)布以來,Cerebras一直在提供基于云的訪問Cerebras系統(tǒng)的服務(wù),最多可連接16個CS-2系統(tǒng)。
隨著CG-1的推出,Cerebras現(xiàn)在正在擴大Cerebras的云服務(wù),包括最多64個系統(tǒng)的全配置人工智能超級計算機,為客戶提供一鍵訪問4 exaFLOPs人工智能性能的服務(wù)。
圖片
不光如此,Cerebras還解決了GPU擴展的難題。
雖然GPU是強大的通用加速器,但人們普遍認(rèn)為,對大型GPU集群進(jìn)行編程是ML開發(fā)人員面臨的巨大技術(shù)障礙。
幾乎所有公司都被迫要發(fā)明一種編程框架來管理這種復(fù)雜性,例如微軟的DeepSpeed、英偉達(dá)的Megatron、Meta的Fairscale和Mosaic的Foundry。
Cerebras對這些庫進(jìn)行了深入分析,發(fā)現(xiàn)在GPU集群上訓(xùn)練一個模型平均需要約38000行代碼。
對于大多數(shù)軟件團(tuán)隊來說,復(fù)雜性實在太高,根本無法管理。
圖片
Cerebras晶圓級的集群,無論是1個節(jié)點還是64個節(jié)點,從根本上說都是作為一個單一的邏輯加速器來設(shè)計的。
由于CG-1具有82 TB的統(tǒng)一內(nèi)存,Cerebras的團(tuán)隊甚至可以將最大的模型直接放入內(nèi)存中,而無需任何分區(qū)或額外的代碼。
在Cerebras上,100B參數(shù)模型使用的代碼與1B模型相同,不需要任何流水線或模型并行性。
Cerebras本機支持多達(dá)50000個token的長序列訓(xùn)練。
效果就是,在Cerebras上實現(xiàn)標(biāo)準(zhǔn)的GPT僅需1200行代碼,比行業(yè)領(lǐng)先框架的平均代碼簡潔30倍。

























