谷歌最新AI芯片打平英偉達(dá)B200,專為推理模型打造,最高配每秒42500000000000000000次浮點(diǎn)運(yùn)算
谷歌首款A(yù)I推理特化版TPU芯片來(lái)了,專為深度思考模型打造。
代號(hào)Ironwood,也就是TPU v7,F(xiàn)P8峰值算力4614TFlops,性能是2017年第二代TPU的3600倍,與2023年的第五代TPU比也有10倍。
(為什么不對(duì)比第六代,咱也不知道,咱也不敢問(wèn)。)
第七代TPU還突出高擴(kuò)展性,最高配集群可擁有9216個(gè)液冷芯片,峰值算力42.5 ExaFlops,也就是每秒運(yùn)算42500000000000000000次。
是目前全球最強(qiáng)超級(jí)計(jì)算機(jī)EL Capitan的24倍。
谷歌稱,AI正從響應(yīng)式(提供實(shí)時(shí)信息供人類解讀)轉(zhuǎn)變?yōu)槟軌蛑鲃?dòng)生成洞察和解讀的轉(zhuǎn)變。
在推理時(shí)代,Agent將主動(dòng)檢索和生成數(shù)據(jù),以協(xié)作的方式提供洞察和答案,而不僅僅是數(shù)據(jù)。
而實(shí)現(xiàn)這一點(diǎn),正需要同時(shí)滿足巨大的計(jì)算和通信需求的芯片,以及軟硬協(xié)同的設(shè)計(jì)。
谷歌AI芯片的軟硬協(xié)同
深度思考的推理模型,以DeepSeek-R1和谷歌的Gemini Thinking為代表,目前都是采用MoE(混合專家)架構(gòu)。
雖然激活參數(shù)量相對(duì)少,但總參數(shù)量巨大,這就需要大規(guī)模并行處理和高效的內(nèi)存訪問(wèn),計(jì)算需求遠(yuǎn)遠(yuǎn)超出了任何單個(gè)芯片的容量。
(o1普遍猜測(cè)也是MoE,但是OpenAI他不open啊,所以沒(méi)有定論。)
谷歌TPU v7的設(shè)計(jì)思路,是在執(zhí)行大規(guī)模張量操作的同時(shí)最大限度地減少芯片上的數(shù)據(jù)移動(dòng)和延遲。
與上一代TPU v6相比,TPU v7的高帶寬內(nèi)存 (HBM) 容量為192GB,是上一代的6倍,同時(shí)單芯片內(nèi)存帶寬提升到7.2 TBps,是上一代的4.5倍。
TPU v7系統(tǒng)還具有低延遲、高帶寬的ICI(芯片間通信)網(wǎng)絡(luò),支持全集群規(guī)模的協(xié)調(diào)同步通信。雙向帶寬提升至1.2 Tbps,是上一代的1.5倍。
能效方面,TPU v7每瓦性能也是上一代的兩倍。
硬件介紹完,接下來(lái)看軟硬協(xié)同部分。
TPU v7配備了增強(qiáng)版SparseCore ,這是一款用于處理高級(jí)排序和推薦工作負(fù)載中常見的超大嵌入的數(shù)據(jù)流處理器。
TPU v7還支持Google DeepMind開發(fā)的機(jī)器學(xué)習(xí)運(yùn)行時(shí)Pathways,能夠跨多個(gè)TPU芯片實(shí)現(xiàn)高效的分布式計(jì)算。
谷歌計(jì)劃在不久的將來(lái)把TPU v7整合到谷歌云AI超算,支持包括推薦算法、Gemini模型以及AlphaFold在內(nèi)的業(yè)務(wù)。
網(wǎng)友:英偉達(dá)壓力山大了
看過(guò)谷歌最新TPU發(fā)布,評(píng)論區(qū)網(wǎng)友紛紛at英偉達(dá)。
有人稱如果谷歌能以更低的價(jià)格提供AI模型推理服務(wù),英偉達(dá)的利潤(rùn)將受到嚴(yán)重威脅。
還有人直接at各路AI機(jī)器人,詢問(wèn)這款芯片對(duì)比英偉達(dá)B200如何。
簡(jiǎn)單對(duì)比一下,TPU v7的FP8算力4614 TFlops,比B200標(biāo)稱的4.5 PFlops(=4500 TFlops)略高。內(nèi)存帶寬7.2TBps,比英偉達(dá)B200的8TBps稍低一點(diǎn),是基本可以對(duì)標(biāo)的兩款產(chǎn)品。
實(shí)際上除了谷歌之外,還有兩個(gè)云計(jì)算大廠也在搞自己的推理芯片。
亞馬遜的Trainium、Inferentia和Graviton芯片大家已經(jīng)比較熟悉了,微軟的MAIA 100芯片也可以通過(guò)Azure云訪問(wèn)。
AI芯片的競(jìng)爭(zhēng),越來(lái)越激烈了。