首席分析師揭秘爆火Groq,每小時(shí)要燒168美元!10倍H100擁有成本,老黃笑而不語
最近爆火的AI初創(chuàng)公司Groq,推出了比目前常見GPU推理系統(tǒng)快4倍,成本低70%的大模型推理解決方案。
他們提供的運(yùn)行Mistral Mixtral 8x7b的API演示,讓大部分習(xí)慣了其他LLM「娓娓道來」的用戶直呼,簡直是魔法!
Groq在處理單個(gè)數(shù)據(jù)序列方面展現(xiàn)出了驚人的性能優(yōu)勢,這可能使得「思維鏈」等技術(shù)在現(xiàn)實(shí)世界中變得更加實(shí)用。
雖然Groq有如此之多的好處,但評估某款硬件是否真的具有革命性的核心標(biāo)準(zhǔn)是性能與總成本的比值。
為此,SemiAnalysis首席分析師Dylan Patel和分析師Daniel Nishball寫了一篇萬字長文,對Groq進(jìn)行了深度地剖析。
「推理速度打破紀(jì)錄,但代價(jià)是什么呢?」
現(xiàn)在沒有人會懷疑AI時(shí)代已經(jīng)到來,重要的是要認(rèn)識到,AI驅(qū)動(dòng)軟件的成本結(jié)構(gòu)與傳統(tǒng)軟件有非常大的不同。
在開發(fā)和擴(kuò)展AI軟件規(guī)模的過程中,芯片微架構(gòu)和系統(tǒng)架構(gòu)起著關(guān)鍵作用。
與之前的軟件代相比,AI軟件運(yùn)行的硬件基礎(chǔ)設(shè)施(Infra)對資本支出(Capex)和運(yùn)營支出(Opex)以及隨后的毛利潤有更大的影響。
因此,優(yōu)化AI基礎(chǔ)設(shè)施,讓AI軟件的規(guī)?;渴鸪杀究刂圃诤侠矸秶鷥?nèi)變得尤為重要。
在基礎(chǔ)設(shè)施方面具有優(yōu)勢的公司,也將在部署和擴(kuò)展AI應(yīng)用方面具有很大優(yōu)勢。
谷歌在基礎(chǔ)設(shè)施方面的領(lǐng)先地位,是為什么Gemini 1.5對谷歌來說提供服務(wù)的成本比OpenAI GPT-4-Turbo更低,同時(shí)在許多任務(wù),特別是長序列代碼生成方面表現(xiàn)更好的原因。
谷歌使用更多的芯片來進(jìn)行單個(gè)推理任務(wù),但他們實(shí)現(xiàn)了更好的性能與總成本比。
于是,在這樣的大背景下,性能不僅僅以為單個(gè)用戶生成的原始Token的速率為唯一的指標(biāo),比如延遲優(yōu)化。
在評估總成本時(shí),必須考慮硬件同時(shí)服務(wù)的用戶數(shù)量。
這就是為什么提高用于大語言模型推理的邊緣硬件的性能吸引力沒有那么強(qiáng)的主要原因。
大多數(shù)邊緣系統(tǒng)因?yàn)椴荒茉诖罅坑脩糁袛備N增加的硬件成本,而無法彌補(bǔ)運(yùn)行大語言模型所需的增加硬件成本。
對于同時(shí)服務(wù)許多用戶且批處理大小極大的情況,即吞吐量和成本優(yōu)化,GPU是首選。
許多公司在其Mistral API推理服務(wù)上實(shí)際上是在虧損。
一些公司還設(shè)定了非常低的速率限制以減少經(jīng)濟(jì)上的損失。
但是只要提供未量化過的模型(FP16)需要至少64+的批大小才能盈利。
因此,Mistral、Together和Fireworks在提供Mistral服務(wù)時(shí)基本都處于收支平衡到略有利潤的臨界點(diǎn)上。
但對于其他提供Mixtral API的公司而言,情況并非如此。
他們要么在關(guān)于模型簡化(量化)的聲明上沒有明確說清楚,要么正通過消耗風(fēng)投資金來吸引客戶群。
也就是說,基本上提供大模型服務(wù)的公司成本都是一個(gè)很嚴(yán)峻的問題。
而Groq則采取了一種大膽策略,將每百萬Token的價(jià)格定為僅0.27美元,直接打起了價(jià)格戰(zhàn)。
這樣的低價(jià)是否是基于性能/總擁有成本(TCO)的考量,正如Together和Fireworks所做的那樣?
還是說,這是一種通過補(bǔ)貼來刺激市場熱度的策略?
值得注意的是,Groq最近一次融資是在2021年,去年還進(jìn)行了一輪5000萬美元的安全可轉(zhuǎn)換債務(wù)(SAFE)融資,目前他們正在進(jìn)行新一輪的籌資活動(dòng)。
現(xiàn)在就來深入探討Groq的芯片、系統(tǒng)和成本分析,來看看他們是如何將大模型的推理成本打下來的。
Groq構(gòu)架解密
Groq的芯片采用了一種無緩沖、完全確定性的超長指令字(VLIW)架構(gòu),芯片面積約為725平方毫米,采用Global Foundries的14納米制程技術(shù)。
芯片不依賴外部內(nèi)存,其權(quán)重、鍵值緩存(KVCache)和激活函數(shù)等數(shù)據(jù)在處理期間全部存儲在芯片內(nèi)。
由于每塊芯片只配備了230MB的靜態(tài)隨機(jī)存取存儲器(SRAM),沒有任何復(fù)雜的模型能夠僅通過單個(gè)芯片運(yùn)行。
因此,為了容納整個(gè)模型,必須使用多個(gè)芯片并將它們互聯(lián)。
對于Mixtral模型,Groq需要使用包含576塊芯片的大規(guī)模服務(wù)器集群來支持其運(yùn)行,這涉及到8個(gè)機(jī)架,每個(gè)機(jī)架裝有9臺服務(wù)器,每臺服務(wù)器則裝有8塊芯片。
和英偉達(dá)H100的成本對比
而英偉達(dá)只需使用一到兩塊H100芯片,就能根據(jù)需要處理的數(shù)據(jù)量大小,輕松適配同一模型。
Groq制造芯片所需的晶圓成本相對較低,可能不超過每晶圓6000美元。
相比之下,英偉達(dá)的H100芯片采用TSMC定制的5nm工藝生產(chǎn),每晶圓成本約為16000美元。
但是,英偉達(dá)通過在大部分H100芯片上禁用約15%的部分來提高良品率,這種方法對Groq來說不太適用。
英偉達(dá)還需要為每顆H100芯片支付大約1150美元,以從SK Hynix購買80GB的高帶寬存儲器(HBM),并且還要承擔(dān)TSMC的芯片封裝技術(shù)(CoWoS)相關(guān)費(fèi)用和可能的良品率損失。
相比之下,Groq的芯片不需要外部存儲器,因此原材料成本要低得多。
作為一家初創(chuàng)公司,Groq在生產(chǎn)芯片時(shí)面臨的固定成本相對較高,這還包括支付給Marvell的高額定制ASIC服務(wù)費(fèi)用。
下表展示了三種不同的部署情況:一種是Groq的,預(yù)計(jì)下周將在生產(chǎn)中采用批大小為3的流水線并行處理;另外兩種則分別針對英偉達(dá)H100芯片的延遲優(yōu)化和吞吐量優(yōu)化部署方案,展示了使用推測性解碼技術(shù)的配置。
上述分析極大地簡化了成本計(jì)算(同時(shí)沒有考慮稍后要深入討論的大量系統(tǒng)級成本,也未考慮英偉達(dá)的巨額利潤)。
核心觀點(diǎn)是,比起進(jìn)行了延遲優(yōu)化的英偉達(dá)系統(tǒng),Groq在每輸出一個(gè)Token所需的硅材料成本方面,由于其芯片架構(gòu)的優(yōu)勢,表現(xiàn)得更為經(jīng)濟(jì)。
8塊A100芯片可以支持Mixtral模型,達(dá)到每個(gè)用戶每秒大約220個(gè)Token的處理速度,而8塊H100芯片在不使用推測性解碼的情況下,可以達(dá)到每個(gè)用戶每秒大約280個(gè)Token。
通過采用推測性解碼,8塊H100芯片組成的推理單元可以實(shí)現(xiàn)接近每個(gè)用戶每秒420個(gè)Token的處理速度。
盡管理論上吞吐量可以更高,但在MoE模型上應(yīng)用推測性解碼存在挑戰(zhàn)。
目前,由于成本效益極差,還沒有針對延遲進(jìn)行優(yōu)化的API服務(wù)。
API提供商目前看不到通過收取高達(dá)10倍費(fèi)用以降低延遲的市場需求。
隨著代理和其他要求極低延遲的任務(wù)變得越來越受歡迎,基于GPU的API供應(yīng)商可能會推出延遲優(yōu)化而設(shè)計(jì)的API,以補(bǔ)充他們現(xiàn)有的為吞吐量優(yōu)化的API。
即便采用了推測性解碼,針對延遲進(jìn)行優(yōu)化的英偉達(dá)系統(tǒng)在吞吐量和成本上仍然遠(yuǎn)遠(yuǎn)落后于即將實(shí)施批處理系統(tǒng)的Groq。
此外,Groq正在使用較舊的14nm工藝技術(shù),并向Marvell支付了高額芯片利潤。
如果Groq獲得更多資金,并能夠在2025年下半年前增加他們下一代4nm芯片的生產(chǎn),經(jīng)濟(jì)效益可能會發(fā)生顯著變化。
英偉達(dá)的后手
值得注意的是,英偉達(dá)并非沒有應(yīng)對策略,預(yù)計(jì)他將在不到一個(gè)月的時(shí)間內(nèi)宣布他們的下一代B100芯片。
在吞吐量優(yōu)化的系統(tǒng)中,經(jīng)濟(jì)效益發(fā)生了顯著變化。
英偉達(dá)系統(tǒng)在成本效益上實(shí)現(xiàn)了數(shù)量級的提升,盡管每用戶的處理速度較低。在吞吐量優(yōu)化的場景中,Groq在架構(gòu)上完全無法競爭。
然而,上述的簡化分析并不適用于那些購買和部署系統(tǒng)的用戶,因?yàn)檫@種分析忽略了系統(tǒng)成本、利潤、能耗等多個(gè)重要因素。
因此,提出了一個(gè)基于性能/總擁有成本的分析。
在考慮了這些因素之后,再來計(jì)算每個(gè)token的成本情況就完全不一樣了。
在英偉達(dá)方面,將使用下文展示的GPU云成本來進(jìn)行分析。
英偉達(dá)GPU主板有很高的利潤率。
此外,服務(wù)器的售價(jià)高達(dá)35萬美元,這個(gè)價(jià)格遠(yuǎn)超過了大型云服務(wù)商對H100服務(wù)器的采購成本,其中還包括了高昂的內(nèi)存成本、8個(gè)InfiniBand網(wǎng)絡(luò)接口卡,總帶寬達(dá)到3.2Tbps(實(shí)際上這對于該推理應(yīng)用并不必要),以及在英偉達(dá)利潤之上的額外OEM利潤。
對于Groq,在估算系統(tǒng)成本時(shí),考慮到了芯片、封裝、網(wǎng)絡(luò)、CPU、內(nèi)存等方面的細(xì)節(jié),并假設(shè)了一個(gè)較低的整體制造商利潤。
沒有計(jì)入Groq出售硬件時(shí)的利潤,因此雖然看似是不同的比較基準(zhǔn),但實(shí)際上這是一個(gè)公平的比較,因?yàn)镚roq和推理API供應(yīng)商提供的是相同的產(chǎn)品/模型。
值得一提的是,8個(gè)英偉達(dá)GPU只需要配備2個(gè)CPU,而Groq的系統(tǒng)則配備了144個(gè)CPU和144TB的RAM,規(guī)模顯著不同。
把這些組件的成本加在一起后可以發(fā)現(xiàn),每臺Groq LPU服務(wù)器的成本為3.5萬美元,包括8個(gè)Groq LPU和所有上述的硬件。
Mixtral Groq推理部署采用了8個(gè)機(jī)架,每個(gè)機(jī)架有9臺服務(wù)器,總成本為252萬美元,整個(gè)部署共有576個(gè)LPU芯片。
相比之下,一個(gè)標(biāo)準(zhǔn)的H100 HGX系統(tǒng)的初始投資成本為35萬美元,包含了8個(gè)H100芯片。而大多數(shù)基于H100的Mixtral推理實(shí)例,只需要用到其中的2個(gè)H100芯片。
假設(shè)資本回報(bào)率為18%并且預(yù)計(jì)使用壽命為5年,H100系統(tǒng)的平均成本為8888美元/月,再加上2586美元/月的托管費(fèi)用,整體的擁有成本達(dá)到了11474美元。
相比之下,更大規(guī)模的Groq系統(tǒng)的總擁有成本,高達(dá)每月12.24萬美元。
在針對延遲優(yōu)化的配置下,8塊H100服務(wù)器的部署成本為每百萬Token 5.2美元,而針對吞吐量優(yōu)化的2個(gè)H100服務(wù)器的部署僅需0.57美元。
與之相對,Groq的解決方案每百萬Token的成本為1.94美元,比8個(gè)H100的配置更經(jīng)濟(jì),也更高效。
和許多提供推理服務(wù)的公司一樣,Groq目前的運(yùn)營模式尚未實(shí)現(xiàn)盈利。
而想要達(dá)到收支平衡,Groq需要將其處理速度提高超過7倍。
這一目標(biāo)比基于8個(gè)H100服務(wù)器的延遲優(yōu)化配置要容易得多——在相同定價(jià)下要實(shí)現(xiàn)盈虧平衡,效率需要提高近20倍。
Groq的商業(yè)模式,不僅是提供推理API服務(wù),還包括直接銷售硬件系統(tǒng)。
如果Groq以60%的利潤率向第三方運(yùn)營商出售,那么總成本將與英偉達(dá)的H100 HGX相當(dāng),預(yù)計(jì)售價(jià)為大約635萬美元。
盡管Groq宣稱其系統(tǒng)在能耗上具有優(yōu)勢,但從現(xiàn)有數(shù)據(jù)來看,這一點(diǎn)尚不明顯。
即使在對H100服務(wù)器的極端假設(shè)下,包括CPU和所有8個(gè)NIC全速運(yùn)行也只需10千瓦電力,這比Groq的576芯片服務(wù)器所需的230千瓦(每8芯片服務(wù)器約3.2千瓦)要高效得多。
Groq聲稱自己在每瓦性能上具有優(yōu)勢,但根據(jù)現(xiàn)有的信息很難驗(yàn)證這一點(diǎn)。
需要注意的是,盡管Groq在API業(yè)務(wù)上目前面臨虧損,并且需要通過超過7.2倍的性能提升才能實(shí)現(xiàn)盈虧平衡,但他們已經(jīng)規(guī)劃了在未來幾個(gè)季度通過一系列改進(jìn)達(dá)成這一目標(biāo)。
這些改進(jìn)主要通過以下三個(gè)方向:
- 持續(xù)進(jìn)行編譯器的優(yōu)化工作,以提升數(shù)據(jù)處理速度;
- 推出新的服務(wù)器設(shè)計(jì),大幅減少除了芯片外的其他成本,如減少使用的CPU數(shù)量和內(nèi)存大??;
- 部署更大規(guī)模的系統(tǒng),通過增加處理流水線數(shù)量實(shí)現(xiàn)更高的數(shù)據(jù)批處理能力,這不僅可以提升性能,還能支持更大的AI模型。
雖然每項(xiàng)改進(jìn)措施本身看似合理,但要實(shí)現(xiàn)7倍的性能提升無疑是一項(xiàng)巨大的挑戰(zhàn)。
挑戰(zhàn)
目前,最大的模型參數(shù)在1到2萬億之間。不過,谷歌和OpenAI很可能會推出超過10萬億參數(shù)的模型。同時(shí),Llama 3和更大規(guī)模的Mistral模型也即將推出。
而這將需要配備數(shù)百個(gè)GPU和數(shù)十TB內(nèi)存的強(qiáng)大推理系統(tǒng)。
目前,Groq已經(jīng)證明他們有能力構(gòu)建適用于處理不超過1000億參數(shù)模型的系統(tǒng),并且計(jì)劃在兩年內(nèi)部署100萬塊芯片。
挑戰(zhàn)一:處理極長的上下文信息
谷歌的Gemini 1.5 Pro可以處理高達(dá)1000萬token的上下文,這相當(dāng)于可以處理10小時(shí)的視頻、110小時(shí)的音頻、30萬行代碼或700萬字的內(nèi)容。
分析師預(yù)計(jì),很多公司和服務(wù)商很快就會跟進(jìn)對長上下文的支持,以便更好地管理和應(yīng)用龐大的代碼庫和文檔庫,從而進(jìn)一步取代在實(shí)際應(yīng)用中表現(xiàn)不佳的RAG模型。
盡管谷歌的處理方式并非傳統(tǒng)的注意力機(jī)制,后者的處理復(fù)雜度是O(n^2),但Gemini 1.5 Pro仍需數(shù)百GB甚至TB級別的內(nèi)存來存儲鍵值緩存(KVCache)。
相比之下,Groq在面對長上下文需求時(shí),需要構(gòu)建的是由數(shù)萬芯片組成的系統(tǒng),而不是谷歌、英偉達(dá)和AMD等使用的幾十或幾百芯片。
可以預(yù)見,GPU在四年后依然能夠憑借出色的靈活性處理新的模型。但對于缺少動(dòng)態(tài)隨機(jī)存取內(nèi)存(DRAM)的Groq來說,隨著模型規(guī)模的不斷增大,這可能會縮短系統(tǒng)的折舊壽命,從而大幅增加成本。
挑戰(zhàn)二:推測性解碼等技術(shù)的快速發(fā)展
樹狀/分支推測方法,已經(jīng)使得推測性解碼的速度提升了約3倍。
如果進(jìn)一步在生產(chǎn)級系統(tǒng)上高效部署的話,那么8塊H100的處理速度就可以達(dá)到每秒600個(gè)Token,而這將直接讓Groq在速度上的優(yōu)勢不復(fù)存在。
通常,推測性解碼需要通過犧牲浮點(diǎn)運(yùn)算性能(FLOPS),來換取更高的批處理大小帶來的帶寬效率。此時(shí),Groq主要受到FLOPS和網(wǎng)絡(luò)的限制,而非靜態(tài)隨機(jī)存取內(nèi)存(SRAM)的帶寬。
挑戰(zhàn)三:英偉達(dá)更強(qiáng)的GPU即將發(fā)貨
與此同時(shí),英偉達(dá)顯然也不會站著挨打。
就在下個(gè)月,性能/總擁有成本(TCO)據(jù)傳是H100兩倍以上的B100就會發(fā)布,并在下半年開始發(fā)貨。與此同時(shí),英偉達(dá)還在迅速推進(jìn)B200和X/R100的研發(fā)。
盡管如此,如果Groq能夠有效擴(kuò)展到數(shù)千芯片的系統(tǒng),那么流水線的數(shù)量就可以得到大幅增加,而每個(gè)管線階段的額外靜態(tài)隨機(jī)存取內(nèi)存(SRAM)也將為更多的鍵值緩存提供空間,從而實(shí)現(xiàn)大于10的大批處理大小,并可能大幅降低成本。
分析師認(rèn)為,這的確是一個(gè)有潛力的方向,但實(shí)現(xiàn)的可能性不大。
最后,還有一個(gè)更為關(guān)鍵的問題,快速響應(yīng)小型模型推理這個(gè)市場到底有多大,以至于值得拋下靈活的GPU不用,轉(zhuǎn)而去構(gòu)建專門的基礎(chǔ)設(shè)施。