英偉達股價暴跌!或與 Llama 3 發(fā)布有關(guān)? 原創(chuàng)
Llama 3在Groq平臺運行速度超快
美國時間4月18日中午,Meta發(fā)布了Llama 3 大模型。該版本的模型經(jīng)過預(yù)訓(xùn)練和指令微調(diào),參數(shù)分別為 8B 和 70B,可支持廣泛的用例。Llama 3在行業(yè)基準(zhǔn)測試中展示了最先進的性能,包括改進的推理能力。Meta在發(fā)布的文章中聲稱Llama 3是目前同類產(chǎn)品中最好的開源模型。
4月19日凌晨,也就是Llama 3 發(fā)布12小時后,AI芯片公司Groq 發(fā)布在其 LPU? 推理引擎上運行的 Llama 3 8B (8k) 和 70B (4k, 8k),并通過 groq.com 和 GroqCloud? 控制臺提供給開發(fā)者社區(qū)。
“我比較了 Llama 3和 GPT-4,讓它們用 Python 編寫一個蛇形游戲,看看速度有何不同!” 計算機教授Alvaro Cintas用Groq運行Llama 3,并直觀地對比了Llama3和GPT-4的生成速度。
據(jù)OthersideAI創(chuàng)始人 Matt Shumer在X.com的發(fā)帖及其他幾位知名用戶的描述,Groq系統(tǒng)在運行LLaMA 3模型時的推理速度極快,超過800 token/秒(T/s)。
你也可以通過Groq官網(wǎng)免費親自測試一下:
隨后,根據(jù)Artificial Analysis的獨立基準(zhǔn)測試,Groq在Llama 3 8B和Llama 3 70B上的吞吐量分別達到877 token/秒和284 token/秒,是所有供應(yīng)商中最高的2倍多。Groq 的產(chǎn)品還具有成本競爭力,兩款機型的價格均低于其他供應(yīng)商。結(jié)合 Llama 3 大模型的高質(zhì)量,Groq 的產(chǎn)品非常有吸引力。
Groq的創(chuàng)新型AI芯片架構(gòu)
Groq,這家位于硅谷、資金雄厚的初創(chuàng)企業(yè),正在開發(fā)一種全新的處理器架構(gòu),專為深度學(xué)習(xí)中的矩陣乘法操作進行優(yōu)化。公司推出的Tensor Streaming Processor放棄了傳統(tǒng)CPU和GPU的緩存及復(fù)雜控制邏輯,轉(zhuǎn)而采用一種針對AI工作負載定制的簡化模式。
Groq的處理器架構(gòu)與Nvidia及其他主流芯片生產(chǎn)商的設(shè)計截然不同。Groq沒有選擇通用處理器適配AI的常規(guī)路徑,而是從零開始,專門開發(fā)了Tensor Streaming Processor以提升深度學(xué)習(xí)特有的計算模式。
這種從零構(gòu)建的策略使Groq能夠剔除不必要的電路,并針對AI推理中常見的高度可并行和重復(fù)性工作負載優(yōu)化數(shù)據(jù)流。Groq聲稱,這樣做不僅大幅降低了運行大型神經(jīng)網(wǎng)絡(luò)的延遲和能耗,也減少了成本,與市場上的主流產(chǎn)品相比有了顯著改進。
AI推理的能效正受到越來越多的關(guān)注。由于數(shù)據(jù)中心已成為電力的大戶,大規(guī)模AI的計算需求可能會顯著增加電力消耗。在保持推理性能的同時最小化能源消耗的硬件開發(fā),是實現(xiàn)大規(guī)模AI可持續(xù)發(fā)展的關(guān)鍵。Groq的Tensor Streaming Processor便是為此目的設(shè)計的。該處理器承諾能夠顯著降低運行大型神經(jīng)網(wǎng)絡(luò)的電力成本,相比傳統(tǒng)通用處理器顯示出顯著的優(yōu)勢。
Nvidia的霸主地位遭遇挑戰(zhàn)
4月19日,英偉達(Nvidia)股價暴跌10%,市值蒸發(fā)2117億美元,為美股史上第二大單日損失,幾乎跌掉一個AMD。
Nvidia目前在AI處理器市場中占據(jù)領(lǐng)先地位,其A100和H100 GPU成為大多數(shù)云AI服務(wù)的核心動力。然而,Groq、Cerebras、SambaNova和Graphcore這些資金充裕的初創(chuàng)企業(yè)正通過專為AI設(shè)計的新型架構(gòu)挑戰(zhàn)Nvidia的主導(dǎo)地位。
在這些競爭者中,Groq表現(xiàn)尤為活躍,不僅關(guān)注于訓(xùn)練領(lǐng)域,更在推理技術(shù)方面積極推廣。Meta最近發(fā)布的Llama 3,作為目前最先進的開源語言模型之一,為Groq提供了展示其硬件推斷性能的良機。Meta宣稱這一模型能夠與市場上最優(yōu)的閉源模型匹敵,預(yù)計將廣泛應(yīng)用于基準(zhǔn)測試和多種AI場景。
如果Groq的硬件在運行LLaMA 3時能顯著超越現(xiàn)有主流產(chǎn)品的速度和效率,不僅能驗證其技術(shù)優(yōu)勢,還可能加速其技術(shù)的廣泛應(yīng)用。結(jié)合Llama等強大的開源模型和Groq這類高效推理硬件,可能會讓AI技術(shù)更具成本效益,從而更易于被更多企業(yè)和開發(fā)者采用。盡管如此,Nvidia并不會輕易放棄市場領(lǐng)先地位,其他競爭者也在緊追不舍。
當(dāng)前競爭的焦點在于構(gòu)建能與AI模型的快速發(fā)展相匹配的基礎(chǔ)設(shè)施,并拓展技術(shù)以滿足日益增長的應(yīng)用需求。近乎實時的AI推理和低成本實現(xiàn),可能在電商、教育、金融、醫(yī)療等領(lǐng)域開啟革命性的新局面。
如X.com一位用戶所評價的基于Groq的Llama 3性能基準(zhǔn):“速度+低成本+高質(zhì)量=當(dāng)前沒有理由選擇其他產(chǎn)品。”在新一代架構(gòu)挑戰(zhàn)傳統(tǒng)的浪潮中,AI的硬件基礎(chǔ)仍在不斷演進。
本文轉(zhuǎn)載自公眾號AIGC開發(fā)者,作者:阿橙AIGC
