圖靈獎(jiǎng)得主LeCun加盟AI芯片黑馬Groq,估值28億挑戰(zhàn)英偉達(dá)!
英偉達(dá)又雙叒迎來強(qiáng)勁挑戰(zhàn)者了。
成立于2016年的初創(chuàng)公司Groq在最新一輪融資中籌集了 6.4 億美元,由 BlackRock Inc. 基金領(lǐng)投,并得到了思科和三星投資部門的支持。
目前,Groq的估值已經(jīng)達(dá)到28億美元。
公司創(chuàng)始人Jonathan Ross曾在谷歌從事TPU芯片的開發(fā),而Groq目前的頂梁柱LPU也是專門用于加速AI基礎(chǔ)模型,尤其是LLM。
Ross表示,一旦人們看到在Groq的快速引擎上使用大語言模型有多么方便,LLM的使用量將會(huì)進(jìn)一步增加。
以更低的價(jià)格和能耗,達(dá)到與英偉達(dá)芯片相同的速度,甚至更快,讓Groq有底氣叫板英偉達(dá)。
值得一提的是,Groq還宣布,圖靈獎(jiǎng)得主LeCun即將擔(dān)任技術(shù)顧問。
LeCun的正式加入,成為Groq在競(jìng)爭(zhēng)激烈的芯片領(lǐng)域一個(gè)強(qiáng)大的盟友。
每秒1256.54個(gè)token,快如閃電
天下武功,唯快不破。
而能打敗每秒響應(yīng)800個(gè)token的Groq只有下一代的Groq。
從500 token到800 token再到1256.54 token/s,Groq如此之快的速度可謂是讓一眾GPU望塵莫及。
隨著7月初新功能的低調(diào)發(fā)布,Groq現(xiàn)在的結(jié)果要比之前演示的要快得多,也智能得多,不僅支持文本查詢,還能輸入語音命令進(jìn)行查詢。
默認(rèn)情況下,Groq 的網(wǎng)站引擎使用Meta的開源Llama3-8b-8192大語言模型。
用戶還可以選擇更大的Llama3-70b,以及來自Google的Gemma和Mistral模型,并且很快也將支持其他模型。
這種快速且靈活的體驗(yàn)對(duì)于開發(fā)者來說非常重要。在傳統(tǒng)AGI處理數(shù)據(jù)時(shí),等待是稀松平常的事情,要看著字符一個(gè)一個(gè)吐出來再進(jìn)行下一步的操作。
而在最新版本的Groq中,以上任務(wù)幾乎全部瞬間回答,快如閃電。
舉個(gè)栗子。比如,在Groq上讓它評(píng)論VB Transform活動(dòng)議程有哪些地方可以加以改進(jìn)。
1225.15token/s的速度——幾乎就在一瞬間回答就彈了出來。
而且內(nèi)容也十分詳細(xì)清楚,包括建議更清晰的分類、更詳細(xì)的會(huì)議描述和更好的演講者簡(jiǎn)介等等,共十點(diǎn)修改意見。
當(dāng)語音輸入要求推薦一些優(yōu)秀的演講者以使陣容更加多樣化時(shí),它立即生成了一份名單,姓名、所屬組織和可供選擇的演講主題給你安排的明明白白的,并且以清晰表格格式呈現(xiàn)。
要求它追加一列聯(lián)系方式,也瞬間補(bǔ)充好郵箱地址和推特賬號(hào),不在話下。
再舉個(gè)栗子。視頻中巴拉巴拉說了一分多鐘,要求Groq為下周的演講課程創(chuàng)建一個(gè)日程表格。
Groq不僅耐心地聽懂了,創(chuàng)建了要求的表格,還允許快速輕松地進(jìn)行修改,包括拼寫更正。
還可以改變主意,要求它為我忘記要求的內(nèi)容創(chuàng)建額外的欄目,耐心高效細(xì)致,甲方眼里的完美乙方不過如此。
還可以翻譯成不同的語言。有時(shí)會(huì)出現(xiàn)發(fā)出了幾次請(qǐng)求才做出更正的情況,但這種錯(cuò)誤一般是在LLM層面,而不是處理層面。
可以說,從500 token/s到800 token/s再到如今直接拉到每秒四位數(shù)的生成速度,把GPT-4和英偉達(dá)秒的更徹底了。
當(dāng)然,除了「快」之外,此次更新的另一亮點(diǎn)是除了引擎內(nèi)直接輸入查詢,還允許用戶通過語音命令進(jìn)行查詢。
Groq使用了OpenAI的最新開源的自動(dòng)語音識(shí)別和翻譯模型Whisper Large v3,將語音轉(zhuǎn)換為文本,然后作為L(zhǎng)LM的提示。
提速增效再加多模態(tài)輸入,不卡頓還能不打字,這種創(chuàng)新的使用方式為用戶提供了極大的便利。
Groq + Llama 3強(qiáng)強(qiáng)聯(lián)合
7月17日,Groq的研究科學(xué)家Rick Lamers又在推特上官宣了一個(gè)「秘密項(xiàng)目」——微調(diào)出的Llama3 Groq Synth Tool Use模型8B和70B型號(hào) ,旨在提升AI的工具使用和函數(shù)調(diào)用能力。
團(tuán)隊(duì)結(jié)合了全量微調(diào)和直接偏好優(yōu)化(DPO),并且完全使用符合道德規(guī)范的生成數(shù)據(jù),沒有涉及任何用戶數(shù)據(jù)。
伯克利函數(shù)調(diào)用排行榜(Berkeley Function-Calling Leaderboard, BFCL)中的數(shù)據(jù)全部來源于真實(shí)世界,專門用于評(píng)估LLM調(diào)用工具或函數(shù)的的能力。
Groq本次發(fā)布的微調(diào)Llama3 8B和70B的版本都在BFCL上取得了相當(dāng)驚艷的成績(jī),總體準(zhǔn)確率分別為90.76%和89.06%。
其中,70B版本的分?jǐn)?shù)超過了Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o和Gemini 1.5 Pro等專有模型,達(dá)到了BFCL榜單第一的位置。
兩個(gè)版本的模型都已開源,用戶可從HuggingFace上下載權(quán)重或通過GroqCloud訪問。
HugggingFace地址:https://huggingface.co/Groq
此外,Groq還在Llama 3的基礎(chǔ)上進(jìn)一步發(fā)揮自己「唯快不破」的秘籍,推出了一款名為Groqbook的應(yīng)用程序,可以在1分鐘內(nèi)內(nèi)生成出一整本書。
GitHub地址:https://github.com/Bklieger/groqbook
根據(jù)GitHub主頁的介紹,Groqbook混合使用了Llama3-8B和70B兩個(gè)模型,用較大模型生成結(jié)構(gòu),再讓較小模型創(chuàng)作具體內(nèi)容。
目前,這個(gè)程序只適用于非虛構(gòu)類書籍,并需要用戶輸入每一章節(jié)的標(biāo)題作為上下文。
Groq表示,未來將讓Groqbook生成整本書內(nèi)容,并擴(kuò)展到虛構(gòu)類書籍,創(chuàng)作出高質(zhì)量的小說。
開發(fā)者4個(gè)月突破28萬
解決了用戶使用的核心痛點(diǎn),Groq自然備受使用者歡迎。
上線4個(gè)月后,Groq已經(jīng)開始免費(fèi)提供服務(wù)來處理LLM工作負(fù)載,吸引了超過28.2萬名開發(fā)者使用。
Groq提供了一個(gè)平臺(tái)供開發(fā)者構(gòu)建他們的應(yīng)用程序,類似于其他推理服務(wù)提供商。
然而,Groq的特別之處在于,它允許在OpenAI上構(gòu)建應(yīng)用程序的開發(fā)者通過簡(jiǎn)單的步驟在幾秒鐘內(nèi)將他們的應(yīng)用程序遷移到Groq。
Ross表示他將很快專注于需求量極大的企業(yè)市場(chǎng)。大公司正在廣泛推進(jìn)AI應(yīng)用的部署,因此需要更高效的處理能力來應(yīng)對(duì)他們的工作負(fù)載。
Groq表示,其技術(shù)在最壞情況下使用的功率約為GPU的三分之一,而大多數(shù)工作負(fù)載僅使用十分之一的功率。
在LLM工作負(fù)載不斷擴(kuò)展、能源需求持續(xù)增長(zhǎng)的背景下,Groq的高效性能對(duì)GPU主導(dǎo)的計(jì)算領(lǐng)域構(gòu)成了挑戰(zhàn)。
Nvidia雖然擅長(zhǎng)AI訓(xùn)練但在推理方面存在局限,Groq的芯片在推理速度和成本上都有數(shù)倍優(yōu)勢(shì),未來推理市場(chǎng)的份額將從現(xiàn)在的5%提升到90%-95%。
Ross自信聲稱,到明年底將部署150萬個(gè)LPU,占據(jù)全球推理需求半壁江山。
LPU:快,真的快
目前來說,模型訓(xùn)練雖然首選GPU,但是部署AI應(yīng)用程序時(shí),更高的效率和更低的延遲也極為重要。
正如Groq第一次闖入大眾視野是因?yàn)橐粋€(gè)字,「快」,Groq此次提速繼續(xù)在速度的賽道狂飆。
Groq承諾可以比競(jìng)爭(zhēng)對(duì)手更快更經(jīng)濟(jì)地完成任務(wù),在一定程度上得益于其語言處理單元(LPU)。
相比GPU,LPU減少了管理多個(gè)線程的開銷,并避免了核心利用率不足。此外,Groq 的芯片設(shè)計(jì)還允許連接多個(gè)專用核心,而不會(huì)出現(xiàn) GPU 集群中出現(xiàn)的傳統(tǒng)瓶頸。
LPU的工作原理和 GPU存在顯著差異,具體來說,LPU采用的是時(shí)序指令集計(jì)算機(jī)(Temporal Instruction Set Computer)架構(gòu),這一架構(gòu)的特性就是無需像依賴高帶寬存儲(chǔ)器(HBM)的GPU那樣,頻繁地從內(nèi)存中加載數(shù)據(jù)。
LPU不依賴外部?jī)?nèi)存,其權(quán)重、鍵值緩存(KV Cache)和激活函數(shù)等數(shù)據(jù)在處理期間全部存儲(chǔ)在芯片內(nèi),不僅能夠巧妙規(guī)避HBM短缺所帶來的困擾,還能切實(shí)有效地削減成本。
與Nvidia GPU對(duì)高速數(shù)據(jù)傳輸?shù)囊蕾囉兴煌?,Groq的LPU在其系統(tǒng)架構(gòu)中并未采用HBM,而是選用了SRAM。
由于每塊芯片只配備了230MB的SRAM,沒有任何復(fù)雜的模型能夠僅通過單個(gè)芯片運(yùn)行。值得一提的是,SRAM的速度相較GPU所使用的存儲(chǔ)器約快20倍。
鑒于AI的推理計(jì)算所需的數(shù)據(jù)量相較于模型訓(xùn)練大幅減少,Groq的LPU展現(xiàn)出更為出色的節(jié)能優(yōu)勢(shì)。
在執(zhí)行推理任務(wù)時(shí),其從外部?jī)?nèi)存讀取的數(shù)據(jù)量顯著降低,所消耗的電量也明顯低于GPU。
遺憾的是,英偉達(dá)的GPU可以同時(shí)用于訓(xùn)練和推理,但LPU僅為模型推理設(shè)計(jì)。