GPU壟斷AI讓人擔(dān)憂 是時(shí)候讓CPU發(fā)揚(yáng)光大
是時(shí)候讓不起眼的 CPU 再次攻克 AI 了。
這是一小群 AI 研究人員得出的結(jié)論,但他們的聲音越來越大。
人工智能公司Hugging Face的首席布道者Julien Simon最近通過英特爾的Q8-Chat展示了CPU 尚未開發(fā)的潛力,這是一種大型語(yǔ)言模型 (LLM),能夠在具有 32 個(gè)內(nèi)核的單個(gè)英特爾至強(qiáng)處理器上運(yùn)行。
該演示提供了一個(gè)類似于OpenAI 的 ChatGPT 的聊天界面,并以驚人的速度響應(yīng)查詢(根據(jù)個(gè)人經(jīng)驗(yàn))讓ChatGPT吃盡苦頭。
AI 開發(fā)中 GPU 的使用如此普遍,以至于很難想象另一種結(jié)果,但這并非不可避免。幾個(gè)特定事件幫助 GPU 硬件戰(zhàn)勝了 CPU,并且在許多情況下戰(zhàn)勝了專用 AI 加速器。
“解鎖 GPU 的大規(guī)模并行架構(gòu)來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)是使深度學(xué)習(xí)成為可能的關(guān)鍵因素之一,”Simon說。
“然后 GPU 迅速集成到TensorFlow和PyTorch等開源框架中,使它們易于使用,而無需編寫復(fù)雜的低級(jí) CUDA 代碼?!?/p>
計(jì)算統(tǒng)一設(shè)備架構(gòu)(CUDA) 是 Nvidia 在 2007 年推出的應(yīng)用程序編程接口 (API),作為其挑戰(zhàn) CPU 主導(dǎo)地位計(jì)劃的一部分。
它在 2010 年代中期建立,為 TensorFlow 和 PyTorch 提供了一條清晰的途徑來利用Nvidia硬件的力量。
Hugging Face 作為 AI 社區(qū)的中心樞紐(除其他外)提供與 TensorFlow 和 PyTorch 兼容的開源 Transformers 庫(kù),也在 CUDA 的發(fā)展中發(fā)揮了作用。
然而,Simon認(rèn)為“壟斷從來都不是一件好事”。GPU 的主導(dǎo)地位可能會(huì)加劇供應(yīng)鏈問題并導(dǎo)致成本上升,英偉達(dá)2023 年第一季度財(cái)務(wù)業(yè)績(jī)的井噴凸顯了這種可能性,在人工智能需求的推動(dòng)下,收益增長(zhǎng)了 28%。
“在 AWS 或 Azure 上獲得 [Nvidia] A100 幾乎是不可能的。
那么,然后呢?Simon問。
“出于所有這些原因,我們需要一個(gè)替代方案,如果您愿意做功課并使用適當(dāng)?shù)墓ぞ?,英特爾CPU 在許多推理場(chǎng)景中都能很好地工作?!?/p>
CPU 的無處不在為 GPU 的主導(dǎo)地位提供了一個(gè)變通辦法。
PC 組件市場(chǎng)研究公司Mercury Research最近的一份報(bào)告發(fā)現(xiàn),僅 2022 年一年,x86 處理器的出貨量就達(dá)到了 3.74 億個(gè)。
ARM 處理器更為常見,到 2022 年第三季度,芯片出貨量超過 2500 億顆。
AI 開發(fā)人員在很大程度上忽略了這一未開發(fā)潛力池,他們認(rèn)為 CPU 相對(duì)缺乏并行處理能力將不適合深度學(xué)習(xí),因?yàn)樯疃葘W(xué)習(xí)通常依賴于并行執(zhí)行的大量矩陣乘法。
在 OpenAI 的GPT-3(1750 億個(gè)參數(shù))和 DeepMind 的Chinchilla(700 億個(gè)參數(shù))等模型的成功推動(dòng)下,AI 模型規(guī)模的快速增長(zhǎng)加劇了這個(gè)問題。
ThirdAI的首席執(zhí)行官兼創(chuàng)始人Shrivastava Anshumali說:“對(duì)于模型和數(shù)據(jù)集的大小,即使有共同進(jìn)化的軟件和硬件生態(tài)系統(tǒng),我們正處于基本的密集矩陣乘法變得令人望而卻步的地步?!?/p>
它不一定是那樣的。ThirdAI 的研究發(fā)現(xiàn),現(xiàn)有 LLM 中“超過 99%”的操作返回零。
ThirdAI 部署了一種哈希技術(shù)來減少這些不必要的操作?!盎谏⒘械乃惴ㄏ嗽跓o關(guān)緊要的零上浪費(fèi)任何周期和能量的需要,”Anshumali 說。
他的公司最近通過 Pocket-LLM 展示了其技術(shù)的潛力, Pocket-LLM 是一款適用于 Windows 和 Mac 的人工智能輔助文檔管理應(yīng)用程序,可以在大多數(shù)現(xiàn)代筆記本電腦的 CPU 上輕松運(yùn)行。
ThirdAI 還提供Bolt Engine,這是一種用于在消費(fèi)級(jí) CPU 上訓(xùn)練深度學(xué)習(xí)模型的 Python API。
Hugging Face 的 Q8-Chat 采取了不同的策略,通過一種稱為量化的模型壓縮技術(shù)實(shí)現(xiàn)了其結(jié)果,該技術(shù)將 16 位浮點(diǎn)參數(shù)替換為 8 位整數(shù)。這些不太精確但更容易執(zhí)行并且需要更少的內(nèi)存。
英特爾使用了一種特定的量化技術(shù)SmoothQuant,將 Meta 的LLaMA和 OPT等幾種常見 LLM 的大小減少了一半。
公開的 Q8-Chat 演示基于MPT-7B,這是來自 MosaicML 的開源 LLM,具有 70 億個(gè)參數(shù)。
英特爾繼續(xù)為其即將推出的Sapphire Rapids 處理器開發(fā) AI 優(yōu)化,這些處理器用于 Q8-Chat 演示。
該公司最近為 Sapphire Rapids 提交的 MLPerf 3.0 結(jié)果顯示,該處理器在離線場(chǎng)景下的推理性能提升是上一代 Ice Lake 的五倍以上。
同樣,服務(wù)器場(chǎng)景的性能提升也是Ice Lake的十倍。
與之前提交的 Sapphire Rapids 相比,英特爾還展示了高達(dá) 40% 的改進(jìn),這是通過軟件和“特定于工作負(fù)載的優(yōu)化”實(shí)現(xiàn)的提升。
這并不是說 CPU 現(xiàn)在將在所有 AI 任務(wù)中取代 GPU。Simon 認(rèn)為“總的來說,較小的 LLM 總是更可取”,但他承認(rèn)“沒有一種瑞士軍刀模型適用于所有用例和所有行業(yè)?!?/p>
盡管如此,該階段看起來仍會(huì)增加 CPU 相關(guān)性。Anshumali 特別看好這種潛在的轉(zhuǎn)機(jī),認(rèn)為需要經(jīng)過調(diào)整以處理特定任務(wù)的小型“領(lǐng)域?qū)I(yè) LLM”。
Simon 和 Anshumali 都表示,這些較小的 LLM 不僅效率高,而且在隱私、信任和安全方面也有好處,因?yàn)樗鼈兿艘蕾嚨谌娇刂频拇笮屯ㄓ媚P偷男枰?/p>
Anshumali 說:“我們正在構(gòu)建能力,將 CPU 的每個(gè)核心都發(fā)揮出來,為大眾提供更好的 AI?!?“我們可以用 CPU 使人工智能民主化?!?/p>