谷歌云更新 Kubernetes 引擎,可支持萬億參數(shù)的人工智能模型
生成式人工智能模型越來越大,參數(shù)已多達 2 萬億個,大型語言模型對計算和存儲的需求也在增加。
谷歌云(Google Cloud)今天宣布升級旗下 Kubernetes 引擎的容量,以應(yīng)對更大規(guī)模的模型,Kubernetes 引擎的容量將從目前支持 15000 個節(jié)點集群升級到支持 65000 個節(jié)點集群。Kubernetes 引擎的擴容將為處理全球最復雜且資源密集型的人工智能任務(wù)提供所需的規(guī)模和計算能力。
在人工智能加速器工作負載上訓練數(shù)萬億參數(shù)的模型需要超過 10,000 個節(jié)點的集群。人工智能模型的參數(shù)指的是模型中的變量,這些變量控制著模型的行為方式和預測能力。變量越多,模型準確預測的能力就越強。參數(shù)有點類似于模型里的旋鈕或開關(guān),模型開發(fā)者可以調(diào)整這些參數(shù)達到提高模型性能或準確性的目的。
谷歌云Kubernetes和無服務(wù)器高級產(chǎn)品總監(jiān) Drew Bradstock 在接受記者采訪時表示,“從根本上講,大型語言模型(LLM)不斷增大,世界各地公司需要非常大的集群才能高效運行這些模型。他們不僅僅需要大型集群。他們需要可靠、可擴展的集群才能應(yīng)對運行這些 LLM 訓練工作負載實際遇到的挑戰(zhàn)。”
谷歌 Kubernetes 引擎(縮寫為 GKE)是谷歌提供的托管 Kubernetes 服務(wù),GKE 可減少運行容器環(huán)境的工作量。GKE 可根據(jù)工作負載需求的變化自動添加和移除硬件資源,例如專用人工智能芯片或圖形處理單元。GKE 也可以為用戶 更新 Kubernetes 及監(jiān)督其他維護任務(wù)。
GKE 新的65,000節(jié)點集群能夠管理分布在250,000個張量處理單元上的人工智能模型,張量處理單元是用于加速機器學習和生成式人工智能工作負載的專用人工智能處理器。Bradstock 表示,這比 GKE 在單個集群上以前的基準(5 萬個 TPU 芯片)提高了五倍。
新的65,000節(jié)點集群大大提高了運行大規(guī)模人工智能工作負載的可靠性和效率。Bradstock 認為,規(guī)模的增加對大規(guī)模人工智能訓練和推理都很重要,因為 Kubernetes 允許用戶無需擔心停機就可以處理基于硬件的故障。這也能加快作業(yè)完成時間,因為額外的容量可以在更短的時間內(nèi)運行更多的模型迭代。
Bradstock 表示,為了實現(xiàn)這一目標,谷歌云正在將GKE從開源的分布式鍵值存儲etcd過渡到更強大的基于谷歌分布式數(shù)據(jù)庫Spanner系統(tǒng)。這將使 GKE 集群能夠處理幾乎無限的規(guī)模并提供更低的延遲。
谷歌還對 GKE 基礎(chǔ)設(shè)施進行了重大改造,改造后 GKE 的擴展速度顯著加快??蛻粜枨笠虼四軌蚋斓氐玫綕M足。此外,GKE 也能夠在單個集群中運行五個負載作業(yè),每個作業(yè)的規(guī)模均與谷歌云之前訓練大型語言模型的記錄相匹配。
Bradstock表示,客戶的關(guān)注、該系統(tǒng)中人工智能的普及以及人工智能在整個行業(yè)的快速發(fā)展等等推動了升級需求。谷歌的客戶一直都在利用 GKE 的集群功能訓練他們的模型,客戶包括Anthropic PBC等領(lǐng)先的前沿人工智能模型開發(fā)商。
Anthropic 公司計算主管 James Bradbury 表示,“GKE 對更大型集群的新支持為我們提供了加快人工智能創(chuàng)新步伐所需的規(guī)模?!?/p>
Bradstock表示,在過去的一年里,GKE 上 TPU 和圖形處理單元的使用增加了 900%,大大超過了以前的使用量,而以前使用量就已經(jīng)很大了。他表示,“這主要是由人工智能的快速增長所推動的。人工智能在未來將占 GKE 使用的主