你現(xiàn)在可以在VMware基礎(chǔ)架構(gòu)運(yùn)行Nvidia vGPU
由于VMware與Nvidia之間的合作有了新篇章,即Project Monterey,企業(yè)現(xiàn)在可以在Nvidia vGPU上運(yùn)行AI和機(jī)器學(xué)習(xí)工作負(fù)載等計(jì)算密集型應(yīng)用程序,并使用VMware vSphere對其進(jìn)行管理。
傳統(tǒng)上來看,人工智能、深度學(xué)習(xí)(DL)和機(jī)器學(xué)習(xí)(ML)工作負(fù)載僅限于CPU,但是Nvidia虛擬計(jì)算服務(wù)器(vCS)使IT管理員可以將這些工作負(fù)載轉(zhuǎn)移到GPU或虛擬GPU(vGPU),并通過vSphere管理這些工作負(fù)載。該策略旨在提高GPU利用率,加強(qiáng)安全性并簡化管理。
Nvidia公司產(chǎn)品管理高級(jí)總監(jiān)Raj Rao在名為《通過vSphere上的Nvidia vGPU運(yùn)行ML和計(jì)算工作流的最佳做法》的會(huì)議上說:“AI、DL和 ML都是非常需要計(jì)算的工作量,并且需要大量的計(jì)算。一般的硬件不能滿足這些要求。”
借助Project Monterey項(xiàng)目,VMware旨在最終簡化vSphere環(huán)境中機(jī)器學(xué)習(xí)的開發(fā)和交付。目前,他們尋求借助vCS和vGPU來簡單地加速這些環(huán)境的計(jì)算。
Nvidia GPU具有張量計(jì)算核心,可激活A(yù)I所需的大型矩陣運(yùn)算。其GPU還具有先進(jìn)的計(jì)算核心,可用于更多用途的多任務(wù)計(jì)算工作負(fù)載。這些GPU通常在所有流行的OEM服務(wù)器中可用;企業(yè)可以將它們部署在本地或云中。虛擬化GPU可從硬件GPU中提取功能、性能和可靠性。
研究和咨詢公司Gartner的研究主管Paul Delory說:“這是面向虛擬化的硬件加速器的總體趨勢的一部分,我們越來越多地將特殊功能轉(zhuǎn)移到專用硬件。”
通過vSphere管理vGPU
借助通過vSphere管理vGPU的新功能,管理員可以啟用多種工作負(fù)載,例如在同一主機(jī)上運(yùn)行Windows和Linux VM。VMware客戶越來越多地在邊緣計(jì)算中使用vGPU,而5G GPU計(jì)算則是vSphere管理vGPU的新興用例。
管理員還可以在vSphere中使用vGPU,以加速圖形工作負(fù)載;編碼和解碼VMware Horizon工作負(fù)載;運(yùn)行機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和高性能計(jì)算工作負(fù)載;并開發(fā)增強(qiáng)現(xiàn)實(shí)或虛擬現(xiàn)實(shí)應(yīng)用程序。
由vSphere管理的vGPU還可為啟用vGPU的VM的vMotion等流程提高效率。管理員可以使用vSphere管理GPU和vGPU,然后以更加簡化的方式使用這些GPU和vGPU管理vMotion工作負(fù)載。
VMware的高級(jí)工程師Uday Kurkure說:“機(jī)器學(xué)習(xí)訓(xùn)練或高性能計(jì)算工作可能需要幾天的時(shí)間。
如果你要進(jìn)行服務(wù)器維護(hù),則需要停止作業(yè)并關(guān)閉服務(wù)器…再次啟動(dòng)服務(wù)器并重新啟動(dòng)作業(yè)。但是…其實(shí)你不必關(guān)閉作業(yè)并關(guān)閉服務(wù)器,你可以使用vMotion-將這些工作轉(zhuǎn)移給另一臺(tái)主機(jī),從而節(jié)省了幾天的時(shí)間。” 如果你要在vSphere上設(shè)置Nvidia vGPU,請?jiān)谥鳈C(jī)上安裝Nvidia GPU。在運(yùn)行于主機(jī)之上的管理程序上安裝Nvidia vGPU Manager,以虛擬化基礎(chǔ)GPU。然后,管理員可以運(yùn)行多個(gè)具有相同操作系統(tǒng)(例如Windows或Linux)的VM,這些VM可以訪問相同的虛擬GPU。然后,這些主機(jī)可以快速高效地運(yùn)行高性能計(jì)算或機(jī)器學(xué)習(xí)工作負(fù)載。
vSphere和虛擬環(huán)境中的機(jī)器學(xué)習(xí)
通過vGPU,人們可以提供更有效的機(jī)器學(xué)習(xí)訓(xùn)練。管理員可以在數(shù)據(jù)中心中運(yùn)行其他工作負(fù)載的同時(shí),訓(xùn)練他們的機(jī)器學(xué)習(xí)應(yīng)用程序,從而大大減少訓(xùn)練機(jī)器學(xué)習(xí)應(yīng)用程序所需的時(shí)間。例如,根據(jù)Kurkure的說法,用于單詞預(yù)測的復(fù)雜語言建模工作量最多可能需要56個(gè)小時(shí)來訓(xùn)練,而使用vGPU只需8個(gè)小時(shí)。與本地GPU相比,vGPU在訓(xùn)練時(shí)間方面僅為4%。但是,對于大多數(shù)企業(yè)而言,機(jī)器學(xué)習(xí)仍然處于起步階段。
Delory說:“Project Monterey對于AI或ML工作負(fù)載的好處是使它們可以訪問GPU。但是現(xiàn)在,你要么必須在所有主機(jī)上安裝GPU(這很昂貴),要么將硬件專用于AI或ML工作負(fù)載-這既復(fù)雜又昂貴。”