應(yīng)對(duì)生成式AI的復(fù)雜性:HPE如何簡(jiǎn)化AI平臺(tái)的構(gòu)建與運(yùn)維
生成式AI的挑戰(zhàn)
- 數(shù)據(jù)準(zhǔn)備和管理:生成式AI的訓(xùn)練需要整合分散在多個(gè)系統(tǒng)中的數(shù)據(jù),數(shù)據(jù)格式復(fù)雜,常包含缺失值和噪聲,影響模型的訓(xùn)練效果。企業(yè)需高效收集、清洗、轉(zhuǎn)換這些數(shù)據(jù),并且要滿足大規(guī)模數(shù)據(jù)處理和高速存儲(chǔ)需求。同時(shí),必須確保數(shù)據(jù)的安全和隱私合規(guī)。
- 模型訓(xùn)練和部署:訓(xùn)練生成式AI模型需要大量計(jì)算資源和長(zhǎng)時(shí)間的訓(xùn)練,硬件成本高且訓(xùn)練周期長(zhǎng)。選擇合適的模型架構(gòu)和超參數(shù)至關(guān)重要,并且需要有效的版本控制來(lái)管理多個(gè)模型版本。將模型部署到生產(chǎn)環(huán)境時(shí),需考慮其性能、可擴(kuò)展性和可靠性。
- 人才和技能:生成式AI的開發(fā)要求具備數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和軟件工程等多方面技能,但這類專業(yè)人才短缺。項(xiàng)目通常需要跨團(tuán)隊(duì)協(xié)作,且技術(shù)更新迅速,人員需不斷學(xué)習(xí)和更新技能,才能跟上技術(shù)發(fā)展。
- 其他挑戰(zhàn):生成式AI項(xiàng)目成本高,企業(yè)必須評(píng)估投資回報(bào)率。技術(shù)的倫理問(wèn)題,如虛假信息傳播和算法偏見,需要企業(yè)在項(xiàng)目實(shí)施前制定應(yīng)對(duì)策略。對(duì)于一些應(yīng)用場(chǎng)景,模型的可解釋性和持續(xù)監(jiān)控也是不可忽視的挑戰(zhàn)。
HPE Private Cloud AI
核心組件:
- HPE GreenLake云平臺(tái):作為HPE混合云戰(zhàn)略的核心,HPE GreenLake云平臺(tái)提供了按需消費(fèi)、彈性擴(kuò)展和統(tǒng)一管理的云計(jì)算服務(wù),為Private Cloud AI解決方案提供了靈活可擴(kuò)展的基礎(chǔ)設(shè)施,并簡(jiǎn)化了AI平臺(tái)的部署和管理流程。
- HPE AI Essentials:專門為Private Cloud AI定制的軟件平臺(tái),包含預(yù)裝、預(yù)配置和預(yù)連接的AI工具和框架,例如Apache Airflow、Spark和Jupyter Notebook,以及NVIDIA AI Enterprise軟件棧。
- NVIDIA AI Enterprise:NVIDIA AI Enterprise軟件棧提供了GPU加速計(jì)算技術(shù)和AI軟件庫(kù),用于優(yōu)化AI模型的訓(xùn)練和推理性能。
- 解決方案加速器(Solution Accelerators):即將推出的功能,將提供預(yù)配置的AI解決方案,涵蓋數(shù)據(jù)、模型和應(yīng)用程序,用戶可以通過(guò)簡(jiǎn)單的點(diǎn)擊操作即可部署特定類型的AI應(yīng)用。
關(guān)鍵特性和優(yōu)勢(shì):
- 簡(jiǎn)化的AI平臺(tái)部署:將復(fù)雜的AI基礎(chǔ)設(shè)施和軟件棧整合到一個(gè)易于部署和管理的平臺(tái)中,使企業(yè)能夠快速構(gòu)建AI平臺(tái)并開始進(jìn)行AI模型的開發(fā)和部署。
- 靈活可擴(kuò)展的基礎(chǔ)設(shè)施:HPE GreenLake云平臺(tái)為Private Cloud AI解決方案提供了按需消費(fèi)和彈性擴(kuò)展的基礎(chǔ)設(shè)施,以滿足生成式AI應(yīng)用對(duì)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源的需求。
- 統(tǒng)一的云平臺(tái)管理:HPE GreenLake云平臺(tái)提供了統(tǒng)一的管理控制臺(tái),用于管理Private Cloud AI解決方案和其他云計(jì)算資源,簡(jiǎn)化IT運(yùn)維并提高AI平臺(tái)的管理效率。
- 增強(qiáng)的安全性:提供了多層次的安全措施,例如數(shù)據(jù)加密、訪問(wèn)控制和安全監(jiān)控,確保企業(yè)數(shù)據(jù)的安全性和合規(guī)性。
- 全面的AI工具和框架支持:HPE AI Essentials整合了各種開源和商業(yè)AI工具和框架,為數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和AI開發(fā)人員提供了一個(gè)完整的AI開發(fā)環(huán)境。
- 與NVIDIA的深度合作:HPE與NVIDIA的合作確保了Private Cloud AI解決方案能夠充分利用NVIDIA的GPU加速計(jì)算技術(shù)和AI軟件庫(kù),優(yōu)化AI模型的訓(xùn)練和推理性能。
- 抽象化和自動(dòng)化:將AI應(yīng)用開發(fā)和部署過(guò)程中復(fù)雜的技術(shù)細(xì)節(jié)抽象化,并提供自動(dòng)化工具來(lái)簡(jiǎn)化工作流程,使不同技術(shù)背景的用戶都能輕松使用AI技術(shù)。
目標(biāo)用戶:
- 數(shù)據(jù)科學(xué)家:提供了一個(gè)完整的AI開發(fā)環(huán)境,包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型評(píng)估和模型部署等工具和框架。
- 數(shù)據(jù)工程師:提供了強(qiáng)大的數(shù)據(jù)處理和分析能力,例如數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)存儲(chǔ)等。
- AI開發(fā)人員:提供了一個(gè)平臺(tái),用于構(gòu)建、部署和管理各種AI應(yīng)用,例如聊天機(jī)器人、推薦系統(tǒng)和欺詐檢測(cè)系統(tǒng)。
- IT管理員:提供了一個(gè)統(tǒng)一的管理控制臺(tái),用于管理AI平臺(tái)的資源、用戶和安全策略。
應(yīng)用場(chǎng)景:
- 生成式AI應(yīng)用開發(fā):開發(fā)各種生成式AI應(yīng)用,例如文本生成、圖像生成、代碼生成和聊天機(jī)器人。
- 預(yù)測(cè)性分析:構(gòu)建預(yù)測(cè)模型,用于預(yù)測(cè)未來(lái)趨勢(shì)、識(shí)別潛在風(fēng)險(xiǎn)和優(yōu)化業(yè)務(wù)決策。
- 數(shù)據(jù)分析和洞察:從大量數(shù)據(jù)中提取有價(jià)值的洞察,幫助企業(yè)更好地了解客戶、市場(chǎng)和運(yùn)營(yíng)情況。
首先分享對(duì)企業(yè)基礎(chǔ)設(shè)施行業(yè)的觀察。在傳統(tǒng)討論框架中,我們的焦點(diǎn)主要落在現(xiàn)有客戶群體上。這些客戶通常會(huì)采購(gòu)硬件設(shè)備,有時(shí)會(huì)將其與合作伙伴的軟件集成,以構(gòu)建完整的解決方案。然而,以往的討論往往止步于此,最終用戶往往被排除在決策過(guò)程之外。
然而,這一狀況正在發(fā)生轉(zhuǎn)變。特別是隨著軟件即服務(wù)(SaaS)的蓬勃發(fā)展,以及像HPE這樣的公有云和混合云供應(yīng)商對(duì)基礎(chǔ)設(shè)施進(jìn)行抽象化處理,我們觀察到越來(lái)越多的終端用戶開始積極參與相關(guān)討論。近年來(lái),這一趨勢(shì)尤為顯著——參與機(jī)器學(xué)習(xí)運(yùn)維(MLOps)工作流的從業(yè)者,即那些負(fù)責(zé)推動(dòng)生成式AI應(yīng)用落地的人員,已不再僅僅作為被咨詢的對(duì)象,而是主動(dòng)提出他們對(duì)基礎(chǔ)設(shè)施的具體需求。
這些需求正在迅速增長(zhǎng)。今天,我想具體分析這些需求的本質(zhì)、成因,以及為何過(guò)分追求快速達(dá)成最終目標(biāo)可能并非最優(yōu)策略。
我擁有機(jī)器人學(xué)工程學(xué)士學(xué)位。機(jī)器人學(xué)不僅涉及機(jī)器學(xué)習(xí)(ML)的應(yīng)用,還包括控制算法的運(yùn)用 - 后者本質(zhì)上是簡(jiǎn)化版的機(jī)器學(xué)習(xí)算法。在機(jī)器人學(xué)領(lǐng)域,核心目標(biāo)是根據(jù)指令實(shí)現(xiàn)物理執(zhí)行。系統(tǒng)需要解讀傳感器輸入和環(huán)境數(shù)據(jù),據(jù)此執(zhí)行特定動(dòng)作,最終為用戶交付預(yù)期結(jié)果。
這個(gè)過(guò)程越自動(dòng)化越好。舉例來(lái)說(shuō),如果能讓機(jī)器人在酒店內(nèi)自主導(dǎo)航,到達(dá)指定房間并送上飲品,這將是一項(xiàng)非常實(shí)用的服務(wù)。也許到2025年,"Toby"這樣的服務(wù)機(jī)器人就能為希爾頓酒店提供客房服務(wù)!
分享這個(gè)例子是為了說(shuō)明我對(duì)應(yīng)用機(jī)器學(xué)習(xí)的理解。當(dāng)我進(jìn)入企業(yè)基礎(chǔ)設(shè)施領(lǐng)域后,我發(fā)現(xiàn)基礎(chǔ)設(shè)施的購(gòu)買方與使用方之間經(jīng)常存在術(shù)語(yǔ)理解上的差異。這種混淆通常源于定義不夠清晰。因此,在深入討論之前,我想明確今天我們將使用的術(shù)語(yǔ),特別是在探討GenAI和AI時(shí)。
AI描述了模仿人類行為或決策過(guò)程的技術(shù)與行為。雖然機(jī)器學(xué)習(xí)通常用于實(shí)現(xiàn)AI,但兩者并非同義詞。機(jī)器學(xué)習(xí)是AI的一個(gè)子集,其核心是分析數(shù)據(jù)集以識(shí)別模式并作出預(yù)測(cè)。通過(guò)這一過(guò)程構(gòu)建的模型通常被稱為神經(jīng)網(wǎng)絡(luò)。
2017年,Google通過(guò)引入Transformer模型徹底改變了這一領(lǐng)域。這項(xiàng)創(chuàng)新使大型模型能夠生成實(shí)時(shí)預(yù)測(cè),通過(guò)逐個(gè)token生成響應(yīng)。Transformer模型成為了眾多現(xiàn)代生成式AI工具的基礎(chǔ)。它的工作原理是預(yù)測(cè)序列中的下一個(gè)片段,例如句子中的下一個(gè)詞。比如在"迅速的棕色狐貍跳過(guò)懶狗"這個(gè)短語(yǔ)中,模型會(huì)根據(jù)上下文預(yù)測(cè)每個(gè)后續(xù)詞。
通過(guò)在海量數(shù)據(jù)集上預(yù)訓(xùn)練這些模型,產(chǎn)生了生成式預(yù)訓(xùn)練變換器(Generative Pre-trained Transformer, GPT)。當(dāng)這些模型經(jīng)過(guò)優(yōu)化以適應(yīng)對(duì)話式輸入輸出時(shí),便發(fā)展成了像ChatGPT這樣的工具,后者于2022年問(wèn)世。這標(biāo)志著大型語(yǔ)言模型(LLM)的崛起,它是Transformer的一個(gè)子集,并迅速成為主流AI應(yīng)用。
分享這些背景是因?yàn)?傳統(tǒng)上基礎(chǔ)設(shè)施團(tuán)隊(duì)無(wú)需過(guò)多關(guān)注AI抽象層面的具體細(xì)節(jié)。然而,LLM工作流的需求正在重塑基礎(chǔ)設(shè)施的范圍、設(shè)計(jì)、部署和服務(wù)方式。支持LLM的需求與其他機(jī)器學(xué)習(xí)技術(shù)有著顯著差異。在探討對(duì)企業(yè)基礎(chǔ)設(shè)施的影響時(shí),理解這一區(qū)別至關(guān)重要。
Camberley Bates:在深入探討這個(gè)技術(shù)棧 - 或者說(shuō)這些層級(jí)時(shí),你如何看待不同角色在其中的作用?特別是考慮到我大致了解你計(jì)劃在這個(gè)產(chǎn)品中關(guān)注的方向。
Alexander Ollman:這個(gè)問(wèn)題切中要害,是個(gè)很好的引子。因?yàn)樵诮酉聛?lái)的討論中,我特別想與大家一起探討并描述那些通常需要處理數(shù)據(jù)傳輸?shù)缴窠?jīng)網(wǎng)絡(luò)、進(jìn)行大數(shù)據(jù)集預(yù)測(cè)AI和向生成式AI應(yīng)用進(jìn)行向量化的角色。
這些角色通常包括數(shù)據(jù)工程師(Data Engineer)、數(shù)據(jù)科學(xué)家(Data Scientist)、機(jī)器學(xué)習(xí)工程師(ML Engineer)、AI工程師(AI Engineer)和應(yīng)用開發(fā)人員(Application Developer)。他們不僅在這一領(lǐng)域工作,而且貫穿整個(gè)基礎(chǔ)設(shè)施技術(shù)棧。如果可以的話,我想暫時(shí)擱置這個(gè)問(wèn)題,因?yàn)榻酉聛?lái)的討論將包括一個(gè)實(shí)際演示,展示如何通過(guò)底層基礎(chǔ)設(shè)施賦能這些角色。
這些應(yīng)用之間存在顯著差異。目前,當(dāng)我們談?wù)揂I這一術(shù)語(yǔ)時(shí),通常指的是預(yù)測(cè)模型。
例如:
- 預(yù)測(cè):預(yù)測(cè)未來(lái)兩個(gè)季度的房?jī)r(jià)或股票價(jià)格。在機(jī)器人學(xué)等領(lǐng)域,時(shí)間序列估算等時(shí)間相關(guān)的用例非常普遍。
- 填補(bǔ)缺失值:在數(shù)據(jù)集中補(bǔ)充缺失項(xiàng)。比如在缺乏大規(guī)模數(shù)據(jù)集的情況下,利用小樣本民意調(diào)查數(shù)據(jù)來(lái)推斷整體群體的觀點(diǎn)。
- 檢測(cè):物體檢測(cè)模型得到廣泛應(yīng)用,尤其在醫(yī)療領(lǐng)域。
這些都是較小規(guī)模神經(jīng)網(wǎng)絡(luò)模型的典型應(yīng)用,它們的性能會(huì)隨著輸入數(shù)據(jù)量的增加而提升。然而,這些模型通常是為特定用例設(shè)計(jì)的。例如,每次打開Spotify時(shí),多個(gè)數(shù)據(jù)流水線會(huì)觸發(fā)模型,實(shí)時(shí)生成個(gè)性化推薦。
相比之下,生成式模型規(guī)模龐大且計(jì)算密集。原因在于它們?cè)诤A客ㄓ脭?shù)據(jù)集上訓(xùn)練,且本質(zhì)上設(shè)計(jì)為通用型模型。
對(duì)于特定任務(wù),小型模型配合較小的數(shù)據(jù)集就能達(dá)到相同的準(zhǔn)確度。而通用型大模型在處理通用應(yīng)用時(shí)則需要顯著更多的計(jì)算資源。這種區(qū)別對(duì)基礎(chǔ)設(shè)施設(shè)計(jì)者來(lái)說(shuō)極其重要,因?yàn)檫\(yùn)行通用模型與特定模型的資源需求有著本質(zhì)區(qū)別。
這正是當(dāng)前市場(chǎng)的主要需求 - 在過(guò)去兩年中,它已成為每月的熱點(diǎn)話題。如果從股市表現(xiàn)來(lái)看,這種熱度可能會(huì)持續(xù)五年之久。
那么,在實(shí)踐中具體需求是什么呢?
- 希望立即部署代碼生成器,使團(tuán)隊(duì)在代碼項(xiàng)目部署效率提升70-80%
- 希望通過(guò)自動(dòng)從現(xiàn)有組織文檔生成報(bào)告來(lái)提高工作效率
- 希望為新聞通訊生成相關(guān)圖片,同時(shí)規(guī)避版權(quán)問(wèn)題
- 希望部署對(duì)話式聊天機(jī)器人(Conversational Chatbot),能夠即時(shí)從組織數(shù)據(jù)中檢索答案
在實(shí)際應(yīng)用中是什么樣子?它表現(xiàn)為一個(gè)已部署的應(yīng)用程序。
這正是現(xiàn)代AI的魅力所在 - 它是一個(gè)針對(duì)特定用例定制的ChatGPT。這也解釋了為什么2022年11月打開了潘多拉魔盒。并非因?yàn)榧夹g(shù)本身是新的(ChatGPT背后的模型早在2020年就已公開),而是因?yàn)橛脩羰状文軌驅(qū)?fù)雜的處理過(guò)程簡(jiǎn)化為問(wèn)答式交互這樣的簡(jiǎn)單形式。
每個(gè)客戶、合作伙伴和利益相關(guān)者都迫切希望盡快實(shí)現(xiàn)這一目標(biāo)。眾多軟件供應(yīng)商也通過(guò)承諾快速部署來(lái)迎合這種需求。
要部署這樣的應(yīng)用程序,需要完成以下關(guān)鍵步驟:
1. 數(shù)據(jù)上下文化(Data Contextualization):
應(yīng)用程序需要組織特定的數(shù)據(jù)。數(shù)據(jù)可能存在于:
- 包含歷史記錄的結(jié)構(gòu)化SQL數(shù)據(jù)庫(kù)
- 非結(jié)構(gòu)化文檔,如PDF或分散存儲(chǔ)在多處的對(duì)象存儲(chǔ)中
數(shù)據(jù)收集并非易事,需要合適的訪問(wèn)控制和準(zhǔn)備工作。
2. 數(shù)據(jù)準(zhǔn)備(Data Preparation):
- 結(jié)構(gòu)化數(shù)據(jù)(如包含數(shù)百萬(wàn)行的表格)需要查詢以提取相關(guān)子集
- 非結(jié)構(gòu)化數(shù)據(jù)(如對(duì)象存儲(chǔ)中的文件)必須經(jīng)過(guò)篩選以確定相關(guān)性
Brian Booden:這是首次區(qū)分結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)來(lái)自數(shù)據(jù)庫(kù)(行與標(biāo)準(zhǔn)格式),而非結(jié)構(gòu)化數(shù)據(jù)包括PDF、Word文檔和PowerPoint文件。你說(shuō)的是哪種數(shù)據(jù)?
Alexander Ollman:兩種都包括。非結(jié)構(gòu)化數(shù)據(jù)可能是存儲(chǔ)為對(duì)象的文件,如數(shù)據(jù)湖(Data Lake)中的PDF或JSON文件。結(jié)構(gòu)化數(shù)據(jù)則涉及查詢數(shù)據(jù)庫(kù)獲取相關(guān)信息。獲取數(shù)據(jù)后,還需要進(jìn)一步處理才能被大型語(yǔ)言模型(LLM)或類似生成式模型使用。
3. 數(shù)據(jù)選擇(Data Selection):
數(shù)據(jù)準(zhǔn)備完成后,需要為特定用例選擇適當(dāng)?shù)臄?shù)據(jù)。
4. 模型選擇或訓(xùn)練:
- 選擇現(xiàn)成模型
- 必要時(shí)對(duì)現(xiàn)有基礎(chǔ)模型進(jìn)行微調(diào)(Fine-tuning)
這一步驟需要軟件和硬件基礎(chǔ)設(shè)施支持。
5. 驗(yàn)證(Validation):
驗(yàn)證模型是否適合預(yù)期用例,可能包括:
- Beta測(cè)試
- 用戶反饋
- 法律合規(guī)性檢查
只有完成這些步驟,組織才能部署應(yīng)用程序并開始獲取收益。
這些步驟都不簡(jiǎn)單,需要細(xì)致規(guī)劃。盡管像HPE這樣的供應(yīng)商在不斷抽象化和簡(jiǎn)化這些流程,但理解和重視其中的復(fù)雜性仍然至關(guān)重要。
這些抽象化是如何實(shí)現(xiàn)的?從這些步驟來(lái)看,它自動(dòng)化了數(shù)據(jù)準(zhǔn)備工作。它能夠簡(jiǎn)化多數(shù)據(jù)源的連接過(guò)程。它能夠創(chuàng)建數(shù)據(jù)流水線(Data Pipeline),使我能夠針對(duì)任何特定用例自動(dòng)啟動(dòng)數(shù)據(jù)流程。這些流水線可以基于事件或特定時(shí)間點(diǎn)觸發(fā) - 每周一次、每季度一次 - 而這一切都可以自動(dòng)化。這樣一來(lái),這些工作就不再需要我手動(dòng)執(zhí)行了。
這還可能包括模型編排的自動(dòng)化。例如,系統(tǒng)可以根據(jù)自然語(yǔ)言用例從模型庫(kù)中選擇合適的模型,為我啟動(dòng)它,并確保選擇了正確的模型,讓我無(wú)需為此操心。
也許我們根本不需要這么復(fù)雜。或許我們可以通過(guò)一些預(yù)打包的LLM應(yīng)用程序來(lái)實(shí)現(xiàn)更高層次的抽象,只需將數(shù)據(jù)傳遞給它們即可。這些抽象的效果取決于實(shí)施人員對(duì)系統(tǒng)的理解程度。這個(gè)概念貫穿各個(gè)層級(jí)的角色,不僅包括數(shù)據(jù)工程(Data Engineering)和數(shù)據(jù)科學(xué)(Data Science)領(lǐng)域的專家,還包括基礎(chǔ)設(shè)施層面的工作人員。
這一點(diǎn)極其重要,因?yàn)槿绻狈?duì)數(shù)據(jù)的深入理解 - 確保數(shù)據(jù)經(jīng)過(guò)精心策劃并遵循所有必要的準(zhǔn)備步驟 - 輸入生成式模型的數(shù)據(jù)有時(shí)可能會(huì)產(chǎn)生偏離預(yù)期的結(jié)果。對(duì)某些場(chǎng)景這可能無(wú)關(guān)緊要,但對(duì)于大型跨國(guó)公司、銀行、航空公司或任何需要日常與客戶互動(dòng)的組織來(lái)說(shuō),這種偏差是絕對(duì)不能接受的。
舉例來(lái)說(shuō),假設(shè)你是一家大型航空公司,需要安撫一位因模型錯(cuò)誤解讀政策而受到誤導(dǎo)的客戶。這種錯(cuò)誤源于模型接收的上下文數(shù)據(jù)未經(jīng)充分訓(xùn)練,是急于求成的結(jié)果。如果沒有適當(dāng)?shù)谋U洗胧?或者對(duì)訓(xùn)練、構(gòu)建和驗(yàn)證過(guò)程重要性缺乏理解,模型可能會(huì)造成嚴(yán)重?fù)p害。
比如,一個(gè)實(shí)施不當(dāng)?shù)哪P涂赡軙?huì)建議客戶購(gòu)買競(jìng)爭(zhēng)對(duì)手的汽車,或者提供完全不相關(guān)的信息,如制作雞蛋沙拉三明治的方法。這些不可預(yù)測(cè)的結(jié)果源于數(shù)據(jù)或?qū)嵤╁e(cuò)誤,在企業(yè)環(huán)境中是難以接受的。特別是在昂貴的基礎(chǔ)設(shè)施上運(yùn)營(yíng)時(shí),僅僅生成響應(yīng)就需要承擔(dān)可觀的成本。
我們?cè)撊绾螒?yīng)對(duì)這個(gè)挑戰(zhàn)?抽象化固然重要,但我們還需要加速AI投資(無(wú)論是預(yù)測(cè)型還是生成型)的價(jià)值實(shí)現(xiàn)。然而,這必須建立在充分理解底層過(guò)程的基礎(chǔ)之上。
讓我舉個(gè)例子,我的第一臺(tái)3D打印機(jī)是大約十年前購(gòu)買的Robo 3D。它最初是一個(gè)Kickstarter項(xiàng)目,旨在成為首批商用家用3D打印機(jī)之一。不幸的是,這臺(tái)打印機(jī)75%的時(shí)間都無(wú)法正常工作 - 要么無(wú)法正確啟動(dòng)、無(wú)法在打印床上附著,要么在完成第一層后就失去精度。這通常是由于水平校準(zhǔn)不當(dāng)、溫度問(wèn)題或環(huán)境因素導(dǎo)致的。
經(jīng)過(guò)多個(gè)不眠之夜的故障排查后,我的搭檔下了最后通牒:"要么選我,要么選打印機(jī)。"時(shí)光快進(jìn)到今天,我擁有了一臺(tái)Bamboo X1 Carbon,這是一款經(jīng)過(guò)顯著改進(jìn)的型號(hào),開箱即可使用。我不再需要手動(dòng)拼接耗材或解決瑣碎問(wèn)題。這臺(tái)打印機(jī)成功將復(fù)雜性抽象化,同時(shí)提供了流暢可靠的使用體驗(yàn)。
然而,這種抽象化之所以有效,是因?yàn)槲夷軌蚶斫馑?jiǎn)化的復(fù)雜性。當(dāng)出現(xiàn)問(wèn)題時(shí),我知道該預(yù)期什么,也知道如何與Bamboo的支持團(tuán)隊(duì)溝通。這種理解對(duì)提升用戶體驗(yàn)和故障排除至關(guān)重要。
這引出了生成式AI應(yīng)用程序的七個(gè)步驟及其抽象化的具體實(shí)現(xiàn)。底層基礎(chǔ)設(shè)施需要幾個(gè)關(guān)鍵組件:
- GPU加速計(jì)算:現(xiàn)代模型規(guī)模已不再是幾十或幾百M(fèi)B,而是以十GB計(jì)。例如,NVIDIA最強(qiáng)大的GPU擁有80GB顯存,僅能容納ChatGPT模型大約四分之一的規(guī)模。
- 高速存儲(chǔ)訪問(wèn)和網(wǎng)絡(luò):這些組件對(duì)于將模型高效傳輸?shù)紾PU顯存中至關(guān)重要。
- 基礎(chǔ)設(shè)施抽象化:多年來(lái),基礎(chǔ)設(shè)施領(lǐng)域一直致力于抽象化技術(shù)復(fù)雜性。通過(guò)虛擬化軟件和資源調(diào)配,為不同角色提供支持,使他們能夠有效執(zhí)行機(jī)器學(xué)習(xí)運(yùn)維(MLOps)中的每個(gè)步驟。
只有在這些層次就位后,軟件應(yīng)用層才能管理內(nèi)部訓(xùn)練、數(shù)據(jù)準(zhǔn)備工具和最終用戶應(yīng)用程序。即便如此,我們?nèi)孕枰咝У夭渴鸷屯评砟P汀?/p>
抽象化這些層次一直是我們努力的方向,這不僅是為了減少痛點(diǎn),更是為了實(shí)現(xiàn)平臺(tái)級(jí)能力。基礎(chǔ)設(shè)施仍對(duì)專業(yè)人員開放,同時(shí)將工具和資源交付給需要的角色。這種方法使數(shù)據(jù)科學(xué)家、工程師和其他專家能夠?qū)W⒂谧约旱娜蝿?wù),而無(wú)需過(guò)多關(guān)注底層的計(jì)算和存儲(chǔ)系統(tǒng)。
在了解機(jī)器學(xué)習(xí)運(yùn)維(MLOps)工作流程的所有步驟時(shí),有一個(gè)關(guān)鍵點(diǎn)我們尚未涉及,那就是實(shí)現(xiàn)這七個(gè)步驟所需的底層基礎(chǔ)設(shè)施的重要性。
接下來(lái)我們將聚焦于底層基礎(chǔ)設(shè)施,以及HPE Private Cloud AI提供的解決方案。我將通過(guò)一個(gè)實(shí)際案例并現(xiàn)場(chǎng)演示Private Cloud AI平臺(tái)來(lái)詳細(xì)說(shuō)明。這不僅展示了HPE在私有云產(chǎn)品上的投入,更重要的是體現(xiàn)了我們與各類群體的深入互動(dòng)——不僅包括基礎(chǔ)設(shè)施管理員和數(shù)據(jù)庫(kù)管理員,還包括那些致力于打造下一代企業(yè)創(chuàng)新的專業(yè)人才:數(shù)據(jù)科學(xué)家(Data Scientists)、數(shù)據(jù)工程師(Data Engineers)、機(jī)器學(xué)習(xí)工程師(ML Engineers)、AI工程師(AI Engineers)和應(yīng)用開發(fā)人員(Application Developers)。
與HPE的眾多深入交流一樣,這次討論也是通過(guò)HPE GreenLake進(jìn)行的。Private Cloud AI這款產(chǎn)品集中體現(xiàn)了HPE自近十年前從惠普公司分拆后確立的愿景。該愿景包含兩個(gè)核心目標(biāo):
1. 突破傳統(tǒng)基礎(chǔ)設(shè)施供應(yīng)商的角色定位——不再局限于提供客戶自行管理的硬件和軟件,而是致力于為復(fù)雜場(chǎng)景提供定制化解決方案。
2. 認(rèn)識(shí)到盡管公有云服務(wù)能帶來(lái)初期價(jià)值,但客戶越來(lái)越看重?cái)?shù)據(jù)主權(quán)和基礎(chǔ)設(shè)施全生命周期的完整控制權(quán)。
Private Cloud AI正是這一愿景的具體實(shí)現(xiàn)。它提供真正的云計(jì)算體驗(yàn),通過(guò)基礎(chǔ)設(shè)施抽象化簡(jiǎn)化最終用戶操作,同時(shí)保障客戶對(duì)網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算資源的完全控制權(quán)和定制能力——這一切都在客戶自有數(shù)據(jù)中心內(nèi)實(shí)現(xiàn)。
Private Cloud AI是一個(gè)面向數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的基礎(chǔ)設(shè)施技術(shù)棧,以設(shè)備形式交付,專門服務(wù)于GenAI時(shí)代。它簡(jiǎn)化了工作流程,就像微波爐幾十年前簡(jiǎn)化了食物加熱過(guò)程一樣。這個(gè)技術(shù)棧整合了硬件、軟件、網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算資源,具備以下功能:
- 在基礎(chǔ)設(shè)施上自動(dòng)部署和擴(kuò)展容器化(Containerized)應(yīng)用程序
- 通過(guò)統(tǒng)一的管理控制臺(tái),根據(jù)不同角色需求集中管理應(yīng)用程序和用戶
系統(tǒng)定義了三類主要角色:
1. 云管理員(Cloud Administrator):負(fù)責(zé)管理基礎(chǔ)設(shè)施訪問(wèn)權(quán)限,如私有云解決方案,快速為用戶分配所需資源。
2. AI管理員(AI Administrator):負(fù)責(zé)用戶接入管理,控制跨應(yīng)用程序的身份和訪問(wèn)權(quán)限,確保數(shù)據(jù)源無(wú)縫集成——全部通過(guò)統(tǒng)一界面操作。
3. AI開發(fā)人員(AI Developer):專注于其專業(yè)工作(如運(yùn)行查詢、構(gòu)建模型),無(wú)需關(guān)注基礎(chǔ)設(shè)施管理細(xì)節(jié)。
例如,開發(fā)人員可以直接使用Jupyter Notebook、Apache Airflow或Spark等工具,而無(wú)需手動(dòng)配置虛擬機(jī)或編排Spark節(jié)點(diǎn)。
系統(tǒng)的用戶管理非常直觀。管理員可以通過(guò)統(tǒng)一界面實(shí)現(xiàn):
- 在Private Cloud AI實(shí)例中為團(tuán)隊(duì)或個(gè)人分配角色
- 設(shè)定基礎(chǔ)設(shè)施和數(shù)據(jù)訪問(wèn)權(quán)限,精確到結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源中的具體表格或存儲(chǔ)桶級(jí)別
舉例來(lái)說(shuō),我可以將用戶Abby指定為Private Cloud AI管理員,并設(shè)置具體的訪問(wèn)限制。這些限制可能包括CPU、GPU或內(nèi)存配額,以及特定數(shù)據(jù)資源的訪問(wèn)權(quán)限,如PostgreSQL數(shù)據(jù)庫(kù)中的特定表格或存儲(chǔ)中的對(duì)象。
這種精細(xì)化的控制確保了數(shù)據(jù)訪問(wèn)的安全性和效率,無(wú)需手動(dòng)管理憑證——有效避免了諸如將AWS私鑰存儲(chǔ)在不安全位置等問(wèn)題。
這種控制對(duì)于涉及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用場(chǎng)景尤為重要。例如:
- 數(shù)據(jù)工程師登錄平臺(tái)查詢銀行交易相關(guān)的PostgreSQL表格
- AI管理員與數(shù)據(jù)庫(kù)管理員協(xié)作,驗(yàn)證并連接各類數(shù)據(jù)源,如Snowflake、Oracle、MySQL或Microsoft SQL Server,實(shí)現(xiàn)無(wú)縫集成
需要注意的是,并非每個(gè)團(tuán)隊(duì)成員都需要完全的數(shù)據(jù)庫(kù)訪問(wèn)權(quán)限——只有負(fù)責(zé)管理連接的管理員才需要這些權(quán)限。
對(duì)于特定的數(shù)據(jù)格式,如Delta Lake和Iceberg表——這些通常用于大規(guī)模數(shù)據(jù)處理。Delta Lake類似于Parquet文件格式,常用于大規(guī)模數(shù)據(jù)集查詢。Iceberg則是另一種優(yōu)化查詢性能的結(jié)構(gòu)化數(shù)據(jù)格式。在連接數(shù)據(jù)庫(kù)時(shí),Private Cloud AI需要進(jìn)行身份驗(yàn)證,確保只有獲得授權(quán)的用戶和角色能夠訪問(wèn)特定資源。這種機(jī)制既保護(hù)了細(xì)粒度數(shù)據(jù)安全,又使組織能夠充分利用這些數(shù)據(jù)來(lái)推動(dòng)AI驅(qū)動(dòng)的業(yè)務(wù)洞察。
現(xiàn)在我們可以建立數(shù)據(jù)連接。以這個(gè)PostgreSQL服務(wù)器為例,連接建立后,平臺(tái)上的所有用戶都能使用相同的身份驗(yàn)證訪問(wèn)此數(shù)據(jù)源。
最便捷的是:作為用戶,我可以通過(guò)同一個(gè)連接器訪問(wèn)該數(shù)據(jù)源,對(duì)特定表格執(zhí)行SQL查詢。我可以生成SQL查詢并將結(jié)果以CSV文件、Parquet文件或其他任意格式保存到本地。
此外,這個(gè)數(shù)據(jù)連接器還支持將數(shù)據(jù)源與HPE Private Cloud AI的軟件平臺(tái)AI Essentials中的各種工具集成。
進(jìn)入工具和框架界面后,我可以看到各種應(yīng)用程序。稍后我會(huì)詳細(xì)介紹NVIDIA AI Enterprise技術(shù)棧,這些都是在AI Essentials中預(yù)裝、預(yù)打包、預(yù)連接并預(yù)配置的應(yīng)用程序,專門用于Private Cloud AI。
讓我們以數(shù)據(jù)工程師的日常工作為例。作為新團(tuán)隊(duì)成員,我首先需要與經(jīng)理確認(rèn)以下事項(xiàng):
- 是否有權(quán)限訪問(wèn)所需的客戶數(shù)據(jù)表
- 結(jié)構(gòu)化數(shù)據(jù)源是否可用
- 身份驗(yàn)證是否已完成配置
- 所有相關(guān)文件是否已存儲(chǔ)并更新在我們的存儲(chǔ)卷中(無(wú)論是在云服務(wù)商環(huán)境還是S3存儲(chǔ)桶中)
獲得訪問(wèn)權(quán)限后,我需要構(gòu)建數(shù)據(jù)流水線(Data Pipeline)。這涉及從數(shù)據(jù)源實(shí)時(shí)提取數(shù)據(jù),進(jìn)行轉(zhuǎn)換(如篩選出相關(guān)客戶數(shù)據(jù)),并將其加載到大型語(yǔ)言模型(LLM)可訪問(wèn)的系統(tǒng)中。這就是經(jīng)典的ETL過(guò)程。
Apache Airflow多年來(lái)一直是最受歡迎的開源工具。每個(gè)數(shù)據(jù)工程專業(yè)的研究生都熟悉它的使用。但通常需要聯(lián)系IT管理員來(lái)部署必要的基礎(chǔ)設(shè)施。需要注意的是,身份驗(yàn)證不僅對(duì)工程師和Airflow必要,對(duì)所有訪問(wèn)數(shù)據(jù)源的用戶同樣重要。
另一個(gè)關(guān)鍵需求是開發(fā)環(huán)境,用于編寫數(shù)據(jù)流水線,無(wú)論是使用R還是Python。Jupyter Notebook是最流行的開發(fā)環(huán)境。傳統(tǒng)上,部署這個(gè)環(huán)境需要向IT提交申請(qǐng)來(lái)啟動(dòng)Jupyter Notebook服務(wù)器,隨后還需要將服務(wù)器節(jié)點(diǎn)與Airflow實(shí)例和其他數(shù)據(jù)源連接。
而在HPE Private Cloud AI中,用戶可以直接登錄并訪問(wèn)Jupyter Notebook環(huán)境。例如,在這個(gè)Notebook中,我可以使用內(nèi)部Token進(jìn)行身份驗(yàn)證,該Token能在Private Cloud AI平臺(tái)的所有容器間無(wú)縫傳遞信息和認(rèn)證信息。
接著,我可以連接到S3實(shí)例,比如存儲(chǔ)層上的本地S3存儲(chǔ)。這種連接是預(yù)配置并預(yù)認(rèn)證的,允許查看環(huán)境中所有有權(quán)限的存儲(chǔ)桶。如果存儲(chǔ)桶訪問(wèn)權(quán)限變更,重新執(zhí)行相同請(qǐng)求會(huì)自動(dòng)返回更新后的列表。
作為數(shù)據(jù)工程師,我無(wú)需關(guān)注底層基礎(chǔ)設(shè)施,登錄即可開始工作。
這種便利性不僅限于數(shù)據(jù)工程。比如,在處理大型表格查詢時(shí),我可以將查詢分布到多個(gè)計(jì)算節(jié)點(diǎn)上。就像在超大Excel文件上運(yùn)行VLOOKUP一樣,這類操作在普通筆記本上可能需要數(shù)分鐘甚至數(shù)小時(shí)。對(duì)于包含數(shù)百萬(wàn)行和數(shù)百列的數(shù)據(jù)集,處理時(shí)間可能長(zhǎng)達(dá)一天。
通過(guò)HPE Private Cloud AI,我們可以在基礎(chǔ)設(shè)施層面將工作負(fù)載分布到高性能計(jì)算節(jié)點(diǎn)上。這是通過(guò)分布式大數(shù)據(jù)查詢引擎Apache Spark實(shí)現(xiàn)的。Spark采用主從架構(gòu)(Master-Worker Architecture),主節(jié)點(diǎn)與工作節(jié)點(diǎn)協(xié)同執(zhí)行分布式任務(wù)。傳統(tǒng)上,部署這類基礎(chǔ)設(shè)施需要安裝主節(jié)點(diǎn)、連接工作節(jié)點(diǎn)并處理作業(yè)認(rèn)證。
在我的Jupyter Notebook環(huán)境中,可以無(wú)縫編寫和管理Spark查詢。使用Spark內(nèi)核,我能直接從Notebook執(zhí)行分布式查詢。例如,可以像更新Token一樣簡(jiǎn)單地管理Spark作業(yè)。
我們的目標(biāo)不是省略部署大型語(yǔ)言模型的必要步驟,而是簡(jiǎn)化終端用戶的基礎(chǔ)設(shè)施配置過(guò)程。終端用戶希望專注于自身任務(wù),而不必操心基礎(chǔ)設(shè)施管理。同時(shí),組織內(nèi)的基礎(chǔ)設(shè)施專家仍保持對(duì)硬件和軟件架構(gòu)的完全控制。
這種簡(jiǎn)化方法同樣適用于數(shù)據(jù)科學(xué)領(lǐng)域。假設(shè)我想基于聊天機(jī)器人(Chatbot)交互中發(fā)現(xiàn)的模式分析客戶數(shù)據(jù)。例如,測(cè)試可能顯示某些查詢經(jīng)常出現(xiàn)。我可以請(qǐng)數(shù)據(jù)工程師提供一個(gè)匿名化數(shù)據(jù)集,去除客戶ID但保留交易模式。
利用這些數(shù)據(jù),我可以構(gòu)建一個(gè)預(yù)測(cè)模型(Prediction Model),用于處理自然語(yǔ)言查詢并預(yù)測(cè)最相關(guān)的字段或交易類型。
在模型存儲(chǔ)方面,傳統(tǒng)方法可能簡(jiǎn)單地將其保存為文件。但現(xiàn)代機(jī)器學(xué)習(xí)工作流程(ML Workflow)是迭代式的。模型會(huì)持續(xù)優(yōu)化,通常涉及數(shù)十個(gè)甚至上百個(gè)版本。多個(gè)團(tuán)隊(duì)成員可能同時(shí)處理同一個(gè)模型。
這個(gè)迭代過(guò)程通常通過(guò)實(shí)驗(yàn)管理來(lái)實(shí)現(xiàn)。即使有模型在生產(chǎn)環(huán)境運(yùn)行,也會(huì)同時(shí)進(jìn)行多個(gè)實(shí)驗(yàn),以確保新數(shù)據(jù)的引入不會(huì)導(dǎo)致模型漂移(Model Drift)或準(zhǔn)確度下降。這些實(shí)驗(yàn)還有助于驗(yàn)證模型的無(wú)偏性(Unbiased)及長(zhǎng)期準(zhǔn)確性。
在這種情況下,我們需要將模型存儲(chǔ)在模型注冊(cè)表(Model Registry)中,以追蹤所有版本的多個(gè)實(shí)驗(yàn)。當(dāng)選定某個(gè)模型用于生產(chǎn)環(huán)境時(shí),需要一個(gè)集成注冊(cè)表的跟蹤平臺(tái),如MLflow。在這個(gè)環(huán)境中,MLflow通過(guò)身份驗(yàn)證與每個(gè)數(shù)據(jù)源和應(yīng)用程序連接。例如,這里可以看到MLflow用于存儲(chǔ)模型和訓(xùn)練運(yùn)行日志的存儲(chǔ)空間。
Max Mortillaro:組織如何使用這個(gè)系統(tǒng)?有什么門檻嗎?并非所有組織都是HPE客戶,也不一定愿意簽訂多年合同。如果他們想要開始某些操作,能否避免冗長(zhǎng)的談判過(guò)程?
Alexander Ollman:你說(shuō)的是這里展示的軟件和編排系統(tǒng)嗎?
Max Mortillaro:不,我指的是你展示的這個(gè)產(chǎn)品。這些大多是開源工具,但如果想采用你提出的集成方案,HPE在其中扮演什么角色?
Alexander Ollman:明白了。你看到的這些是HPE Esmeral的專有技術(shù),是HPE AI Essentials技術(shù)棧的基礎(chǔ)。這個(gè)技術(shù)棧是專門為HPE Private Cloud AI定制的。需要說(shuō)明的是,你不必作為產(chǎn)品的一部分購(gòu)買底層基礎(chǔ)設(shè)施。AI Essentials也可以部署在現(xiàn)有的基礎(chǔ)設(shè)施上。
Max Mortillaro:你是說(shuō)采購(gòu)本地基礎(chǔ)設(shè)施。通過(guò)GreenLake是否可以使用類似的產(chǎn)品?
Alexander Ollman:是的。你看到的這種編排系統(tǒng)——連接和身份驗(yàn)證軟件——是由HPE Esmeral技術(shù)棧提供的。即使沒有這個(gè)技術(shù)棧,你也可以手動(dòng)部署Airflow或Spark等組件,并通過(guò)GreenLake合同使用這些資源。
在數(shù)據(jù)科學(xué)領(lǐng)域,工作流程類似。我只需要存儲(chǔ)和使用模型,而不必聯(lián)系IT部門來(lái)配置虛擬機(jī)(VM)、連接存儲(chǔ)桶或啟動(dòng)MLflow。登錄后,即可打開MLflow,通過(guò)其用戶界面查看實(shí)驗(yàn),并管理所有保存的模型及其版本。
例如,我可以查看生產(chǎn)環(huán)境中模型的歸檔版本。在Notebook環(huán)境中,仍需通過(guò)導(dǎo)入MLflow、更新身份驗(yàn)證Token并實(shí)例化MLflow客戶端來(lái)建立MLflow連接。完成這些后,就可以立即開始運(yùn)行訓(xùn)練作業(yè)并使用模型。
Camberley Bates:看來(lái)你們主要是利用開源工具為客戶提供解決方案。
Alexander Ollman:是的,這是我們的基礎(chǔ)服務(wù)。采用這種方法是為了能夠立即為客戶創(chuàng)造價(jià)值。
Camberley Bates:在這個(gè)技術(shù)棧中,除了集成工作,HPE的知識(shí)產(chǎn)權(quán)(IP)包括哪些內(nèi)容?
Alexander Ollman:這是個(gè)復(fù)雜的問(wèn)題,尤其是在軟件層面。HPE的知識(shí)產(chǎn)權(quán)主要體現(xiàn)在基礎(chǔ)設(shè)施方面——包括支撐上層應(yīng)用程序的硬件和軟件。
Camberley Bates:你提到的Esmeral是從收購(gòu)BlueData和MapR后開發(fā)的。這些產(chǎn)品的哪些部分被整合到了這個(gè)技術(shù)棧中?
Alexander Ollman:以BlueData產(chǎn)品為例,它是一個(gè)容器編排平臺(tái),現(xiàn)已發(fā)展超越基礎(chǔ)設(shè)施層面,提供了出色的用戶界面體驗(yàn)。它還集成了Kubeflow等工具,用于部署Jupyter Notebook服務(wù)器。
雖然模型注冊(cè)功能并非BlueData的專有技術(shù),但它展示了將開源組件整合成一個(gè)無(wú)縫平臺(tái)的價(jià)值。
我們提供的是一個(gè)基礎(chǔ)設(shè)施平臺(tái)——包含軟件和硬件——用戶可以在其中使用自己的工具,只要這些工具支持容器化部署。這種方式確保了應(yīng)用程序的認(rèn)證和互操作性。
我們構(gòu)建這個(gè)平臺(tái)時(shí)充分考慮了機(jī)器學(xué)習(xí)運(yùn)維工作流。由于終端用戶已經(jīng)在使用開源工具,我們的重點(diǎn)是將這些工具高效地整合到平臺(tái)中。
Camberley Bates:關(guān)于數(shù)據(jù),假設(shè)我的數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)或Nimble存儲(chǔ)設(shè)備的結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,我是否需要先遷移或進(jìn)行ETL處理才能在系統(tǒng)中使用?然后,你們會(huì)對(duì)這些數(shù)據(jù)進(jìn)行分類并管理隱私,對(duì)吧?
Alexander Ollman:這屬于數(shù)據(jù)工程工作流程的一部分。
Camberley Bates:我是否必須將所有數(shù)據(jù)集中在這個(gè)環(huán)境中,而不是使用數(shù)據(jù)湖(Data Lake)持續(xù)導(dǎo)入數(shù)據(jù)?
Alexander Ollman:不必如此。對(duì)于大型現(xiàn)有數(shù)據(jù)庫(kù),我們可以創(chuàng)建連接器(Connector)。
Camberley Bates:你們有連接器?
Alexander Ollman:是的,確實(shí)如此。這些數(shù)據(jù)連接器支持與結(jié)構(gòu)化數(shù)據(jù)庫(kù)和對(duì)象存儲(chǔ)的集成。除非必要,數(shù)據(jù)本身不會(huì)導(dǎo)入平臺(tái)。相反,我們只會(huì)引入與特定用例相關(guān)的數(shù)據(jù)。數(shù)據(jù)可以臨時(shí)存儲(chǔ)用于查詢,或進(jìn)行緩存以減少重復(fù)處理。
從數(shù)據(jù)工程的角度看,一旦創(chuàng)建了與結(jié)構(gòu)化數(shù)據(jù)源的連接器,就可以執(zhí)行實(shí)時(shí)SQL查詢。為了高效完成這一過(guò)程,需要一個(gè)經(jīng)過(guò)訓(xùn)練的模型來(lái)處理和解釋查詢結(jié)果。
例如,數(shù)據(jù)科學(xué)家可能會(huì)創(chuàng)建一個(gè)模型,用于解釋SQL查詢結(jié)果并將其上下文傳遞給大型語(yǔ)言模型(LLM)等系統(tǒng)。然而,我的應(yīng)用程序可能需要兩個(gè)生成式模型:一個(gè)用于對(duì)話任務(wù)(如Meta的Llama 3.2),另一個(gè)如SQLCoder,用于將自然語(yǔ)言查詢和數(shù)據(jù)庫(kù)架構(gòu)轉(zhuǎn)換為SQL查詢。
這些模型可以部署為端點(diǎn)(Endpoint)。傳統(tǒng)上,這涉及手動(dòng)步驟,如從Hugging Face或NVIDIA等模型注冊(cè)表獲取模型,通過(guò)VLLM或FastLLM等推理引擎處理,并將其加載到GPU內(nèi)存中。
然而,最終用戶應(yīng)用程序通常通過(guò)API連接。為簡(jiǎn)化這個(gè)過(guò)程,我們可以將推理過(guò)程封裝在REST API服務(wù)器中,并作為容器部署。在基于Kubernetes平臺(tái)運(yùn)行的HPE Private Cloud AI中,這些容器可以動(dòng)態(tài)擴(kuò)展。無(wú)論是支持單個(gè)用戶還是10萬(wàn)用戶,基礎(chǔ)設(shè)施都能自動(dòng)配置資源,并無(wú)縫擴(kuò)展到多個(gè)私有云實(shí)例。
這種方法通過(guò)允許私有云實(shí)例共享基礎(chǔ)設(shè)施來(lái)保護(hù)AI投資。統(tǒng)一的控制平面使擴(kuò)展突破單個(gè)集群的限制,確保資源高效利用。
從最終用戶角度看,一切都是透明的。例如,啟動(dòng)LLM非常簡(jiǎn)單。
使用Kubeflow等工具及其原生擴(kuò)展KServe(預(yù)裝在AI Essentials中),我可以通過(guò)運(yùn)行Kubernetes命令并使用配置文件部署容器化模型。這個(gè)配置文件指導(dǎo)Kubernetes如何部署,包括容器的擴(kuò)展方式。
為優(yōu)化性能,模型文件(可能有幾GB大?。┰赑rivate Cloud AI中本地存儲(chǔ)。這避免了從遠(yuǎn)程存儲(chǔ)庫(kù)獲取文件時(shí)的延遲,特別是在部署多個(gè)容器實(shí)例時(shí)。
HPE與NVIDIA AI Enterprise的合作進(jìn)一步優(yōu)化了這個(gè)過(guò)程。NVIDIA提供用于模型推理的框架和庫(kù),而HPE專注于企業(yè)級(jí)可擴(kuò)展性。我們共同設(shè)計(jì)了易于快速擴(kuò)展的大型企業(yè)工作負(fù)載容器化應(yīng)用。
這種聯(lián)合工程努力持續(xù)推進(jìn),將NVIDIA在AI工具方面的專長(zhǎng)與HPE在基礎(chǔ)設(shè)施方面的能力相結(jié)合,為企業(yè)提供強(qiáng)大且可擴(kuò)展的AI解決方案。
在部署Llama 3等模型時(shí),我可以展示端點(diǎn)的實(shí)際樣子。我想快速展示查看模型端點(diǎn)的方法——包括我正在使用的端點(diǎn)、我有權(quán)限訪問(wèn)的端點(diǎn),或我同事的端點(diǎn)。
對(duì)于那些已經(jīng)構(gòu)建了使用云服務(wù)提供商托管的LLM生成式AI應(yīng)用的開發(fā)者——可能使用OpenAI、Microsoft、Google或Anthropic的服務(wù)——通常會(huì)獲得指向LLM實(shí)例的端點(diǎn)。這正是我這里展示的內(nèi)容。我可以復(fù)制這個(gè)URL,查看運(yùn)行的模型及其當(dāng)前資源使用情況。
以我啟動(dòng)的LLM為例,我快速對(duì)其格式化并以表格形式顯示。我可以查看每個(gè)模型實(shí)例。如果需要擴(kuò)展,完全可以實(shí)現(xiàn)。例如,當(dāng)前擴(kuò)展設(shè)置為1,但我可以輕松調(diào)整。這是我的端點(diǎn),我可以識(shí)別具體模型,然后將其集成到Notebook環(huán)境或應(yīng)用程序中。
我可以在這里快速安裝它,將其命名為虛擬助手。我會(huì)將其分配到"AI數(shù)據(jù)基礎(chǔ)設(shè)施工作日"項(xiàng)目,并歸類到"數(shù)據(jù)科學(xué)"類別下。
Brian Booden:這是端點(diǎn)的模板結(jié)構(gòu)嗎?根據(jù)構(gòu)建的容器,它是否只是重用該容器的端點(diǎn),為GET、PUT、DELETE等操作創(chuàng)建唯一的端點(diǎn)?
Alexander Ollman:沒錯(cuò)。我們與NVIDIA的合作涉及所有必要組件,用于提取模型、封裝便于使用,并支持可擴(kuò)展性。NVIDIA已完成這些基礎(chǔ)工作,而我們確保其能大規(guī)模部署。
Brian Booden:回到容器化討論,你是說(shuō)一個(gè)容器的屬性可以傳遞到另一個(gè)容器嗎?能否擴(kuò)展現(xiàn)有容器——例如,基于它建立基準(zhǔn),然后在此基礎(chǔ)上擴(kuò)展?
Alexander Ollman:不完全是。無(wú)法動(dòng)態(tài)管理容器資源,超出增減資源的范圍。例如,如果模型需要更多計(jì)算能力,我可以分配更多資源,或根據(jù)需要減少。但我可以復(fù)制容器。最好的是,復(fù)制的容器會(huì)保持相同的端點(diǎn)。
Brian Booden:所以你是將底層基準(zhǔn)數(shù)據(jù)架構(gòu)作為模板?你復(fù)制容器并在此基礎(chǔ)上擴(kuò)展?
Alexander Ollman:是的。所有內(nèi)容都擴(kuò)展到Pod級(jí)別。雖然Pod會(huì)被復(fù)制,但Pod內(nèi)的容器端點(diǎn)保持一致。
讓我展示一個(gè)例子。在Kubernetes環(huán)境中部署容器時(shí),通過(guò)藍(lán)圖提供說(shuō)明——通常是Helm圖表(Helm Chart)。大多數(shù)軟件供應(yīng)商的云原生應(yīng)用,無(wú)論是在AWS、GCP還是其他Kubernetes平臺(tái)上,通常都帶有Helm圖表。你可以在這里導(dǎo)入這些圖表,拖放它們,并指定命名空間(Namespace)。例如,我將它放入我的命名空間,并修改圖表以引用正確的容器。我將其命名為"虛擬助手"。
這是在Kubernetes中部署應(yīng)用程序的典型過(guò)程。重要的是,這個(gè)應(yīng)用程序——與其他應(yīng)用一樣——代表了HPE在這領(lǐng)域收購(gòu)的成果。它是經(jīng)過(guò)精心設(shè)計(jì)的用戶體驗(yàn),旨在簡(jiǎn)化操作。雖然在Kubernetes上部署應(yīng)用程序確實(shí)有學(xué)習(xí)曲線,但大多數(shù)Helm圖表都是預(yù)打包的,只需少量調(diào)整就能與HPE AI Essentials中的連接器本地集成。
隨著平臺(tái)的持續(xù)發(fā)展,這些過(guò)程將被抽象為點(diǎn)擊式UI。很快,部署應(yīng)用程序和LLM將變得像點(diǎn)擊幾下那樣簡(jiǎn)單。例如,NVIDIA提供了他們的NeMo推理服務(wù)器(NeMo Inference Server, Nim)。這個(gè)設(shè)置不僅支持LLM,還支持嵌入模型(Embedding Models),這些模型將文本和圖像轉(zhuǎn)換為向量——這種格式非常適合LLM使用。隨著聯(lián)合工程努力的繼續(xù),支持的模型目錄將不斷擴(kuò)展。
現(xiàn)在我已經(jīng)將端點(diǎn)和應(yīng)用程序連接起來(lái)。讓我導(dǎo)入一些庫(kù)——這里有很多,因?yàn)槲以谶@個(gè)Notebook中實(shí)驗(yàn)了一些額外功能。例如,我計(jì)劃從S3存儲(chǔ)桶提取數(shù)據(jù),如PDF文件,并創(chuàng)建向量數(shù)據(jù)庫(kù)(Vector Database)。不過(guò),現(xiàn)在我要展示如何在這個(gè)Notebook環(huán)境中使用相同的端點(diǎn)。
這個(gè)Notebook是一個(gè)容器。我剛初始化的應(yīng)用應(yīng)該已經(jīng)就緒。刷新后它會(huì)立即顯示。通過(guò)這個(gè)環(huán)境,我可以從LLM端點(diǎn)進(jìn)行推理(Inference)。我確保Notebook內(nèi)核在運(yùn)行,更新Token以實(shí)現(xiàn)容器間通信,并將請(qǐng)求指向正確的模型端點(diǎn)。
這個(gè)過(guò)程使用了持久卷聲明(PVC, Persistent Volume Claim),這是一種與HPE Private Cloud AI中底層GreenLake for File相關(guān)聯(lián)的臨時(shí)存儲(chǔ)。訪問(wèn)權(quán)限決定了哪些用戶可以共享文件并有效協(xié)作。例如,這些共享文件夾使團(tuán)隊(duì)成員能夠訪問(wèn)相同資源。
對(duì)于模型推理,NVIDIA的集成簡(jiǎn)化了這一過(guò)程。他們與LangChain等開源工具的合作使單個(gè)對(duì)象實(shí)例能夠處理LLM的交互。例如,我們定義端點(diǎn)、模型和認(rèn)證Token,通過(guò)API服務(wù)器發(fā)起請(qǐng)求。結(jié)果以JSON格式返回,然后解析為可用格式。
這個(gè)框架不僅局限于Notebook環(huán)境。例如,您可以開發(fā)一個(gè)支持實(shí)時(shí)拖放上傳功能的終端用戶應(yīng)用程序。上傳的內(nèi)容可以被向量化并進(jìn)行嵌入,為L(zhǎng)LM提供響應(yīng)所需的上下文。這種被稱為RAG的方法通過(guò)從向量數(shù)據(jù)庫(kù)中檢索并整合相關(guān)數(shù)據(jù),顯著提升了模型回答查詢的能力。
Andy Banta:在基礎(chǔ)設(shè)施方面,診斷能力和可審計(jì)性是至關(guān)重要的。盡管這對(duì)數(shù)據(jù)科學(xué)家很有吸引力,但管理者需要能夠有效監(jiān)控并排除環(huán)境中的故障。
Alexander Ollman:在報(bào)告功能方面,HPE AI Essentials 提供了全面的資源管理視圖。管理員可以接收各類通知和日志。通過(guò)與 OpsRamp 的集成,我們進(jìn)一步增強(qiáng)了基礎(chǔ)設(shè)施的可觀察性和報(bào)告能力。
Andy Banta:診斷能力是另一個(gè)需要關(guān)注的問(wèn)題。當(dāng)環(huán)境出現(xiàn)故障時(shí),問(wèn)題定位的難度如何?您的快速應(yīng)用部署運(yùn)行良好,但這種效果能否在整個(gè)技術(shù)棧中得到同樣的實(shí)現(xiàn)?
Edward Holden:為應(yīng)對(duì)這些挑戰(zhàn),我們已經(jīng)為Private Cloud AI建立了卓越中心(CoE)??蛻艨梢酝ㄟ^(guò)單一支持聯(lián)系人獲取服務(wù),避免了需要與多個(gè)供應(yīng)商溝通的困擾。如果NVIDIA的NIM或其他組件出現(xiàn)問(wèn)題,我們會(huì)直接與NVIDIA協(xié)作解決。卓越中心統(tǒng)一處理所有問(wèn)題,確保支持服務(wù)的無(wú)縫銜接。
Andy Banta:VMware Cloud Foundation在其中擔(dān)任什么角色?
Edward Holden:它是控制節(jié)點(diǎn)的組成部分。私有云控制平面運(yùn)行在虛擬機(jī)(VM)上,并與GreenLake平臺(tái)實(shí)現(xiàn)互聯(lián)?;A(chǔ)設(shè)施充分利用了Private Cloud Business Edition的自動(dòng)化功能,包括OneTouch升級(jí)功能,可用于補(bǔ)丁更新和基礎(chǔ)設(shè)施增強(qiáng)。這些操作都在后臺(tái)自動(dòng)完成,大大簡(jiǎn)化了客戶的使用體驗(yàn)。
HPE Private Cloud AI產(chǎn)品是我們混合云愿景的集大成之作。我們不僅抽象化底層基礎(chǔ)設(shè)施(包括硬件和軟件),還將各個(gè)組件整合起來(lái),提供統(tǒng)一的使用體驗(yàn)。我們的目標(biāo)是在與這些基礎(chǔ)設(shè)施協(xié)同工作的同時(shí),保持對(duì)基礎(chǔ)設(shè)施及其相關(guān)數(shù)據(jù)的完全控制權(quán)。
關(guān)于將基礎(chǔ)設(shè)施與終端用戶抽象化的重要性,這值得我們深入探討。我們演示了如何使用部署在Private Cloud AI之上的HPE AI Essentials,以及它如何通過(guò)GreenLake Cloud平臺(tái)作為機(jī)架設(shè)備運(yùn)行。GreenLake Cloud平臺(tái),尤其是Private Cloud Enterprise商業(yè)版,能夠連接并自動(dòng)配置整個(gè)機(jī)架系統(tǒng)。
我們的首席技術(shù)官和首席執(zhí)行官Antonio Neri在今年早些時(shí)候的HPE Discover大會(huì)上,在拉斯維加斯Sphere現(xiàn)場(chǎng)承諾,只需三次點(diǎn)擊就能完成基礎(chǔ)設(shè)施的部署。在完成基礎(chǔ)設(shè)施搭建后,我們希望能夠抽象化MLOps工作流所需的各個(gè)組件。在我今天的第一個(gè)演講中,我強(qiáng)調(diào)了理解和重視這個(gè)過(guò)程中每個(gè)步驟的重要性。
在軟件層面,抽象化可以采取多種形式。我們希望確保不削弱那些已經(jīng)在數(shù)據(jù)工程(Data Engineering)和數(shù)據(jù)科學(xué)(Data Science)領(lǐng)域使用數(shù)據(jù)和相關(guān)工具的專業(yè)人員的權(quán)限和自主性。雖然他們具備這樣的專業(yè)知識(shí),但現(xiàn)在我們有了能夠自動(dòng)完成所有工作的工具,這可能會(huì)使某些工作顯得多余。這就像是在沒有充分理解各個(gè)步驟的情況下使用快捷方案。
我會(huì)將其比作80年代的微波爐食譜——雖然這些食譜能快速完成烹飪,但成品的口感不一定理想。即便大部分繁重工作是由同樣的設(shè)備完成的,理解整個(gè)過(guò)程中的每個(gè)步驟仍然至關(guān)重要。
如前所述,我們希望在HPE Private Cloud AI產(chǎn)品中抽象化的底層基礎(chǔ)設(shè)施包括GPU加速計(jì)算、模型存儲(chǔ)(顯然,這些存儲(chǔ)需要具備高速度和足夠大的容量,以支持網(wǎng)絡(luò)中其他節(jié)點(diǎn)上的GPU)以及高速網(wǎng)絡(luò)。
我們需要通過(guò)虛擬化軟件層來(lái)訪問(wèn)這些資源。直接連接這些資源可能比較耗時(shí),因此如果能夠通過(guò)應(yīng)用程序和管理功能進(jìn)一步實(shí)現(xiàn)抽象化會(huì)更好。這正是我們希望通過(guò)HPE Private Cloud AI實(shí)現(xiàn)的目標(biāo):從基礎(chǔ)設(shè)施角度實(shí)現(xiàn)抽象化并簡(jiǎn)化使用過(guò)程。
在HPE Private Cloud AI中,從軟件角度來(lái)看,我們能夠?qū)崿F(xiàn)以下功能:借助HPE AI Essentials工具集,用戶和其他軟件供應(yīng)商可以安裝、部署并創(chuàng)建自己的自動(dòng)化方案,針對(duì)其組織的特定數(shù)據(jù)架構(gòu)進(jìn)行定制。這使得自動(dòng)化成為可能,消除了對(duì)數(shù)據(jù)源互連性的顧慮,并能自動(dòng)檢索、收集和選擇特定用例的數(shù)據(jù)。我們正在邁向這樣一個(gè)世界:未來(lái)某天,基于我們平臺(tái)開發(fā)的軟件應(yīng)用程序可以通過(guò)簡(jiǎn)單的提示來(lái)執(zhí)行任務(wù)。
我們現(xiàn)在已經(jīng)處于這樣的世界,而且距離這一目標(biāo)可能已經(jīng)不遠(yuǎn)了。無(wú)論是第三方供應(yīng)商提供的軟件,還是基于組織特定數(shù)據(jù)特征的內(nèi)部開發(fā)項(xiàng)目,我們都有相應(yīng)的平臺(tái)來(lái)部署和構(gòu)建。
我們與NVIDIA的合作伙伴關(guān)系也體現(xiàn)了這一點(diǎn)。我們致力于將大型語(yǔ)言模型(LLM)的開發(fā)和部署抽象化,這不僅包括基于文本的模型,還包括嵌入模型和代碼生成模型。NVIDIA與我們的合作進(jìn)展順利,共同致力于使這些組件能夠擴(kuò)展到企業(yè)級(jí)別。NVIDIA的核心優(yōu)勢(shì)一直在于與庫(kù)和框架的協(xié)同,特別是在其GPU和硬件領(lǐng)域。目前,他們正在向軟件領(lǐng)域擴(kuò)展。眾所周知,在基礎(chǔ)設(shè)施層面擴(kuò)展軟件并非易事。幸運(yùn)的是,他們選擇了最佳的合作伙伴。
通過(guò)這個(gè)應(yīng)用程序,我們可以將所有這些內(nèi)容整合起來(lái),借助HPE Private Cloud推出的解決方案加速器(Solution Accelerators)來(lái)實(shí)現(xiàn)流程自動(dòng)化。通過(guò)解決方案加速器,我可以利用已連接的數(shù)據(jù)源,選擇特定的文件或表格,選擇大型語(yǔ)言模型或其他生成模型,并將它們預(yù)配置且與終端用戶應(yīng)用程序預(yù)先連接。所有這些都可以通過(guò)一次點(diǎn)擊來(lái)部署。這就是HPE Private Cloud AI即將推出的解決方案加速器所帶來(lái)的功能。
雖然目前的設(shè)計(jì)可能會(huì)有所調(diào)整,因?yàn)槲覀冋趯?shí)施新的前端開發(fā)標(biāo)準(zhǔn),但統(tǒng)一性正在不斷加強(qiáng),這對(duì)于我們這樣規(guī)模的企業(yè)來(lái)說(shuō)確實(shí)充滿挑戰(zhàn)。這是我們計(jì)劃在今年年底前正式發(fā)布的目標(biāo)。
我們的目標(biāo)是抽象化流程,同時(shí)保持您對(duì)所有底層組件的操作能力。您仍然可以獲取數(shù)據(jù)、創(chuàng)建向量數(shù)據(jù)庫(kù),并自動(dòng)化構(gòu)建一個(gè)利用這些數(shù)據(jù)的用戶界面。這確實(shí)可以實(shí)現(xiàn),但不僅僅是簡(jiǎn)單地拖放PDF文件。這還涉及管理包含數(shù)百萬(wàn)行的表格,或處理成千上萬(wàn)的文件,并從中選擇適用于特定用例的內(nèi)容。我們希望能夠?qū)⑦@一工作流程擴(kuò)展到企業(yè)級(jí)別,同時(shí)保持簡(jiǎn)單直觀的用戶體驗(yàn)。
參考資料:
- Ollman, A. (2024, October 2). A Step-by-Step Guide to Build Robust AI with Hewlett Packard Enterprise [Video]. YouTube. https://www.youtube.com/watch?v=1FglwbpS_Ys
- Ollman, A. (2024, October 2). Building a Generative AI Foundation with HPE [Video]. YouTube. https://www.youtube.com/watch?v=AIG4-O9ZVRY
- Ollman, A. (2024, October 2). Streamline AI Projects with Infrastructure Abstraction from HPE [Video]. YouTube. https://www.youtube.com/watch?v=5WXEBdGFDQI
本文轉(zhuǎn)載自 ??Andy730??,作者: 常華Andy
