解析UCloud人工智能與英特爾背后的技術(shù)故事「下」
在上一篇中,我們介紹了UAI-Service借力英特爾技術(shù)如何讓使用AI服務(wù)像使用云主機(jī)一樣便捷等技術(shù)問題。在這一篇中,我們將繼續(xù)就UAI-Service如何以低TCO獲取高效AI服務(wù)等問題展開討論。
UAI-Service另一個重要優(yōu)勢是平臺內(nèi)數(shù)據(jù)的安全性:
1.首先,由于UAI-Service在每個虛擬機(jī)上只部署一個AI節(jié)點,因此做到了各個AI任務(wù)之間的隔離;
2.其次,由于平臺本身并不涉及AI訓(xùn)練數(shù)據(jù)以及訓(xùn)練方法,在運行時僅需模型文件及接口代碼,杜絕了數(shù)據(jù)外泄的可能;
3.最后,UCloud基于SDN技術(shù)實現(xiàn)了網(wǎng)絡(luò)鏈路層的隔離,使每個客戶的UAI- Service項目子網(wǎng)之間相互隔離,提升了網(wǎng)絡(luò)安全性。
在UAI-Service中,用戶之間的AI模型和接口代碼是安全隔離的,全自動化的部署過程使運維人員無權(quán)訪問敏感數(shù)據(jù),進(jìn)一步提升了數(shù)據(jù)的安全性。
UAI-Service的通用性優(yōu)勢,解決了企業(yè)面對不同AI框架時的“選擇障礙癥”。UAI-Service對主流的AI框架,包括TensorFlow*、Keras*、Caffe* 和MXNet* 等都提供良好的支持,企業(yè)可以根據(jù)自己的業(yè)務(wù)需求來選擇不同的AI框架進(jìn)行接入。
UAI-Service 框架示意圖
在傳統(tǒng)的AI框架以外,UAI-Service還與英特爾一起,引入了性能更佳的AI框架:面向英特爾?架構(gòu)優(yōu)化的Caffe框架。這一版本的Caffe框架與傳統(tǒng)AI框架相比,能更好地支持英特爾?至強(qiáng)?處理器產(chǎn)品家族和英特爾?至強(qiáng)融核?處理器產(chǎn)品家族,并集成了最新版本的英特爾?數(shù)學(xué)核心函數(shù)庫2017,能更高效地利用英特爾?AVX的處理能力。
源自UCloud的一系列測試結(jié)果表明,借助面向英特爾?架構(gòu)優(yōu)化的Caffe框架,測試系統(tǒng)同時運行的線程數(shù)量可以得到顯著增加?;谠摽蚣?,測試系統(tǒng)的執(zhí)行時間也能從最初未修改前的37秒縮短至優(yōu)化后的3.6秒,整體執(zhí)行性能提高了10倍以上。事實證明,通過采用這一框架,UAI-Service的AI在線服務(wù)效率得到了極大的躍升。
以低TCO獲取高效AI服務(wù)
現(xiàn)階段,致力于AI開發(fā)和創(chuàng)新的企業(yè),多為初創(chuàng)型企業(yè),或者是正在謀求業(yè)務(wù)轉(zhuǎn)型和升級的傳統(tǒng)企業(yè),因此對TCO的控制尤為敏感。如何獲取高性價比的在線AI能力是企業(yè)用戶們普遍關(guān)心的熱點話題。
由于在圖像識別、自然語言處理等AI正在發(fā)揮重要作用的領(lǐng)域中,往往需要用到大量的浮點運算,因此在人們的傳統(tǒng)觀念里,只針對浮點計算提供加速的GPU平臺,似乎更適于AI系統(tǒng)的構(gòu)建。但在AI模型的部署實踐中,GPU動輒高達(dá)數(shù)萬元人民幣的售價極其昂貴,而且由于其擴(kuò)展性不足,一旦部署,通常就只能固定執(zhí)行單一的計算工作,難以隨時根據(jù)工作任務(wù)的調(diào)整和變化實現(xiàn)及時的適配。
這樣一來,UCloud就盯上了數(shù)據(jù)中心內(nèi)大量部署的、每臺服務(wù)器都會配備的通用處理器。“通過技術(shù)分析,我們發(fā)現(xiàn)虛擬云主機(jī)中的處理器,處于工作狀態(tài)的主要都是簡單指令集,而英特爾?至強(qiáng)?處理器集成的英特爾?AVX則并沒有被充分利用。”UCloud葉理燈表示:“這意味著以浮點計算性能著稱的英特爾?AVX的能力,或許可以為我們提供更適用的解決方案。”
英特爾?AVX是一套完整的單指令多數(shù)據(jù)(Single Instruction Multiple Data,SIMD)指令集規(guī)范,其最大的優(yōu)勢在于支持256位矢量計算,大大提升了處理器的浮點計算性能。其具備的增強(qiáng)數(shù)據(jù)重排能力,也能更有效地存儲、讀取數(shù)據(jù)。在充分認(rèn)識到了英特爾?AVX及其處理單元的特性和優(yōu)勢之后,UCloud的工程師們開始了一項大膽的創(chuàng)新:利用各個虛擬機(jī)中此前未能“物盡其用”的英特爾?AVX能力,來滿足AI在線服務(wù)的計算需求。
為了實現(xiàn)這一創(chuàng)舉,UCloud與英特爾的工程師們攜手優(yōu)化了英特爾?AVX在AI在線服務(wù)中的應(yīng)用表現(xiàn),經(jīng)過反復(fù)的優(yōu)化與驗證,AI在線服務(wù)的重要技術(shù)指標(biāo)——時延被成功降低到了數(shù)百毫秒,完全能夠滿足UCloud用戶的實際應(yīng)用需求。
在時延這一性能指標(biāo)達(dá)標(biāo)的同時,英特爾?至強(qiáng)?E5處理器產(chǎn)品家族出色的可擴(kuò)展性也開始釋放其強(qiáng)大的應(yīng)用潛力。在數(shù)據(jù)中心內(nèi)、服務(wù)器中配備的無數(shù)英特爾處理器都可以被擴(kuò)展到系統(tǒng)中,來進(jìn)一步強(qiáng)化AI在線服務(wù)所需的浮點計算能力,這是一種遠(yuǎn)比GPU方案經(jīng)濟(jì)高效得多的解決方案,畢竟,這些處理器節(jié)點已經(jīng)是UCloud的既有投資,無需再為此多支出一分錢。
“這就是英特爾處理器強(qiáng)大的可擴(kuò)展性帶來的力量。在云計算平臺上,處理器資源能夠迅速地進(jìn)行海量擴(kuò)容,按我們目前的解決方案,即在每一個虛擬機(jī)上都部署一個AI在線服務(wù)計算節(jié)點,這意味著我們的AI在線服務(wù)未來可以根據(jù)用戶需求得到迅速且海量的擴(kuò)容能力,同時還不需要額外支付太多成本。”UCloud葉理燈滿意地說。
為了對這一創(chuàng)新成果進(jìn)行驗證,UAI-Service已在200多個基于英特爾?至強(qiáng)?E5處理器產(chǎn)品家族的虛擬機(jī)節(jié)點上部署了AI在線服務(wù)計算節(jié)點,驗證測試的結(jié)果表明:基于英特爾至強(qiáng)處理器的AI在線服務(wù)計算節(jié)點完全能滿足用戶對性能的要求,在幫助用戶有效降低TCO的同時,也順應(yīng)了數(shù)據(jù)中心環(huán)保節(jié)能的發(fā)展方向。
最新進(jìn)展:讓機(jī)器更快識別”喜怒哀樂”
在前期成功開發(fā)和測試的基礎(chǔ)上,UAI-Service最近又在人臉識別技術(shù)的應(yīng)用上實現(xiàn)最新進(jìn)展。人臉識別一直是人工智能的一個重要研究方向,而基于英特爾至強(qiáng)服務(wù)器平臺,利用英特爾?AVX來支持的UAI-Service,已在人臉表情識別的一系列測試中達(dá)成了優(yōu)異的表現(xiàn),驗證了其能幫助零基礎(chǔ)用戶獲得強(qiáng)大AI能力的潛能。
在測試中,UCloud選用了Tensorflow提供的TF-Slim實驗庫以及人臉表情識別公開數(shù)據(jù)庫fer2013,其中共包含35887張人臉圖片,各測試樣本在年齡、面部等方面有較大差異性,這使該項技術(shù)測試具備了巨大的挑戰(zhàn)性。
而測試結(jié)果表明:在有并發(fā)的前提下,UAI-Service AI在線服務(wù)的性能普遍高于8核8G云主機(jī)的性能,剛剛得到的測評數(shù)據(jù)表明,目前并發(fā)數(shù)為8-16個節(jié)點時,AI在線服務(wù)在性能上基本與基于GPU的方案相仿,這不僅說明在UAI-Service AI在線服務(wù)上部署人臉表情識別應(yīng)用可以帶來出色的成效,還證明基于英特爾?AVX支持的UAI-Service在人工智能應(yīng)用中完全具備了與傳統(tǒng)方案相媲美的能力。
結(jié)論
以此前在UAI-Service上的成功協(xié)作為基礎(chǔ),UCloud未來還計劃進(jìn)一步深化與英特爾的創(chuàng)新協(xié)作,包括將最新的、面向英特爾處理器優(yōu)化的AI框架引入UAI-Service在線服務(wù)平臺,并將充分發(fā)掘新一代英特爾?至強(qiáng)?可擴(kuò)展處理器的能力,特別是其集成的全新英特爾?AVX-512帶來的更為強(qiáng)悍的浮點運算能力,來進(jìn)一步優(yōu)化AI在線服務(wù),讓專注于AI創(chuàng)新和應(yīng)用的企業(yè)用戶,能繼續(xù)在合理的成本條件下,獲取更強(qiáng)的AI計算能力支持。
經(jīng)驗
AI在線服務(wù)的普及,不僅需要在技術(shù)上予以突破,其部署的便捷性、與現(xiàn)有云計算能力的結(jié)合程度以及在分布式集群上部署的可行性,也在深刻影響著企業(yè)用戶的AI研發(fā)和應(yīng)用進(jìn)程。正是因為準(zhǔn)確捕捉到了用戶的痛點和具體需求,UCloud的UAI-Service才贏得了用戶的青睞。
受數(shù)據(jù)中心內(nèi)普遍存在的處理器計算資源閑置現(xiàn)象的啟發(fā),創(chuàng)造性地將其空閑的浮點計算能力投入到AI在線服務(wù)中,這不僅是技術(shù)上的創(chuàng)新,也是AI處理工作模式上的全新探索和嘗試,它既能有效幫助企業(yè)用戶降低TCO,也順應(yīng)了數(shù)據(jù)中心環(huán)保節(jié)能的發(fā)展趨勢。