打破AI算力瓶頸的,是基于FPGA的異構(gòu)計(jì)算加速平臺(tái)解決方案
原創(chuàng)【51CTO.com原創(chuàng)稿件】無人超市落地、類人機(jī)器人采訪、無人車即將量產(chǎn)…當(dāng)下, AI融入各個(gè)細(xì)分領(lǐng)域,正在悄然改變著我們的生活。但要實(shí)現(xiàn)如同科幻電影中人機(jī)互動(dòng)的效果,算力是緊要瓶頸之一。硬件算力是AI向前發(fā)展必不可缺的條件之一,GPU/ASIC/FPGA都是解決龐大計(jì)算量的加速引擎。
鄔剛·加速云創(chuàng)始人兼CEO
近日,杭州加速云信息技術(shù)有限公司(簡(jiǎn)稱:加速云)加速云創(chuàng)始人兼CEO鄔剛在新品發(fā)布會(huì)上表示:“人工智能未來發(fā)展存在瓶頸,需要硬件技術(shù)和算法方面的突破。異構(gòu)計(jì)算是計(jì)算架構(gòu)的未來趨勢(shì),而FPGA 是實(shí)現(xiàn)異構(gòu)計(jì)算的***選擇。”
基于FPGA的深度學(xué)習(xí)方案助力深度學(xué)習(xí)模型高效運(yùn)轉(zhuǎn)
在大數(shù)據(jù)時(shí)代,深度學(xué)習(xí)是人工智能的主要推動(dòng)力。最近幾年大數(shù)據(jù)和計(jì)算力的快速增長(zhǎng)使得深度學(xué)習(xí)技術(shù)有了質(zhì)的飛躍,從而在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域出現(xiàn)了重大突破。然而深度學(xué)習(xí)需要大量的并行計(jì)算,對(duì)硬件平臺(tái)有極高的要求,傳統(tǒng)的計(jì)算機(jī)是無法滿足的。
現(xiàn)有的解決方案是使用GPU來完成深度學(xué)習(xí)的訓(xùn)練,但GPU的功耗太高,性能功耗比差,處理延時(shí)大,在大規(guī)模推理部署和一些對(duì)延時(shí)敏感的場(chǎng)景就不是很適合。由于FPGA具有很高的性能功耗比,而且基于門級(jí)電路設(shè)計(jì)使得FPGA是一個(gè)超低延時(shí)和確定延時(shí)的方案,F(xiàn)PGA的可編程性及動(dòng)態(tài)可重構(gòu)可以適應(yīng)深度學(xué)習(xí)未來算法的變化,IO可編程性可以滿足更多業(yè)務(wù)需求(網(wǎng)絡(luò)加速,邊緣計(jì)算),因此基于FPGA的深度學(xué)習(xí)方案成為未來技術(shù)發(fā)展方向。
此次發(fā)布會(huì),加速云推出一整套基于FPGA的深度學(xué)習(xí)加速方案,包括SC-OPM/SC-OPF/SC-OPS加速卡及FDNN加速庫(kù),快速滿足市場(chǎng)需求。
SC-OPS加速卡
SC-OPS基于Intel***14nm工藝的 Stratix10 FPGA,能夠提供2800K LE及9.2TFLOPS的計(jì)算性能,支持8個(gè)DDR4控制器,提供高達(dá)150GB/S訪存帶寬,提供PCIe*16Lane接口,支持高達(dá)128Gbps的訪問速度,致力滿足數(shù)據(jù)中心高性能深度學(xué)習(xí)加速。
SC-OPM/SC-OPF加速卡
SC-OPM/SC-OPF基于Intel最20nm工藝的 ARRIA 10 FPGA,能夠提供1150K~2*1150K LE及1.5~2TFLOPS計(jì)算性能,致力滿足數(shù)據(jù)中心和邊緣計(jì)算網(wǎng)關(guān)深度學(xué)習(xí)加速。
FDNN加速庫(kù)
FDNN加速庫(kù)是一套基于RTL的深度神經(jīng)網(wǎng)絡(luò)加速庫(kù)FDNN,可以實(shí)現(xiàn)參數(shù)可配置的CNN/DNN/LSTM,也提供高性能的常見網(wǎng)絡(luò)模型加速庫(kù)(包括Lenet,VGG16,Darknet19,YOLOV2,RestNet,DNN,LSTM),致力滿足客戶對(duì)深度學(xué)習(xí)高性能、靈活性加速要求。
基于FPGA完整的OpenCL異構(gòu)開發(fā)環(huán)境
為了方便客戶使用高層語言開發(fā),加速云提供基于FPGA完整的OpenCL異構(gòu)開發(fā)環(huán)境,快速實(shí)現(xiàn)用戶自定義的深度學(xué)習(xí)加速方案。同時(shí)也提供快速深度神經(jīng)網(wǎng)絡(luò)定制加速服務(wù)。
方案特點(diǎn):
A. 高性能集成IP,便于使用和二次開發(fā)
B. 豐富IO接口,方便靈活擴(kuò)展
C. 模塊化設(shè)計(jì),支持各種應(yīng)用場(chǎng)景
D. 高性能功耗比,降低運(yùn)營(yíng)成本
E. 超低延時(shí)及確定性延時(shí),支持時(shí)間敏感型應(yīng)用場(chǎng)景
具體性能指標(biāo):
深度學(xué)習(xí)加速方案應(yīng)用—圖片OCR
某電商平臺(tái)每天要面對(duì)大量的客戶開店和業(yè)務(wù)申請(qǐng)需求,需要大量的營(yíng)業(yè)執(zhí)照等證件審核,傳統(tǒng)采用人工審核方法,但隨著業(yè)務(wù)的增長(zhǎng),人工審核是不可能完成,采用深度學(xué)習(xí)的圖片OCR就是一個(gè)很好的解決方案。
基于深度學(xué)習(xí)的圖片OCR方案包括文字定位和文字識(shí)別兩部分,文字定位采用4層CNN網(wǎng)絡(luò),文字識(shí)別采用4層雙向LSTM,由于CNN部分計(jì)算量不大,主要的計(jì)算量在LSTM,因此對(duì)LSTM部分加速。
原有方案采用GPU完成,但存在兩個(gè)問題:
- 處理延時(shí)很大,不能滿足要求
- 有些圖片中的文字超長(zhǎng),在超長(zhǎng)文字和一般長(zhǎng)度文字一起送入GPU處理時(shí)一般長(zhǎng)度文字處理時(shí)間和超長(zhǎng)文字時(shí)間一樣,這使得業(yè)務(wù)無法到達(dá)上線條件。
具體LSTM規(guī)格如下:
加速云采用FPGA方案實(shí)現(xiàn)完成的雙向LSTM的加速,從而滿足客戶要求,具體方案特性如下:
- 采用SC-OPM加速卡(半高半長(zhǎng):56*167mm)
- Altera Arria 10 GX660器件, 集成 660k LE和1.5T FLOPS 單精度浮點(diǎn)處理能力
- 四層LSTM+1層全連接,各層網(wǎng)絡(luò)參數(shù)可以軟件配置下載
- 可以實(shí)現(xiàn)40000T/S的流量,延時(shí)超低,數(shù)據(jù)長(zhǎng)度可以混合長(zhǎng)度
- 單卡只有33W
除上述內(nèi)容,本次發(fā)布會(huì)加速云還推出了 FBLAS IP庫(kù)、高性能計(jì)算及數(shù)字信號(hào)處理解決方案、邊緣計(jì)算解決方案。
在采訪過程中,鄔剛表示:“加速云是從技術(shù)上推導(dǎo)出來的一家公司,解決方案可以廣泛應(yīng)用于深度學(xué)習(xí)、人工智能、金融、機(jī)器視覺等領(lǐng)域。目前已與阿里、騰訊、科大訊飛等多家企業(yè)開展深入合作。”
寫在***:
最初,F(xiàn)PGA只是用于膠合邏輯(Glue Logic),從膠合邏輯到算法邏輯再到數(shù)字信號(hào)處理、高速串行收發(fā)器和嵌入式處理器,F(xiàn)PGA真正地從配角變成了主角。高性能計(jì)算及數(shù)字信號(hào)處理、邊緣計(jì)算、AI等新應(yīng)用需求的出現(xiàn)給FPGA帶來歷史性的發(fā)展機(jī)遇。目前,國(guó)內(nèi)廠商的主導(dǎo)市場(chǎng)仍在應(yīng)用終端以及中低端的后臺(tái)服務(wù)器市場(chǎng),要想走入云端,打破AI算力瓶頸外,還必須打破在FPGA高端技術(shù)人才、先進(jìn)工藝制程等方面瓶頸,建立起自己的生態(tài)。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】






