打破TPCx-BB測試記錄又怎樣,會玩Hadoop大數(shù)據(jù)應(yīng)用嗎?
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)量急劇膨脹,新經(jīng)濟(jì)模式下,如何從積累的海量數(shù)據(jù)中挖掘出新的價值,支撐企業(yè)及社會發(fā)展,是當(dāng)前大數(shù)據(jù)大熱的內(nèi)在驅(qū)動力。大數(shù)據(jù)應(yīng)用所需要的IT設(shè)施的計算資源、存儲資源越來越大,但目前很多處于探索期的大數(shù)據(jù)應(yīng)用能否最終挖掘出價值也需持續(xù)的投入與不斷嘗試,如何以更快、更省的方式捕捉到大數(shù)據(jù)的業(yè)務(wù)商機(jī),是大數(shù)據(jù)應(yīng)用企業(yè)不得不考慮的現(xiàn)實問題。
大數(shù)據(jù)應(yīng)用一般采用Hadoop數(shù)據(jù)庫,主要得益于其在數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲,其最核心的設(shè)計就是分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)和MapReduce。HDFS為海量的數(shù)據(jù)提供了分布式存儲,則MapReduce為海量的數(shù)據(jù)提供了分布式計算。Hadoop實現(xiàn)了將單個任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到HDFS里,從而充分利用云化的計算與存儲資源,高效完成大數(shù)據(jù)應(yīng)用中的業(yè)務(wù)邏輯處理流程。
TPCx-BB基準(zhǔn)測試
TPCx-BB是國際標(biāo)準(zhǔn)組織TPC制定的衡量基于Hadoop的大數(shù)據(jù)系統(tǒng)的性能基準(zhǔn)測試標(biāo)準(zhǔn)TPC Benchmark Express-BigBench的簡稱,華為香農(nóng)實驗室得益于DC3.0項目積累的豐富大數(shù)據(jù)底層技術(shù)及應(yīng)用研究經(jīng)驗,是此標(biāo)準(zhǔn)的重要貢獻(xiàn)者之一,也是唯一參與此標(biāo)準(zhǔn)制定的中國公司。此性能測試指標(biāo)排名在工業(yè)和商業(yè)領(lǐng)域中具有很大的影響力。
TPCx-BB測試通過模擬零售商的30個應(yīng)用場景,執(zhí)行30個查詢算法來衡量基于Hadoop大數(shù)據(jù)系統(tǒng)的服務(wù)器軟硬件性能,其中一些場景還用到了當(dāng)前熱門的機(jī)器學(xué)習(xí)算法,如K-Means、Naive Bayes等。TPCx-BB的測試結(jié)果,可以全面準(zhǔn)確的反映大數(shù)據(jù)系統(tǒng)端到端的整體運(yùn)行性能。
TPCx-BB測試的負(fù)載特征:
- 涉及結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型;
- 30項用例模擬,大數(shù)據(jù)處理、分析與報表生成;
- 包含短時間(數(shù)秒)與長時間(數(shù)小時)的大數(shù)據(jù)任務(wù)運(yùn)行;
- 多種數(shù)據(jù)集規(guī)模的靈活擴(kuò)展;
- 并行線程支持不同特點的多個Job運(yùn)行在單個集群上并支持節(jié)點擴(kuò)展;
- 性能和價格指標(biāo)提供了有意義的性能與成本洞察;
- 支持基于MapReduce、Spark及Tez的Hive的靈活性并擴(kuò)展覆蓋未來其他框架。
TPCx-BB測試結(jié)果評估指標(biāo):
- Big Bench 每分鐘查詢 (BBQpm),該指標(biāo)反映了在三個測試階段(負(fù)載測試、能力測試、吞吐量測試),并行運(yùn)行多個作業(yè)測試出的大數(shù)據(jù)應(yīng)用集群的性能效率。
- 價格性能比(Price/BBQpm),該指標(biāo)反映了取得單位性能的成本投入,主要衡量的是性價比。
華為FusionServer 2288H V3測試情況
此次華為FusionServer 2288H V3重點參與了TPCx-BB@3000的測試(3000表示測試數(shù)據(jù)量為3TB),組網(wǎng)圖見上。具體測試結(jié)果如下:
詳細(xì)測試數(shù)據(jù)可以訪問如下TPC官方網(wǎng)站進(jìn)行查詢了解:
http://www.tpc.org/tpcx-bb/results/tpcxbb_perf_results.asp
通過此次測試結(jié)果可以看到,華為FusionServer 2288H V3在基于Hadoop的大數(shù)據(jù)應(yīng)用中,性能及性價比在2路x86機(jī)架服務(wù)器中處于領(lǐng)先地位,顯示出了華為服務(wù)器強(qiáng)大的硬件性能及出色的軟硬一體化調(diào)優(yōu)能力。華為近期推出的可支持12及24個NVMe SSD硬盤的2288H V3的升級版,進(jìn)一步突破服務(wù)器的IO性能瓶頸,提升了服務(wù)器的整體性能。華為FusionServer 2288H V3是互聯(lián)網(wǎng)、電信、金融、能源等行業(yè)構(gòu)建大數(shù)據(jù)應(yīng)用計算平臺的***選擇。
華為FusionSever服務(wù)器
- 高性能
華為FusionServer 2288H V3,配備2顆英特爾®至強(qiáng)™E5-2600 v3/v4系列CPU,***單處理器可達(dá)22核,提供強(qiáng)大的計算性能;支持24條DDR4內(nèi)存插槽及4/12/24個NVMe SSD硬盤;支持16個3.5英寸或28個2.5英寸硬盤的超大本地存儲空間。
- 高可靠
華為FusionServer服務(wù)器元器件采用降額設(shè)計,獨(dú)特高效散熱設(shè)計,嚴(yán)苛測試流程,保障極限情況下設(shè)備可靠性,實現(xiàn)40℃環(huán)溫長期穩(wěn)定運(yùn)行,同時整體故障率低于業(yè)界15%。
- 高能效
在能耗管理上,采用華為特有DEMT動態(tài)能耗管理技術(shù),96%轉(zhuǎn)換效率的鈦金電源,實現(xiàn)精確的處理器功耗管理、風(fēng)扇調(diào)速等電源管理技術(shù),毫瓦必省。
- 管理便捷
華為FusionServer服務(wù)器同時提供方便快捷的管理和維護(hù),獨(dú)立的iBMC管理模塊提供SOL、遠(yuǎn)程KVM、遠(yuǎn)程開關(guān)機(jī)等管理功能及uMate等批量運(yùn)維工具,易于管理。
根據(jù)Gartner的統(tǒng)計數(shù)據(jù),截至2016年第3季度,華為服務(wù)器出貨量排名全球前三(不含塔式),增長率***。華為服務(wù)器已服務(wù)于全球超過5000家客戶,涵蓋政府及公共事業(yè)、互聯(lián)網(wǎng)、電信、能源、金融、交通、醫(yī)療、教育、媒資、制造等行業(yè)。