分布式存儲大行其道 浪潮AS13000何以“木秀于林”?
從大數(shù)據(jù)元年到“互聯(lián)網(wǎng)+”,可以看到在每一天每一分鐘里,數(shù)據(jù)都在被大量的創(chuàng)造出來。根據(jù)2014年的統(tǒng)計數(shù)據(jù),一分鐘EMAIL用戶發(fā)送204,000,000封電子郵件、Google收到4,000,000搜索請求、FACEBOOK用戶分享2,460,000條內(nèi)容……類似的例子可以列出很多,用幾個簡單的詞可以概括海量數(shù)據(jù)的特點,就是超大規(guī)模、快速、多樣。
應(yīng)對海量數(shù)據(jù)存儲需求,目前國內(nèi)外存儲廠商大多采用分布式存儲技術(shù),技術(shù)比較過硬同時業(yè)界口碑比較好的有EMC的Isilon、浪潮的AS13000和華為的OceanStor 9000。今天,小編就來為大家扒一扒,分布式存儲技術(shù)是如何發(fā)展起來的?作為廣電總局、華強文化等單位都青睞的海量存儲產(chǎn)品AS13000,在分布式存儲技術(shù)上又有何優(yōu)勝之處,在非線編、影像處理等應(yīng)用上做了哪些優(yōu)化?
架構(gòu)之爭,集中式還是分布式,業(yè)務(wù)需求是道“分水嶺”
所謂集中式存儲,是基于網(wǎng)絡(luò)的存儲系統(tǒng),主要包括DAS存儲(直接附加存儲)、NAS(網(wǎng)絡(luò)附加存儲,提供文件級的數(shù)據(jù)訪問和共享服務(wù))、SAN(存儲區(qū)域網(wǎng)絡(luò),針對海量的面向數(shù)據(jù)塊的數(shù)據(jù)傳輸)這3種存儲組網(wǎng)形式,其中SAN和NAS在實際應(yīng)用中比較常用。
所謂分布式存儲,就是將數(shù)據(jù)分散存儲在多臺獨立的設(shè)備上。
現(xiàn)在問題來了,既然集中存儲已經(jīng)能夠滿足一定規(guī)模的企業(yè)數(shù)據(jù)訪問和存儲需求,為什么還會出現(xiàn)分布式存儲呢?
這個問題也不是一個“既生瑜,何生亮”的矛盾話題,應(yīng)該說業(yè)務(wù)是采用不同架構(gòu)的“分水嶺”,業(yè)務(wù)規(guī)模不同,適用的存儲模式也不同。
傳統(tǒng)的網(wǎng)絡(luò)存儲系統(tǒng)采用集中的存儲存放所有數(shù)據(jù),比較適合業(yè)務(wù)應(yīng)用相對固定、對數(shù)據(jù)一致性要求高、存儲空間一般在幾十TB~百TB容量以下且可預(yù)測范圍內(nèi)增長不大的業(yè)務(wù)場景。
而對于業(yè)務(wù)超大規(guī)模部署(如PB級)、數(shù)據(jù)量幾何級增長的場景,集中存儲成為系統(tǒng)性能的瓶頸,也是可靠性和安全性的“瓶頸”,不能滿足大規(guī)模存儲應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴展的系統(tǒng)結(jié)構(gòu),利用多臺存儲設(shè)備分擔(dān)數(shù)據(jù)并發(fā)訪問負(fù)荷,利用一臺控制設(shè)備進行統(tǒng)一調(diào)度和管理,這樣一來不但提高了系統(tǒng)的可靠性、可用性和存取效率,還便于管理。
簡單來看,在“互聯(lián)網(wǎng)+”趨勢下,云計算、大數(shù)據(jù)、移動化、社交網(wǎng)絡(luò)為代表的第三平臺興起,業(yè)務(wù)對存儲架構(gòu)的需求更加靈活,對擴展性、存儲性能有了更高要求,數(shù)據(jù)類型也更加豐富。這都給了分布式存儲更多的發(fā)展空間。
同時,各個區(qū)域建立集中式還是分布式存儲基礎(chǔ)設(shè)施,很多時候和一個城市的空間布局有關(guān)。就拿北京一些政府部門來說吧,各個區(qū)域受限于地理位置、網(wǎng)絡(luò)條件、機房承重、空調(diào)設(shè)計等問題,建立集中式的存儲基礎(chǔ)設(shè)施,就不如在各個區(qū)先建立分布式存儲系統(tǒng),再匯總到總中心。
大有不同,分布式存儲不僅要看“顏值”更要看“細(xì)節(jié)”
前文提到業(yè)界多家廠商都在分布式存儲上推出了自家的產(chǎn)品,這些產(chǎn)品單看“顏值”,功能上有很多共性,比如一般都能支持SAN、NAS、Object任一種數(shù)據(jù)類型,容量、性能線性提升,支持統(tǒng)一管理,降低TCO等等。但細(xì)看之下還是各有獨特之處的,下面我們就拿浪潮分布式存儲AS13000做個示例,看看這款產(chǎn)品有何特點吧。
浪潮分布式存儲系統(tǒng)AS13000
NO.1可跨節(jié)點存放元數(shù)據(jù)或副本,提升可靠性
AS13000可將多份文件/對象/塊數(shù)據(jù)分別或者一份文件/對象/塊數(shù)據(jù)打散存儲在多臺獨立的設(shè)備上,通過集群不同節(jié)點提供文件/對象/塊數(shù)據(jù)級別的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的存放與訪問。
分布式存儲是將文件/對象/塊數(shù)據(jù)并行分布在多個節(jié)點上的存儲系統(tǒng),分布式存儲能將SAN 連結(jié)到IP或FC網(wǎng)絡(luò),除塊數(shù)據(jù)通過FC網(wǎng)絡(luò)訪問外,使IP 網(wǎng)絡(luò)用戶能通過NAS存儲協(xié)議直接訪問SAN 中的存儲空間。
值得一提的是,在容災(zāi)能力方面,浪潮分布式存儲可以跨機架存放副本,提升系統(tǒng)可靠性。這點在業(yè)內(nèi)還是比較領(lǐng)先的,很多其他品牌的分布式存儲只能在本機架內(nèi)存放副本,一旦出現(xiàn)整機架故障,數(shù)據(jù)就可能損壞或丟失。
副本方式數(shù)據(jù)冗余,可跨節(jié)點部署副本
相比于傳統(tǒng)的RAID技術(shù),節(jié)點間的數(shù)據(jù)冗余具有以下優(yōu)勢:
l 更強的容災(zāi)能力:相對于RAID,副本機制具備更強的容災(zāi)能力,能夠容忍任意形式的單點故障,包括斷電、斷網(wǎng)、磁盤損壞、系統(tǒng)崩潰等
l 更快的數(shù)據(jù)恢復(fù)速度:當(dāng)單一節(jié)點出現(xiàn)異常時,系統(tǒng)的剩余節(jié)點會重新進行數(shù)據(jù)分布和復(fù)制以恢復(fù)容災(zāi)能力。該過程在所有存儲節(jié)點間并行進行,數(shù)據(jù)恢復(fù)速度是RAID的10以上。
l 更低的成本:不需要通過陣列的方式實現(xiàn)數(shù)據(jù)的冗余,而使用存儲服務(wù)器,具有更低的成本和更高的性價比
NO.2糾刪碼和集群間的數(shù)據(jù)重刪,節(jié)約空間
分布式存儲多用來存儲大規(guī)模的數(shù)據(jù),并且為了保障數(shù)據(jù)的高可用采用了多副本技術(shù),為保障數(shù)據(jù)萬無一失,副本當(dāng)然是越多越好,就像AS13000能支持2-8個副本。然而可以想象,當(dāng)數(shù)據(jù)規(guī)模是PB級以上時,每個副本也將消耗大量的存儲空間,由此所帶來的容量購置成本和系統(tǒng)運行成本的增長,實在讓數(shù)據(jù)中心有些吃不消。
在副本技術(shù)外,浪潮分布式存儲還支持糾刪碼,可以通過糾刪碼保障數(shù)據(jù)高可用,從而減少副本的需求量,給企業(yè)節(jié)約了成本。
這還不算,浪潮分布式存儲還支持集群存儲層級的數(shù)據(jù)重刪,通過制定靈活的重刪規(guī)則,顯著提高存儲空間的利用效率,進一步降低容量成本開支。
浪潮分布式存儲可根據(jù)文件類型、大小、創(chuàng)建時間設(shè)定相關(guān)的重刪規(guī)則
NO.3改進傳輸協(xié)議,獲得更好的性能
對于非線編、視頻制作等應(yīng)用場景,經(jīng)常是很多人一起參與同一個視頻的加工,帶寬成了影響工作效率的一個關(guān)鍵點。
傳統(tǒng)NFS協(xié)議中,一個客戶端只能對應(yīng)一臺服務(wù)器(但一個服務(wù)器可以給多個客戶端提供服務(wù)),也就是一個NAS機頭提供帶寬服務(wù),造成了客戶端的帶寬瓶頸。
浪潮對此進行了優(yōu)化,在NFS協(xié)議基礎(chǔ)上疊加了多路徑技術(shù),可以在一個客戶端上插入多個網(wǎng)卡,根據(jù)內(nèi)部負(fù)載調(diào)度算法,實現(xiàn)一個客戶端使用多個NFS服務(wù)端的聚合帶寬,給非線編和視頻制作提供了強大的帶寬支持。
此外,AS13000支持Windows和Linux等多種客戶端,方便在不同的業(yè)務(wù)場景下部署。
同時,在IOPS優(yōu)化方面,浪潮分布式存儲技術(shù)有兩種加速方式。其一是在全SATA盤的情況下,采用寫數(shù)據(jù)直接落盤技術(shù),可提升數(shù)據(jù)寫入速度;其二是在SSD+HDD混合的情況下,對讀寫進行優(yōu)化設(shè)計,數(shù)據(jù)先寫入SSD,進行數(shù)據(jù)整合排列后,再把相對順序且規(guī)整的數(shù)據(jù)寫入HDD,在數(shù)據(jù)讀取時,數(shù)據(jù)仍然是順序的,減少了磁盤的尋址時間。這樣一來,數(shù)據(jù)寫和讀過程中都提升磁頭的工作效率,延遲也可大幅降低。
AS13000,技術(shù)上有更多精彩
剛才跟大家分享了浪潮分布式技術(shù)的幾個小細(xì)節(jié),比如跨節(jié)點副本存放、重刪、糾刪碼、改進的協(xié)議等等。雖然說了很多,感到還是意猶未盡,像集群虛擬化、統(tǒng)一管理等和軟件定義存儲相關(guān)的技術(shù)還沒來得及展開,不如放到專門的一篇軟件定義存儲技術(shù)稿里,下次再說個痛快吧。