應(yīng)對大數(shù)據(jù)洪流有哪些重要技巧
隨著企業(yè)挖掘數(shù)據(jù)以獲取有關(guān)客戶、供應(yīng)商和運營的見解,大數(shù)據(jù)應(yīng)用程序正在增長。但隨著容量的增長和數(shù)據(jù)變得更加敏感,底層存儲仍然是一個重要的考慮因素。
以下一些技巧可以說明數(shù)據(jù)存儲專業(yè)人員如何能夠在應(yīng)對存儲系統(tǒng)的大數(shù)據(jù)洪流。
1.結(jié)合閃存、數(shù)據(jù)縮減和保護
IBM公司存儲業(yè)務(wù)首席技術(shù)策略師Clodoaldo Barrera表示,閃存技術(shù)的引入和包括壓縮和重復數(shù)據(jù)刪除在內(nèi)的新存儲系統(tǒng)設(shè)計已經(jīng)成為大數(shù)據(jù)世界中必不可少的必要條件。
Barrera說,“隨著企業(yè)開始依賴大數(shù)據(jù)洞察力,大數(shù)據(jù)應(yīng)用程序變得至關(guān)重要。備份、歸檔和災(zāi)難恢復也必須添加到操作要求中?!?/p>
2.當心孤島
每當出現(xiàn)新的工作負載時,很容易將其視為一種新型計算,因此需要新的存儲基礎(chǔ)設(shè)施。通常的論點是“型存儲更適合這種新的工作負載”,通常引用更低的成本或更好的性能。Barrera表示,這種方法的問題在于它為每種應(yīng)用程序類型創(chuàng)建了單獨的存儲和數(shù)據(jù)孤島。每個孤島都必須有自己的管理、安全、業(yè)務(wù)連續(xù)性、升級路徑等,需要自己的規(guī)劃和運營管理。更糟糕的是,獨立的孤島抑制了工作負載之間的數(shù)據(jù)移動性;事務(wù)處理、實時分析和大數(shù)據(jù)應(yīng)用程序需要針對共同的數(shù)據(jù)基礎(chǔ)進行操作。
Barrera說,“在準備大數(shù)據(jù)環(huán)境時,要考慮整體存儲基礎(chǔ)設(shè)施的需求和成本,并仔細考慮真正需要多少不同的數(shù)據(jù)和存儲環(huán)境?!?/p>
3.整合
說到孤島,對許多人來說至關(guān)重要的第一步是整合他們的大數(shù)據(jù)存儲環(huán)境,從而消除組織中存在的各種數(shù)據(jù)孤島。這一點很重要,原因有二:首先,很難跨不同的數(shù)據(jù)池有效地應(yīng)用大數(shù)據(jù)工具。其次,整合的數(shù)據(jù)存儲環(huán)境通常更高效且更易于管理。要采用這種方法,IT基礎(chǔ)設(shè)施需要能夠在單個存儲平臺上支持廣泛的應(yīng)用程序和工作負載。
DellMC公司非結(jié)構(gòu)化數(shù)據(jù)存儲產(chǎn)品營銷高級總監(jiān)VarunChhabra表示:“數(shù)據(jù)整合可以幫助企業(yè)降低成本、簡化IT管理并為高效使用非結(jié)構(gòu)化數(shù)據(jù)分析工具以從數(shù)據(jù)資產(chǎn)中提取更多價值奠定基礎(chǔ)。由于許多企業(yè)使用廣泛的應(yīng)用程序和工作負載來支持他們的業(yè)務(wù),因此選擇具有多協(xié)議支持功能的存儲基礎(chǔ)架構(gòu)非常重要,可以提供顯著的運營靈活性。
4.匹配應(yīng)用程序
如今有很多大數(shù)據(jù)存儲工具,但并沒有一個可以適合每種應(yīng)用。企業(yè)需要仔細選擇以匹配自己的應(yīng)用程序和環(huán)境。
StorageIO集團分析師Greg Schulz說:“不要僅僅因為解決方案提供了大數(shù)據(jù)和分析支持,就認為它會適用于自己的應(yīng)用程序。如果正在進行Hadoop,需要獲得針對該操作的優(yōu)化內(nèi)容,或視頻處理,那么獲取針對該操作優(yōu)化的內(nèi)容。并查看流行語復選框之外的內(nèi)容?!?/p>
5.歡迎來到機器器學習
IDC公司聲稱,到2020年,42%的數(shù)據(jù)將符合“機器生成”的標準。這些數(shù)據(jù)以應(yīng)用程序日志、傳感器數(shù)據(jù)、業(yè)務(wù)流程日志和消息隊列等形式幾乎不斷地大量生成,它為首席信息官和業(yè)務(wù)領(lǐng)導者提供了一個潛在的金礦。為了跟上數(shù)據(jù)增長并利用其機會獲利,企業(yè)需要合適的人員和合適的工具。但釋放機器學習的潛力需要關(guān)聯(lián)和數(shù)學分析海量數(shù)據(jù)集。因此,對底層存儲架構(gòu)進行仔細規(guī)劃是必不可少的。
ClearSkyData公司首席技術(shù)官Laz Vekiarides說,“如今的大數(shù)據(jù)計劃涉及大量數(shù)據(jù)和大量基礎(chǔ)設(shè)施,因此需要做好準備?!?/p>
6.不要在范圍內(nèi)
Vekiarides補充說,大多數(shù)大數(shù)據(jù)項目從一開始就在性能和容量方面都很小。對大數(shù)據(jù)可能有多大的初步估計通常在一兩年內(nèi)是可笑的。這主要是因為這些項目對組織的價值被低估了。因此,成長計劃從一開始就是一個要求。
Vekiarides說。,“尋找基于消費的模型,讓其可以按需增長,而無需為未使用的容量、軟件和基礎(chǔ)設(shè)施付費,當數(shù)據(jù)規(guī)??焖僭鲩L并需要快速訪問時,彈性最重要,這在大數(shù)據(jù)和分析中都是如此?!?/p>
7.預(yù)先部署保護
一旦創(chuàng)建了PB級數(shù)據(jù)集,事后很難進行全面保護。有時會發(fā)生笨重的數(shù)據(jù)集是跨多個平臺創(chuàng)建的,而沒有真正考慮如何保護數(shù)據(jù)。但隨后意識到,一個單一的嚴重事故可能導致無法估量的寶貴數(shù)據(jù)的丟失?;蛘?,當分析數(shù)據(jù)的工具位于其他公共云或內(nèi)部部署位置時,數(shù)據(jù)可能會滯留在公共云中。
Vekiarides說,“提前考慮災(zāi)難恢復和安全性,因為這些數(shù)據(jù)很快就會成為戰(zhàn)略資產(chǎn),了解希望在多大程度上使用它,以及如何確保它的安全和保護?!?/p>
8.采用自動數(shù)據(jù)分層
并非所有非結(jié)構(gòu)化數(shù)據(jù)都具有相同的價值,而且其價值經(jīng)常隨著時間而變化。在需要高性能基礎(chǔ)設(shè)施的應(yīng)用程序和工作負載中使用的數(shù)據(jù)將需要高性能存儲資源(例如全閃存)。其他數(shù)據(jù)(例如較舊的和很少使用的數(shù)據(jù))可能會被存檔,并且不需要高性能。對所有數(shù)據(jù)使用相同類型的存儲系統(tǒng)通常會導致性能水平不足。使用具有基于策略的自動化分層功能的存儲系統(tǒng)可以確保以正確的性能級別支持數(shù)據(jù)。
Chhabra說,“這種方法將優(yōu)化存儲資源投資并消除成本高昂的人工移動數(shù)據(jù)?!?/p>