合理建立Hadoop數(shù)據(jù)庫(kù)的7個(gè)步驟
數(shù)據(jù)湖的概念起源于大數(shù)據(jù)的出現(xiàn)——且數(shù)據(jù)已成為企業(yè)的核心資產(chǎn),Hadoop則是作為存儲(chǔ)和管理數(shù)據(jù)的平臺(tái)而出現(xiàn)。但是,盲目地投入Hadoop數(shù)據(jù)湖建設(shè)并不一定會(huì)使您的企業(yè)進(jìn)入大數(shù)據(jù)時(shí)代——至少不是以一種成功的方式。
在將各種形狀和大小的數(shù)據(jù)資產(chǎn)以非統(tǒng)一方式匯入Hadoop環(huán)境或另一個(gè)大數(shù)據(jù)存儲(chǔ)庫(kù)的情況下,尤其如此。這種無(wú)序的方法會(huì)帶來(lái)一些挑戰(zhàn)和問(wèn)題,這可能會(huì)成為使用數(shù)據(jù)湖來(lái)支持大數(shù)據(jù)分析應(yīng)用程序的一大阻礙。
例如,您可能無(wú)法記錄哪些數(shù)據(jù)對(duì)象存儲(chǔ)在數(shù)據(jù)湖中,或紀(jì)錄其來(lái)源和出處。這使得數(shù)據(jù)科學(xué)家和其他分析人員很難找到分布在Hadoop集群中的相關(guān)數(shù)據(jù),也難以使數(shù)據(jù)管理者識(shí)別誰(shuí)可以訪問(wèn)特定數(shù)據(jù)集,并確定其訪問(wèn)權(quán)限級(jí)別。
如果您沒(méi)有一個(gè)良好的管理流程,組織數(shù)據(jù)并將相似的數(shù)據(jù)對(duì)象“桶裝”在一起以幫助簡(jiǎn)化訪問(wèn)和分析也將是一個(gè)挑戰(zhàn)。
這些問(wèn)題都與數(shù)據(jù)湖或底層環(huán)境的物理架構(gòu)無(wú)關(guān),無(wú)論是Hadoop分布式文件系統(tǒng)還是像Amazon Simple Storage Service這樣的云對(duì)象存儲(chǔ)——或這些技術(shù)的組合,每種技術(shù)包含不同的類(lèi)型數(shù)據(jù)。相反,成功實(shí)施數(shù)據(jù)湖的最大障礙來(lái)自對(duì)數(shù)據(jù)管理的規(guī)劃和監(jiān)督不足。

處理Hadoop數(shù)據(jù):做需要做的事
好的一點(diǎn)是,這些挑戰(zhàn)很容易克服。以下是解決和避免這些問(wèn)題的七個(gè)步驟:
1、創(chuàng)建數(shù)據(jù)分類(lèi)方法。在數(shù)據(jù)湖中對(duì)數(shù)據(jù)對(duì)象進(jìn)行組織取決于其分類(lèi)方式。在分類(lèi)中需要確定數(shù)據(jù)的關(guān)鍵維度,例如數(shù)據(jù)類(lèi)型、內(nèi)容、使用方案、可能的用戶(hù)組和數(shù)據(jù)敏感性。后者涉及保護(hù)個(gè)人和公司數(shù)據(jù),例如保護(hù)有關(guān)客戶(hù)的個(gè)人身份信息,或者保護(hù)知識(shí)產(chǎn)權(quán)。
2、設(shè)計(jì)適當(dāng)?shù)臄?shù)據(jù)架構(gòu)。應(yīng)用定義好的分類(lèi)方法來(lái)指導(dǎo)如何在Hadoop環(huán)境中組織數(shù)據(jù)。最終的計(jì)劃應(yīng)包括諸如用于數(shù)據(jù)存儲(chǔ)的文件層次結(jié)構(gòu)、文件和文件夾命名約定、用于不同數(shù)據(jù)集的訪問(wèn)方法和控件、以及用于指導(dǎo)數(shù)據(jù)分發(fā)的機(jī)制之類(lèi)的內(nèi)容。
3、使用數(shù)據(jù)分析工具。在許多情況下,可以通過(guò)分析數(shù)據(jù)的內(nèi)容,來(lái)部分地緩解對(duì)進(jìn)入數(shù)據(jù)湖的所有數(shù)據(jù)了解不足的問(wèn)題。數(shù)據(jù)概要分析工具可以通過(guò)收集有關(guān)數(shù)據(jù)對(duì)象中內(nèi)容的信息來(lái)提供幫助,從而提供一些如何對(duì)其進(jìn)行分類(lèi)的見(jiàn)解。作為數(shù)據(jù)湖實(shí)施方案的一部分,對(duì)數(shù)據(jù)進(jìn)行分析還有助于確定應(yīng)評(píng)估的數(shù)據(jù)質(zhì)量問(wèn)題,以找出可能的修復(fù)方法,確保數(shù)據(jù)科學(xué)家和其他分析人員正在使用的信息是準(zhǔn)確的。
4、標(biāo)準(zhǔn)化數(shù)據(jù)訪問(wèn)過(guò)程。有效使用存儲(chǔ)在Hadoop數(shù)據(jù)湖中的數(shù)據(jù)集所面臨的困難,通常源于不同分析團(tuán)隊(duì)使用多種數(shù)據(jù)訪問(wèn)方法,而且其中許多未記錄。因此,建立一個(gè)通用而直接的API可以簡(jiǎn)化數(shù)據(jù)訪問(wèn),并最終允許更多的用戶(hù)利用數(shù)據(jù)。
5、開(kāi)發(fā)可搜索的數(shù)據(jù)目錄。有效數(shù)據(jù)訪問(wèn)和使用面臨的一個(gè)更隱蔽的障礙是,除了有關(guān)數(shù)據(jù)沿襲、質(zhì)量和流通的信息外,潛在用戶(hù)不知道數(shù)據(jù)湖中的內(nèi)容以及Hadoop環(huán)境中不同數(shù)據(jù)集的位置。協(xié)作數(shù)據(jù)目錄允許將有關(guān)每個(gè)數(shù)據(jù)資產(chǎn)的前面這些以及其他詳細(xì)信息記錄在案。例如,它抓取結(jié)構(gòu)和語(yǔ)義元數(shù)據(jù)、出處和親屬關(guān)系記錄、訪問(wèn)權(quán)限信息等等。數(shù)據(jù)目錄還為用戶(hù)組提供了一個(gè)論壇,以共享有關(guān)使用數(shù)據(jù)的經(jīng)驗(yàn),問(wèn)題和建議。
6、實(shí)施足夠的數(shù)據(jù)保護(hù)。除了IT安全性的常規(guī)考慮(例如網(wǎng)絡(luò)邊界防御和基于角色的訪問(wèn)控制)之外,還需要利用其他方法來(lái)防止暴露數(shù)據(jù)湖中包含的敏感信息。這包括數(shù)據(jù)加密和數(shù)據(jù)屏蔽之類(lèi)的機(jī)制,以及自動(dòng)監(jiān)視,以生成有關(guān)未經(jīng)授權(quán)的數(shù)據(jù)訪問(wèn)或傳輸?shù)木瘓?bào)。
7、在內(nèi)部提高數(shù)據(jù)意識(shí)。最后,請(qǐng)確保您的數(shù)據(jù)湖用戶(hù)意識(shí)到有必要主動(dòng)管理其包含的數(shù)據(jù)資產(chǎn)。教會(huì)他們?nèi)绾问褂脭?shù)據(jù)目錄查找可用數(shù)據(jù)集,以及如何配置分析應(yīng)用程序以訪問(wèn)他們所需的數(shù)據(jù)。同時(shí),給他們留下深刻印象的是正確使用數(shù)據(jù)和增強(qiáng)數(shù)據(jù)質(zhì)量的重要性。
為了實(shí)現(xiàn)使數(shù)據(jù)湖可訪問(wèn)和可用的最終目標(biāo),在將數(shù)據(jù)遷移到Hadoop環(huán)境或基于云的大數(shù)據(jù)架構(gòu)之前,制定一個(gè)精心設(shè)計(jì)的數(shù)據(jù)處理計(jì)劃至關(guān)重要。采取本文中概述的步驟將有助于簡(jiǎn)化數(shù)據(jù)湖的實(shí)施過(guò)程。更重要的是,規(guī)劃、組織和治理的正確組合將有助于最大程度地提高組織在數(shù)據(jù)湖中的投資,并降低部署失敗的風(fēng)險(xiǎn)。