簡(jiǎn)化數(shù)據(jù)湖可為組織節(jié)省時(shí)間和資源
咨詢(xún)和托管服務(wù)提供商O(píng)nica公司首席解決方案架構(gòu)師Mark McQuade學(xué)習(xí)和拓寬了他對(duì)從Docker和Kubernetes到人工智能和深度學(xué)習(xí)的各種知識(shí)。McQuade分享了對(duì)數(shù)據(jù)池的看法。
為什么組織使用數(shù)據(jù)湖?
數(shù)據(jù)湖用例的范圍從數(shù)據(jù)科學(xué)家開(kāi)發(fā)的機(jī)器學(xué)習(xí)算法到構(gòu)建統(tǒng)計(jì)可視化,以及使用生成的見(jiàn)解來(lái)指導(dǎo)業(yè)務(wù)決策。
為什么數(shù)據(jù)湖如此復(fù)雜?
隨著數(shù)據(jù)每五年增長(zhǎng)10倍,數(shù)據(jù)平臺(tái)需要擴(kuò)展1000倍才能滿(mǎn)足未來(lái)15年的存儲(chǔ)和處理要求。采用數(shù)據(jù)湖可以減輕這種負(fù)擔(dān),但是由于數(shù)據(jù)清理、數(shù)據(jù)準(zhǔn)備和安全配置的復(fù)雜性,建立數(shù)據(jù)湖的過(guò)程涉及一系列步驟,這些步驟可能變得非常繁瑣,將持續(xù)數(shù)月之久。此外,在數(shù)據(jù)湖的整個(gè)生命周期中,還涉及其他人工步驟,例如管理和監(jiān)視ETL(提取、轉(zhuǎn)換、加載)作業(yè),基于數(shù)據(jù)更改更新元數(shù)據(jù),維護(hù)清理腳本等。
建立數(shù)據(jù)湖需要多長(zhǎng)時(shí)間?
建立一個(gè)完善的數(shù)據(jù)湖可能既困難又耗時(shí),這個(gè)過(guò)程可能需要三到六個(gè)月的時(shí)間。使用AWS Lake Formation可以簡(jiǎn)化以往花費(fèi)大量人力構(gòu)建數(shù)據(jù)湖的工作,并且可以將構(gòu)建數(shù)據(jù)湖的時(shí)間減少到數(shù)周,不必那么復(fù)雜或花費(fèi)那么長(zhǎng)時(shí)間。
簡(jiǎn)化數(shù)據(jù)湖有什么好處?
組織簡(jiǎn)化數(shù)據(jù)湖可以節(jié)省大量的時(shí)間和減少麻煩。通過(guò)完善組織對(duì)數(shù)據(jù)湖的維護(hù),可以減少保持一切正常運(yùn)行所需的內(nèi)部專(zhuān)業(yè)知識(shí)和資源,使IT團(tuán)隊(duì)能夠?qū)W⒂诟o迫的項(xiàng)目,從而從長(zhǎng)遠(yuǎn)來(lái)看節(jié)省了組織成本。
數(shù)據(jù)還可以幫助組織預(yù)測(cè)客戶(hù)行為,自動(dòng)化流程以提高效率,除了自動(dòng)化客戶(hù)服務(wù)之外,還可以通過(guò)速度和可用性增強(qiáng)產(chǎn)品供應(yīng)。這些用例要求數(shù)據(jù)是安全的和實(shí)時(shí)可用的,隨著越來(lái)越多的人訪(fǎng)問(wèn)數(shù)據(jù),重要的是數(shù)據(jù)平臺(tái)是靈活和可擴(kuò)展的。AWS Lake Formation可以解決所有上述問(wèn)題。
組織如何簡(jiǎn)化數(shù)據(jù)湖?
建議使用AWS Lake Formation,它可以消減很多人工工作,并且可以將構(gòu)建數(shù)據(jù)湖的時(shí)間減少到數(shù)周,它還允許組織以三種方式簡(jiǎn)化數(shù)據(jù)湖:
- 使用藍(lán)圖來(lái)攝取數(shù)據(jù):能夠以大容量或增量負(fù)荷攝取數(shù)據(jù)。如果選擇增量加載以進(jìn)行攝取,則可以指定要增量加載的表和列,并設(shè)置一些書(shū)簽鍵,并根據(jù)自己的偏好指定鍵排序順序。設(shè)置完所有這些參數(shù)后,就可以監(jiān)視增量導(dǎo)入,以檢查攝取是否成功。
- 授予權(quán)限以安全地共享數(shù)據(jù):在攝取數(shù)據(jù)之后,可以為用戶(hù)分配對(duì)保存數(shù)據(jù)庫(kù)中數(shù)據(jù)表的訪(fǎng)問(wèn)權(quán)限。這些權(quán)限可能特定于每個(gè)用戶(hù),具有可單獨(dú)選擇的選項(xiàng),例如創(chuàng)建、選擇、插入、更改或刪除數(shù)據(jù)。
- 運(yùn)行查詢(xún):提取數(shù)據(jù)并定義安全權(quán)限之后,可以使用Amazon服務(wù)(例如Amazon Athena)運(yùn)行查詢(xún),這些服務(wù)利用數(shù)據(jù)湖中表中的數(shù)據(jù)。與人工工作相比,使用AWS Lake Formation來(lái)創(chuàng)建和管理數(shù)據(jù)湖是一個(gè)更簡(jiǎn)單、直觀(guān)并且更快的過(guò)程。
組織是否還有其他方法可以降低其不采用這些特定步驟或Amazon的數(shù)據(jù)湖的復(fù)雜性?
雖然這三種超大規(guī)模方案都提供了管理數(shù)據(jù)湖的方法,但對(duì)于組織而言,在采用新技術(shù)之前先問(wèn)自己要解決的問(wèn)題始終很重要。盡管簡(jiǎn)化數(shù)據(jù)湖對(duì)于某些組織而言可能是關(guān)鍵,但可能存在只能用另一種解決方案解決的情況。
組織在簡(jiǎn)化其數(shù)據(jù)湖時(shí)絕對(duì)不應(yīng)該做哪些事情?
組織需要避免內(nèi)部部署工作,并堅(jiān)持使用無(wú)服務(wù)器數(shù)據(jù)湖。無(wú)服務(wù)器的數(shù)據(jù)湖可以使IT團(tuán)隊(duì)有效地進(jìn)行擴(kuò)展,而內(nèi)部部署則需要頻繁的軟件升級(jí)和對(duì)物理硬件的關(guān)注。
建立數(shù)據(jù)湖時(shí),可能會(huì)花費(fèi)大量時(shí)間和精力,組織可能會(huì)想辦法走捷徑,但是當(dāng)涉及到數(shù)據(jù)和將為組織的數(shù)據(jù)提供強(qiáng)大動(dòng)力的數(shù)據(jù)平臺(tái)時(shí),需要避免這種走捷徑的舉動(dòng)。
組織如何才能確保在構(gòu)建數(shù)據(jù)湖時(shí)考慮到未來(lái)因素?
確保組織的數(shù)據(jù)平臺(tái)是為長(zhǎng)期成功而不僅僅是為了滿(mǎn)足當(dāng)前需求而構(gòu)建的。例如,組織可能此時(shí)對(duì)機(jī)器學(xué)習(xí)不感興趣,但是在接下來(lái)的兩到三年內(nèi),很可能希望對(duì)數(shù)據(jù)進(jìn)行一些預(yù)測(cè)。組織確保擁有一個(gè)健壯、可擴(kuò)展且安全的數(shù)據(jù)平臺(tái)也是一個(gè)好習(xí)慣,這將使組織的業(yè)務(wù)和數(shù)據(jù)在未來(lái)幾年內(nèi)都能正常運(yùn)行。