數(shù)據(jù)湖不僅僅是大數(shù)據(jù)
數(shù)據(jù)湖不僅用于“大數(shù)據(jù)”,而且組織比以往擁有更多的機會將它們納入數(shù)據(jù)堆棧。
行業(yè)專家最近寫了一篇文章,揭露了關(guān)于數(shù)據(jù)湖架構(gòu)、數(shù)據(jù)湖定義和數(shù)據(jù)湖分析的常見誤區(qū)。其文章名為“什么是數(shù)據(jù)湖?需要來避免最大的迷思。”在那篇文章中,構(gòu)建了有關(guān)數(shù)據(jù)湖及其在企業(yè)數(shù)據(jù)策略中的適用范圍的當(dāng)前對話。對于那些希望從數(shù)據(jù)湖中獲取價值的人來說,由于顧問和供應(yīng)商的建議相互矛盾,這個主題歷來是令人困惑和不透明的。
一個可能特別令人困惑的領(lǐng)域是人們認(rèn)為數(shù)據(jù)湖僅用于“大數(shù)據(jù)”。如果花時間閱讀湖泊上的資料,就會認(rèn)為只有一種類型。人們將數(shù)據(jù)湖描述為龐大的、無所不包的實體,旨在容納所有知識。好消息是,湖泊不僅僅用于“大數(shù)據(jù)”,而且比以往任何時候都有更多的機會將其納入數(shù)據(jù)堆棧。
不同類型的數(shù)據(jù)湖
就像大自然一樣,湖泊具有各種不同的形狀和大小。每個都有自然狀態(tài),通常反映數(shù)據(jù)生態(tài)系統(tǒng),就像自然界中反映魚類,鳥類或其他生物的生態(tài)系統(tǒng)一樣。
不幸的是,“大數(shù)據(jù)”角度給人們的印象是湖泊僅用于“里海”規(guī)模的數(shù)據(jù)工作。這無疑使使用數(shù)據(jù)湖變得令人生畏。因此,以如此大的角度來描述事物使得那些可以從中受益的人們無法接近湖泊的概念。這里有一些數(shù)據(jù)湖的例子。
- 偉大的“里海”:就像里海是一個大水域一樣,這種類型的湖泊也是一個龐大而廣泛的,種類繁多的數(shù)據(jù)集。廣泛收集的各種數(shù)據(jù)反映了整個企業(yè)的信息。這就是大多數(shù)數(shù)據(jù)湖工作的框架。
 - 暫時的“湖泊”:就像沙漠中可以有小的臨時湖泊一樣,短暫的短暫存在。它們可以用于項目、試點、PoC或點解決方案,并且它們的打開與關(guān)閉速度一樣快。
 - 領(lǐng)域“項目”:這些湖泊與臨時數(shù)據(jù)湖泊一樣,通常側(cè)重于特定的知識領(lǐng)域。但是,與臨時湖不同,該湖將隨著時間的推移而持續(xù)存在。這些也可能是“淺”的,這意味著它們可能專注于狹窄的數(shù)據(jù)域,例如媒體、社交、Web分析、電子郵件或類似的數(shù)據(jù)源。
 
最近,與客戶合作創(chuàng)建了“域”型湖泊。該湖會將Adobe事件數(shù)據(jù)保存到AWS,以支持企業(yè)Oracle Cloud環(huán)境。為什么選擇AWS to Oracle?對于客戶的OracleBI環(huán)境,這是一種高效且具有成本效益的數(shù)據(jù)消耗模式,尤其是考慮到使用AWS Lake和Athena作為湖內(nèi)容的按需查詢服務(wù)的敏捷性和經(jīng)濟性。
通過設(shè)計,所有類型的湖泊都應(yīng)采用抽象技術(shù),以最大程度地降低風(fēng)險并為您提供更大的靈活性。而且,它們的結(jié)構(gòu)應(yīng)易于使用,而與大小無關(guān)。這確保了數(shù)據(jù)科學(xué)家,業(yè)務(wù)用戶或分析師所使用的湖泊都具有易于數(shù)據(jù)使用的結(jié)構(gòu)化環(huán)境。
數(shù)據(jù)湖入門
成為成功的早期采用者意味著采取業(yè)務(wù)價值方法而不是技術(shù)方法。當(dāng)組織考慮如何入門時,這里有一些提示:
- 重點:尋找機會,在其中部署“臨時”或“項目”解決方案。這將確保您降低風(fēng)險并克服技術(shù)和組織挑戰(zhàn),以便您的團(tuán)隊可以對湖泊建立信心。
 - 熱情:確保內(nèi)部有一位“傳道者”或“倡導(dǎo)者”,他們對組織的解決方案和采用充滿熱情。
 - 簡單:擁護(hù)簡單性和敏捷性,使人員、流程和技術(shù)選擇貫穿于此。缺乏復(fù)雜性不應(yīng)被看作是缺陷,而是周到的設(shè)計的副產(chǎn)品。
 - 狹義:通過限制湖泊來理解數(shù)據(jù)(例如從ERP、CRM、銷售點、市場營銷或廣告數(shù)據(jù)中導(dǎo)出)來使范圍狹窄且定義明確。此階段的數(shù)據(jù)素養(yǎng)將幫助您了解有關(guān)數(shù)據(jù)結(jié)構(gòu)、提取、治理,質(zhì)量和測試的工作流。
 - 實驗:將數(shù)據(jù)湖與現(xiàn)代BI和Tableau、Power BI、Amazon Quicksight或Looker等分析工具配對。這將使非技術(shù)用戶有機會通過湖泊進(jìn)行實驗和探索數(shù)據(jù)訪問。這使組織可以與其他用戶群互動,以評估性能瓶頸,發(fā)現(xiàn)改進(jìn)機會,與任何現(xiàn)有EDW系統(tǒng)(或其他數(shù)據(jù)系統(tǒng))的可能鏈接以及其他候選數(shù)據(jù)源。
 
關(guān)注業(yè)務(wù)價值而不是技術(shù),可以為組織提供一個在整體數(shù)據(jù)和分析策略的框架內(nèi)進(jìn)行工作的機會。這樣可以提高速度,并幫助組織實現(xiàn)數(shù)據(jù)湖目標(biāo)并衡量業(yè)務(wù)績效的進(jìn)度。這也導(dǎo)致了完善的共享術(shù)語、最佳實踐以及對建立更好平臺的投資。















 
 
 





 
 
 
 