Gartner預(yù)警:千萬別把數(shù)據(jù)湖與數(shù)據(jù)倉庫混為一談
譯文【51CTO.com快譯】炒作過后就是幻滅,***有價值的東西才會出現(xiàn)。
2014年年中,市場研究機(jī)構(gòu)Gartner的兩位分析師對于炒作越來越猛的數(shù)據(jù)湖(data lake)概念進(jìn)行了一番尖銳的批評。
Gartner的研究主管Nick Heudecker說:“數(shù)據(jù)湖方面的基本問題是,它對于信息使用者做了某些假設(shè)。”
“它假設(shè)使用者認(rèn)識或了解關(guān)于采集如何數(shù)據(jù)的上下文偏見(contextual bias),假設(shè)他們知道如何合并和協(xié)調(diào)不同的數(shù)據(jù)源,而沒有‘先驗知識’;假設(shè)他們了解數(shù)據(jù)集的不完整性,不管是什么樣的數(shù)據(jù)結(jié)構(gòu)。”
一年半后,Gartner的擔(dān)憂似乎并沒有得到緩解。雖然確實有成功的項目,但是也有失敗案例,而關(guān)鍵成功因素似乎是深入了解數(shù)據(jù)湖和數(shù)據(jù)倉庫各自扮演的不同角色。
Heudecker表示,數(shù)據(jù)湖常常被廠商說成是應(yīng)對大數(shù)據(jù)挑戰(zhàn)的一種手段,它其實有助于你搞清楚針對你的數(shù)據(jù)提出的新問題,“前提是你得有相應(yīng)技能。”
“如果這是你想要做的,我倒不太關(guān)心數(shù)據(jù)湖的具體實施。但是如果你的場景是把原先針對數(shù)據(jù)倉庫的服務(wù)級別協(xié)議(SLA)重新實施于數(shù)據(jù)湖,風(fēng)險就很高了。”
Heudecker表示,數(shù)據(jù)湖通常針對不同的使用場合、并發(fā)性和多租戶水平進(jìn)行優(yōu)化。
“換句話說,別頭腦發(fā)熱將數(shù)據(jù)湖用于數(shù)據(jù)倉庫。”
他表示,需要兩者完全合情合理,因為各自針對不同的服務(wù)級別協(xié)議、用戶和技能進(jìn)行了優(yōu)化。
籠統(tǒng)地說,數(shù)據(jù)湖是面向整個企業(yè)的平臺,用于分析采用原生格式的不同數(shù)據(jù)源,以消除數(shù)據(jù)攝取的成本和數(shù)據(jù)轉(zhuǎn)換復(fù)雜性。而這里就面臨挑戰(zhàn):數(shù)據(jù)湖缺乏語義一致性和經(jīng)過治理的元數(shù)據(jù),因而將分析方面的許多責(zé)任推到熟練用戶的身上。
Heudecker表示,大家的認(rèn)識有所提高,但是數(shù)據(jù)湖炒作仍然很普遍。
由于實施數(shù)據(jù)湖的技術(shù)選擇繼續(xù)在迅速變化,這項技術(shù)的成熟度更難掌控。
Heudecker說:“比如說,Spark是一種流行的數(shù)據(jù)處理框架,它平均每隔43天就推出新版本。”
他表示,數(shù)據(jù)湖項目的成功因素歸結(jié)為元數(shù)據(jù)管理、是否具備技能以及執(zhí)行相應(yīng)級別的治理機(jī)制。
“我接觸過這樣的公司:建立起了數(shù)據(jù)湖,往里面放入一堆數(shù)據(jù),卻根本找不到任何有價值的信息。另一些公司根本不知道哪些數(shù)據(jù)集不準(zhǔn)確、哪些數(shù)據(jù)集高品質(zhì)。與IT行業(yè)的其他領(lǐng)域一樣,這方面同樣沒有妙方高招。”
他表示,數(shù)據(jù)湖是個架構(gòu)概念,而不是一種特定的實施方法。
“就像任何新的概念或技術(shù)一樣,總是會出現(xiàn)炒作期,然后是幻滅期,***才成為一種廣為人知的實踐。
數(shù)據(jù)湖會繼續(xù)是使用它們的數(shù)據(jù)科學(xué)家的真實反映。
這項技術(shù)可能會改變和改善,可能會充分發(fā)揮GPU或FPGA之類技術(shù)的優(yōu)勢,但總的目標(biāo)是,發(fā)掘數(shù)據(jù)的新用途和新機(jī)會。”
原文:Data lakes, don't confuse them with data warehouses, warns Gartner
【51CTO.com獨家譯稿,合作站點轉(zhuǎn)載請注明來源】































