偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的五大差異

大數(shù)據(jù) 數(shù)據(jù)湖 數(shù)據(jù)倉庫
根據(jù)Google的說法,對(duì)“大數(shù)據(jù)”的興趣已經(jīng)持續(xù)了好幾年,而且在過去幾年里真正的興起。這篇文章的目的是為了幫助突出數(shù)據(jù)湖泊和數(shù)據(jù)倉庫之間的差異,幫助您就如何管理數(shù)據(jù)做出明智的決定。

根據(jù)Google的說法,對(duì)“大數(shù)據(jù)”的興趣已經(jīng)持續(xù)了好幾年,而且在過去幾年里真正的興起。這篇文章的目的是為了幫助突出數(shù)據(jù)湖泊和數(shù)據(jù)倉庫之間的差異,幫助您就如何管理數(shù)據(jù)做出明智的決定。

我們這些數(shù)據(jù)和分析從業(yè)者當(dāng)然聽過這個(gè)詞,當(dāng)我們開始與客戶討論大數(shù)據(jù)解決方案時(shí),談話自然轉(zhuǎn)向了對(duì)數(shù)據(jù)湖的討論。但是,我經(jīng)常發(fā)現(xiàn)客戶要么沒有聽說過這個(gè)詞,要么沒有很好地理解它的含義。

數(shù)據(jù)倉庫

維基百科,將數(shù)據(jù)倉庫定義為:

“...來自一個(gè)或多個(gè)不同來源的綜合數(shù)據(jù)的中央存儲(chǔ)庫。他們存儲(chǔ)當(dāng)前和歷史數(shù)據(jù),并用于創(chuàng)建高級(jí)管理報(bào)告的趨勢(shì)報(bào)告,如年度和季度比較。“

這是一個(gè)非常高層次的定義,它描述了數(shù)據(jù)倉庫的目的,但沒有解釋如何達(dá)到目的。

我會(huì)繼續(xù)添加一個(gè)數(shù)據(jù)倉庫有以下屬性:

  • 它代表了由主題領(lǐng)域組織的業(yè)務(wù)的抽象圖片。
  • 這是高度轉(zhuǎn)變和結(jié)構(gòu)。
  • 在定義使用數(shù)據(jù)之前,數(shù)據(jù)不會(huì)被加載到數(shù)據(jù)倉庫中。
  • 它通常遵循諸如Ralph Kimball和Bill Inmon所定義的方法。

數(shù)據(jù)湖

Pentaho首席技術(shù)官詹姆斯·迪克森(James Dixon)通常被稱為“數(shù)據(jù)湖”(data lake)。他描述了一個(gè)類似于一瓶水的數(shù)據(jù)集市(數(shù)據(jù)倉庫的一個(gè)子集)...“清理,打包和結(jié)構(gòu)化以便于消費(fèi)”,而數(shù)據(jù)湖更像是一個(gè)自然狀態(tài)的水體。數(shù)據(jù)從流(源系統(tǒng))流向湖。用戶可以進(jìn)入湖泊進(jìn)行檢查,采樣或潛水。

現(xiàn)代數(shù)據(jù)架構(gòu)中的數(shù)據(jù)湖這也是一個(gè)相當(dāng)不精確的定義。我們來添加一個(gè)數(shù)據(jù)湖的一些特定屬性:

  • 所有數(shù)據(jù)都從源系統(tǒng)加載。沒有數(shù)據(jù)被拒絕。
  • 數(shù)據(jù)以未轉(zhuǎn)換或幾乎未轉(zhuǎn)換的狀態(tài)存儲(chǔ)在葉級(jí)。
  • 數(shù)據(jù)被轉(zhuǎn)換,模式被應(yīng)用來滿足分析的需要。

接下來,我們將重點(diǎn)介紹數(shù)據(jù)湖的五個(gè)關(guān)鍵區(qū)別以及它們與數(shù)據(jù)倉庫方法的對(duì)比。

1. Data Lakes保留所有數(shù)據(jù)

在開發(fā)數(shù)據(jù)倉庫的過程中,花費(fèi)大量時(shí)間分析數(shù)據(jù)源,了解業(yè)務(wù)流程和分析數(shù)據(jù)。其結(jié)果是設(shè)計(jì)用于報(bào)告的高度結(jié)構(gòu)化的數(shù)據(jù)模型。這個(gè)過程的很大一部分包括決定要包含哪些數(shù)據(jù),而不包括在倉庫中。一般來說,如果數(shù)據(jù)不是用來回答特定的問題或在一個(gè)定義的報(bào)告中,它可能被排除在倉庫之外。這通常是為了簡化數(shù)據(jù)模型,并節(jié)省昂貴的磁盤存儲(chǔ)上的空間,用于提高數(shù)據(jù)倉庫的性能。

相比之下,數(shù)據(jù)湖保留所有數(shù)據(jù)。不僅僅是今天正在使用的數(shù)據(jù),還有可能使用的數(shù)據(jù),甚至可能永遠(yuǎn)不會(huì)被使用的數(shù)據(jù)。數(shù)據(jù)也一直保存下來,以便我們能及時(shí)回到任何一點(diǎn)做分析。

這種方法成為可能,因?yàn)閿?shù)據(jù)湖的硬件通常與用于數(shù)據(jù)倉庫的硬件大不相同。商品,現(xiàn)成的服務(wù)器與便宜的存儲(chǔ)相結(jié)合,使數(shù)據(jù)湖擴(kuò)展到TB級(jí)和PB級(jí)相當(dāng)經(jīng)濟(jì)。

2.數(shù)據(jù)湖支持所有數(shù)據(jù)類型

數(shù)據(jù)倉庫一般由從事務(wù)系統(tǒng)中提取的數(shù)據(jù)組成,并由定量度量和描述它們的屬性組成。Web服務(wù)器日志,傳感器數(shù)據(jù),社交網(wǎng)絡(luò)活動(dòng),文本和圖像等非傳統(tǒng)數(shù)據(jù)源在很大程度上被忽略。這些數(shù)據(jù)類型的新用途不斷被發(fā)現(xiàn),但是消耗和存儲(chǔ)它們可能是昂貴和困難的。

數(shù)據(jù)湖方法包含這些非傳統(tǒng)的數(shù)據(jù)類型。在數(shù)據(jù)湖中,我們保留所有數(shù)據(jù)而不管源和結(jié)構(gòu)。我們保持它的原始形式,只有在我們準(zhǔn)備好使用它時(shí),我們才會(huì)改變它。這種方法被稱為“讀取模式”與數(shù)據(jù)倉庫中使用的“寫入模式”方法。

3.數(shù)據(jù)湖支持所有用戶

在大多數(shù)組織中,80%或更多的用戶是“運(yùn)營”的。他們希望獲得他們的報(bào)告,查看他們的關(guān)鍵績效指標(biāo),或者每天在電子表格中對(duì)同一組數(shù)據(jù)進(jìn)行分組。數(shù)據(jù)倉庫通常是這些用戶的理想選擇,因?yàn)樗Y(jié)構(gòu)合理,易于使用和理解,并且專門用于回答他們的問題。

接下來的10%左右,對(duì)數(shù)據(jù)做更多的分析。他們使用數(shù)據(jù)倉庫作為數(shù)據(jù)源,但往往回溯到源系統(tǒng),以獲取未包含在倉庫中的數(shù)據(jù),有時(shí)從組織外部獲取數(shù)據(jù)。他們最喜歡的工具是電子表格,他們創(chuàng)建新的報(bào)告,通常分布在整個(gè)組織。數(shù)據(jù)倉庫是他們的數(shù)據(jù)源,但是他們經(jīng)常超出界限

最后,最后幾個(gè)百分比的用戶做了深入的分析。他們可能會(huì)根據(jù)研究創(chuàng)建全新的數(shù)據(jù)源。他們混合了許多不同類型的數(shù)據(jù),并提出了全新的問題來回答。這些用戶可能會(huì)使用數(shù)據(jù)倉庫,但往往會(huì)忽略它,因?yàn)樗麄兺ǔ1豢爻狡淠芰?。這些用戶包括數(shù)據(jù)科學(xué)家,他們可能會(huì)使用先進(jìn)的分析工具和功能,如統(tǒng)計(jì)分析和預(yù)測建模。

數(shù)據(jù)湖方法同樣支持所有這些用戶。數(shù)據(jù)科學(xué)家可以前往湖泊,利用他們所需要的大量不同的數(shù)據(jù)集,而其他用戶則可以使用更為結(jié)構(gòu)化的數(shù)據(jù)視圖來提供數(shù)據(jù)。

4.數(shù)據(jù)湖適應(yīng)變化

關(guān)于數(shù)據(jù)倉庫的主要抱怨之一是需要多長時(shí)間來改變它們。在開發(fā)過程中花費(fèi)了相當(dāng)多的時(shí)間來獲得倉庫的結(jié)構(gòu)。一個(gè)好的倉庫設(shè)計(jì)可以適應(yīng)變化,但是由于數(shù)據(jù)加載過程的復(fù)雜性以及為使分析和報(bào)告容易進(jìn)行而做的工作,這些變化將必然消耗一些開發(fā)人員資源并花費(fèi)一些時(shí)間。

許多業(yè)務(wù)問題都迫不及待地讓數(shù)據(jù)倉庫團(tuán)隊(duì)調(diào)整系統(tǒng)來回答問題。自助服務(wù)商業(yè)智能的概念引發(fā)了日益增長的對(duì)更快答案的需求。

另一方面,在數(shù)據(jù)湖中,由于所有數(shù)據(jù)都是以原始形式存儲(chǔ)的,并且總是可以被需要的人訪問,所以用戶有權(quán)超越倉庫結(jié)構(gòu)以新穎的方式探索數(shù)據(jù)并回答問題在他們的步伐。

如果一個(gè)探索的結(jié)果被證明是有用的,并且有一個(gè)重復(fù)的愿望,那么可以應(yīng)用一個(gè)更正式的模式,并且可以開發(fā)自動(dòng)化和可重用性來幫助將結(jié)果擴(kuò)展到更廣泛的觀眾。如果確定結(jié)果不是有用的,則可以丟棄該結(jié)果,并且沒有對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行改變,也沒有消耗開發(fā)資源。

5.數(shù)據(jù)湖提供更快的洞察力

這最后一個(gè)區(qū)別實(shí)際上是其他四個(gè)的結(jié)果。因?yàn)閿?shù)據(jù)湖泊包含了所有的數(shù)據(jù)和數(shù)據(jù)類型,因?yàn)樗褂脩裟軌蛟跀?shù)據(jù)被轉(zhuǎn)換,清理和結(jié)構(gòu)化之前訪問數(shù)據(jù),使得用戶能夠比傳統(tǒng)的數(shù)據(jù)倉庫方法更快地獲得結(jié)果。

但是,這種對(duì)數(shù)據(jù)的早期訪問是有代價(jià)的。通常由數(shù)據(jù)倉庫開發(fā)團(tuán)隊(duì)完成的工作可能無法完成分析所需的部分或全部數(shù)據(jù)源。這讓駕駛座位的用戶可以根據(jù)需要探索和使用數(shù)據(jù),但上述第一層業(yè)務(wù)用戶可能不希望這樣做。他們還只是想要他們的報(bào)告和關(guān)鍵績效指標(biāo)。

在數(shù)據(jù)湖中,這些操作報(bào)告消費(fèi)者將利用數(shù)據(jù)庫中的數(shù)據(jù)的更加結(jié)構(gòu)化的視圖,類似于以前在數(shù)據(jù)倉庫中的數(shù)據(jù)。不同之處在于,這些視圖主要是作為元數(shù)據(jù)存在于湖泊中的數(shù)據(jù)之上,而不是物理上需要開發(fā)者改變的剛性表格。

我應(yīng)該選擇哪種方法?

這是一個(gè)困難的問題。如果你已經(jīng)建立了完善的數(shù)據(jù)倉庫,我當(dāng)然不主張把所有的工作都放在窗口上,從頭開始。但是,像許多其他數(shù)據(jù)倉庫一樣,您可能會(huì)遇到我所描述的一些問題。如果是這種情況,您可以選擇在倉庫的旁邊實(shí)施一個(gè)數(shù)據(jù)湖。倉庫可以像以往一樣繼續(xù)經(jīng)營,您可以用新的數(shù)據(jù)源開始填充您的湖泊。您還可以將其用于您的倉庫數(shù)據(jù)的歸檔存儲(chǔ)庫,以便實(shí)際使其保持可用狀態(tài),從而為用戶提供比以前更多的數(shù)據(jù)訪問權(quán)限。隨著倉庫的老化,您可能會(huì)考慮將其移至數(shù)據(jù)湖,否則您可能會(huì)繼續(xù)提供混合方法。

如果您剛剛開始構(gòu)建集中式數(shù)據(jù)平臺(tái),我強(qiáng)烈建議您考慮兩種方法。

那么技術(shù)呢?

我故意沒有提到任何具體的技術(shù)。數(shù)據(jù)湖這個(gè)詞已經(jīng)成為像Hadoop這樣的大數(shù)據(jù)技術(shù)的代名詞,而數(shù)據(jù)倉庫仍然與關(guān)系數(shù)據(jù)庫平臺(tái)保持一致。我這篇文章的目標(biāo)是突出兩種數(shù)據(jù)管理方法的差異,而不是強(qiáng)調(diào)一個(gè)特定的技術(shù)。然而事實(shí)是,上述技術(shù)方法的一致并不是巧合。關(guān)系數(shù)據(jù)庫技術(shù)是數(shù)據(jù)倉庫應(yīng)用的理想選擇,因?yàn)樗鼈冊(cè)诟咚俨樵兘Y(jié)構(gòu)數(shù)據(jù)方面表現(xiàn)優(yōu)異。

另一方面,Hadoop生態(tài)系統(tǒng)非常適用于數(shù)據(jù)湖方法,因?yàn)樗梢苑浅H菀椎剡m應(yīng)和擴(kuò)展非常大的卷,并且可以處理任何數(shù)據(jù)類型或結(jié)構(gòu)。但是,另外,Hadoop還可以通過將結(jié)構(gòu)化視圖應(yīng)用于原始數(shù)據(jù)來支持?jǐn)?shù)據(jù)倉庫場景。正是這種靈活性使Hadoop能夠擅長向所有業(yè)務(wù)用戶層提供數(shù)據(jù)和洞察力。

未來該何去何從?

兩個(gè)陣營的技術(shù)不斷發(fā)展。

關(guān)系數(shù)據(jù)庫軟件在軟件和硬件方面不斷發(fā)展和進(jìn)步,專門用于使數(shù)據(jù)倉庫更快,更具可擴(kuò)展性和更可靠。

Hadoop生態(tài)系統(tǒng)正被看到前所未有的采用,而且它是由社區(qū)支持的開源項(xiàng)目的集合,這意味著開發(fā)和進(jìn)步的速度比傳統(tǒng)軟件快得多。

Hadoop對(duì)開源軟件和商品硬件的依賴使得從成本和功能的角度來看,如果您正在評(píng)估一個(gè)新的數(shù)據(jù)平臺(tái),或者正在計(jì)劃替換或升級(jí)一個(gè)遺留系統(tǒng),那么它就非常有吸引力。

責(zé)任編輯:華軒 來源: 架構(gòu)師酒館
相關(guān)推薦

2024-09-05 16:08:52

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2022-11-29 17:16:57

2025-05-12 09:34:39

2021-08-04 10:06:08

SASE網(wǎng)絡(luò)安全云架構(gòu)

2009-01-19 14:22:58

OLTP數(shù)據(jù)倉庫區(qū)別

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2019-10-09 16:38:50

數(shù)據(jù)平臺(tái)架構(gòu)

2020-04-03 15:22:49

Hadoop數(shù)據(jù)倉庫數(shù)據(jù)庫

2023-07-14 14:58:20

數(shù)據(jù)湖

2024-04-22 13:36:00

數(shù)據(jù)中臺(tái)數(shù)據(jù)倉庫大數(shù)據(jù)

2023-12-13 07:26:24

數(shù)據(jù)湖倉數(shù)據(jù)倉庫性能

2022-08-09 11:12:02

數(shù)據(jù)倉庫數(shù)據(jù)挖掘數(shù)據(jù)集

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2022-05-11 08:00:00

Lakehouse存儲(chǔ)數(shù)據(jù)湖

2022-03-14 09:46:10

Hadoop大數(shù)據(jù)

2020-10-20 18:59:40

數(shù)據(jù)湖數(shù)據(jù)倉庫采集

2022-10-21 16:38:57

數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)庫

2023-05-16 15:27:31

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)