偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Hadoop+數(shù)據(jù)倉庫到底是夢幻組合還是命中的宿敵?

大數(shù)據(jù) 數(shù)據(jù)分析 數(shù)據(jù)倉庫 Hadoop
現(xiàn)在。自從Hadoop出現(xiàn)在舞臺上之后,一直有人嘀咕說,這個閃亮的新星正在為一些最好的數(shù)據(jù)管理角色提供服務(wù)–這些角色就是,在幾年前,數(shù)據(jù)倉庫已穩(wěn)操勝券。

[[195428]]

想一想數(shù)據(jù)管理世界中的那個偉大的存在–數(shù)據(jù)倉庫吧。在過去的二十年中,盡管其他的系統(tǒng)和軟件在許許多多的迭代、變革中演進,甚至完全被新模型所拋棄,數(shù)據(jù)倉庫這個老骨干卻安然屹立。她可能會偷偷地給自己的面頰,皺紋整容,也可能會激起一些不那么令人深刻的模仿,但是沒有什么能長期的吸引她的注意力。

直到現(xiàn)在。自從Hadoop出現(xiàn)在舞臺上之后,一直有人嘀咕說,這個閃亮的新星正在為一些最好的數(shù)據(jù)管理角色提供服務(wù)–這些角色就是,在幾年前,數(shù)據(jù)倉庫已穩(wěn)操勝券。

但是現(xiàn)在真的到了數(shù)據(jù)倉庫要退休的時候了嗎?Hadoop甚至想要進入她的鞋子里嗎?還有誰在后面等著呢?

讓我們仔細看看這些據(jù)報道的競爭對手的全部本領(lǐng)。

數(shù)據(jù)倉庫持久吸引力的背后是什么?

簡單地說,數(shù)據(jù)倉庫意味著將不同來源的數(shù)據(jù)聚合為一個用于報告和分析的中央存儲庫。它長期成為實際解決方案的原因如下:因為這些數(shù)據(jù)是被聚合的,在經(jīng)歷抽取,轉(zhuǎn)換,加載過程后,協(xié)調(diào)成為“真理的唯一版本”,緩和矛盾,重構(gòu)數(shù)據(jù)格式化的方式,從而適應(yīng)預(yù)定的模式。

結(jié)果是一個完整的、可靠的,一致的數(shù)據(jù)來源,這些數(shù)據(jù)可用于商業(yè)智能軟件查詢。

Hadoop究竟是什么?

對于需要處理海量數(shù)據(jù)集的用戶來說,這是一個開源的編程框架。使用分布式存儲系統(tǒng),它給用戶一種存儲、清理和處理大量數(shù)據(jù)的方法。

為了使數(shù)據(jù)達到千兆兆字節(jié)的傳輸速度,Hadoop分布式文件系統(tǒng)(HDFS)沿著成千上萬的硬件節(jié)點讀取數(shù)據(jù)。即使許多節(jié)點由于技術(shù)故障而停止工作,系統(tǒng)仍能保持正常運行。這意味著存在低風(fēng)險的數(shù)據(jù)丟失–對于那些使用大量數(shù)據(jù)進行非常復(fù)雜的分析的企業(yè)來說,這是一種真正的恐懼。

難怪Hadoop正在轉(zhuǎn)向一個尋求可靠的方法來運行大數(shù)據(jù)處理任務(wù)的行業(yè)。

另外,它是開源的–這是一個巨大的吸引力。它具有無限的可伸縮性和無限的可定制性。包含定制應(yīng)用程序、查詢和方法的范圍是無限的。數(shù)據(jù)挖掘的復(fù)雜性可以隨著數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的數(shù)量而增長。

它哪里比數(shù)據(jù)倉庫更出色?

大數(shù)據(jù)正變得越來越大,許多大型數(shù)據(jù)倉庫都試圖采取定制的多處理器設(shè)備來應(yīng)對不斷飆升的存儲需求。但是除了最大的組織外,所有這些都需要付費。

與此同時,Hadoop可以靈活地處理滾雪球般的數(shù)據(jù)。然后用戶可以將它與數(shù)據(jù)倉庫層或頂部構(gòu)建的服務(wù)相結(jié)合,無論是像Presto的SQL軟件,或者用相似方式工作的Hive,或者像HBase類的NoSQL。

但這并不意味著Hadoop將取關(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫。事實上,我們馬上就會看到,這很可能是最好的支持,而不是取代。

那么他們是競爭對手嗎?

完全不是。簡單地說,他們沒有扮演相同的角色。

數(shù)據(jù)專家趨向于把Hadoop看作現(xiàn)有數(shù)據(jù)倉庫架構(gòu)的一個補充,并且可以為他們節(jié)省大量現(xiàn)金。通過把數(shù)據(jù)塊遷移到Hadoop,可以減少關(guān)系型數(shù)據(jù)庫的壓力,從而使數(shù)據(jù)倉庫平臺更便宜,并且可以在不增加語速那的情況下進行擴展。

用這種方式,Hadoop可以降低數(shù)據(jù)倉庫的總成本,而不是取代它的某些東西。

它如何使數(shù)據(jù)倉庫的性能更好?

數(shù)據(jù)倉庫的構(gòu)建成本很高,運行成本和增長成本昂貴。隨著收集的數(shù)據(jù)量的增長,存儲需求和花費也會呈指數(shù)級增長。

此外,這些龐大的數(shù)據(jù)集合意味著用戶每次運行查詢的時候,不能進入數(shù)據(jù)倉庫的全部范圍–而且他們的硬件也無法處理這個問題。這意味著使用分析數(shù)據(jù)集來給業(yè)務(wù)中的各個部門訪問數(shù)據(jù)倉庫特定區(qū)域的數(shù)據(jù)。

它是一個不完美的系統(tǒng)。不僅限制了用戶在數(shù)據(jù)上執(zhí)行分析的范圍,也是一個定時炸彈。

隨著越來越多的數(shù)據(jù)涌入倉庫,每個數(shù)據(jù)集都可能變得如此不堪重負,以致難以使用。你可以通過限制訪問來減輕硬件壓力,但是那意味著給各個部門越來越窄的數(shù)據(jù)分析選擇。對于嚴(yán)格的商業(yè)智能來說,這樣的做法并不夠好。

Hadoop并沒有遭受這些挫折。進入門檻很低,而且對增量投資是開源的。它可以隨著時間的推移而建立起來,你可以不斷增大數(shù)據(jù)量而不需要花大量的成本來匹配。

對于那些剛剛進入數(shù)據(jù)行業(yè)的公司--沒有對大型機或者基于Unix的數(shù)據(jù)倉庫的投資–這種可擴展的、增量式的框架是非常吸引人的。但是Hadop是一個框架,而不是一個完美的解決方案。它在處理巨大數(shù)據(jù)集方面很出色,但是它從來沒有打算要替代數(shù)據(jù)倉庫。

那么Hadoop和數(shù)據(jù)倉庫是最終的BI夢想團隊嗎?

哇哦,請等一下。使用Hadoop與數(shù)據(jù)倉庫處理了數(shù)據(jù)存儲問題。但是存儲數(shù)據(jù)只是商業(yè)智能的一個要素。

廣義上說,一個功能性的、可用的BI系統(tǒng)應(yīng)該由五個部分組成:

在某個地方幾種存儲數(shù)據(jù)。

劃分這些數(shù)據(jù)的工具,如:地理,操作或者其他業(yè)務(wù)需要的工具。

為數(shù)據(jù)分析準(zhǔn)備工具。

幫助您快速處理此數(shù)據(jù)的ETL數(shù)據(jù)引擎。

顯示所有這些數(shù)據(jù)的前端(通常是某種儀表盤)。

即使Hadoop和數(shù)據(jù)倉庫在最好的情況協(xié)同工作,他們也只處理這些組件中的第一個?,F(xiàn)在,BI技術(shù)的創(chuàng)新,同時提供了所有的五個組件,很快將夢想團隊降級為二類組合。

誰,誰會為了搶風(fēng)頭而出風(fēng)頭?

正如我們看到的,數(shù)據(jù)倉庫和Hadoop是一個成功的雙重行為。但是,要執(zhí)行來自多個源的快速、高性能的數(shù)據(jù)分析,您并不需要它們中的任何一個。

現(xiàn)在,我們正在見證一顆新星的崛起。

整體的“單棧”解決方案消除了關(guān)系數(shù)據(jù)庫的需要,直接鏈接源數(shù)據(jù),無論來自何處,并在現(xiàn)場執(zhí)行英語教學(xué)功能。最好的工作是創(chuàng)建一個元數(shù)據(jù)(抽象)層,用于在任意數(shù)量的表中查詢數(shù)據(jù),這種格式是以任意格式的任意來源繪制的。

正確的方法是通過構(gòu)建像柱狀數(shù)據(jù)庫和內(nèi)存處理這樣的智能的、節(jié)省硬盤的方法來解決通常伴隨巨大數(shù)據(jù)集而來的問題。首先通過只加載正在用的數(shù)據(jù)簡化處理過程,而后確保將這些數(shù)據(jù)加載到計算機的主內(nèi)存中,而不是占用RAM。這意味著你可以獲得完全的、不受限制的訪問所有數(shù)據(jù)的權(quán)限,而不需要像好萊塢山那樣大小的計算機來處理它。

一個唱歌、跳舞的超級巨星

更勝一籌的是,使用一個完整的BI系統(tǒng)消除了對非技術(shù)用戶可理解數(shù)據(jù)的額外軟件層的需求。

正如我們看到的,數(shù)據(jù)倉庫和Hadoop的不足之處在于它們是嚴(yán)格的“后端”解決方案——它們只處理外層數(shù)據(jù)。

為了使您的前端用戶能夠訪問數(shù)據(jù),您仍然需要引入和集成各種各樣的應(yīng)用程序,這些應(yīng)用程序允許業(yè)務(wù)團隊提取并可視化他們需要的見解。

雖然Hadoop是開源的,但它不是“免費的”。讓它做你想做的事情,并將它與你的數(shù)據(jù)倉庫集成,你的工具來處理和準(zhǔn)備數(shù)據(jù)分析,以及前端的儀表板界面,要么需要大量的資源投入,要么需要引入第三方來管理它。另外,當(dāng)然,你仍然需要投資它需要運行的硬件。

有了一個像樣的單棧替代,您可以查詢源數(shù)據(jù),使用ETL數(shù)據(jù)引擎快速處理它,并在一步生成新的報和表指示板?,F(xiàn)在這種創(chuàng)新挑戰(zhàn)了數(shù)據(jù)倉庫、Hadoop或沒有Hadoop的未來。

所以,是的,也許是時候讓這個(國際)國家寶藏退后一步,讓下一代數(shù)據(jù)技術(shù)接手。但并不是因為Hadoop竊取了她的皇冠,而是因為單棧技術(shù)正在為BI提供冗余存儲數(shù)據(jù)解決方案。

責(zé)任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2018-11-26 06:00:38

物聯(lián)網(wǎng)邊緣計算網(wǎng)絡(luò)架構(gòu)

2015-04-21 09:20:40

SwfitObject—C

2018-09-26 14:17:00

編程語言JavaPython

2017-08-09 08:43:02

公有云趨勢聲勢

2011-09-05 10:30:51

重構(gòu)代碼庫業(yè)務(wù)模型

2018-10-09 15:26:19

JavaPython語言

2024-03-28 13:13:00

Htmx前端開發(fā)框架

2013-05-29 10:17:56

Hadoop分布式文件系統(tǒng)

2014-11-17 10:03:23

OpenStack

2021-03-19 07:40:22

緩存數(shù)據(jù)庫日志

2023-10-10 16:03:48

數(shù)字化信息化

2022-08-18 23:13:25

零信任安全勒索軟件

2014-06-05 14:46:05

設(shè)計設(shè)計師

2021-12-09 20:16:26

無線核心網(wǎng)傳輸

2020-08-31 19:19:27

TCPUDP視屏面試

2017-08-17 15:52:38

企業(yè)數(shù)據(jù)倉庫

2022-06-07 23:33:53

數(shù)字化轉(zhuǎn)型企業(yè)轉(zhuǎn)型數(shù)字化

2020-04-03 15:22:49

Hadoop數(shù)據(jù)倉庫數(shù)據(jù)庫

2025-03-28 01:33:00

2020-08-31 19:17:24

Python強類型語言弱類型語言
點贊
收藏

51CTO技術(shù)棧公眾號