數(shù)據(jù)開源工具:Hadoop為企業(yè)帶來什么?
熟悉大數(shù)據(jù)的人一定不會對大名鼎鼎的Hadoop工具陌生,Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。這核心的兩點為其成為數(shù)據(jù)挖掘平臺打下基礎。
Hadoop為企業(yè)帶來什么?
隨著主存儲器成本的不斷下降,和過去相比,公司可以將更多的數(shù)據(jù)存到存儲器中。并且,將多臺計算機連到服務器集群也變得更容易了。大數(shù)據(jù)時代的來臨,讓數(shù)據(jù)挖掘也變得越來越重要。Hadoop得以在大數(shù)據(jù)處理應用中廣泛應用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。
大數(shù)據(jù)時代
#p#
而對于企業(yè)來說,要想讓大數(shù)據(jù)變?yōu)橹悄軘?shù)據(jù),首先要將這個“龐然大物”抽絲剝繭,也即數(shù)據(jù)挖掘。在這方面Hadoop平臺真是強項,這也是眾多企業(yè)在大數(shù)據(jù)領域使用Hadoop的原因。之所以選擇Hadoop,是因為它給企業(yè)帶來了價值。具體來講,又有哪些方面呢?
***,Hadoop具有成熟的生態(tài)圈
成熟的生態(tài)圈代表的未來的發(fā)展方向,代表著美好的市場前景,成熟的方案和系統(tǒng)可以讓公司或者企業(yè)節(jié)省大量探索的時間與經(jīng)歷。
Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應用程序分解為許多并行計算指令,跨大量的計算節(jié)點運行非常巨大的數(shù)據(jù)集。使用該框架的一個典型例子就是在網(wǎng)絡數(shù)據(jù)上運行的搜索算法。Hadoop最初只與網(wǎng)頁索引有關,如今它已經(jīng)迅速發(fā)展成為分析大數(shù)據(jù)的領先平臺。
第二,成本低
企業(yè)項目投資一直需要考慮投入和產(chǎn)出的問題:有效控制成本,可以從另一個方面擴大收益。
在軟件層面,與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
在硬件層面,Hadoop是架構在廉價的硬件服務器上,不需要非常昂貴的硬件做支撐,隨之而來,其維護的成本也會降低。
第三,高效性
國內(nèi)外的企業(yè)都在收集大量的數(shù)據(jù)資料,當數(shù)據(jù)量達到一個量級之后,其處理會變得十分困難,這真是數(shù)據(jù)挖掘的用武之地。Hadoop正是為了解決了這樣的問題而誕生的。其底層的分布式文件系統(tǒng)具有高拓展性,通過數(shù)據(jù)冗余保證數(shù)據(jù)不丟失和提交計算效率,同時可以存儲各種格式的數(shù)據(jù)。
另外,Hadoop還支持多種計算框架,既可以進行離線計算也可以進行在線實時計算。
第四,低風險
Hadoop可以迅速監(jiān)測異常風險,并在數(shù)據(jù)層放置自動化解決方案,可以***程度地預防和避免風險事件的發(fā)生。
另外,Hadoop有著比較高的容錯率,Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。