偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="cnfvc"></table>

<wbr id="cnfvc"></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

如何用Hadoop搭建大型分布式應用？

作者：Mark 2012-05-21 10:19:31

系統(tǒng) Linux 分布式 Hadoop

在去年Techonomy會議上參加討論時，谷歌CEO Eric Schmidt引用一個驚人的事實指出，我們現(xiàn)在每兩天創(chuàng)造的信息和2003年以來整個歷史上所創(chuàng)建的信息一樣多。信息泛濫帶來了一系列的技術(shù)突破，這讓企業(yè)的數(shù)據(jù)存儲擴展到數(shù)千億字節(jié)甚至是數(shù)拍字節(jié)。谷歌在此領域的貢獻是尤其值得注意，包括它在MapReduce上的工作，它是一種大型分布式數(shù)據(jù)處理的方法，谷歌采用此方法來記錄位于索引資源（映射這些數(shù)據(jù)）收藏里的關鍵字或短語，接著再把這些位置的記錄和清單返回給用戶（將映射數(shù)據(jù)減少到緊密相關的結(jié)果）。映射和減少操作可以涵蓋模式識別、圖解

在去年Techonomy會議上參加討論時，谷歌CEO Eric Schmidt引用一個驚人的事實指出，我們現(xiàn)在每兩天創(chuàng)造的信息和2003年以來整個歷史上所創(chuàng)建的信息一樣多。信息泛濫帶來了一系列的技術(shù)突破，這讓企業(yè)的數(shù)據(jù)存儲擴展到數(shù)千億字節(jié)甚至是數(shù)拍字節(jié)。谷歌在此領域的貢獻是尤其值得注意，包括它在MapReduce上的工作，它是一種大型分布式數(shù)據(jù)處理的方法，谷歌采用此方法來記錄位于索引資源（映射這些數(shù)據(jù)）收藏里的關鍵字或短語，接著再把這些位置的記錄和清單返回給用戶（將映射數(shù)據(jù)減少到緊密相關的結(jié)果）。映射和減少操作可以涵蓋模式識別、圖解分析、風險管理和預測模式。

　　雖然谷歌的MapReduce安裝是專有的，還存在MapReduce概念的很多開源安裝，包括Apache Hadoop。事實上，Hadoop已經(jīng)是分布式數(shù)據(jù)處理的實際解決方案了，數(shù)十個國際公司已經(jīng)從執(zhí)行和開發(fā)兩個方面大力投資該項目。Adobe、Amazon、AOL、Baidu、EBay、Facebook、Hulu、IBM、Last.fm、LinkedIn、Ning、Twitter和Yahoo等已成為用戶，很多大學、醫(yī)院和研究中心也都成為用戶，采用并不受互聯(lián)網(wǎng)重要人物的限制。

　　Hadoop項目介紹

　　和Apache軟件基金會（ASF）的很多項目一樣，Hadoop是一個涵蓋性術(shù)語，它分配基金會的全部措施來產(chǎn)生“可信、可擴展且分布式計算的開源軟件”。現(xiàn)在的措施由四個子項目組成，包括：

Hadoop Common：Hadoop Common形成Hadoop項目的核心，通過緊跟著的同胞項目提供所需的“管道裝置”。
HDFS：Hadoop分布式文件系統(tǒng)（HDFS）是遍及計算集群負責復制和分配數(shù)據(jù)的存儲系統(tǒng)。
MapReduce：MapReduce是開發(fā)人員用來編寫應用的軟件架構(gòu)，這些應用處理那些存儲在HDFS中的數(shù)據(jù)。
ZooKeeper：ZooKeeper負責協(xié)調(diào)配置數(shù)據(jù)、進程同步和其它所有被分配應用有效運作所需的網(wǎng)絡相關服務。因此，雖然你確實會以單一檔案文件的形式下載Hadoop，記住，你正在下載的實際上是四個子項目，它們齊心協(xié)力來實施映射和歸算處理。

　　用Hadoop做實驗

　　盡管Hadoop試圖解決的問題本質(zhì)復雜，從運用這個項目開始會非常容易。作為一個例子，我認為用Hadoop來完成我“用PHP簡化貝寶”一書中的詞頻率分析會很有趣。這個任務會仔細查看整本書（長度大概在130頁左右），并且產(chǎn)生一個所有書中出現(xiàn)詞語的分組列表，連同其中每個詞出現(xiàn)在頻率。

　　安裝Hadoop之后，我用Calibre把我的書從PDF轉(zhuǎn)成文本文檔。Hadoop wiki還包含相似的指令，但由于比較近期的Hadoop配置過程改變，以前的資源包含略有更新的指令。

　　接下來我用下面的命令從臨時位置把這本書復制到Hadoop分布式文件系統(tǒng)：

$ ./bin/hadoop dfs -copyFromLocal /tmp/easypaypalwithphp/ easypaypalwithphp

　　你可以通過運用以下命令確認復制成功：

$ ./bin/hadoop dfs -ls
drwxr-xr-x - hadoop supergroup 0 2011-01-04 12:48 /user/hadoop/easypaypalwithphp

　　緊接著，運用和Hadoop一起打包的示例WordCount腳本來執(zhí)行詞頻率分析：

$ ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount \
> easypaypalwithphp easypaypalwithphp-output ...
11/01/04 12:51:38 INFO mapreduce.Job: map 0% reduce 0%
11/01/04 12:51:48 INFO mapreduce.Job: map 100% reduce 0%
11/01/04 12:51:57 INFO mapreduce.Job: map 100% reduce 100%
11/01/04 12:51:59 INFO mapreduce.Job: Job complete: job_201101041237_0002
11/01/04 12:51:59 INFO mapreduce.Job: Counters: 33
FileInputFormatCounters
BYTES_READ=274440

　　最后，你可以用以下命令查看輸出內(nèi)容：

$ ./bin/hadoop dfs -cat easypaypalwithphp-output/part-r-00000
...
Next 21
Next, 8
No    5
NoAutoBill     1
Norwegian      1
Not     2
Notably,       2
Note    5
Notice 6
Notification   13
...

　　示例WordCount頻率分析腳本非?；?，對書中文本里的每一列分配同等的重量，包括代碼。但是為了解析例如DocBook格式的文件并忽略代碼而修改腳本則會是很煩瑣的事情。無論如何，考慮一下你想要創(chuàng)建谷歌全球書籍詞頻統(tǒng)計器一類服務的情況，它查看超過520萬本書的關鍵詞語。

【編輯推薦】

Chkdsk大躍進：Win8磁盤檢測時間大大縮短
Linux下使用mke2fsk格式化分區(qū)的方法
Ubuntu 11.10 利用終端環(huán)境備份還原

責任編輯：趙寧寧

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="ki1ey"><span id="ki1ey"></span></blockquote>