Hadoop入門(mén)專(zhuān)家引導(dǎo)
本節(jié)和大家介紹一下Hadoop入門(mén),主要內(nèi)容是Hadoop概論,Hadoop的基本概念等內(nèi)容,希望通過(guò)本節(jié)的介紹,大家對(duì)Hadoop有初步的認(rèn)識(shí)。下面是具體介紹。
Hadoop入門(mén)
Hadoop是GoogleMapReduce的一個(gè)Java實(shí)現(xiàn)。MapReduce是一種簡(jiǎn)化的分布式編程模式,讓程序自動(dòng)分布到一個(gè)由普通機(jī)器組成的超大集群上并發(fā)執(zhí)行。就如同java程序員可以不考慮內(nèi)存泄露一樣,MapReduce的run-time系統(tǒng)會(huì)解決輸入數(shù)據(jù)的分布細(xì)節(jié),跨越機(jī)器集群的程序執(zhí)行調(diào)度,處理機(jī)器的失效,并且管理機(jī)器之間的通訊請(qǐng)求。這樣的模式允許程序員可以不需要有什么并發(fā)處理或者分布式系統(tǒng)的經(jīng)驗(yàn),就可以處理超大的分布式系統(tǒng)得資源。
一、概論
作為Hadoop程序員,他要做的事情就是:
1、定義Mapper,處理輸入的Key-Value對(duì),輸出中間結(jié)果。
2、定義Reducer,可選,對(duì)中間結(jié)果進(jìn)行規(guī)約,輸出最終結(jié)果。
3、定義InputFormat和OutputFormat,可選,InputFormat將每行輸入文件的內(nèi)容轉(zhuǎn)換為Java類(lèi)供Mapper函數(shù)使用,不定義時(shí)默認(rèn)為String。
4、定義main函數(shù),在里面定義一個(gè)Job并運(yùn)行它。
然后的事情就交給系統(tǒng)了。Hadoop入門(mén)首先要了解一下基本概念。
1.基本概念:Hadoop的HDFS實(shí)現(xiàn)了google的GFS文件系統(tǒng),NameNode作為文件系統(tǒng)的負(fù)責(zé)調(diào)度運(yùn)行在master,DataNode運(yùn)行在每個(gè)機(jī)器上。同時(shí)Hadoop實(shí)現(xiàn)了Google的MapReduce,JobTracker作為MapReduce的總調(diào)度運(yùn)行在master,TaskTracker則運(yùn)行在每個(gè)機(jī)器上執(zhí)行Task。
2.main()函數(shù),創(chuàng)建JobConf,定義Mapper,Reducer,Input/OutputFormat和輸入輸出文件目錄,***把Job提交給JobTracker,等待Job結(jié)束。
3.JobTracker,創(chuàng)建一個(gè)InputFormat的實(shí)例,調(diào)用它的getSplits()方法,把輸入目錄的文件拆分成FileSplist作為Mappertask的輸入,生成Mappertask加入Queue。
4.TaskTracker向JobTracker索求下一個(gè)Map/Reduce。
MapperTask先從InputFormat創(chuàng)建RecordReader,循環(huán)讀入FileSplits的內(nèi)容生成Key與Value,傳給Mapper函數(shù),處理完后中間結(jié)果寫(xiě)成SequenceFile.
ReducerTask從運(yùn)行Mapper的TaskTracker的Jetty上使用http協(xié)議獲取所需的中間內(nèi)容(33%),Sort/Merge后(66%),執(zhí)行Reducer函數(shù),***按照OutputFormat寫(xiě)入結(jié)果目錄。
TaskTracker每10秒向JobTracker報(bào)告一次運(yùn)行情況,每完成一個(gè)Task10秒后,就會(huì)向JobTracker索求下一個(gè)Task。
Nutch項(xiàng)目的全部數(shù)據(jù)處理都構(gòu)建在Hadoop之上,詳見(jiàn)ScalableComputingwithHadoop。下面我們?cè)賮?lái)看一下Hadoop入門(mén)介紹中程序員編寫(xiě)的代碼。
二、程序員編寫(xiě)的代碼
我們做一個(gè)簡(jiǎn)單的分布式的Grep,簡(jiǎn)單對(duì)輸入文件進(jìn)行逐行的正則匹配,如果符合就將該行打印到輸出文件。因?yàn)槭呛?jiǎn)單的全部輸出,所以我們只要寫(xiě)Mapper函數(shù),不用寫(xiě)Reducer函數(shù),也不用定義Input/OutputFormat。
- packagedemo.hadoop
- publicclassHadoopGrep{
- publicstaticclassRegMapperextendsMapReduceBaseimplementsMapper{
- privatePatternpattern;
- publicvoidconfigure(JobConfjob){
- pattern=Pattern.compile(job.get("mapred.mapper.regex"));
- }
- publicvoidmap(WritableComparablekey,Writablevalue,OutputCollectoroutput,Reporterreporter)
- throwsIOException{
- Stringtext=((Text)value).toString();
- Matchermatcher=pattern.matcher(text);
- if(matcher.find()){
- output.collect(key,value);
- }}
- }
- privateHadoopGrep(){
- }//singleton
- publicstaticvoidmain(String[]args)throwsException{
- JobConfgrepJob=newJobConf(HadoopGrep.class);
- grepJob.setJobName("grep-search");
- grepJob.set("mapred.mapper.regex",args[2]);
- grepJob.setInputPath(newPath(args[0]));
- grepJob.setOutputPath(newPath(args[1]));
- grepJob.setMapperClass(RegMapper.class);
- grepJob.setReducerClass(IdentityReducer.class);
- JobClient.runJob(grepJob);
- }
- }
RegMapper類(lèi)的configure()函數(shù)接受由main函數(shù)傳入的查找字符串,map()函數(shù)進(jìn)行正則匹配,key是行數(shù),value是文件行的內(nèi)容,符合的文件行放入中間結(jié)果。
main()函數(shù)定義由命令行參數(shù)傳入的輸入輸出目錄和匹配字符串,Mapper函數(shù)為RegMapper類(lèi),Reduce函數(shù)是什么都不做,直接把中間結(jié)果輸出到最終結(jié)果的的IdentityReducer類(lèi),運(yùn)行Job。整個(gè)代碼非常簡(jiǎn)單,絲毫沒(méi)有分布式編程的任何細(xì)節(jié)。請(qǐng)期待下節(jié)關(guān)于Hadoop入門(mén)介紹。
【編輯推薦】
- Hadoop安裝與使用如何進(jìn)行?
- Hadoop開(kāi)源已經(jīng)實(shí)現(xiàn)
- Hadoop集群與Hadoop性能優(yōu)化
- Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折
- Hadoop起源及其四大特性詳解