偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)云服務(wù):托管模式AWS EMR

企業(yè)動態(tài)
本文主要講解托管模式AWS EMR的內(nèi)容。

[[186608]]

1. 架構(gòu)簡介

Amazon Elastic Map Reduce(Amazon EMR)是一種Web服務(wù),讓用戶能夠輕松、快速并經(jīng)濟(jì)地處理大量的數(shù)據(jù)。

Amazon EMR簡化了大數(shù)據(jù)處理,提供的托管Hadoop框架可以跨越各個動態(tài)可擴(kuò)展的Amazon EC2實(shí)例分發(fā)和處理海量數(shù)據(jù),如圖11.6所示。

Amazon EMR

圖11.6

在Amazon EMR上運(yùn)行的Hadoop集群使用EC2實(shí)例作為虛擬Linux服務(wù)器用于主節(jié)點(diǎn)和從屬節(jié)點(diǎn),將Amazon S3用于輸入和輸出數(shù)據(jù)的批量存儲,并將Cloud Watch用于監(jiān)控集群性能和發(fā)出警報。

AWS EMR采用存儲和計算分離的架構(gòu),數(shù)據(jù)存儲在S3上,計算資源來自EC2實(shí)例。集群創(chuàng)建之后,MapReduce通過HDFS代理調(diào)用S3接口,從S3上讀取和寫入數(shù)據(jù)。

2. 節(jié)點(diǎn)

Amazon EMR為集群中的服務(wù)器定義了三種角色。

  • 主節(jié)點(diǎn)——管理集群:協(xié)調(diào)將MapReduce可執(zhí)行文件和原始數(shù)據(jù)子集分配到核心實(shí)例組和任務(wù)實(shí)例組。此外,它還會跟蹤每個任務(wù)的執(zhí)行狀態(tài),監(jiān)控實(shí)例組的運(yùn)行狀況。一個集群中只有一個主節(jié)點(diǎn)。這與Hadoop主節(jié)點(diǎn)映射。
  • 核心節(jié)點(diǎn)——使用Hadoop分布式文件系統(tǒng)(HDFS)運(yùn)行任務(wù)和存儲數(shù)據(jù)。這與Hadoop從屬節(jié)點(diǎn)映射。
  • 任務(wù)節(jié)點(diǎn)(可選)——運(yùn)行任務(wù):這與Hadoop從屬節(jié)點(diǎn)映射。

3. 集群

集群是一組執(zhí)行工作的服務(wù)器。在Amazon EMR中,集群是一組以EC2實(shí)例形式運(yùn)行的虛擬服務(wù)器。

(1)如何向集群發(fā)送工作

在Amazon EMR上運(yùn)行集群時,會針對如何指定所需完成的工作提供多個選項(xiàng)。

  • 完整地定義要在Map和Reduce函數(shù)中完成的工作。對于那些處理固定的數(shù)據(jù)量并在處理完成時終止的集群,通常會采取這種做法。
  • 創(chuàng)建長時間運(yùn)行的集群并使用控制臺、Amazon EMR API、AWS CLI或Amazon EMR CLI提交步驟,其中可以包含一個或多個Hadoop任務(wù)。
  • 創(chuàng)建一個安裝了Hadoop應(yīng)用程序(如Hive、Pig或HBase)的集群,并使用這些應(yīng)用程序提供的接口以腳本或者交互方式提交查詢。
  • 創(chuàng)建長時間運(yùn)行的集群、連接該集群并使用Hadoop API提交Hadoop任務(wù)。

(2)集群的生命周期

圖11.7顯示的是集群的生命周期及每個階段是如何映射到具體的集群狀態(tài)的。

集群的生命周期及每個階段是如何映射到具體的集群狀態(tài)的

圖11.7

成功的Amazon EMR集群遵循此流程:Amazon EMR先配置Hadoop集群,在這期間,集群的狀態(tài)是STARTING;接著,運(yùn)行任何用戶定義的引導(dǎo)操作,在這期間,集群的狀態(tài)是BOOTSTRAPPING;在所有引導(dǎo)操作完成后,集群的狀態(tài)是RUNNING,在此階段,任務(wù)流程會按順序運(yùn)行所有的集群步驟。

如果用戶通過啟用keepalive參數(shù)將集群配置為長時間運(yùn)行的集群,那么集群會在處理完成后等待下一組說明時進(jìn)入WAITING狀態(tài)。用戶必須在不再需要該集群時手動終止該集群。

如果用戶將集群配置為暫時性的集群,那么它將在所有的步驟完成后自動關(guān)閉。

當(dāng)集群在沒有遇到錯誤的情況下終止時,它的狀態(tài)會轉(zhuǎn)換為SHUTTING_DOWN,且集群會關(guān)閉,從而終止虛擬服務(wù)器實(shí)例。集群上存儲的所有數(shù)據(jù)都會被刪除,而其他地方(如Amazon S3存儲段)中存儲的信息會保存下來。***,當(dāng)所有的集群活動完成時,集群的狀態(tài)會標(biāo)記為COMPLETED。

除非啟用了終止保護(hù),否則,集群流程期間的任何故障都會終止該集群及其所有的虛擬服務(wù)器實(shí)例,集群上存儲的任何數(shù)據(jù)都會被刪除,集群的狀態(tài)會標(biāo)記為FAILED。

4. 和Amazon EMR交互的方式

有多種可以和Amazon EMR交互的方式。

(1)Console(控制臺):這是一種圖形界面,可用于啟動和管理集群。借助這個界面,用戶可以填寫各種Web窗體,指定待啟動集群的詳細(xì)信息,查看現(xiàn)有集群的詳細(xì)信息,調(diào)試和終止集群。使用控制臺是開始使用Amazon EMR的最簡單方式,不需要編程知識??刂婆_是在線提供的,網(wǎng)址是https://console.aws.amazon.com/elasticmapreduce/。

(2)AWS CLI(命令行界面):一種可在用戶的本地計算機(jī)上運(yùn)行的客戶端應(yīng)用程序,用于連接Amazon EMR,以及創(chuàng)建和管理集群。AWS CLI包含特定于Amazon EMR的功能豐富的命令集。用戶可以使用它來編寫腳本,以實(shí)現(xiàn)啟動和管理集群的自動化。如果用戶希望從命令行工作,則***的選擇是使用AWS CLI。

(3)Amazon EMR CLI:一種可在用戶的本地計算機(jī)上運(yùn)行的舊式客戶端應(yīng)用程序,用于連接Amazon EMR,以及創(chuàng)建和管理集群。用戶可以使用它來編寫腳本,以實(shí)現(xiàn)啟動和管理集群的自動化。Amazon EMR CLI的功能開發(fā)已停止。我們鼓勵使用Amazon EMR CLI的客戶遷移至AWS CLI。新用戶應(yīng)該下載AWS CLI,而不是Amazon EMR CLI。

(4)Software Development Kit(軟件開發(fā)工具包,SDK):AWS提供一個帶有各種函數(shù)的軟件開發(fā)工具包,這些函數(shù)會調(diào)用Amazon EMR創(chuàng)建和管理集群。借助該軟件開發(fā)工具包,用戶可以編寫應(yīng)用程序,用于自動處理集群的創(chuàng)建和管理流程。如果用戶希望擴(kuò)展或者自定義Amazon EMR的功能,那么軟件開發(fā)工具包是***的選擇。用戶可以從http://aws.amazon.com/sdkforjava/下載適用于Java的AWS開發(fā)工具包。

(5)Web Service API:AWS提供低級別的界面,可以用來直接使用JSON調(diào)用Web服務(wù)。如果想要創(chuàng)建調(diào)用Amazon EMR的自定義軟件開發(fā)工具包,則***的選擇是使用該API。有關(guān)詳細(xì)信息請參閱Amazon EMR API Reference。

5. EMR架構(gòu)的優(yōu)缺點(diǎn)

存儲和計算分離架構(gòu),其***的好處是集群按需創(chuàng)建,需要時創(chuàng)建集群,不需要時可以釋放,從而節(jié)省成本。該架構(gòu)非常適合云上按需獲取資源的模式。這種方案的比較大的問題是性能比較低下;集群創(chuàng)建周期長,通常需要十分鐘甚至以上;虛擬機(jī)性能下降比較明顯,大數(shù)據(jù)是重負(fù)載任務(wù),通常虛擬機(jī)上的性能相比物理機(jī)集群下降60%;集群規(guī)模受限,不能像物理機(jī)集群那樣一個集群包含幾千臺虛擬機(jī)。這就意味著該架構(gòu)只適合中小客戶,只能處理幾百GB規(guī)模的小數(shù)據(jù)。

【本文為51CTO專欄作者“大數(shù)據(jù)和云計算”的原創(chuàng)稿件,轉(zhuǎn)載請通過微信公眾號獲取聯(lián)系和授權(quán)】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2021-06-08 09:45:46

大數(shù)據(jù)云原生EMR Spark o

2015-08-20 09:21:12

大數(shù)據(jù)云平臺

2014-10-16 09:37:44

SplunkAWS

2013-11-26 09:28:01

2020-05-19 10:09:52

大數(shù)據(jù)云存儲提供商

2017-11-29 10:34:38

2014-04-16 13:38:57

大數(shù)據(jù)云安全云安全策略

2019-05-27 23:21:47

大數(shù)據(jù)云遷移企業(yè)

2013-12-18 11:40:35

AmazonKinesis大數(shù)據(jù)服務(wù)

2012-11-06 09:35:53

TripAdvisorAWS云計算

2009-05-26 16:41:19

廣域網(wǎng)優(yōu)化托管服務(wù)

2014-10-22 15:22:55

大數(shù)據(jù)云安全

2018-02-05 08:26:11

大數(shù)據(jù)云存儲安全性

2014-06-30 10:59:21

2014-04-17 12:01:58

云安全大數(shù)據(jù)

2017-12-02 21:08:00

AWS容器

2021-09-06 13:43:03

EMR on ACK 大數(shù)據(jù)平臺阿里云

2015-03-19 17:01:08

AWS大數(shù)據(jù)分析

2013-06-07 10:58:44

移動互聯(lián)SMB大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號