偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenStack如何在大數(shù)據(jù)用例中扮演關(guān)鍵角色

云計算 大數(shù)據(jù) OpenStack
OpenStack 控制計算、存儲和網(wǎng)絡(luò)資源池。本文主要關(guān)注 OpenStack 如何在大數(shù)據(jù)用例中扮演關(guān)鍵角色?,F(xiàn)在,數(shù)據(jù)隨處生成,數(shù)據(jù)量呈指數(shù)增長。來自 Web 服務(wù)器、應(yīng)用程序服務(wù)器、數(shù)據(jù)庫服務(wù)器的數(shù)據(jù)以用戶信息、日志文件和系統(tǒng)狀態(tài)信息的形式提供。

OpenStack 控制計算、存儲和網(wǎng)絡(luò)資源池。本文主要關(guān)注 OpenStack 如何在大數(shù)據(jù)用例中扮演關(guān)鍵角色。

OpenStack 上的大數(shù)據(jù)

現(xiàn)在,數(shù)據(jù)隨處生成,數(shù)據(jù)量呈指數(shù)增長。來自 Web 服務(wù)器、應(yīng)用程序服務(wù)器、數(shù)據(jù)庫服務(wù)器的數(shù)據(jù)以用戶信息、日志文件和系統(tǒng)狀態(tài)信息的形式提供。大量的數(shù)據(jù)也由物聯(lián)網(wǎng)設(shè)備產(chǎn)生,如傳感器、車輛、工業(yè)設(shè)備等。從科學(xué)模擬模型生成的數(shù)據(jù)也是大數(shù)據(jù)的來源之一。使用傳統(tǒng)軟件工具來存儲和執(zhí)行這些數(shù)據(jù)的分析可能很困難,而 Hadoop 可以解決這個問題。

[[225851]]

看一個用例場景 —— 大量的數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫管理系統(tǒng)環(huán)境中。當(dāng)數(shù)據(jù)集越來越大時, RDBMS ( 關(guān)系數(shù)據(jù)庫管理系統(tǒng) Relational Database Management System )表現(xiàn)不佳。而且這個問題會隨著數(shù)據(jù)集的增長而越發(fā)嚴(yán)重。在這個階段,避免采用 NoSQL 。需要以具有成本效益的方式存儲和處理大量數(shù)據(jù)。應(yīng)該依賴非虛擬化環(huán)境中的高端服務(wù)器嗎?要求是隨時擴(kuò)展集群,需要一個更好的儀表板來管理其所有組件。

計劃在 OpenStack 之上建立一個 Hadoop 集群并創(chuàng)建 ETL ( Extract-Transform-Load)作業(yè)環(huán)境。Hadoop 是一個行業(yè)標(biāo)準(zhǔn)框架,用于存儲和分析具有容錯 Hadoop 分布式文件系統(tǒng)和 MapReduce 實施的大型數(shù)據(jù)集。然而,可伸縮性在典型的 Hadoop 集群中是一個非常普遍的問題。

Openstack 推出了一個名為 Sahara 的項目 —— 數(shù)據(jù)處理即服務(wù)。 Openstack Sahara 旨在配置和管理數(shù)據(jù)處理框架,如集群拓?fù)渲械?hadoop mapreduce、spark和Storm 。該項目與 Amazon Elastic MapReduce(EMR) 服務(wù)提供的數(shù)據(jù)分析平臺類似。Openstack Sahara 可在幾分鐘內(nèi)部署集群。此外,Openstack Sahara 可以根據(jù)需求通過添加或刪除工作節(jié)點來伸縮集群。

使用 Openstack Sahara 管理 Hadoop 集群的好處

  • ——集群可以更快地提供且易于配置。
  • ——像其他 OpenStack 服務(wù)一樣,Sahara 服務(wù)可以通過強(qiáng)大的 REST API、CLI 和 Horizon 儀表板進(jìn)行管理。
  • ——插件可用于支持 Vannila(Apache Hadoop)、HDP(ambari)、CDH(Cloudera)、MapR、Spark、Storm 等多個 Hadoop 供應(yīng)商。
  • ——集群大小可根據(jù)需求進(jìn)行伸縮。
  • ——可以與 OpenStack Swift 集成以存儲由 Hadoop和 Spark 處理的數(shù)據(jù)。
  • ——集群監(jiān)控變得簡單。
  • ——除集群配置外,Sahara 還可以用作分析即服務(wù),用于臨時或突發(fā)分析工作負(fù)載。

架構(gòu)

Openstack Sahara 旨在利用 OpenStack 的核心服務(wù)和其他完全托管服務(wù)。這使 Sahara 更加可靠并且能夠有效地管理 Hadoop 集群,你可以選擇使用包括 Trove( OpenStack 數(shù)據(jù)服務(wù)組件,允許用戶對關(guān)系型數(shù)據(jù)庫進(jìn)行管理,實現(xiàn)了 Mysql 實例的異步復(fù)制和提供 PostgreSQL 數(shù)據(jù)庫的實例。) 和 Swift 在內(nèi)的服務(wù)。來看看 Sahara 的架構(gòu)。

  • —— Sahara 服務(wù)有一個 API 服務(wù)器,它響應(yīng)來自最終用戶的 HTTP 請求并與其他 OpenStack 服務(wù)交互以執(zhí)行其功能。
  • —— Keystone (身份即服務(wù))對用戶進(jìn)行身份驗證,并提供用于與 OpenStack 配合使用的安全令牌,將用戶在 Sahara 中的能力限制為其 OpenStack 權(quán)限。
  • —— Heat (編排即服務(wù))用于配置和編排數(shù)據(jù)處理集群的部署。
  • —— Glance(虛擬機(jī)鏡像即服務(wù))使用操作系統(tǒng)和預(yù)安裝的 Hadoop / Spark 軟件包存儲 VM 鏡像以創(chuàng)建數(shù)據(jù)處理集群。
  • —— Nova (計算)為數(shù)據(jù)處理集群提供虛擬機(jī)。
  • —— Ironic(裸機(jī)即服務(wù))為數(shù)據(jù)處理集群提供裸機(jī)節(jié)點。
  • —— Neutron(網(wǎng)絡(luò))便于網(wǎng)絡(luò)服務(wù)從基礎(chǔ)到高級拓?fù)湓L問數(shù)據(jù)處理集群。
  • —— Cinder(塊存儲)為集群節(jié)點提供持久存儲介質(zhì)。
  • —— Swift(對象存儲)提供可靠的存儲來保存作業(yè)二進(jìn)制文件和由hadoop / spark處理的數(shù)據(jù)。
  • —— Designate(DNS即服務(wù))提供托管區(qū)域以保留集群實例的DNS記錄。 Hadoop服務(wù)通過主機(jī)名與群集實例進(jìn)行通信。
  • —— Ceilometer(telrmetry)收集和存儲有關(guān)用于計量和監(jiān)控目的的集群指標(biāo)。
  • —— Manila(文件共享)可用于存儲作業(yè)創(chuàng)建的作業(yè)二進(jìn)制文件和數(shù)據(jù)。
  • —— Barbican(密鑰管理服務(wù))安全地存儲密碼和私鑰等敏感數(shù)據(jù)。
  • ——Trove(數(shù)據(jù)庫即服務(wù))為 hive metastore 提供數(shù)據(jù)庫實例,并存儲 Hadoop 服務(wù)和其他管理服務(wù)的狀態(tài)。

如何建立Sahara集群

請按照部署 Sahara 安裝指南中的步驟操作。不同的部署環(huán)境有不同的方式,如果你想要試驗, Kolla 也是一個不錯的選擇。

你還可以通過 Horizon 儀表板管理 Sahara 項目。

用Sahara集群ETL(提取、轉(zhuǎn)換和加載)或ELT(提取、加載和轉(zhuǎn)換)

市場上有很多 ETL 工具可用。

傳統(tǒng)數(shù)據(jù)倉庫有其自身的優(yōu)點和局限性,例如它可能位于數(shù)據(jù)源以外的其他位置。Hadoop 是運(yùn)行 ETL 作業(yè)的理想平臺。

數(shù)據(jù)存儲區(qū)中有各種數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。Hadoop生態(tài)系統(tǒng)有從不同數(shù)據(jù)源(包括數(shù)據(jù)庫、文件和其他數(shù)據(jù)流)中提取數(shù)據(jù)并將其存儲在集中式 Hadoop Distributed File System(HDFS) 中的工具。

隨著數(shù)據(jù)快速增長,Hadoop 集群可以擴(kuò)展并利用OpenStack Sahara 。

Apache Hive 是建立在 Hadoop 生態(tài)系統(tǒng)之上的數(shù)據(jù)倉庫項目,也是進(jìn)行 ETL 分析的可靠工具。一旦使用工具(如 Sqoop、Flume、Kafka 等)從數(shù)據(jù)源中提取數(shù)據(jù)后,應(yīng)該使用 MapReduce 技術(shù)用 Hive 或pig scripts 進(jìn)行清理和轉(zhuǎn)換。

Hive 的另一個優(yōu)點是它是一個交互式查詢引擎,可以通過 Hive 查詢語言訪問。它類似于 SQL 。因此,數(shù)據(jù)庫人員可以在不掌握 Java 和 MapReduce 概念的情況下,在 Hadoop 生態(tài)系統(tǒng)中執(zhí)行作業(yè)。Hive 查詢執(zhí)行引擎解析 Hive 查詢并將其轉(zhuǎn)換為一系列 MapReduce / Spark 作業(yè)。Hive 可以通過JDBC / ODBC 驅(qū)動程序和瘦客戶端訪問。

Oozie 是 Hadoop 生態(tài)系統(tǒng)中可用的工作流引擎。工作流是一組必須作為分布式環(huán)境中的序列執(zhí)行的任務(wù)。Oozie 幫助創(chuàng)建一個簡單的工作流來層疊多個工作流并創(chuàng)建協(xié)調(diào)的作業(yè)。Oozie 用于為復(fù)雜的 ETL 作業(yè)創(chuàng)建工作流也很理想,盡管它沒有模塊來支持與 Hadoop 相關(guān)的所有操作。

我們可以使用任何工作流引擎來執(zhí)行 ETL 工作,例如 Openstack Mistral (工作流即服務(wù))。Apache oozie 在某些方面類似于 Openstack Mistral ,充當(dāng)可以定期觸發(fā)的作業(yè)調(diào)度器。

我們來看看一個典型的 ETL 作業(yè)流程,它使用Hadoop 將應(yīng)用程序?qū)⑵鋽?shù)據(jù)存儲在 MySQL 服務(wù)器中。存儲的數(shù)據(jù)需要以最少的成本和時間進(jìn)行分析。

提取

***步是從 MySQL 中提取數(shù)據(jù)并將其存儲在 HDFS中。

Apache Sqoop 可用于從結(jié)構(gòu)化數(shù)據(jù)源(如 RDBMS數(shù)據(jù)存儲)導(dǎo)出/導(dǎo)入數(shù)據(jù)。

如果要提取的數(shù)據(jù)是半結(jié)構(gòu)化的或非結(jié)構(gòu)化的,你可以使用 Apache Flume 從數(shù)據(jù)鏈接中獲取數(shù)據(jù),例如 Web 服務(wù)器日志、Twitter 數(shù)據(jù)流或傳感器數(shù)據(jù)。

轉(zhuǎn)換

從上述階段提取的數(shù)據(jù)格式不正確(只是原始數(shù)據(jù))。應(yīng)該用適當(dāng)?shù)倪^濾器和數(shù)據(jù)聚合來清理。

這是在 HDFS 中存儲數(shù)據(jù)必不可少的。

此時,我們需要為每個表設(shè)計 Hive 模式,并創(chuàng)建一個數(shù)據(jù)庫來轉(zhuǎn)換存儲在臨時區(qū)域中的數(shù)據(jù)。

通常情況下,數(shù)據(jù)采用 .csv 格式,每條記錄均以逗號分隔。

我們不需要檢查 HDFS 數(shù)據(jù)以了解它是如何存儲的。有一些異常數(shù)據(jù)類型應(yīng)該與 Hive 兼容。

數(shù)據(jù)庫建模后,我們可以加載提取的數(shù)據(jù)進(jìn)行清理。表格中的數(shù)據(jù)仍然未標(biāo)準(zhǔn)化。從不同的表中聚合所需的列。

同樣,可以用“ OVERWRITE INTO TABLE ”語句來匯總多個表中的數(shù)據(jù)。

Hive 支持分區(qū)表,通過水平分配執(zhí)行負(fù)載來提高查詢性能。我們傾向于分區(qū)存儲年份和月份的列。有時,分區(qū)表在 MapReduce 作業(yè)中創(chuàng)建更多任務(wù)。

加載

現(xiàn)在是時候?qū)⑥D(zhuǎn)換后的數(shù)據(jù)加載到 HDFS 中的數(shù)據(jù)倉庫目錄中,這是數(shù)據(jù)的最終狀態(tài)。在這里,我們可以應(yīng)用 SQL 查詢來獲得適當(dāng)?shù)慕Y(jié)果。

所有的 DML 命令都可以用來分析基于用例的倉庫數(shù)據(jù)。

結(jié)果可以下載為 .csv、表格或圖表進(jìn)行分析。它可以與其他流行的商業(yè)智能工具(如Talend OpenStudio、Tabelau 等)集成。

自動化

現(xiàn)在使用 Oozie 工作流引擎自動執(zhí)行 ETL 作業(yè)(你也可以使用 Mistral,大多數(shù) Hadoop 用戶習(xí)慣用Apache Oozie )。

結(jié)論

OpenStack 集成了一個非常大的 Hadoop 生態(tài)系統(tǒng),許多云提供商提供 Hadoop 服務(wù)(只需要點擊幾下它們的云管理門戶網(wǎng)站即可)。Sahara 支持大部分 Hadoop 供應(yīng)商插件,讓你執(zhí)行 ETL 工作流。

責(zé)任編輯:未麗燕 來源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2021-10-12 10:39:34

物聯(lián)網(wǎng)農(nóng)業(yè)技術(shù)

2020-06-18 10:36:48

智能建筑人工智能智能安防

2015-07-02 10:12:24

程序員

2018-10-12 11:00:54

人工智能制造業(yè)

2023-09-27 12:37:28

網(wǎng)絡(luò)安全IT領(lǐng)導(dǎo)者

2024-10-21 19:34:01

2016-05-25 14:47:17

云計算大數(shù)據(jù)存儲

2023-10-25 14:53:05

數(shù)字化轉(zhuǎn)型

2023-11-21 14:57:36

數(shù)字化轉(zhuǎn)型

2025-06-10 00:20:00

勒索軟件AI人工智能

2018-01-04 08:27:57

大數(shù)據(jù)云存儲數(shù)據(jù)湖

2019-10-23 14:29:09

數(shù)據(jù)分析師數(shù)據(jù)科學(xué)統(tǒng)計

2020-09-28 06:30:45

企業(yè)架構(gòu)師IT企業(yè)架構(gòu)

2023-07-20 09:54:17

數(shù)字化轉(zhuǎn)型IT領(lǐng)導(dǎo)者

2019-03-21 15:15:38

人工智能項目開發(fā)

2021-02-06 06:55:33

AI物聯(lián)網(wǎng)人工智能

2022-04-06 16:43:38

戴爾

2024-09-12 14:44:49

2023-12-19 08:03:25

存儲大數(shù)據(jù)節(jié)點

2015-11-09 10:51:51

容器技術(shù)數(shù)據(jù)中心存儲
點贊
收藏

51CTO技術(shù)棧公眾號