偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="jyixx"><option id="jyixx"><table id="jyixx"></table></option></tt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

比較Hadoop、Spark和Kafka大數(shù)據(jù)框架

作者：鄒錚編譯 2021-12-14 09:56:51

大數(shù)據(jù) Kafka Hadoop Spark

大數(shù)據(jù)框架最初用于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中的靜態(tài)數(shù)據(jù)，但最近的趨勢(shì)是實(shí)時(shí)處理來(lái)自多個(gè)源的數(shù)據(jù)。

大約十年前，大數(shù)據(jù)開(kāi)始流行。隨著存儲(chǔ)成本不斷下降，很多企業(yè)開(kāi)始存儲(chǔ)他們獲取或生成的大部分?jǐn)?shù)據(jù)，以便他們可以挖掘這些數(shù)據(jù)，以獲得關(guān)鍵的業(yè)務(wù)洞察力。

企業(yè)分析所有這些數(shù)據(jù)的需求推動(dòng)著各種大數(shù)據(jù)框架的開(kāi)發(fā)，這些框架能夠篩選大量數(shù)據(jù)，從Hadoop開(kāi)始。大數(shù)據(jù)框架最初用于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中的靜態(tài)數(shù)據(jù)，但最近的趨勢(shì)是實(shí)時(shí)處理來(lái)自多個(gè)源的數(shù)據(jù)。

什么是大數(shù)據(jù)框架?

大數(shù)據(jù)框架是一組軟件組件，可用于構(gòu)建分布式系統(tǒng)以處理大型數(shù)據(jù)集，包括結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)集可以來(lái)自多個(gè)來(lái)源，大小從TB到PB到EB不等。

此類(lèi)框架通常在高性能計(jì)算 (HPC) 中發(fā)揮作用，該技術(shù)可以解決材料科學(xué)、工程或金融建模等不同領(lǐng)域的難題。尋找這些問(wèn)題的答案通常在于篩選盡可能多的相關(guān)數(shù)據(jù)。

最著名的大數(shù)據(jù)框架是Apache Hadoop。其他大數(shù)據(jù)框架包括Spark、Kafka、Storm和Flink，它們與Hadoop一樣都是由Apache軟件基金會(huì)開(kāi)發(fā)的開(kāi)源項(xiàng)目。Apache Hive最初由Facebook開(kāi)發(fā)，也是一個(gè)大數(shù)據(jù)框架。

Spark相對(duì)于Hadoop的優(yōu)勢(shì)是什么?

Apache Hadoop的主要組件是Hadoop分布式文件系統(tǒng) (HDFS) 和數(shù)據(jù)處理引擎–部署 MapReduce程序以過(guò)濾和排序數(shù)據(jù)。還包括YARN，它是Hadoop集群的資源管理器。

Apache Spark也可以在HDFS或替代的分布式文件系統(tǒng)上運(yùn)行。它的開(kāi)發(fā)速度比MapReduce更快，通過(guò)在內(nèi)存中處理和保留數(shù)據(jù)以供后續(xù)步驟使用，而不是將結(jié)果直接寫(xiě)回存儲(chǔ)。對(duì)于較小的工作負(fù)載，這會(huì)使Spark比Hadoop快100倍。

但是，Hadoop MapReduce可以處理比Spark大得多的數(shù)據(jù)集，尤其是那些整個(gè)數(shù)據(jù)集的大小超過(guò)可用內(nèi)存的數(shù)據(jù)集。如果企業(yè)擁有大量數(shù)據(jù)并且處理對(duì)時(shí)間不敏感，那么Hadoop可能是更好的選擇。

Spark更適合企業(yè)需要快速答案的應(yīng)用程序，例如涉及迭代或圖形處理的應(yīng)用程序。這種技術(shù)也稱(chēng)為網(wǎng)絡(luò)分析，該技術(shù)分析客戶(hù)和產(chǎn)品等實(shí)體之間的關(guān)系。

Hadoop和Kafka的區(qū)別是什么?

Apache Kafka是分布式事件流平臺(tái)，旨在處理實(shí)時(shí)數(shù)據(jù)源。這意味著數(shù)據(jù)在通過(guò)系統(tǒng)時(shí)被處理。

與Hadoop一樣，Kafka在服務(wù)器節(jié)點(diǎn)集群上運(yùn)行，因此具有可擴(kuò)展性。有些服務(wù)器節(jié)點(diǎn)形成存儲(chǔ)層，稱(chēng)為代理，而另一些則處理數(shù)據(jù)流的連續(xù)導(dǎo)入和導(dǎo)出。

嚴(yán)格來(lái)說(shuō)，Kafka不是Hadoop的競(jìng)爭(zhēng)對(duì)手平臺(tái)。企業(yè)可以將它與Hadoop一起用作整體應(yīng)用程序架構(gòu)的一部分，在該架構(gòu)中，它處理傳入的數(shù)據(jù)流并將其輸入到數(shù)據(jù)湖中，以供Hadoop等框架進(jìn)行處理。

由于其每秒可處理數(shù)千條消息，Kafka對(duì)于網(wǎng)站活動(dòng)跟蹤或大規(guī)模物聯(lián)網(wǎng)部署中的遙測(cè)數(shù)據(jù)收集等應(yīng)用非常有用。

Kafka和Spark的區(qū)別是什么?

Apache Spark是一種通用處理引擎，開(kāi)發(fā)用于執(zhí)行批處理(類(lèi)似于MapReduce)和工作負(fù)載，例如流、交互式查詢(xún)和機(jī)器學(xué)習(xí) (ML)。

Kafka的架構(gòu)是分布式消息傳遞系統(tǒng)架構(gòu)，將記錄流存儲(chǔ)在稱(chēng)為主題的類(lèi)別中。它不是用于大規(guī)模分析作業(yè)，而是用于高效的流處理。它旨在集成到應(yīng)用程序的業(yè)務(wù)邏輯中，而不是用于批量分析作業(yè)。

Kafka最初是在社交網(wǎng)絡(luò)LinkedIn上開(kāi)發(fā)，用于分析其數(shù)百萬(wàn)用戶(hù)之間的聯(lián)系。也許最好將其視為能夠從眾多來(lái)源實(shí)時(shí)捕獲數(shù)據(jù)，并將其分類(lèi)為要分析的主題以深入了解數(shù)據(jù)的框架。

這種分析可能會(huì)使用Spark等工具執(zhí)行，Spark是一種集群計(jì)算框架，可以執(zhí)行用Java、Python或Scala等語(yǔ)言開(kāi)發(fā)的代碼。Spark還包含Spark SQL，它支持查詢(xún)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);以及Spark MLlib，用于構(gòu)建和操作ML管道的機(jī)器學(xué)習(xí)庫(kù)。

其他大數(shù)據(jù)框架

以下是其他你可能感興趣的大數(shù)據(jù)框架。

Apache Hive使SQL開(kāi)發(fā)人員使用Hive查詢(xún)語(yǔ)言 (HQL) 語(yǔ)句，類(lèi)似于用于數(shù)據(jù)查詢(xún)和分析的標(biāo)準(zhǔn)SQL。Hive可以在HDFS上運(yùn)行，最適合數(shù)據(jù)倉(cāng)庫(kù)任務(wù)，例如提取、轉(zhuǎn)換和加載 (ETL)、報(bào)告和數(shù)據(jù)分析。

Apache Flink將有狀態(tài)的流處理與處理ETL和批處理作業(yè)的能力相結(jié)合。這使其非常適合事件驅(qū)動(dòng)的工作負(fù)載，例如網(wǎng)站上的用戶(hù)交互或在線(xiàn)采購(gòu)訂單。與Hive一樣，F(xiàn)link可以運(yùn)行在HDFS或其他數(shù)據(jù)存儲(chǔ)層上。

Apache Storm是分布式實(shí)時(shí)處理框架，可以與帶有MapReduce的Hadoop進(jìn)行比較，不同之處在于它實(shí)時(shí)處理事件數(shù)據(jù)，而MapReduce以離散批次運(yùn)行。Storm是為可擴(kuò)展性和高級(jí)別容錯(cuò)而設(shè)計(jì)。它對(duì)于需要快速響應(yīng)的應(yīng)用程序也很有用，例如檢測(cè)安全漏洞。

責(zé)任編輯：趙寧寧來(lái)源： TechTarget中國(guó)

Hadoop Spark Kafka 大數(shù)據(jù)框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="6qmh5"><option id="6qmh5"></option></pre>

<bdo id="6qmh5"></bdo>

<tt id="6qmh5"></tt>