偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="6m3ja"></style>

<sub id="6m3ja"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

互聯(lián)網(wǎng)海量數(shù)據(jù)如何存儲(chǔ)Kafka

作者：天涯咫尺TGH 2024-10-16 10:35:52

大數(shù)據(jù) 存儲(chǔ)

Kafka的數(shù)據(jù)是如何存儲(chǔ)、分片、復(fù)制的？它是如何保證高可用，如何保證數(shù)據(jù)一致性的？那你會(huì)發(fā)現(xiàn)它和分布式存儲(chǔ)系統(tǒng)，并沒(méi)有什么太大的區(qū)別。唯一的區(qū)別就是，它的查詢語(yǔ)言（生產(chǎn)和消費(fèi)消息）和存儲(chǔ)引擎的數(shù)據(jù)結(jié)構(gòu)（Commit Log）比一般的存儲(chǔ)系統(tǒng)要簡(jiǎn)單很多。

對(duì)于大部分互聯(lián)網(wǎng)公司來(lái)說(shuō)，數(shù)據(jù)量最大的幾類數(shù)據(jù)是：點(diǎn)擊流數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)和日志數(shù)據(jù)。這里面「點(diǎn)擊流」指的是在 App、小程序和 Web 頁(yè)面上的埋點(diǎn)數(shù)據(jù)，這些埋點(diǎn)數(shù)據(jù)記錄用戶的行為，比如你打開(kāi)了哪個(gè)頁(yè)面，點(diǎn)擊了哪個(gè)按鈕，在哪個(gè)商品上停留了多久等等這些。

當(dāng)然你不用太擔(dān)心自己的隱私問(wèn)題，記錄的這些行為數(shù)據(jù)不是為了監(jiān)控用戶，主要目的是為了從統(tǒng)計(jì)上分析群體用戶的行為，從而改進(jìn)產(chǎn)品和運(yùn)營(yíng)。比如，某件商品看的人很多，停留時(shí)間很長(zhǎng)，最后下單購(gòu)買的人卻很少，那采銷人員就要考慮是不是這件商品的定價(jià)太高了。

除了點(diǎn)擊流數(shù)據(jù)以外，還有監(jiān)控和日志數(shù)據(jù)都是大家常用的。

這類數(shù)據(jù)都是真正海量的數(shù)據(jù)，相比于訂單、商品這類業(yè)務(wù)的數(shù)據(jù)，數(shù)據(jù)量要多出 2～3 個(gè)數(shù)量級(jí)。每天產(chǎn)生的數(shù)據(jù)量就可能會(huì)超過(guò) TB（1 TB = 1024 GB）級(jí)別，經(jīng)過(guò)一段時(shí)間累積下來(lái)，有些數(shù)據(jù)會(huì)達(dá)到 PB（1 PB = 1024 TB）級(jí)別。

這種量級(jí)的數(shù)據(jù)，在大數(shù)據(jù)技術(shù)出現(xiàn)之前，是沒(méi)法保存和處理的，只能是通過(guò)抽樣的方法來(lái)湊合著做分析。Hadoop 等大數(shù)據(jù)技術(shù)出現(xiàn)以后，才使得存儲(chǔ)和計(jì)算海量數(shù)據(jù)成為可能。那么如果要保存像「點(diǎn)擊流」這樣的海量數(shù)據(jù)，應(yīng)該選擇什么樣的存儲(chǔ)系統(tǒng)？

使用 Kafka 存儲(chǔ)海量原始數(shù)據(jù)

早期對(duì)于這類海量原始數(shù)據(jù)，都傾向于先計(jì)算再存儲(chǔ) 。也就是，在接收原始數(shù)據(jù)的服務(wù)中，先進(jìn)行一些數(shù)據(jù)過(guò)濾、聚合等初步的計(jì)算，將數(shù)據(jù)先收斂一下，再落存儲(chǔ)。這樣可以降低存儲(chǔ)系統(tǒng)的寫入壓力，也能節(jié)省磁盤空間。

這幾年，隨著存儲(chǔ)設(shè)備越來(lái)越便宜，并且，數(shù)據(jù)的價(jià)值被不斷地重新挖掘，更多的大廠都傾向于先存儲(chǔ)再計(jì)算，直接保存海量的原始數(shù)據(jù)，再對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)或者批量計(jì)算。這種方案，除了貴以外都是優(yōu)點(diǎn)：

不需要二次分發(fā)就可以同時(shí)給多個(gè)流和批計(jì)算任務(wù)提供數(shù)據(jù)；
如果計(jì)算任務(wù)出錯(cuò)，可以隨時(shí)回滾重新計(jì)算；
如果對(duì)數(shù)據(jù)有新的分析需求，上線后直接就可以用歷史數(shù)據(jù)計(jì)算出結(jié)果，而不用去等新數(shù)據(jù)。

但是，這種方式對(duì)保存原始數(shù)據(jù)的存儲(chǔ)系統(tǒng)要求就很高了：既要有足夠大的容量，能水平擴(kuò)容，還要讀寫都足夠快，跟得上數(shù)據(jù)生產(chǎn)的寫入速度，還要給下游計(jì)算提供低延遲的讀服務(wù)。什么樣的存儲(chǔ)能滿足這樣的要求呢？這里給出幾種常用的解決方案。

第一種方案是，使用 Kafka 來(lái)存儲(chǔ)。Kafka 不是一個(gè)消息隊(duì)列么，怎么成了存儲(chǔ)系統(tǒng)了？實(shí)際上，現(xiàn)代的消息隊(duì)列，本質(zhì)上就是分布式的流數(shù)據(jù)存儲(chǔ)系統(tǒng)。

那么Kafka的數(shù)據(jù)是如何存儲(chǔ)、分片、復(fù)制的？它是如何保證高可用，如何保證數(shù)據(jù)一致性的？那你會(huì)發(fā)現(xiàn)它和分布式存儲(chǔ)系統(tǒng)，并沒(méi)有什么太大的區(qū)別。唯一的區(qū)別就是，它的查詢語(yǔ)言（生產(chǎn)和消費(fèi)消息）和存儲(chǔ)引擎的數(shù)據(jù)結(jié)構(gòu)（Commit Log）比一般的存儲(chǔ)系統(tǒng)要簡(jiǎn)單很多。但也正是因?yàn)檫@個(gè)原因，使得 Kafka 的讀寫性能遠(yuǎn)遠(yuǎn)好于其他的存儲(chǔ)系統(tǒng)。Kafka 官方給自己的定位也是「分布式流數(shù)據(jù)平臺(tái)」，不只是一個(gè) MQ。

Kafka 提供「無(wú)限」的消息堆積能力，具有超高的吞吐量，可以滿足我們保存原始數(shù)據(jù)的大部分要求。寫入點(diǎn)擊流數(shù)據(jù)的時(shí)候，每個(gè)原始數(shù)據(jù)采集服務(wù)作為一個(gè)生產(chǎn)者，把數(shù)據(jù)發(fā)給 Kafka 就可以了。下游的計(jì)算任務(wù)，可以作為消費(fèi)者訂閱消息，也可以按照時(shí)間或者位點(diǎn)來(lái)讀取數(shù)據(jù)。并且，Kafka 作為事實(shí)標(biāo)準(zhǔn)，和大部分大數(shù)據(jù)生態(tài)圈的開(kāi)源軟件都有非常好的兼容性和集成度，像 Flink、Spark 等大多計(jì)算平臺(tái)都提供了直接接入 Kafka 的組件。

Kafka 也支持把數(shù)據(jù)分片，這個(gè)在 Kafka 中叫 Partition，每個(gè)分片可以分布到不同的存儲(chǔ)節(jié)點(diǎn)上。寫入數(shù)據(jù)的時(shí)候，可以均勻地寫到這些分片上，理論上只要分片足夠多，存儲(chǔ)容量就可以是「無(wú)限」的。但是，單個(gè)分片總要落到某一個(gè)節(jié)點(diǎn)上，而單節(jié)點(diǎn)的存儲(chǔ)容量畢竟是有限的，隨著時(shí)間推移，單個(gè)分片總有寫滿的時(shí)候。

即使它支持?jǐn)U容分片數(shù)量，也沒(méi)辦法像其他分布式存儲(chǔ)系統(tǒng)那樣，重新分配數(shù)據(jù)，把已有分片上的數(shù)據(jù)遷移一部分到新的分片上。所以擴(kuò)容分片也解決不了已有分片寫滿的問(wèn)題。而 Kafka 又不支持按照時(shí)間維度去分片，所以，受制于單節(jié)點(diǎn)的存儲(chǔ)容量，Kafka 實(shí)際能存儲(chǔ)的數(shù)據(jù)容量并不是無(wú)限的。

#Kafka 之外還有哪些解決方案？

如果需要長(zhǎng)時(shí)間（幾個(gè)月 - 幾年）保存的海量數(shù)據(jù)，就不適合用 Kafka 存儲(chǔ)。這種情況下，只能退而求其次，使用第二種方案了。

第二種方案是，使用 HDFS 來(lái)存儲(chǔ)。使用 HDFS 存儲(chǔ)數(shù)據(jù)也很簡(jiǎn)單，就是把原始數(shù)據(jù)寫成一個(gè)一個(gè)文本文件，保存到 HDFS 中。我們需要按照時(shí)間和業(yè)務(wù)屬性來(lái)組織目錄結(jié)構(gòu)和文件名，以便于下游計(jì)算程序來(lái)讀取，比如說(shuō)：click/20200808/Beijing_0001.csv，代表 2020 年 8 月 8 日，從北京地區(qū)用戶收集到的點(diǎn)擊流數(shù)據(jù)，這個(gè)是當(dāng)天的第一個(gè)文件。

對(duì)于保存海量的原始數(shù)據(jù)這個(gè)特定的場(chǎng)景來(lái)說(shuō)，HDFS 的吞吐量是遠(yuǎn)不如 Kafka 的。按照平均到每個(gè)節(jié)點(diǎn)上計(jì)算，Kafka 的吞吐能力很容易達(dá)到每秒鐘大幾百兆，而 HDFS 只能達(dá)到百兆左右。這就意味著，要達(dá)到相同的吞吐能力，使用 HDFS 就要比使用 Kafka，多用幾倍的服務(wù)器數(shù)量。

但 HDFS 也有它的優(yōu)勢(shì)，第一個(gè)優(yōu)勢(shì)就是，它能提供真正無(wú)限的存儲(chǔ)容量，如果存儲(chǔ)空間不夠了，水平擴(kuò)容就可以解決。另外一個(gè)優(yōu)勢(shì)是，HDFS 能提供比 Kafka 更強(qiáng)的數(shù)據(jù)查詢能力。Kafka 只能按照時(shí)間或者位點(diǎn)來(lái)提取數(shù)據(jù)，而 HDFS 配合 Hive 直接就可以支持用 SQL 對(duì)數(shù)據(jù)進(jìn)行查詢，雖然說(shuō)查詢的性能比較差，但查詢能力要比 Kafka 強(qiáng)大太多了。

以上這兩種方案因?yàn)槎加懈髯缘膬?yōu)勢(shì)和不足，在實(shí)際生產(chǎn)中，都有不少的應(yīng)用，你可以根據(jù)業(yè)務(wù)的情況來(lái)選擇。那有沒(méi)有兼顧這二者優(yōu)勢(shì)的方案呢？最好能做到，既有超高的吞吐能力，又能無(wú)限擴(kuò)容，同時(shí)還能提供更好的查詢能力，有這樣的好事兒么？

目前已經(jīng)有一些的開(kāi)源項(xiàng)目，都致力于解決這方面的問(wèn)題。

一類是分布式流數(shù)據(jù)存儲(chǔ)，比較活躍的項(xiàng)目有 Pravega 和 Pulsar 的存儲(chǔ)引擎 Apache BookKeeper。這些分布式流數(shù)據(jù)存儲(chǔ)系統(tǒng)，走的是類似 Kafka 這種流存儲(chǔ)的路線，在高吞吐量的基礎(chǔ)上，提供真正無(wú)限的擴(kuò)容能力，更好的查詢能力。

還有一類是時(shí)序數(shù)據(jù)庫(kù)（Time Series Databases），比較活躍的項(xiàng)目有 InfluxDB 和 OpenTSDB 等。這些時(shí)序數(shù)據(jù)庫(kù)，不僅有非常好的讀寫性能，還提供很方便的查詢和聚合數(shù)據(jù)的能力。但是，它們不是什么數(shù)據(jù)都可以存的，它們專注于類似監(jiān)控?cái)?shù)據(jù)這樣，有時(shí)間特征并且數(shù)據(jù)內(nèi)容都是數(shù)值的數(shù)據(jù)。如果你有存儲(chǔ)海量監(jiān)控?cái)?shù)據(jù)的需求，可以關(guān)注一下這些項(xiàng)目。

在互聯(lián)網(wǎng)行業(yè)，點(diǎn)擊流、監(jiān)控和日志這幾類數(shù)據(jù)，是海量數(shù)據(jù)中的海量數(shù)據(jù)。對(duì)于這類數(shù)據(jù)，一般的處理方式都是先存儲(chǔ)再計(jì)算，計(jì)算結(jié)果保存到特定的數(shù)據(jù)庫(kù)中，供業(yè)務(wù)系統(tǒng)查詢。

所以，對(duì)于海量原始數(shù)據(jù)的存儲(chǔ)系統(tǒng)，我們要求的是超高的寫入和讀取性能，和近乎無(wú)限的容量，對(duì)于數(shù)據(jù)的查詢能力要求不高。生產(chǎn)上，可以選擇 Kafka 或者是 HDFS，Kafka 的優(yōu)點(diǎn)是讀寫性能更好，單節(jié)點(diǎn)能支持更高的吞吐量。而 HDFS 則能提供真正無(wú)限的存儲(chǔ)容量，并且對(duì)查詢更友好。

為什么 Kafka 能做到幾倍于 HDFS 的吞吐能力，技術(shù)上的根本原因是什么？

這個(gè)問(wèn)題的最根本原因是，對(duì)于磁盤來(lái)說(shuō)，順序讀寫的性能要遠(yuǎn)遠(yuǎn)高于隨機(jī)讀寫，這個(gè)性能差距視不同的磁盤，大約在幾十倍左右。Kafka 是為順序讀寫設(shè)計(jì)的，而 HDFS 是為隨機(jī)讀寫的設(shè)計(jì)的，所以在順序?qū)懭氲臅r(shí)候，Kafka 的性能會(huì)更好。

雖然 hdfs 和 kafka 都可以用來(lái)做存儲(chǔ), 但 kafka 在使用方面像磁帶；hdfs 更像硬盤，總結(jié)一下針對(duì)海量數(shù)據(jù)的存儲(chǔ)方案有如下幾個(gè)要點(diǎn)：

采用批處理的方式提升吞吐量
利用了磁盤文件順序讀寫性能高的特點(diǎn)設(shè)計(jì)存儲(chǔ)
利用了操作系統(tǒng)的 PageCache 做緩存，減少 IO
采用零拷貝技術(shù)加速消費(fèi)流程

責(zé)任編輯：龐桂玉來(lái)源：數(shù)字化助推器

存儲(chǔ)大數(shù)據(jù)互聯(lián)網(wǎng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="o6ala"></sub>

<style id="o6ala"></style>

<sub id="o6ala"></sub>

<cite id="o6ala"><rp id="o6ala"><form id="o6ala"></form></rp></cite>