騰訊面試：如何提升Kafka吞吐量？

作者：磊哥 2024-05-23 16:41:40

Kafka 與其他兩個主流的中間件 RabbitMQ 和 RocketMQ 相比，Kafka 最大的優(yōu)勢就是高吞吐量。

Kafka 是一個分布式流處理平臺和消息系統(tǒng)，用于構(gòu)建實時數(shù)據(jù)管道和流應用。它最初由 LinkedIn 開發(fā)，后來成為 Apache 軟件基金會的頂級項目。

Kafka 特點是高吞吐量、分布式架構(gòu)、支持持久化、集群水平擴展和消費組消息消費，具體來說：

高吞吐量：Kafka 具有高性能和低延遲的特性，能夠處理大規(guī)模數(shù)據(jù)，并支持每秒數(shù)百萬條消息的高吞吐量。
分布式架構(gòu)：Kafka 采用分布式架構(gòu)，可以水平擴展，多個節(jié)點之間能夠?qū)崿F(xiàn)負載均衡和高可用性。
可持久化：Kafka 將消息持久化到磁盤中，保證消息的可靠性，即使消費者下線或出現(xiàn)故障，消息也不會丟失。
集群水平擴展：Kafka 支持集群模式，可以方便地通過增加節(jié)點和分區(qū)來水平擴展、提高容量。
消息組支持：Kafka 可以支持多個消費者訂閱同一個主題（Topic），每個消費者組獨立消費消息，方便構(gòu)建多樣化的數(shù)據(jù)處理架構(gòu)。

Kafka 與其他兩個主流的中間件 RabbitMQ 和 RocketMQ 相比，Kafka 最大的優(yōu)勢就是高吞吐量。

既然高吞吐量是 Kafka 的優(yōu)勢，那么怎么才能讓 Kafka 的優(yōu)勢發(fā)揮到極致，怎么才能更大程度的提升 Kafka 的吐吞量呢？

典型回答

提升 Kafka 的吞吐量涉及優(yōu)化生產(chǎn)者、消費者、服務器配置以及整體架構(gòu)設計等多個方面，以下是 Kafka 優(yōu)化的一些關(guān)鍵策略和具體實現(xiàn)。

生產(chǎn)者提升吞吐量的優(yōu)化手段有以下幾個：

消息批量發(fā)送：增加 batch.size（批量消息數(shù)量設置）和適當調(diào)整 linger.ms（批次逗留時間），以允許生產(chǎn)者累積更多消息后再發(fā)送，減少網(wǎng)絡請求次數(shù)。
消息壓縮：設置 compression.type（默認值為 none，不壓縮），該參數(shù)為生產(chǎn)者發(fā)送數(shù)據(jù)的壓縮方式，包括 gzip、snappy、lz4、zstd 等。啟用消息壓縮（如 Snappy、LZ4），減少網(wǎng)絡傳輸?shù)臄?shù)據(jù)量，盡管這會增加 CPU 負擔。
增大緩沖區(qū)大小：通過增加 buffer.memory 配置（生產(chǎn)者內(nèi)存緩沖區(qū)大?。?，允許生產(chǎn)者在等待發(fā)送時緩存更多消息。
優(yōu)化 acks 配置：適當降低 acks 級別以減少等待確認的時間，但需權(quán)衡數(shù)據(jù)的持久性。acks 級別含義如下：

acks=0：生產(chǎn)者不會等待來自 Broker 的消息發(fā)送成功與否的確認，如果 Broker 沒有收到消息，那生產(chǎn)者是不知道的。該配置吞吐量高，但可能會丟失數(shù)據(jù)。
acks=1：默認值，生產(chǎn)者將消息寫入 leader 副本后，就會收到 Broker 的確認消息。如果 leader 副本同步成功了，但還沒有來得及同步給 follower 副本，此時就發(fā)生宕機了，那就會丟失數(shù)據(jù)。
acks=-1：生產(chǎn)者將消息寫入 leader 副本和所有 follower 副本后，才會收到 Broker 的確認消息。該配置可以保證不丟數(shù)據(jù)，但是吞吐量低。

生產(chǎn)者提升吞吐量的優(yōu)化手段有以下幾個：

增加消費者實例：確保每個分區(qū)至少有一個消費者，以充分利用并行處理能力。
增加每次拉取的消息數(shù)量：通過調(diào)整 fetch.min.bytes（消息拉取最小容量）和 fetch.max.bytes（消息拉取最大容量）增加每次拉取的消息數(shù)量。
并行處理：在消費者內(nèi)部使用多線程處理消息。

每個 broker 就是一個 Kafka 實例，它的優(yōu)化手段有以下幾個：

增加分區(qū)數(shù)量：適當增加主題的分區(qū)數(shù)量，可以提高并行處理能力，但需避免過多分區(qū)導致的管理和協(xié)調(diào)開銷。
優(yōu)化節(jié)點配置：包括但不限于 num.network.threads（網(wǎng)絡線程數(shù)）、num.io.threads（I/O 線程數(shù)）、socket.send.buffer.bytes/socket.receive.buffer.bytes（套接字緩沖區(qū)大小）等，根據(jù)硬件資源和負載情況調(diào)整。
磁盤優(yōu)化：使用快速磁盤（如 SSD），并優(yōu)化文件存儲目錄的布局以減少 I/O 競爭。
JVM調(diào)優(yōu)：Kafka 是運行在 JVM 上的，針對 Kafka 服務端的 JVM 進行適當?shù)膬?nèi)存和 GC 優(yōu)化，也可以提升有效的提升吞吐量。

網(wǎng)絡和 Kafka 運行的硬件，也會影響 Kafka 的吞吐量，所以我們可以進行以下優(yōu)化：

合理配置副本放置，確保高可用的同時，減少跨數(shù)據(jù)中心的復制延遲，也可以有效的提升 Kafka 的吞吐量。

持續(xù)監(jiān)控：使用 Kafka 自帶的監(jiān)控工具或集成第三方監(jiān)控系統(tǒng)（如 Prometheus+Grafana），持續(xù)監(jiān)控性能指標。
壓測于調(diào)試：基于監(jiān)控數(shù)據(jù)和性能測試結(jié)果，不斷調(diào)整上述參數(shù)以找到最優(yōu)配置。

責任編輯：姜華來源： Java中文社群