偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="9skp0"></style><style id="9skp0"></style><sub id="9skp0"><p id="9skp0"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何設(shè)計(jì)一個(gè)流計(jì)算基準(zhǔn)測(cè)試？

作者：阿里技術(shù) 2020-09-16 11:20:03

開發(fā) 開發(fā)工具

如何選擇適合自己業(yè)務(wù)的流計(jì)算引擎?除了比較各自的功能矩陣外，基準(zhǔn)測(cè)試(benchmark)便是用來評(píng)估系統(tǒng)性能的一個(gè)重要和常見的方法。然而在流計(jì)算領(lǐng)域，目前還沒有一個(gè)行業(yè)標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試。

如何選擇適合自己業(yè)務(wù)的流計(jì)算引擎?除了比較各自的功能矩陣外，基準(zhǔn)測(cè)試(benchmark)便是用來評(píng)估系統(tǒng)性能的一個(gè)重要和常見的方法。然而在流計(jì)算領(lǐng)域，目前還沒有一個(gè)行業(yè)標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試。本文將探討流計(jì)算基準(zhǔn)測(cè)試設(shè)計(jì)上的難點(diǎn)，分享如何設(shè)計(jì)流計(jì)算基準(zhǔn)測(cè)試框架——Nexmark，以及將來的規(guī)劃。

一背景

隨著數(shù)據(jù)時(shí)效性對(duì)企業(yè)的精細(xì)化運(yùn)營(yíng)越來越重要，“實(shí)時(shí)即未來”、“實(shí)時(shí)數(shù)倉(cāng)”、“數(shù)據(jù)湖” 成為了近幾年炙手可熱的詞。流計(jì)算領(lǐng)域的格局也在這幾年發(fā)生了巨大的變化，Apache Flink 在流批一體的方向上不斷深耕，Apache Spark 的近實(shí)時(shí)處理有著一定的受眾，Apache Kafka 也有了 ksqlDB 高調(diào)地進(jìn)軍流計(jì)算，而 Apache Storm 卻開始逐漸地退出歷史的舞臺(tái)。

每一種引擎有其優(yōu)勢(shì)的地方，如何選擇適合自己業(yè)務(wù)的流計(jì)算引擎成了一個(gè)由來已久的話題。除了比較各個(gè)引擎提供的不同的功能矩陣之外，性能是一個(gè)無(wú)法繞開的評(píng)估因素?；鶞?zhǔn)測(cè)試(benchmark)就是用來評(píng)估系統(tǒng)性能的一個(gè)重要和常見的過程。

二現(xiàn)有流計(jì)算基準(zhǔn)測(cè)試的問題

目前在流計(jì)算領(lǐng)域中，還沒有一個(gè)行業(yè)標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試。目前業(yè)界較為人知的流計(jì)算 benchmark 是五年前雅虎 Storm 團(tuán)隊(duì)發(fā)布的 Yahoo Streaming Benchmarks[4]。雅虎的原意是因?yàn)闃I(yè)界缺少反映真實(shí)場(chǎng)景的 benchmark，模擬了一個(gè)簡(jiǎn)單的廣告場(chǎng)景來比較各個(gè)流計(jì)算框架，后來被廣泛引用。具體場(chǎng)景是從 Kafka 消費(fèi)的廣告的點(diǎn)擊流，關(guān)聯(lián) Redis 中的廣告所屬的 campaign 信息，然后做時(shí)間窗口聚合計(jì)數(shù)。

然而，正是因?yàn)檠呕F(tuán)隊(duì)太過于追求還原真實(shí)的生產(chǎn)環(huán)境，導(dǎo)致這些外部系統(tǒng)服務(wù)(Kafka, Redis)成為了作業(yè)的瓶頸。Ververica 曾在這篇文章[5]中做過一個(gè)擴(kuò)展實(shí)驗(yàn)，將數(shù)據(jù)源從 Kafka 替換成了一個(gè)內(nèi)置的 datagen source，性能提升了 37 倍!由此可見，引入的 Kafka 組件導(dǎo)致了無(wú)法準(zhǔn)確反映引擎真實(shí)的性能。更重要的一個(gè)問題是，Yahoo Benchmark 只包含一個(gè)非常簡(jiǎn)單的，類似 “Word Count” 的作業(yè)，它無(wú)法全面地反映當(dāng)今復(fù)雜的流計(jì)算系統(tǒng)和業(yè)務(wù)。試想，誰(shuí)會(huì)用一個(gè)簡(jiǎn)單的 “Word Count” 去衡量比較各個(gè)數(shù)據(jù)庫(kù)之間的性能差異呢?正是這些原因使得 Yahoo Benchmark 無(wú)法成為一個(gè)行業(yè)標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試。這也正是我們想要解決的問題。

因此，我們認(rèn)為一個(gè)行業(yè)標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試應(yīng)該具備以下幾個(gè)特點(diǎn)：

可復(fù)現(xiàn)性

可復(fù)現(xiàn)性是使得 benchmark 被信任的一個(gè)重要條件。許多 benchmark 的結(jié)果是難以重現(xiàn)的。有的是因?yàn)橹粩[了個(gè) benchmark 結(jié)果圖，用于生成這些結(jié)果的代碼并沒有公開。有的是因?yàn)橛糜?benchmark 的硬件不容易被別人獲取到。有的是因?yàn)?benchmark 依賴的服務(wù)太多，致使測(cè)試結(jié)果不穩(wěn)定。

能代表和覆蓋行業(yè)真實(shí)的業(yè)務(wù)場(chǎng)景( query 量)

例如數(shù)據(jù)庫(kù)領(lǐng)域非常著名的 TPC-H、TPC-DS 涵蓋了大量的 query 集合，來捕獲查詢引擎之間細(xì)微的差別。而且這些 query 集合都立于真實(shí)業(yè)務(wù)場(chǎng)景之上(商品零售行業(yè))，數(shù)據(jù)規(guī)模大，因此也很受一些大數(shù)據(jù)系統(tǒng)的青睞。

能調(diào)整作業(yè)的負(fù)載(數(shù)據(jù)量、數(shù)據(jù)分布)

在大數(shù)據(jù)領(lǐng)域，不同的數(shù)據(jù)規(guī)模對(duì)于引擎來說可能會(huì)是完全不同的事情。例如 Yahoo Benchmark 中使用的 campaign id 只有 100 個(gè)，使得狀態(tài)非常小，內(nèi)存都可以裝的下。這樣使得同步 IO 和 checkpoint 等的影響可以忽略不計(jì)。而真實(shí)的場(chǎng)景往往要面對(duì)大狀態(tài)，面臨的挑戰(zhàn)要復(fù)雜困難的多。像 TPC-DS 的數(shù)據(jù)生成工具會(huì)提供 scalar factor 的參數(shù)來控制數(shù)據(jù)量。其次在數(shù)據(jù)分布上最好也能貼近真實(shí)世界的數(shù)據(jù)，如有數(shù)據(jù)傾斜，及調(diào)整傾斜比例。從而能全面、綜合地反映業(yè)務(wù)場(chǎng)景和引擎之間地差異。

有統(tǒng)一的性能衡量指標(biāo)和采集匯總工具

基準(zhǔn)測(cè)試的性能指標(biāo)的定義需要清晰、一致，且能適用于各種計(jì)算引擎。然而流計(jì)算的性能指標(biāo)要比傳統(tǒng)批處理的更難定義、更難采集。是流計(jì)算 benchmark 最具挑戰(zhàn)性的一個(gè)問題，這也會(huì)在下文展開描述。

我們也研究了很多其他的流計(jì)算相關(guān)的基準(zhǔn)測(cè)試，包括：StreamBench、HiBench、BigDataBench，但是它們都在上述幾個(gè)基本面有所欠缺?；鶞?zhǔn)測(cè)試的行業(yè)標(biāo)桿無(wú)疑是 TPC 發(fā)布的一系列 benchmark，如 TPC-H，TPC-DS。然而這些 benchmark 是面向傳統(tǒng)數(shù)據(jù)庫(kù)、傳統(tǒng)數(shù)倉(cāng)而設(shè)計(jì)的，并不適用于今天的流計(jì)算系統(tǒng)。例如 benchmark 中沒有考慮事件時(shí)間、數(shù)據(jù)的亂序、窗口等流計(jì)算中常見的場(chǎng)景。因此我們不得不考慮重新設(shè)計(jì)并開源一個(gè)流計(jì)算基準(zhǔn)測(cè)試框架——Nexmark。

地址：https://github.com/nexmark/nexmark。

三 Nexmark 基準(zhǔn)測(cè)試框架的設(shè)計(jì)

為了提供一個(gè)滿足以上幾個(gè)基本面的流計(jì)算基準(zhǔn)測(cè)試，我們?cè)O(shè)計(jì)和開發(fā)了 Nexmark 基準(zhǔn)測(cè)試框架，并努力讓其成為流計(jì)算領(lǐng)域的標(biāo)準(zhǔn) benchmark 。

Nexmark 基準(zhǔn)測(cè)試框架來源于 NEXMark 研究論文[1]，以及 Apache Beam Nexmark Suite[6]，并在其之上進(jìn)行了擴(kuò)展和完善。Nexmark 基準(zhǔn)測(cè)試框架不依賴任何第三方服務(wù)，只需要部署好引擎和 Nexmark，通過腳本 nexmark/bin/run_query.sh all 即可等待并獲得所有 query 下的 benchmark 結(jié)果。下面我們將探討 Nexmark 基準(zhǔn)測(cè)試在設(shè)計(jì)上的一些決策。

1 移除外部 source、sink 依賴

如上所述，Yahoo Benchmark 使用了 Kafka 數(shù)據(jù)源，卻使得最終結(jié)果無(wú)法準(zhǔn)確反映引擎的真實(shí)性能。此外，我們還發(fā)現(xiàn)，在 benchmark 快慢流雙流 JOIN 的場(chǎng)景時(shí)，如果使用了 Kafka 數(shù)據(jù)源，慢流會(huì)超前消費(fèi)(快流易被反壓)，導(dǎo)致 JOIN 節(jié)點(diǎn)的狀態(tài)會(huì)緩存大量超前的數(shù)據(jù)。這其實(shí)不能反映真實(shí)的場(chǎng)景，因?yàn)樵谡鎸?shí)的場(chǎng)景下，慢流是無(wú)法被超前消費(fèi)的(數(shù)據(jù)還未產(chǎn)生)。所以我們?cè)?Nexmark 中使用了 datagen source，數(shù)據(jù)直接在內(nèi)存中生成，數(shù)據(jù)不落地，直接向下游節(jié)點(diǎn)發(fā)送。多個(gè)事件流都由單一的數(shù)據(jù)生成器生成，所以當(dāng)快流被反壓時(shí)，也能抑制慢流的生成，較好地反映了真實(shí)場(chǎng)景。

與之類似的，我們也移除了外部 sink 的依賴，不再輸出到 Kafka/Redis，而是輸出到一個(gè)空 sink 中，即 sink 會(huì)丟棄收到的所有數(shù)據(jù)。

通過這種方式，我們保證了瓶頸只會(huì)在引擎自身，從而能精確地測(cè)量出引擎之間細(xì)微的差異。

2 Metrics

批處理系統(tǒng) benchmark 的 metric 通常采用總體耗時(shí)來衡量。然而流計(jì)算系統(tǒng)處理的數(shù)據(jù)是源源不斷的，無(wú)法統(tǒng)計(jì) query 耗時(shí)。因此，我們提出三個(gè)主要的 metric：吞吐、延遲、CPU。Nexmark 測(cè)試框架會(huì)自動(dòng)幫我們采集 metric，并做匯總，不需要部署任何第三方的 metric 服務(wù)。

吞吐

吞吐(throughput)也常被稱作 TPS，描述流計(jì)算系統(tǒng)每秒能處理多少條數(shù)據(jù)。由于我們有多個(gè)事件流，所有事件流都由一個(gè)數(shù)據(jù)生成器生成，為了統(tǒng)一觀測(cè)角度，我們采用數(shù)據(jù)生成器的 TPS，而非單一事件流的 TPS。我們將一個(gè) query 能達(dá)到的最大吞吐，作為其吞吐指標(biāo)。例如，針對(duì) Flink 引擎，我們通過 Flink REST API 暴露的.numRecordsOutPerSecond metric 來獲取當(dāng)前吞吐量。

延遲

延遲(Latency)描述了從數(shù)據(jù)進(jìn)入流計(jì)算系統(tǒng)，到它的結(jié)果被輸出的時(shí)間間隔。對(duì)于窗口聚合，Yahoo Benchmark 中使用 output_system_time - window_end 作為延遲指標(biāo)，這其實(shí)并沒有考慮數(shù)據(jù)在窗口輸出前的等待時(shí)間，這種計(jì)算結(jié)果也會(huì)極大地受到反壓的影響，所以其計(jì)算結(jié)果是不準(zhǔn)確的。一種更準(zhǔn)確的計(jì)算方式應(yīng)為 output_system_time - max(ingest_time)。然而在非窗口聚合，或雙流 JOIN 中，延遲又會(huì)有不同的計(jì)算方式。

所以延遲的定義和采集在流計(jì)算系統(tǒng)中有很多現(xiàn)實(shí)存在的問題，需要根據(jù)具體 query 具體分析，這在參考文獻(xiàn)[2]中有詳細(xì)的討論，這也是我們目前還未在 Nexmark 中實(shí)現(xiàn)延遲 metric 的原因。

CPU

資源使用率是很多流計(jì)算 benchmark 中忽視的一個(gè)指標(biāo)。由于在真實(shí)生產(chǎn)環(huán)境，我們并不會(huì)限制流計(jì)算引擎所能使用的核數(shù)，從而給系統(tǒng)更大的彈性。所以我們引入了 CPU 使用率，作為輔助指標(biāo)，即作業(yè)一共消耗了多少核。通過吞吐/cores，可以計(jì)算出平均每個(gè)核對(duì)于吞吐的貢獻(xiàn)。對(duì)于進(jìn)程的 CPU 使用率的采集，我們沒有使用 JVM CPU load，而是借鑒了 YARN 中的實(shí)現(xiàn)，通過采樣/proc/ /stat 并計(jì)算獲得，該方式可以獲得較為真實(shí)的進(jìn)程 CPU 使用率。因此我們的 Nexmark 測(cè)試框架需要在測(cè)試開始前，先在每臺(tái)機(jī)器上部署 CPU 采集進(jìn)程。

3 Query 與 Schema

Nexmark 的業(yè)務(wù)模型基于一個(gè)真實(shí)的在線拍賣系統(tǒng)。所有的 query 都基于相同的三個(gè)數(shù)據(jù)流，三個(gè)數(shù)據(jù)流會(huì)有一個(gè)數(shù)據(jù)生成器生成，來控制他們之間的比例、數(shù)據(jù)偏斜、關(guān)聯(lián)關(guān)系等等。這三個(gè)數(shù)據(jù)流分別是：

用戶(Person)：代表一個(gè)提交拍賣，或參與競(jìng)標(biāo)的用戶。
拍賣(Auction)：代表一個(gè)拍賣品。
競(jìng)標(biāo)(Bid)：代表一個(gè)對(duì)拍賣品的出價(jià)。

我們一共定義了 16 個(gè) query，所有的 query 都使用 ANSI SQL 標(biāo)準(zhǔn)語(yǔ)法?；?SQL ，我們可以更容易地?cái)U(kuò)展 query 測(cè)試集，支持更多的引擎。然而，由于 Spark 在流計(jì)算功能上的限制，大部分的 query 都無(wú)法通過 Structured Streaming 來實(shí)現(xiàn)。因此我們目前只支持測(cè)試 Flink SQL 引擎。

??

??

4 作業(yè)負(fù)載的配置化

我們也支持配置調(diào)整作業(yè)的負(fù)載，包括數(shù)據(jù)生成器的吞吐量以及吞吐曲線、各個(gè)數(shù)據(jù)流之間的數(shù)據(jù)量比例、每個(gè)數(shù)據(jù)流的數(shù)據(jù)平均大小以及數(shù)據(jù)傾斜比例等等。具體的可以參考 Source DDL 參數(shù)。

四實(shí)驗(yàn)結(jié)果

我們?cè)诎⒗镌频娜_(tái)機(jī)器上進(jìn)行了 Nexmark 針對(duì) Flink 的基準(zhǔn)測(cè)試。每臺(tái)機(jī)器均為 ecs.i2g.2xlarge 規(guī)格，配有 Xeon 2.5 GHz CPU (8 vCores) 以及 32 GB 內(nèi)存，800 GB SSD 本地磁盤。機(jī)器之間的帶寬為 2 Gbps。

測(cè)試了 flink-1.11 版本，我們?cè)谶@ 3 臺(tái)機(jī)器上部署了 Flink standalone 集群，由 1 個(gè) JobManager，8 個(gè) TaskManager (每個(gè)只有 1 slot)組成，都是 4 GB內(nèi)存。集群默認(rèn)并行度為 8。開啟 checkpoint 以及 exactly once 模式，checkpoint 間隔 3 分鐘。使用 RocksDB 狀態(tài)后端。測(cè)試發(fā)現(xiàn)，對(duì)于有狀態(tài)的 query，每次 checkpoint 的大小在 GB 級(jí)以上，所以有效地測(cè)試的大狀態(tài)的場(chǎng)景。

Datagen source 保持 1000 萬(wàn)每秒的速率生成數(shù)據(jù)，三個(gè)數(shù)據(jù)流的數(shù)據(jù)比例分別是 Bid: 92%，Auction: 6%，Person: 2%。每個(gè) query 都先運(yùn)行 3 分鐘熱身，之后 3 分鐘采集性能指標(biāo)。

運(yùn)行 nexmark/bin/run_query.sh all 后，打印測(cè)試結(jié)果如下：

??

??

五總結(jié)

我們開發(fā)和設(shè)計(jì) Nexmark 的初衷是為了推出一套標(biāo)準(zhǔn)的流計(jì)算 benchmark 測(cè)試集，以及測(cè)試流程。雖然目前僅支持了 Flink 引擎，但在當(dāng)前也具有一定的意義，例如：

推動(dòng)流計(jì)算 benchmark 的發(fā)展和標(biāo)準(zhǔn)化。

作為 Flink 引擎版本迭代之間的性能測(cè)試工具，甚至是日?；貧w工具，及時(shí)發(fā)現(xiàn)性能回退的問題。

在開發(fā) Flink 性能優(yōu)化的功能時(shí)，可以用來驗(yàn)證性能優(yōu)化的效果。

部分公司可能會(huì)有 Flink 的內(nèi)部版本，可以用作內(nèi)部版本與開源版本之間的性能對(duì)比工具。

當(dāng)然，我們也計(jì)劃持續(xù)改進(jìn)和完善 Nexmark 測(cè)試框架，例如支持 Latency metric，支持更多的引擎，如 Spark Structured Streaming, Spark Streaming, ksqlDB, Flink DataStream 等等。也歡迎有志之士一起加入貢獻(xiàn)和擴(kuò)展。

參考及引用

[1]Pete Tucker and Kristin Tufte. "NEXMark – A Benchmark for Queries over Data Streams". June 2010.[2]Jeyhun Karimov and Tilmann Rabl. "Benchmarking Distributed Stream Data Processing Systems". arXiv:1802.08496v2 [cs.DB] Jun 2019[3]Yangjun Wang. "Stream Processing Systems Benchmark: StreamBench". May 2016.[4]https://github.com/yahoo/streaming-benchmarks[5]https://www.ververica.com/blog/extending-the-yahoo-streaming-benchmark[6]https://beam.apache.org/documentation/sdks/java/testing/nexmark/

責(zé)任編輯：武曉燕來源： 51CTO專欄

流計(jì)算基準(zhǔn)測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="hnitf"><p id="hnitf"></p></blockquote>