性能測試應(yīng)該怎么做?
偶然間看到了阿里中間件Dubbo的性能測試報告(http://t.cn/R53tm9q),我覺得這份性能測試報告讓人覺得做這性能測試的人根本不懂性能測試,我覺得這個測試報告會把大眾帶溝里去,所以,想寫算這篇文章,做一點科普。
首先,這份測試報告里的主要問題如下:
- 用的全是平均值。老實說,平均值是非常不靠譜的。
- 響應(yīng)時間沒有和吞吐量TPS/QPS掛鉤。而只是測試了低速率的情況,這是完全錯誤的。
- 響應(yīng)時間和吞吐量沒有和成功率掛鉤。
為什么平均值不靠譜
關(guān)于平均值為什么不靠譜,我相信大家讀新聞的時候經(jīng)常可以看到,平均工資,平均房價,平均支出,等等這樣的字眼,你就知道為什么平均值不靠譜了。(這些都是數(shù)學(xué)游戲,對于理工科的同學(xué)來說,天生應(yīng)該有免疫力)
軟件的性能測試也一樣,平均數(shù)也是不靠譜的,這里可以參看這篇詳細(xì)的文章《Why Averages Suck and Percentiles are Great》(http://t.cn/R53cChA),我在這里簡單說一下。
我們知道,性能測試時,測試得到的結(jié)果數(shù)據(jù)不總是一樣的,而是有高有低的,如果算平均值就會出現(xiàn)這樣的情況,假如,測試了10次,有9次是1ms,而有1次是1s,那么平均數(shù)據(jù)就是100ms,很明顯,這完全不能反應(yīng)性能測試的情況,也許那1s的請求就是一個不正常的值,是個噪點。所以,我們會在一些評委打分中看到要去掉一個最高分一個最低分,然后再算平均值。
另外,中位數(shù)(Mean)可能會比平均數(shù)要稍微靠譜一些,所謂中位數(shù)的意就是把將一組數(shù)據(jù)按大小順序排列,處在最中間位置的一個數(shù)叫做這組數(shù)據(jù)的中位數(shù) ,這意味著至少有50%的數(shù)據(jù)低于或高于這個中位數(shù)。
當(dāng)然,最為正確的統(tǒng)計做法是用百分比分布統(tǒng)計。也就是英文中的TP – Top Percentile ,TP50的意思在,50%的請求都小于某個值,TP90表示90%的請求小于某個時間。
比如:我們有一組數(shù)據(jù):[ 10ms, 1s, 200ms, 100ms],我們把其從小到大排個序:[10ms, 100ms, 200ms, 1s],于是我們知道,TP50,就是50%的請求ceil(4*0.5)=2時間是小于100ms的,TP90就是90%的請求ceil(4*0.9)=4時間小于1s。于是:TP50就是100ms,TP90就是1s。
我以前在路透做的金融系統(tǒng)響應(yīng)時間的性能測試的要求是這樣的,99.9%的請求必須小于1ms,所有的平均時間必須小于1ms。兩個條件的限制。
為什么響應(yīng)時間(latency)要和吞吐量(Thoughput)掛鉤
系統(tǒng)的性能如果只看吞吐量,不看響應(yīng)時間是沒有意義的。我的系統(tǒng)可以頂10萬請求,但是響應(yīng)時間已經(jīng)到了5秒鐘,這樣的系統(tǒng)已經(jīng)不可用了,這樣的吞吐量也是沒有意義的。
我們知道,當(dāng)并發(fā)量(吞吐量)上漲的時候,系統(tǒng)會變得越來越不穩(wěn)定,響應(yīng)時間的波動也會越來越大,響應(yīng)時間也會變得越來越慢,而吞吐率也越來越上不去(如下圖所示),包括CPU的使用率情況也會如此。所以,當(dāng)系統(tǒng)變得不穩(wěn)定的時候,吞吐量已經(jīng)沒有意義了。吞吐量有意義的時候僅當(dāng)系統(tǒng)穩(wěn)定的時候。
所以,吞吐量的值必需有響應(yīng)時間來卡。比如:TP99小于100ms的時候,系統(tǒng)可以承載的最大并發(fā)數(shù)是1000qps。這意味著,我們要不斷的在不同的并發(fā)數(shù)上測試,以找到軟件的最穩(wěn)定時的最大吞吐量。
為什么響應(yīng)時間吞吐量和成功率要掛鉤
我們這應(yīng)該不難理解了,如果請求不成功的話,都還做毛的性能測試。比如,我說我的系統(tǒng)并發(fā)可以達(dá)到10萬,但是失敗率是40%,那么,這10萬的并發(fā)完全就是一個笑話了。
性能測試的失敗率的容忍應(yīng)該是非常低的。對于一些關(guān)鍵系統(tǒng),成功請求數(shù)必須在100%,一點都不能含糊。
如何嚴(yán)謹(jǐn)?shù)刈鲂阅軠y試
一般來說,性能測試要統(tǒng)一考慮這么幾個因素:Thoughput吞吐量,Latency響應(yīng)時間,資源利用(CPU/MEM/IO/Bandwidth…),成功率,系統(tǒng)穩(wěn)定性。
下面的這些性能測試的方式基本上來源自我的老老東家湯森路透,一家做real-time的金融數(shù)據(jù)系統(tǒng)的公司。
一,你得定義一個系統(tǒng)的響應(yīng)時間latency,建議是TP99,以及成功率。比如路透的定義:99.9%的響應(yīng)時間必需在1ms之內(nèi),平均響應(yīng)時間在1ms以內(nèi),100%的請求成功。
二,在這個響應(yīng)時間的限制下,找到最高的吞吐量。測試用的數(shù)據(jù),需要有大中小各種尺寸的數(shù)據(jù),并可以混合。最好使用生產(chǎn)線上的測試數(shù)據(jù)。
三,在這個吞吐量做Soak Test,比如:使用第二步測試得到的吞吐量連續(xù)7天的不間斷的壓測系統(tǒng)。然后收集CPU,內(nèi)存,硬盤/網(wǎng)絡(luò)IO,等指標(biāo),查看系統(tǒng)是否穩(wěn)定,比如,CPU是平穩(wěn)的,內(nèi)存使用也是平穩(wěn)的。那么,這個值就是系統(tǒng)的性能
四,找到系統(tǒng)的極限值。比如:在成功率100%的情況下(不考慮響應(yīng)時間的長短),系統(tǒng)能堅持10分鐘的吞吐量。
五,做Burst Test。用第二步得到的吞吐量執(zhí)行5分鐘,然后在第四步得到的極限值執(zhí)行1分鐘,再回到第二步的吞吐量執(zhí)行5鐘,再到第四步的權(quán)限值執(zhí)行1分鐘,如此往復(fù)個一段時間,比如2天。收集系統(tǒng)數(shù)據(jù):CPU、內(nèi)存、硬盤/網(wǎng)絡(luò)IO等,觀察他們的曲線,以及相應(yīng)的響應(yīng)時間,確保系統(tǒng)是穩(wěn)定的。
(注:在路透,路透會用第二步得到的吞吐量乘以66.7%來做為系統(tǒng)的軟報警線,80%做為系統(tǒng)的硬報警線,而極限值僅僅用來扛突發(fā)的peak)
是不是很煩鎖?是的,只因為,這是工程,工程是一門科學(xué),科學(xué)是嚴(yán)謹(jǐn)?shù)摹?/p>
歡迎大家也分享一下你們性能測試的經(jīng)驗和方法。