阿里云引入“混沌工程”提升穩(wěn)定性 專有云遭“隨機(jī)破壞”后依然正常運行
2018杭州·云棲大會上,阿里云上演了一出好戲——12600種異常被現(xiàn)場觀眾隨機(jī)挑選,化身一只“功夫猴子”在專有云數(shù)據(jù)中心里橫沖直撞,進(jìn)行“破壞”:模擬硬盤掉電、網(wǎng)絡(luò)抖動、服務(wù)器宕機(jī)等,但系統(tǒng)和應(yīng)用依然穩(wěn)定運行。
“IT從業(yè)者***的未解之謎就是,為什么一塊磁盤被寫滿加上網(wǎng)絡(luò)堵塞,會引起關(guān)鍵應(yīng)用服務(wù)中斷的連鎖反應(yīng)?”阿里云專有云兼企業(yè)應(yīng)用總經(jīng)理馬勁打趣說,“過去我們不具備全系統(tǒng)演練的條件,今天我們引入‘混沌工程’理念,在準(zhǔn)生產(chǎn)環(huán)境中做高頻異常注入來打磨專有云的可靠性。”
自去年云棲大會上現(xiàn)場演示拔服務(wù)器電源后,馬勁就有了個“破壞之王”的名號。但“破壞”是為了讓系統(tǒng)更穩(wěn)定,過去一年,他和工程師們開啟了一項“混沌工程”計劃,構(gòu)造超過12600種生產(chǎn)環(huán)境下可能出的異常組合,每一種都能對系統(tǒng)造成一定程度的破壞,諸如服務(wù)器宕機(jī)、計算資源耗盡、程序異常退出、誤刪除及網(wǎng)絡(luò)抖動、IO hang等復(fù)雜問題,通過對這類問題構(gòu)建“專有云免疫系統(tǒng)”,幫助客戶提前排除80%的故障隱患。
或許是現(xiàn)場觀眾隨機(jī)挑選的異常“破壞力”不足,馬勁一狠心,演示了一個極端環(huán)境下的超級異常——核心ECS集群出現(xiàn)局部網(wǎng)絡(luò)異常,同時另一臺ECS計算資源飽和。“這類情況極易引發(fā)系統(tǒng)雪崩,一般情況下客戶的服務(wù)就掛掉了,而且恢復(fù)時間很長,”馬勁解釋道,演示現(xiàn)場的專有云快速隔離及彈性伸縮服務(wù)發(fā)揮了作用,應(yīng)用僅持續(xù)了幾秒的抖動便恢復(fù)了正常。
“混沌工程”通常應(yīng)用在工程領(lǐng)域,指在可控范圍內(nèi)實踐一些可引發(fā)系統(tǒng)失效的實驗。馬勁表示,阿里云的“混沌工程”是在仿真的生產(chǎn)環(huán)境中進(jìn)行可控的建設(shè)性破壞,對不符合預(yù)期的系統(tǒng)反饋不斷優(yōu)化,從而持續(xù)打磨,為客戶提供穩(wěn)定環(huán)境。
自2016年發(fā)布專有云解決方案以來,阿里云已助力數(shù)百家政府、金融、企業(yè)客戶完成了數(shù)字化轉(zhuǎn)型,包括海關(guān)總署、浙江政務(wù)服務(wù)網(wǎng)、中國聯(lián)通、中信等大型政企客戶,專有云提供超過60款云產(chǎn)品和服務(wù),支持10-10000臺單集群規(guī)模部署,可將計算延伸到更多邊緣場景。今天的專有云正在開拓海外市場,并與英特爾成立產(chǎn)業(yè)聯(lián)盟服務(wù)全球客戶。