融合基礎(chǔ)設(shè)施:正確部署帶來(lái)高可用性
上周,德克薩斯州的天空湛藍(lán),陽(yáng)光溫潤(rùn),我心情很好地坐在梯子上休息。一群小孩子咯咯直笑,鬧鬧哄哄地在游泳池邊潑水嬉戲。突然,撲通一聲,有一個(gè)物體以慢動(dòng)作從十英尺扶梯高度滑落到地板,并且反彈了一下。
幸運(yùn)的是,不是我從梯子上跌下來(lái)了,而是我信賴(lài)的iPhone,它現(xiàn)在像泰坦尼克號(hào)一樣沉沒(méi)在深水區(qū)。我親愛(ài)的,昂貴的智能手機(jī)就這樣離我而去。
但是,令人驚訝的是,它幸免于難了!將它吹干,并且做了一下清潔之后,重新啟動(dòng)就像什么事也沒(méi)發(fā)生過(guò)一樣。事實(shí)上,我的iPhone是被融合拯救了,每天相同的基礎(chǔ)設(shè)施融合補(bǔ)救措施讓數(shù)千個(gè)數(shù)據(jù)中心避免災(zāi)難爆發(fā)。
數(shù)據(jù)中心薄弱的地方
不是我想要點(diǎn)燃戰(zhàn)火,但是iPhone6可能真的是我擁有的最偉大的一個(gè)小發(fā)明。是的,我很喜歡Fluke meter多用表;無(wú)人機(jī)也非常有趣;并且我一定不會(huì)讓你奪走我的家用802.11ac Aironets.然而,iPhone還是那么地與眾不同。也許是因?yàn)槲衣赃^(guò)了4S、5/5S,才特別珍惜它;又或許我只是很高興終于有一個(gè)屏幕和Android一樣大的iPhone,或許僅僅只是因?yàn)閕Phone6的設(shè)計(jì)。更有可能的是,iPhone6永遠(yuǎn)不會(huì)造成麻煩。是的,超級(jí)怪胎——我使用iOS系統(tǒng)是因?yàn)槲也挥萌タ紤]別的事情。(Android系統(tǒng)的粉絲會(huì)說(shuō)我沒(méi)有能力去思考,他們可能是正確的。)
作為資深的網(wǎng)絡(luò)工程師,我們也應(yīng)該差不多受夠了反反復(fù)復(fù)的緊急維修,雖然這曾經(jīng)是我們職業(yè)生涯的標(biāo)志。在某種程度上,我們使用改進(jìn)的規(guī)劃,供應(yīng)商提供的新性能,主動(dòng)網(wǎng)絡(luò)監(jiān)控和管理消除了大部分可避免的問(wèn)題。與此同時(shí),我們數(shù)據(jù)中心基礎(chǔ)設(shè)施的一個(gè)變化也大大降低了硬件故障,雖然創(chuàng)造了新的復(fù)雜性。這一變化就是基礎(chǔ)設(shè)施的加速融合。
我遇到了99個(gè)問(wèn)題,但是不包括交換機(jī)
先舉一個(gè)融合基礎(chǔ)設(shè)施帶來(lái)可用性好處的例子:架頂式(top-of-rack, ToR)交換機(jī)。曾幾何時(shí),各種金屬服務(wù)器努力互連。架頂式(top-of-rack, ToR)交換機(jī)采用的是標(biāo)準(zhǔn)做法,通過(guò)一些昂貴的高速鏈路與匯聚交換機(jī)互連。然而,在現(xiàn)代數(shù)據(jù)中心中,10 GbE和40 GbE端口很常見(jiàn)。于是架頂式交換機(jī)基本上都被替換:一開(kāi)始是被end-of-row交換機(jī),后來(lái)直接被大型、多模式匯聚機(jī)架替換。這可能意味著更多地互連電纜,但是電纜和端口比原有的多機(jī)箱要可靠得多。
除了集裝箱式數(shù)據(jù)中心拓?fù)浣Y(jié)構(gòu)的高度模塊化,我們還將數(shù)十個(gè)架頂式設(shè)備匯聚成單一元素。其結(jié)果是,服務(wù)失敗率有所下降。乍一看這似乎有悖常理,畢竟,融合會(huì)減少并行。因此,會(huì)出現(xiàn)單點(diǎn)故障,可能會(huì)產(chǎn)生較大的潛在影響。然而,現(xiàn)實(shí)是大部分匯聚交換機(jī)已經(jīng)存在單點(diǎn)故障。在這樣的前提下,提高基礎(chǔ)設(shè)施融合度將帶動(dòng)供應(yīng)商提高可靠性。此外,更少的機(jī)箱意味著更少的故障。更妙的是,它意味著更少的跨配置運(yùn)作。
對(duì)于系統(tǒng)管理員而言,融合基礎(chǔ)設(shè)施可靠性帶來(lái)的好處更加明顯。隨著虛擬化的實(shí)施,機(jī)箱、電源供應(yīng)器、內(nèi)存條等數(shù)量都會(huì)大量減少。同樣,在少量主機(jī)上部署的100個(gè)虛擬機(jī)看起來(lái)像針對(duì)單點(diǎn)故障開(kāi)得處方。但是,對(duì)于風(fēng)扇和內(nèi)存這種分立元件故障錯(cuò)誤,一個(gè)獨(dú)立的機(jī)箱容錯(cuò)率會(huì)更高。同時(shí),存儲(chǔ)區(qū)域網(wǎng)絡(luò)使存儲(chǔ)變得更可靠。最后,物理服務(wù)器數(shù)量大大減少讓我們以主動(dòng)-主動(dòng)待機(jī)和災(zāi)難恢復(fù)形式上有真正的彈性。
手持設(shè)備上融合的縮影
縱觀融合基礎(chǔ)設(shè)施的下一次改革,歷史經(jīng)驗(yàn)表明,日益趨同等于提高了可用性,前提是正確部署。這也恰恰是iPhone設(shè)備上發(fā)生了的變化。2015年,iPhone由于溺水淘汰的比例不到20%,某種程度上是因?yàn)閕Phone或Android Galaxy手機(jī)中組件互連的數(shù)量只是前兩代的一小撮。那么,就沒(méi)有什么地方可以讓水進(jìn)去很久,即使是玻璃和屏幕間的薄薄空間也被密封。相應(yīng)地,在我們的數(shù)據(jù)中心,也只有越來(lái)越少的空隙可以被破壞。
極客們發(fā)現(xiàn),在緊急情況下,如果融合性夠高真正的災(zāi)難不太會(huì)發(fā)生。在我的iPhone濕了之后,我用真空吸塵器處理了每一個(gè)端口,然后將其放在一袋大米中。約24小時(shí)候,即使將其放在水下八尺整整一分鐘,它還是可以重啟并工作。完美,令人難以置信的適應(yīng)能力,很大的原因是因?yàn)榻M件變少。
當(dāng)然,此后不久,我的實(shí)用主義觀念占據(jù)上風(fēng)。我認(rèn)為長(zhǎng)期腐蝕可能會(huì)對(duì)設(shè)備造成不良影響,于是備份設(shè)備,驅(qū)車(chē)直奔最近的蘋(píng)果專(zhuān)賣(mài)店,換了一個(gè)全新的iPhone。