信息系統(tǒng)可靠性影響因素與對(duì)策
對(duì)于一個(gè)信息系統(tǒng),特別是關(guān)鍵業(yè)務(wù)系統(tǒng)而言,可靠性非常重要。有數(shù)據(jù)統(tǒng)計(jì)顯示,金融信息系統(tǒng)每小時(shí)的停機(jī)代價(jià)是250萬(wàn)美元,制造業(yè)最少也要2.8萬(wàn)美元。這還僅僅是2000年的統(tǒng)計(jì)結(jié)果,如今企業(yè)對(duì)信息系統(tǒng)的依賴程度更高,停機(jī)所造成的損失也就更大。
對(duì)信息系統(tǒng)可靠性產(chǎn)生影響的因素有很多,有人為因素、過(guò)程處理和技術(shù)因素。其中,人的因素可以通過(guò)培訓(xùn)、認(rèn)證來(lái)提高管理水平,減少因?yàn)榻?jīng)驗(yàn)缺乏導(dǎo)致的錯(cuò)誤。對(duì)于處理過(guò)程中的偶然錯(cuò)誤,這就需要系統(tǒng)具有足夠的技術(shù)能力。
在技術(shù)因素方面,導(dǎo)致系統(tǒng)失效的原因也有很多,例如硬件故障,設(shè)備驅(qū)動(dòng)、操作系統(tǒng)和應(yīng)用軟件的故障。其中,隨著硬件制造工藝水平的提升,可靠性大大提高,與之相比,軟件故障的影響因素更為突出一些。那么在這種情況下,提高系統(tǒng)硬件的可靠性還有沒(méi)有意義?
答案是顯而易見的,特別對(duì)于關(guān)鍵業(yè)務(wù)系統(tǒng),很多用戶采用集群的方式來(lái)提升可靠性。集群的方式是通過(guò)雙機(jī)或者更多的機(jī)器,借助集群軟件來(lái)提升系統(tǒng)的可靠性。但其中一臺(tái)機(jī)器設(shè)備發(fā)生故障時(shí),由另外一臺(tái)設(shè)備來(lái)接替故障設(shè)備的工作。最理想的狀況,是無(wú)縫切換,但在實(shí)際工作中往往做不到,有各種原因會(huì)導(dǎo)致系統(tǒng)切換不成功。此外,有時(shí)候也會(huì)導(dǎo)致在不該切換時(shí)候的誤切換,這都會(huì)降低系統(tǒng)的可靠性。
較之集群,容錯(cuò)具有更高的可靠性級(jí)別。容錯(cuò)系統(tǒng)從整體上可視為一臺(tái)機(jī)器,由兩套獨(dú)立硬件系統(tǒng)構(gòu)成,受時(shí)鐘鎖步系統(tǒng)控制,在相同指令周期內(nèi)執(zhí)行同一條指令(參見圖)。
容錯(cuò)系統(tǒng)特有的ASIC故障檢測(cè)系統(tǒng)將對(duì)CPU、 內(nèi)存、 芯片組、磁盤、 I/O 等部件的處理結(jié)果進(jìn)行比對(duì),相同執(zhí)行下一步,不相同則從新計(jì)算。容錯(cuò)系統(tǒng)不僅可有效應(yīng)對(duì)硬件故障,還可以避免各種不可預(yù)知的因素,如電磁干擾、尖峰脈沖等對(duì)可靠性的影響,避免潛在的計(jì)算錯(cuò)誤所導(dǎo)致的風(fēng)險(xiǎn)。因此對(duì)于關(guān)鍵業(yè)務(wù)應(yīng)用,應(yīng)該選擇具有更高可靠性的系統(tǒng)。
至于軟件故障對(duì)系統(tǒng)可靠性的影響,唯一的辦法就是升級(jí)軟件包,打補(bǔ)丁。但是無(wú)論如何,硬件系統(tǒng)的高可靠性基礎(chǔ),是不可或缺的條件。所謂皮之不存,毛之焉附?