從事信息化產(chǎn)業(yè)研究多年,身邊不乏熟悉的IT技術(shù)廠商。在與他們的技術(shù)專家交流過程中經(jīng)常會聊到產(chǎn)品可用性問題。這時他們會說自己的產(chǎn)品有多好,可用性高達(dá)“5個9”。那么,“5個9”到底有多牛?
按照年度可用性計算:365天x24小時x60分鐘x99.999%=5.256分鐘。換句話講,他們的產(chǎn)品允許一年非計劃停機(jī)時間約為5分鐘,厲害不厲害?當(dāng)然厲害??捎眯詨騿??我看未必。隨著企業(yè)數(shù)字化轉(zhuǎn)型升級,更復(fù)雜的業(yè)務(wù)需求對服務(wù)器可用要求將越來越高,甚至根本不允許任何非計劃停機(jī)。因此,僅僅是高可用性,其實是滿足不了日趨智能化的工業(yè)時代需求。
按照高可用性的定義,本質(zhì)是允許非計劃內(nèi)停機(jī)出現(xiàn)的,只是盡可能通過技術(shù)手段來減少停工時間,保持服務(wù)的高度可用性。
目前高可用性對停機(jī)劃分分為兩種,一是不可修復(fù)系統(tǒng),系統(tǒng)的平均壽命指系統(tǒng)發(fā)生失效前的平均工作(或存儲)時間或工作次數(shù),也稱為系統(tǒng)在失效前的平均時間,記為MTTF(Mean Time To Failure)。二是可修復(fù)系統(tǒng),系統(tǒng)的壽命是指兩次相鄰失效(故障)之間的工作時間,而不是指整個系統(tǒng)的報廢時間。平均壽命即是平均無故障時間,也稱為系統(tǒng)平均失效間隔,記為MTBF(Mean Time Between Failure)。可修復(fù)產(chǎn)品的平均修復(fù)時間,就是從出現(xiàn)故障到修復(fù)中間的這段時間記為MTTR(Mean Time To Repair)平均修復(fù)時間。MTTR越短表示易恢復(fù)性越好。
那么,容錯性和高可用性有什么區(qū)別?容錯性指的是故障容許度(Fault tolerance),是使系統(tǒng)在部分組件(一個或多個)發(fā)生故障時仍能正常運(yùn)作的能力。容錯性能保障即使系統(tǒng)組件出現(xiàn)故障,也能快速的切換到備用系統(tǒng),并保證系統(tǒng)的正常運(yùn)營能力。對比高可用性強(qiáng)調(diào)恢復(fù)能力,容錯性是不允許這種情況發(fā)生,其目標(biāo)是預(yù)防故障,做到即使出現(xiàn)故障也能快速切換,保證業(yè)務(wù)系統(tǒng)正常運(yùn)行。
在傳統(tǒng)信息化時代,服務(wù)器主要承載的是對可用性和可靠性要求不高的業(yè)務(wù)應(yīng)用,如ERP、OA、CRM或MES等。隨著智能制造的推進(jìn),傳統(tǒng)業(yè)務(wù)系統(tǒng)向工業(yè)現(xiàn)場延伸,服務(wù)器正在承擔(dān)起越來越多的場景功能,這些場景不僅智能化程度越來越高,計算需求越來越密集,而且對實時性要求也很高。
比如在工業(yè)智能化控制系統(tǒng)中根本不允許出現(xiàn)任何故障問題,因為這可能帶來一系列重大工業(yè)安全事故。在無人自動化駕駛系統(tǒng)中,時刻需要采集和分析周邊環(huán)境數(shù)據(jù)并進(jìn)行實時分析,及時反饋到中控系統(tǒng)以保障自動駕駛過程的安全。因此,時代對硬件性能的要求不同了。作為服務(wù)器廠商,必須適應(yīng)由故障恢復(fù)到故障預(yù)防的趨勢變化,打造容錯性能更好的服務(wù)器平臺。
在早期計算機(jī)系統(tǒng)不是特別可靠的情況下,為做到故障預(yù)防,企業(yè)通常采用的是雙機(jī)容錯機(jī)制,即購買兩臺配置完全一樣的服務(wù)器冗余級聯(lián),一旦主機(jī)出現(xiàn)故障,就快速切換到從機(jī)上,從而保證業(yè)務(wù)的正常運(yùn)營。但這種部署方式不僅成本高、效率低,而且實施過程十分復(fù)雜,一旦出現(xiàn)斷電等意外情況,就完全無抵抗力。
那么,怎么才能保證在部署成本更低、實施更簡單的前提下,讓系統(tǒng)具備更好的容錯性能?全球容錯技術(shù)領(lǐng)導(dǎo)廠商Stratus是這么做的!
上圖是Stratus公司打造的一種全面集成的持續(xù)可用性平臺——ftServer,為企業(yè)關(guān)鍵應(yīng)用提供更穩(wěn)定可靠的平臺。
為保障平臺的高可靠性和可用性,ftServer通過部署一對冗余節(jié)點(diǎn),兩個相同的客戶可更換單元(CRU)——其中每一個客戶可更換單元均有自己的處理器、內(nèi)存和存儲。所有冗余組件和子系統(tǒng)打包為單一系統(tǒng),從而降低了許可成本并簡化了管理。
Stratus具有獨(dú)特的冗余現(xiàn)場可編程門陣列、數(shù)據(jù)路徑和同步固件,即使硬件組件出現(xiàn)故障,也能夠提供確保持續(xù)可用性所需的處理器同步、數(shù)據(jù)復(fù)制和邏輯,系統(tǒng)會在不同節(jié)點(diǎn)間自動復(fù)制數(shù)據(jù)。一個節(jié)點(diǎn)發(fā)生故障時,運(yùn)行在上面的虛擬機(jī)會自動在另一個節(jié)點(diǎn)上重啟(高可用性模式)或恢復(fù)(容錯模式)。
同時,為增強(qiáng)平臺的兼容性并降低成本,ftServer不僅使用通用化的x86芯片組、DIMM和驅(qū)動器,還使用標(biāo)準(zhǔn)分發(fā)包裝的操作系統(tǒng)和虛擬化軟件,從而簡化了管理并縮短了價值實現(xiàn)時間。ftServer自動化的自監(jiān)控、告警、自診斷和補(bǔ)救功能是通過主動服務(wù)架構(gòu)實現(xiàn)的。通過簡化ftServer監(jiān)控和管理,以及篩選需要釆取行動的問題,Stratus可節(jié)省公司時間以及減少工作量。
為盡可能減少停機(jī)維護(hù)時間,ftServer旨在實現(xiàn)服務(wù)性,它的可熱插拔CRU無需關(guān)閉系統(tǒng)即可拔下,并且無需使用特殊工具即可更換。這一點(diǎn)以及自動數(shù)據(jù)重新同步使ftServer適于在遠(yuǎn)程制造位置或IT資源有限的位置部署。
對IT硬件系統(tǒng)而言,沒有絕對的可靠性,只有相對的可用性。容錯性的目標(biāo)是預(yù)防故障,可用性的目標(biāo)是恢復(fù)故障,目標(biāo)雖然不一致,但是殊途同歸。隨著工業(yè)智能化時代的開啟,就當(dāng)前企業(yè)需求看,“預(yù)防故障”顯然比“故障恢復(fù)”更有吸引力,因為在不確定、復(fù)雜性的時代,企業(yè)更希望能提前掌握不可預(yù)知的風(fēng)險,讓一切可控。
原文標(biāo)題:觀察|漫談高可用性與容錯性
文章出處:【微信公眾號:工業(yè)IoT】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
IT
+關(guān)注
關(guān)注
2文章
866瀏覽量
63549 -
容錯
+關(guān)注
關(guān)注
0文章
28瀏覽量
14937
原文標(biāo)題:觀察|漫談高可用性與容錯性
文章出處:【微信號:IndustryIOT,微信公眾號:工業(yè)互聯(lián)網(wǎng)前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論