數(shù)字化時(shí)代,企業(yè)需要更加復(fù)雜的 IT 基礎(chǔ)架構(gòu)以確保業(yè)務(wù)的正常開展。因此,IT 基礎(chǔ)架構(gòu)一旦出現(xiàn)問題就有可能給企業(yè)帶來巨大的損失,甚至使企業(yè)消失。因此,現(xiàn)代企業(yè)中,IT 災(zāi)害仍然是對(duì)生產(chǎn)過程最大的威脅。
什么是災(zāi)難?
災(zāi)難是具有挑戰(zhàn)性的麻煩,它能夠立即讓可用的人力、IT、財(cái)務(wù)和其他資源的能力不堪重負(fù),并導(dǎo)致寶貴資產(chǎn)(例如文檔、知識(shí)產(chǎn)權(quán)對(duì)象、數(shù)據(jù)或硬件)的重大損失。
在大多數(shù)情況下,災(zāi)難是導(dǎo)致非典型威脅的突然事件鏈,一旦災(zāi)難開始,這些威脅就很難或不可能停止。根據(jù)災(zāi)難的類型,企業(yè)必須制定嚴(yán)格的預(yù)警方案。
災(zāi)難主要有三種類型:
1)自然災(zāi)害:當(dāng)聽到“災(zāi)難”一詞時(shí),大部分人可能會(huì)想到的第一件事就是自然災(zāi)害。不同類型的自然災(zāi)害包括洪水、地震、森林火災(zāi)、異常高溫、強(qiáng)雪、暴雨、颶風(fēng)和龍卷風(fēng)以及海洋風(fēng)暴。
2)技術(shù)和人為災(zāi)害:技術(shù)災(zāi)難是與技術(shù)基礎(chǔ)設(shè)施故障、人為錯(cuò)誤或邪惡意志有關(guān)的任何事物,包括軟件中斷、發(fā)電故障等在內(nèi)的任何問題。
3)混合災(zāi)害:這些災(zāi)難包括全球軟件中斷、關(guān)鍵硬件故障、停電和任何電力供應(yīng)問題、惡意軟件(包括勒索軟件)、電信問題(包括網(wǎng)絡(luò)隔離)、軍事沖突、恐怖主義事件、大壩故障、化學(xué)事件。
要說明的是,第三類災(zāi)害包括了將自然和技術(shù)因素的特征結(jié)合在一起的混合災(zāi)害。例如,大壩故障可能導(dǎo)致洪水,導(dǎo)致整個(gè)地區(qū)或國(guó)家的停電和通信問題。
什么是災(zāi)難恢復(fù)?
災(zāi)難恢復(fù) (DR) 是在發(fā)生全球破壞性事件后應(yīng)采取的一組操作(方法),用于恢復(fù)和還原操作。主要的災(zāi)難恢復(fù)活動(dòng)側(cè)重于重新獲得對(duì)數(shù)據(jù)、硬件、軟件、網(wǎng)絡(luò)設(shè)備、連接和電源的訪問權(quán)限。災(zāi)難恢復(fù)行動(dòng)還可以涵蓋重建后勤、搬遷工作人員和購(gòu)買辦公設(shè)備,以防資產(chǎn)損壞或毀壞。
若要?jiǎng)?chuàng)建災(zāi)難恢復(fù)計(jì)劃,需要考慮在以下時(shí)間段內(nèi)要完成的操作序列:
1)災(zāi)難發(fā)生前(構(gòu)建、維護(hù)和測(cè)試 DR 系統(tǒng)和策略)。
2)在災(zāi)難期間(采取即時(shí)響應(yīng)措施以避免或減輕資產(chǎn)損失)。
3)災(zāi)后(應(yīng)用災(zāi)備系統(tǒng)恢復(fù)運(yùn)營(yíng),聯(lián)系客戶、合作伙伴,分析損失和恢復(fù)效率)。
災(zāi)難恢復(fù)計(jì)劃中包含的12大要素
1)業(yè)務(wù)影響分析和風(fēng)險(xiǎn)評(píng)估數(shù)據(jù)
在此步驟中,主要研究對(duì)組織造成的典型和最危險(xiǎn)威脅和漏洞。有了這些知識(shí),能夠計(jì)算特定災(zāi)難發(fā)生的概率,衡量對(duì)生產(chǎn)的潛在影響,并更加輕松地實(shí)施合適的災(zāi)難恢復(fù)解決方案。
2)恢復(fù)目標(biāo):定義的 RPO 和 RTO
RPO 恢復(fù)點(diǎn)目標(biāo):該參數(shù)定義在不對(duì)生產(chǎn)產(chǎn)生重大影響的情況下可以丟失的數(shù)據(jù)量。
RTO 恢復(fù)時(shí)間目標(biāo):即企業(yè)可以容忍的最長(zhǎng)停機(jī)時(shí)間,因此也是完成恢復(fù)工作流的最長(zhǎng)時(shí)間。
3)職責(zé)分配
建立一個(gè)了解每個(gè)成員在發(fā)生災(zāi)難時(shí)的負(fù)責(zé)的主要工作的團(tuán)隊(duì),是高效災(zāi)難恢復(fù)計(jì)劃的必備組成部分。組建一個(gè)特殊的災(zāi)難恢復(fù)團(tuán)隊(duì),為每位員工分配特定角色,并培訓(xùn)他們?cè)趯?shí)際災(zāi)難發(fā)生之前履行自己的角色,這是在需要實(shí)際行動(dòng)來保存企業(yè)資產(chǎn)和生產(chǎn)時(shí)避免混淆和缺失鏈接的方法。
4)災(zāi)難恢復(fù)站點(diǎn)創(chuàng)建
任何規(guī)?;蛐再|(zhì)的災(zāi)難都可能嚴(yán)重?fù)p壞企業(yè)主服務(wù)器和生產(chǎn)數(shù)據(jù),使恢復(fù)運(yùn)營(yíng)變得不可能或非常耗時(shí)。在這種情況下,具有關(guān)鍵工作負(fù)載副本的 DR 站點(diǎn)是將 RTO 降至最低并在緊急情況期間和之后繼續(xù)向企業(yè)客戶端提供服務(wù)的最佳選擇。
5)故障恢復(fù)準(zhǔn)備
故障恢復(fù)是在主數(shù)據(jù)中心再次運(yùn)行時(shí),將工作負(fù)載返回到主站點(diǎn)的過程,在規(guī)劃災(zāi)難恢復(fù)時(shí)可能會(huì)忽略。
盡管如此,事先建立故障恢復(fù)順序,有助于使整個(gè)過程更加順暢,并避免可能發(fā)生的輕微數(shù)據(jù)丟失。此外,災(zāi)難恢復(fù)站點(diǎn)通常不是為長(zhǎng)時(shí)間支持基礎(chǔ)結(jié)構(gòu)的功能而設(shè)計(jì)的。
6)關(guān)鍵文檔和資產(chǎn)的遠(yuǎn)程存儲(chǔ)
如今,即使是小型企業(yè)也會(huì)生成和處理大量關(guān)鍵數(shù)據(jù)。丟失硬拷貝或數(shù)字文檔可能會(huì)使其恢復(fù)變得耗時(shí)、昂貴甚至不可能。
因此,準(zhǔn)備遠(yuǎn)程存儲(chǔ)(例如,用于數(shù)字文檔的 VPS 云存儲(chǔ)和用于硬拷貝資產(chǎn)的受保護(hù)物理存儲(chǔ))是確保在發(fā)生災(zāi)難時(shí)重要數(shù)據(jù)可訪問性的可靠選擇。
7)注明設(shè)備要求
此 DR 計(jì)劃需要審核支持企業(yè) IT 基礎(chǔ)結(jié)構(gòu)正常運(yùn)行的節(jié)點(diǎn)。這包括計(jì)算機(jī)、物理服務(wù)器、網(wǎng)絡(luò)路由器、硬盤驅(qū)動(dòng)器、基于云的服務(wù)器托管設(shè)備等。
這些知識(shí)使您能夠查看在災(zāi)難發(fā)生后恢復(fù) IT 環(huán)境的原始狀態(tài)所需的元素。此外,企業(yè)還可以查看至少支持任務(wù)關(guān)鍵型工作負(fù)載所需的設(shè)備列表,并確保在主要資源不可用時(shí)生產(chǎn)連續(xù)性。
8)通信通道定義
確保為員工、管理層和災(zāi)難恢復(fù)團(tuán)隊(duì)提供穩(wěn)定可靠的內(nèi)部通信系統(tǒng)。設(shè)置通信通道的使用順序,以處理災(zāi)難發(fā)生后主服務(wù)器和內(nèi)部網(wǎng)絡(luò)不可用的情況。
9)概述響應(yīng)程序
在災(zāi)難恢復(fù)計(jì)劃中,最初的幾個(gè)小時(shí)至關(guān)重要。創(chuàng)建有關(guān)如何執(zhí)行 DR 活動(dòng)、監(jiān)視和執(zhí)行流程、故障轉(zhuǎn)移序列、系統(tǒng)恢復(fù)驗(yàn)證等的分步說明。盡管采取了所有預(yù)防措施,但如果生產(chǎn)中心仍然發(fā)生災(zāi)難,對(duì)特定事件的集中和快速響應(yīng)可以幫助減輕損害。
10)快速報(bào)告事件
在災(zāi)難發(fā)生并中斷生產(chǎn)后,不僅應(yīng)通知災(zāi)難恢復(fù)團(tuán)隊(duì)成員。您還需要通知相關(guān)人員,包括營(yíng)銷團(tuán)隊(duì)、第三方供應(yīng)商、合作伙伴和客戶。
作為災(zāi)難恢復(fù)計(jì)劃的一部分,創(chuàng)建大綱和腳本,向員工展示如何通知每個(gè)關(guān)鍵組其關(guān)注的問題。此外,事先創(chuàng)建的基本新聞稿可以幫助您避免在實(shí)際事件中浪費(fèi)時(shí)間。
11)災(zāi)難恢復(fù)計(jì)劃測(cè)試和調(diào)整
成功的企業(yè)會(huì)隨著時(shí)間的推移而變化和擴(kuò)展,其災(zāi)難恢復(fù)計(jì)劃應(yīng)根據(jù)相關(guān)需求和恢復(fù)目標(biāo)進(jìn)行調(diào)整。完成計(jì)劃后立即對(duì)其進(jìn)行測(cè)試,并在每次引入更改時(shí)執(zhí)行其他測(cè)試。因此,企業(yè)可以衡量災(zāi)難恢復(fù)計(jì)劃的效率并確保資產(chǎn)的可恢復(fù)性。
12)應(yīng)用最佳災(zāi)難恢復(fù)策略
災(zāi)難恢復(fù)策略可以在DIY(自己動(dòng)手)的基礎(chǔ)上實(shí)施,也可以委托給第三方供應(yīng)商。前一種選擇是為了經(jīng)濟(jì)而犧牲可靠性的方式,而后者可能更昂貴但更有效。
災(zāi)難恢復(fù)策略的選擇完全取決于企業(yè)的功能,包括團(tuán)隊(duì)規(guī)模、IT 基礎(chǔ)架構(gòu)復(fù)雜性、預(yù)算、風(fēng)險(xiǎn)因素和所需的可靠性等。
總結(jié)
災(zāi)難是突然的破壞性事件,可能使組織無法運(yùn)行。自然、人為和混合災(zāi)害具有不同級(jí)別的可預(yù)測(cè)性,但在組織級(jí)別上幾乎無法預(yù)防。確保組織安全的唯一方法是根據(jù)組織的特定需求創(chuàng)建可靠的災(zāi)難恢復(fù)計(jì)劃。
-
IT
+關(guān)注
關(guān)注
2文章
864瀏覽量
63520
原文標(biāo)題:IT系統(tǒng)災(zāi)難恢復(fù)計(jì)劃的12大要素
文章出處:【微信號(hào):D1Net11,微信公眾號(hào):存儲(chǔ)D1net】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論