服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某品牌存儲,12塊SAS硬盤組建RAID6磁盤陣列,劃分一個卷,分配給幾臺Vmware ESXI主機(jī)做共享存儲。
卷中存放了大量的Windows虛擬機(jī),虛擬機(jī)通過模板創(chuàng)建的,系統(tǒng)盤大小一致,數(shù)據(jù)盤大小不確定,數(shù)據(jù)盤都是精簡模式。
服務(wù)器故障:
機(jī)房意外斷電,電力供應(yīng)恢復(fù)正常后存儲無法正常開機(jī)使用。經(jīng)過用戶方工程師診斷,初步判斷是意外斷電導(dǎo)致的存儲設(shè)備中的磁盤陣列損壞。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、嘗試將故障存儲中所有磁盤以只讀方式做全盤鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
2、在鏡像的過程中發(fā)現(xiàn)大量損壞扇區(qū)。初步判斷是因?yàn)檫@類硬盤的讀取機(jī)制與常規(guī)硬盤不一樣。嘗試更換主機(jī)、HBA卡、擴(kuò)展柜和操作系統(tǒng),均出現(xiàn)相同的故障。與用戶方工程師溝通后得知raid控制器對磁盤并沒有特殊要求。
3、對硬盤損壞扇區(qū)的分布規(guī)律進(jìn)行檢測,發(fā)現(xiàn)以下規(guī)律:
a、損壞扇區(qū)以256個扇區(qū)為單位分布。
b、除了損壞扇區(qū)片斷的起始位置不固定,后面的損壞扇區(qū)都是以2816個扇區(qū)為間隔。
所有磁盤的損壞扇區(qū)分布如下表(只列出前3個損壞扇區(qū)):
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
4、北亞企安數(shù)據(jù)恢復(fù)工程師編寫小程序?qū)γ總€磁盤的損壞扇區(qū)做繞過處理,用此程序鏡像完所有磁盤的數(shù)據(jù)。
5、基于鏡像文件分析損壞扇區(qū),發(fā)現(xiàn)損壞扇區(qū)呈規(guī)律性出現(xiàn):
a、每段損壞扇區(qū)的區(qū)域大小為256。
b、損壞扇區(qū)分布為固定區(qū)域,每跳過11個256扇區(qū)就會遇到一個壞的256扇區(qū)。
c、損壞扇區(qū)的位置總是位于RAID的P校驗(yàn)或Q校驗(yàn)區(qū)域。
d、所有磁盤中只有10號盤有一個自然壞道。
6、通過分析扇區(qū)得知分區(qū)大小(扇區(qū)數(shù))。按照RAID6的模式計算后得出的結(jié)果和raid控制器中保留的RAID信息區(qū)域大小吻合。根據(jù)物理硬盤底層表現(xiàn),分區(qū)表大小為512字節(jié),后面無8字節(jié)校驗(yàn),大量的0扇區(qū)也無8字節(jié)校驗(yàn)。綜合以上信息可以確定故障存儲并未啟用DA技術(shù)(520字節(jié)扇區(qū))。
分區(qū)大小如下圖(GPT分區(qū)表項(xiàng)底層表現(xiàn),涂色部分表示分區(qū)大小,單位512字節(jié)扇區(qū),64bit):
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
7、重組RAID。
a、存儲使用的是標(biāo)準(zhǔn)的RAID6陣列。整個存儲被劃分為一個卷并分配給幾臺ESXI做共享存儲,因此卷的文件系統(tǒng)是VMFS。VMFS卷中存放了大量的Windows虛擬機(jī),Windows虛擬機(jī)使用的NTFS文件系統(tǒng),可以根據(jù)NTFS中的MFT的順序分析出RAID條帶的大小以及RAID的走向。
b、鏡像完所有磁盤后發(fā)現(xiàn)最后一塊硬盤并沒有像其他磁盤一樣有大量的壞道。這塊磁盤中有大量的未損壞扇區(qū),這些未損壞扇區(qū)基本上是全0扇區(qū),可以判斷這塊硬盤是熱備盤。
c、根據(jù)分析出來的RAID相關(guān)信息重組RAID。
重組完成后可以看到目錄結(jié)構(gòu),但是不確定是否為最新狀態(tài)。檢測幾個虛擬機(jī)發(fā)現(xiàn)有部分虛擬機(jī)的數(shù)據(jù)異常,初步判斷RAID中存在掉線的磁盤。將RAID中的每一塊磁盤依次踢掉后再查看剛才數(shù)據(jù)異常的地方,沒有發(fā)現(xiàn)問題原因。
仔細(xì)分析底層數(shù)據(jù)發(fā)現(xiàn)問題不是出在RAID層面,而是出在VMFS文件系統(tǒng)層面。如果VMFS文件系統(tǒng)大于16TB,就會存在一些其他的記錄信息,組建RAID時候需要跳過這些記錄信息。再次重組RAID后查看以前數(shù)據(jù)異常的地方,發(fā)現(xiàn)問題已經(jīng)解決了。
挑選其中的一臺虛擬機(jī)做驗(yàn)證,將所有磁盤加入RIAD中后,發(fā)現(xiàn)這臺虛擬機(jī)是可以啟動的,但在缺盤的情況下啟動就出現(xiàn)問題。因此可以判斷該RAID在不缺盤的狀態(tài)下為最佳。
8、驗(yàn)證虛擬機(jī)。
對重要的虛擬機(jī)做驗(yàn)證,發(fā)現(xiàn)大部分虛擬機(jī)可以開機(jī)進(jìn)入登錄界面。只有有少部分虛擬機(jī)開機(jī)藍(lán)屏或開機(jī)檢測磁盤,但是經(jīng)過光盤修復(fù)之后都可以正常啟動。
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
9、驗(yàn)證數(shù)據(jù)庫。
針對重要虛擬機(jī)中的數(shù)據(jù)庫做驗(yàn)證,數(shù)據(jù)庫都正常。但是有一個數(shù)據(jù)庫,據(jù)用戶描述好像缺少部分?jǐn)?shù)據(jù),但是經(jīng)過仔細(xì)核對后發(fā)現(xiàn)這些數(shù)據(jù)在數(shù)據(jù)庫中本來就不存在。通過查詢master數(shù)據(jù)庫中的系統(tǒng)視圖,查出所有數(shù)據(jù)庫信息如下:
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
10、檢查VMFS卷的完整性。
由于虛擬機(jī)數(shù)量較大,對每臺虛擬機(jī)進(jìn)行驗(yàn)證不太現(xiàn)實(shí)。所以我們對整個VMFS卷做檢測,在檢測VMFS卷的過程中發(fā)現(xiàn)部分虛擬機(jī)或虛擬機(jī)文件被破壞。
北亞企安數(shù)據(jù)恢復(fù)——raid6數(shù)據(jù)恢復(fù)
11、批量恢復(fù)數(shù)據(jù)。
準(zhǔn)備目標(biāo)磁盤,組建一個RAID陣列。將重組的RAID數(shù)據(jù)鏡像到目標(biāo)陣列上,然后利用北亞企安自研程序解析整個VMFS文件系統(tǒng)&提取VMFS卷。
12、移交數(shù)據(jù)。
在北亞企安數(shù)據(jù)恢復(fù)工程師的協(xié)助下,將恢復(fù)出來的數(shù)據(jù)遷移到用戶方準(zhǔn)備好的環(huán)境中。
審核編輯:湯梓紅
-
存儲
+關(guān)注
關(guān)注
13文章
4314瀏覽量
85853 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9165瀏覽量
85436 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
573瀏覽量
17460
發(fā)布評論請先 登錄
相關(guān)推薦
評論