服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某公司一臺(tái)EMC某型號(hào)存儲(chǔ)中有一組由12塊硬盤組建的raid5磁盤陣列,其中有2塊盤作為熱備盤使用。
服務(wù)器故障&分析:
raid5磁盤陣列中有2塊磁盤離線,只有1塊熱備盤成功啟用,另外一塊熱備盤未啟用,raid陣列崩潰。
服務(wù)器硬盤離線的原因無(wú)非為磁盤出現(xiàn)物理故障或者硬盤出現(xiàn)壞道。由于EMC的raid控制器磁盤檢查策略比較嚴(yán)格,經(jīng)常將陣列中性能不穩(wěn)定的磁盤判定為物理故障并踢出陣列。所以導(dǎo)致EMC存儲(chǔ)中磁盤陣列崩潰的原因有可能是由于磁盤讀寫(xiě)不穩(wěn)定。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障存儲(chǔ)中所有磁盤編號(hào)后取出,由硬件工程師對(duì)所有磁盤做物理故障檢測(cè),經(jīng)過(guò)檢測(cè)發(fā)現(xiàn)沒(méi)有磁盤存在物理故障和壞道。以只讀方式將所有磁盤做全盤鏡像備份,備份完成后將所有磁盤按照編號(hào)還原到原存儲(chǔ)中。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
北亞企安數(shù)據(jù)恢復(fù)——ZFS文件系統(tǒng)數(shù)據(jù)恢復(fù)
2、基于鏡像文件分析原RAID5磁盤陣列結(jié)構(gòu),經(jīng)過(guò)分析發(fā)現(xiàn)2塊熱備盤上沒(méi)有數(shù)據(jù),其中一塊熱備盤已成功激活并替換了其中的一塊離線磁盤,但數(shù)據(jù)并未同步。繼續(xù)分析條帶大小、數(shù)據(jù)的分布規(guī)律、磁盤順序等raid相關(guān)信息,發(fā)現(xiàn)有一塊盤在同一條帶上的數(shù)據(jù)與raid中其他硬盤不同,初步判斷該盤為掉線較早的硬盤。使用北亞企安自主開(kāi)發(fā)的raid校驗(yàn)程序?qū)Υ藯l帶進(jìn)行校驗(yàn),確認(rèn)這塊盤為先掉線的盤。通過(guò)分析獲取到的raid相關(guān)信息虛擬重構(gòu)原raid5磁盤陣列。
3、對(duì)磁盤陣列中的LUN信息進(jìn)行分析后解釋map數(shù)據(jù)并導(dǎo)出。使用北亞企安自主開(kāi)發(fā)程序解釋zfs文件系統(tǒng),某些文件系統(tǒng)中的文件在解析過(guò)程中報(bào)錯(cuò)。北亞企安數(shù)據(jù)恢復(fù)工程師手動(dòng)debug程序做后發(fā)現(xiàn)報(bào)錯(cuò)的原因是ZFS文件系統(tǒng)在進(jìn)行I/O操作時(shí)raid陣列崩潰導(dǎo)致某些元文件損壞,程序無(wú)法正常解釋。只有修復(fù)好損壞的文件系統(tǒng)元文件后,才能使用程序解析ZFS文件系統(tǒng)。
4、使用程序解析修復(fù)好的ZFS文件系統(tǒng),解析所有文件節(jié)點(diǎn)及目錄結(jié)構(gòu)。經(jīng)過(guò)用戶方工程師的反復(fù)驗(yàn)證,確認(rèn)恢復(fù)出來(lái)的數(shù)據(jù)完整可用。
部分文件目錄和驗(yàn)證截圖:
北亞企安數(shù)據(jù)恢復(fù)——ZFS文件系統(tǒng)數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)——ZFS文件系統(tǒng)數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)——ZFS文件系統(tǒng)數(shù)據(jù)恢復(fù)
審核編輯:湯梓紅
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4314瀏覽量
85854 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
573瀏覽量
17460 -
RAID5
+關(guān)注
關(guān)注
0文章
120瀏覽量
12727
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論