服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障:
一臺某品牌X3650M3服務(wù)器,服務(wù)器中有一組raid5磁盤陣列,上層采用zfs文件系統(tǒng)。
服務(wù)器未知原因崩潰,工作人員排查故障后發(fā)現(xiàn)服務(wù)器的raid5陣列中有兩塊硬盤離線導(dǎo)致該陣列不可用,服務(wù)器內(nèi)的數(shù)據(jù)丟失。
數(shù)據(jù)恢復(fù)工程師在現(xiàn)場對故障服務(wù)器raid5陣列中的磁盤進行硬件故障檢測,經(jīng)過檢測發(fā)現(xiàn)該raid5陣列中離線的兩塊硬盤均無硬件問題。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器raid5陣列中所有磁盤編號后取出,以只讀方式進行扇區(qū)級的全盤鏡像,鏡像完成后按照編號將所有磁盤還原到原服務(wù)器中,隨后數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作均在鏡像文件進行,確保原始數(shù)據(jù)不被修改和破壞。
2、基于鏡像文件對所有磁盤鏡像文件進行分析,發(fā)現(xiàn)該raid5陣列中有兩塊熱備盤,2塊硬盤離線時只有一塊熱備盤成功激活,此時raid5陣列處于缺盤狀態(tài),數(shù)據(jù)并未同步。數(shù)據(jù)恢復(fù)工程師通過分析獲取到原raid5陣列中的硬盤分布規(guī)律、raid條帶、盤序等raid信息。
3、根據(jù)分析獲取到的RAID信息分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,數(shù)據(jù)恢復(fù)工程師初步判斷此硬盤是最先掉線的。使用北亞企安自主開發(fā)的RAID校驗程序?qū)@個條帶進行校驗,發(fā)現(xiàn)除掉剛才分析的那塊硬盤后所得出的數(shù)據(jù)是最好的,因此可以確定最先掉線的那塊硬盤。
4、根據(jù)獲取到的raid信息重組raid5陣列,在重組出的raid5陣列中分析lun的分配情況和數(shù)據(jù)塊情況。使用北亞企安自主開發(fā)的軟件導(dǎo)出lun并解析文件系統(tǒng)時提示報錯,重新調(diào)試軟件后報錯情況依舊,可以排除由于軟件問題所導(dǎo)致的文件系統(tǒng)解析報錯。手動檢查導(dǎo)出的文件后發(fā)現(xiàn)導(dǎo)致解析報錯的原因是文件系統(tǒng)元文件損壞。經(jīng)過檢測發(fā)現(xiàn)元文件損壞原因是服務(wù)器癱瘓時zfs文件系統(tǒng)正在進行IO操作。由于軟件無法解析文件系統(tǒng),于是數(shù)據(jù)恢復(fù)工程師手動修復(fù)zfs文件系統(tǒng)中損壞的元文件后再使用軟件進行解析。
5、將手動修復(fù)好的文件系統(tǒng)再次使用軟件進行解析,這次成功解析所有文件節(jié)點和文件目錄結(jié)構(gòu),然后將數(shù)據(jù)導(dǎo)出。
6、驗證恢復(fù)出來的數(shù)據(jù)沒有發(fā)現(xiàn)問題。交由用戶方對恢復(fù)出來的數(shù)據(jù)進行檢查,經(jīng)過仔細檢查,用戶方確認恢復(fù)出來的數(shù)據(jù)完整可用。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9160瀏覽量
85426 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
573瀏覽量
17457 -
磁盤
+關(guān)注
關(guān)注
1文章
379瀏覽量
25209 -
RAID5
+關(guān)注
關(guān)注
0文章
120瀏覽量
12727
發(fā)布評論請先 登錄
相關(guān)推薦
評論