服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障:
一臺(tái)ibm x3850服務(wù)器,有一組由5塊硬盤組建的raid5磁盤陣列,上層是Redhat Linux操作系統(tǒng),部署了一個(gè)oracle數(shù)據(jù)庫。
raid5陣列中2塊硬盤離線,陣列崩潰。經(jīng)過檢測(cè)發(fā)現(xiàn)該raid中的熱備盤未激活,硬盤無物理故障,無明顯同步表現(xiàn)。
服務(wù)器數(shù)據(jù)恢復(fù)方案:
1、關(guān)閉服務(wù)器,將所有磁盤標(biāo)記后取出槽位。由硬件工程師檢測(cè)是否有硬盤存在硬件故障,對(duì)存在硬件故障的硬盤進(jìn)行處理。將所有磁盤以只讀方式進(jìn)行扇區(qū)級(jí)全盤鏡像,鏡像完成后將所有磁盤按照標(biāo)記還原到原服務(wù)器中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析故障raid結(jié)構(gòu),得到原陣列中的盤序、條帶大小、校驗(yàn)方向、條帶規(guī)則以及meta區(qū)域等重組raid所必需的信息。
3、根據(jù)分析獲取到的raid信息重組raid5陣列,并進(jìn)行文件系統(tǒng)解釋,對(duì)重組raid的結(jié)構(gòu)做正確性檢測(cè),確認(rèn)數(shù)據(jù)無誤后回遷數(shù)據(jù)。
服務(wù)器數(shù)據(jù)恢復(fù)方案實(shí)施過程:
1、硬件工程師檢測(cè)后發(fā)現(xiàn)所有硬盤均不存在硬件故障,讀寫正常。在對(duì)所有硬盤做鏡像過程中,發(fā)現(xiàn)只有一塊硬盤有10-20個(gè)壞扇區(qū),其他硬盤均正常。
2、基于鏡像文件分析原raid結(jié)構(gòu)。
北亞企安數(shù)據(jù)恢復(fù)—raid5數(shù)據(jù)恢復(fù)
3、根據(jù)分析獲取到的raid結(jié)構(gòu)相關(guān)信息重組raid。重組raid后驗(yàn)證數(shù)據(jù),發(fā)現(xiàn)200M以上的壓縮包解壓無報(bào)錯(cuò)。按照這一結(jié)構(gòu)將raid生成到一塊硬盤上,通過USB將該硬盤接到原服務(wù)器,通過linux SystemRescueCd啟動(dòng)故障服務(wù)器后使用dd命令進(jìn)行全盤回寫。
4、數(shù)據(jù)回寫完成后無法進(jìn)入操作系統(tǒng),報(bào)錯(cuò)信息為:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied。工程師使用SystemRescueCd重啟后檢查發(fā)現(xiàn)文件的權(quán)限、時(shí)間、大小都有明顯錯(cuò)誤,對(duì)根分區(qū)再次分析,定位出錯(cuò)的/sbin/pidof/,發(fā)現(xiàn)報(bào)錯(cuò)原因是其中一塊硬盤存在壞道。
5、通過其他盤針對(duì)存在壞道硬盤的損壞區(qū)域進(jìn)行xor補(bǔ)齊并重新校驗(yàn)文件系統(tǒng),依然有錯(cuò)誤。工程師再次檢查inode表,發(fā)現(xiàn)存在壞道硬盤的損壞區(qū)域有部分節(jié)點(diǎn)表現(xiàn)為下圖中的55 55 55部分。
北亞企安數(shù)據(jù)恢復(fù)—raid5數(shù)據(jù)恢復(fù)
雖然節(jié)點(diǎn)中描述的uid正常存在,但大小、屬性、最初的分配塊全部是錯(cuò)誤的。
6、通過日志確定原節(jié)點(diǎn)塊的節(jié)點(diǎn)信息后進(jìn)行修正,重新dd根分區(qū),執(zhí)行fsck -fn /dev/sda5/檢測(cè),報(bào)錯(cuò)情況如下圖。
北亞企安數(shù)據(jù)恢復(fù)—raid5數(shù)據(jù)恢復(fù)
7、經(jīng)過分析發(fā)現(xiàn),節(jié)點(diǎn)信息新舊交集導(dǎo)致有多個(gè)節(jié)點(diǎn)共用數(shù)據(jù)塊。北亞企安數(shù)據(jù)恢復(fù)工程師按節(jié)點(diǎn)所屬的文件進(jìn)行區(qū)別,清除錯(cuò)誤節(jié)點(diǎn)后,再次執(zhí)行fsck -fn /dev/sda5,依然有部分位于doc目錄下的節(jié)點(diǎn)報(bào)錯(cuò)。由于不影響啟動(dòng)所以強(qiáng)行修復(fù)后重啟系統(tǒng),系統(tǒng)正常,啟動(dòng)數(shù)據(jù)庫正常。
8、經(jīng)過用戶方仔細(xì)檢測(cè),確認(rèn)恢復(fù)數(shù)據(jù)完整可用,認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。
審核編輯 黃宇
-
硬盤
+關(guān)注
關(guān)注
3文章
1310瀏覽量
57321 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9165瀏覽量
85437 -
RAID
+關(guān)注
關(guān)注
0文章
278瀏覽量
35099 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
573瀏覽量
17460
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論