服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
一臺(tái)Linux Redhat操作系統(tǒng)服務(wù)器上有一組由5塊硬盤(pán)組建的raid5陣列,包含一塊熱備盤(pán)。上層部署一個(gè)OA系統(tǒng)和Oracle數(shù)據(jù)庫(kù)。
服務(wù)器故障:
raid5陣列中的1塊磁盤(pán)離線,硬盤(pán)離線卻沒(méi)有激活熱備盤(pán),直到另外一塊磁盤(pán)離線導(dǎo)致陣列崩潰。
用戶要求恢復(fù)raid5的數(shù)據(jù)和盡可能還原操作系統(tǒng)。經(jīng)過(guò)北亞企安數(shù)據(jù)恢復(fù)工程師初步檢測(cè),故障服務(wù)器中所有硬盤(pán)均沒(méi)有發(fā)現(xiàn)明顯物理故障,也沒(méi)有發(fā)現(xiàn)有明顯的同步跡象。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障服務(wù)器關(guān)機(jī)后,把服務(wù)器中的磁盤(pán)編號(hào)后取出槽位,經(jīng)過(guò)硬件工程師檢測(cè),沒(méi)有發(fā)現(xiàn)有硬盤(pán)存在物理故障。以只讀方式將所有磁盤(pán)進(jìn)行完整鏡像備份。備份完成后根據(jù)編號(hào)將磁盤(pán)還原至原服務(wù)器中,后期的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作基于鏡像進(jìn)行,避免對(duì)原始磁盤(pán)數(shù)據(jù)造成二次破壞。
2、基于鏡像文件進(jìn)行分析,北亞企安數(shù)據(jù)恢復(fù)工程師在后掉線的那塊硬盤(pán)紅發(fā)現(xiàn)了十幾個(gè)壞扇區(qū),其他硬盤(pán)發(fā)現(xiàn)都沒(méi)有壞道。繼續(xù)分析raid5結(jié)構(gòu)相關(guān)信息。
北亞企安數(shù)據(jù)恢復(fù)——RAID5數(shù)據(jù)恢復(fù)
3、使用分析獲取到的raid結(jié)構(gòu)相關(guān)信息嘗試重組raid5陣列。經(jīng)過(guò)驗(yàn)證確定分析出來(lái)的raid結(jié)構(gòu)是正確的。按照這個(gè)結(jié)構(gòu)在一塊單盤(pán)上生成虛擬raid并嘗試打開(kāi),沒(méi)有明顯報(bào)錯(cuò)。
4、和用戶方溝通后,用戶方要求我們對(duì)原盤(pán)重建raid(有壞道的那塊盤(pán)已經(jīng)替換)。把步驟2中恢復(fù)好的單盤(pán)用USB接到故障服務(wù)器上,再用linux SystemRescueCd啟動(dòng),通過(guò)dd命令進(jìn)行全盤(pán)回寫(xiě),回寫(xiě)完成后啟動(dòng)操作系統(tǒng)。
5、操作系統(tǒng)啟動(dòng)過(guò)程中報(bào)錯(cuò):/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied,北亞企安數(shù)據(jù)恢復(fù)工程師推測(cè)報(bào)錯(cuò)原因是文件權(quán)限有問(wèn)題。用SystemRescueCd進(jìn)行重啟后進(jìn)行檢查,發(fā)現(xiàn)文件的權(quán)限、大小、時(shí)間都有明顯的錯(cuò)誤,節(jié)點(diǎn)損壞。
6、找到報(bào)錯(cuò)原因后對(duì)重組數(shù)據(jù)中的根分區(qū)進(jìn)行重新分析,定位出錯(cuò)的/sbin/pidof,發(fā)現(xiàn)發(fā)生故障的原因還是由于那塊后掉線硬盤(pán)的壞道。我們只好使用raid陣列中完好的磁盤(pán)對(duì)那塊有壞道的磁盤(pán)的損壞區(qū)域進(jìn)行xor補(bǔ)齊。
7、補(bǔ)齊之后對(duì)文件系統(tǒng)進(jìn)行檢驗(yàn)依然報(bào)錯(cuò)。再一次檢查iNode表發(fā)現(xiàn)那塊有壞道磁盤(pán)的損壞區(qū)域有部分節(jié)點(diǎn)表現(xiàn)為下圖中55 55 55部分。
北亞企安數(shù)據(jù)恢復(fù)——RAID5數(shù)據(jù)恢復(fù)
通過(guò)上圖可以看到,雖然節(jié)點(diǎn)中描述的uid看起來(lái)是正常的,但是大小、屬性、最初的分配塊都是錯(cuò)誤的。北亞企安數(shù)據(jù)恢復(fù)工程師團(tuán)隊(duì)對(duì)所有可以想到的數(shù)據(jù)恢復(fù)方案進(jìn)行分析后,沒(méi)有找到好的辦法將這個(gè)損壞的節(jié)點(diǎn)找回來(lái),只能?chē)L試修復(fù)或者以相同文件進(jìn)行代替。
8、通過(guò)日志把一切可能有錯(cuò)的文件原節(jié)點(diǎn)塊的節(jié)點(diǎn)信息確定出來(lái),然后再進(jìn)行修正。修正之后重新dd了根分區(qū),但是執(zhí)行fsck -fn /dev/sda5仍然報(bào)錯(cuò)。
北亞企安數(shù)據(jù)恢復(fù)——RAID5數(shù)據(jù)恢復(fù)
9、根據(jù)報(bào)錯(cuò)提示繼續(xù)查看分析,發(fā)現(xiàn)系統(tǒng)中有多個(gè)節(jié)點(diǎn)共用同樣的數(shù)據(jù)塊,應(yīng)該是磁盤(pán)早掉線而導(dǎo)致出現(xiàn)了節(jié)點(diǎn)信息新舊交集的情況。將錯(cuò)誤節(jié)點(diǎn)清除后再次執(zhí)行fsck -fn /dev/sda5依然報(bào)錯(cuò)。但是這些節(jié)點(diǎn)大多是在doc目錄下,并不影響系統(tǒng)啟動(dòng),于是強(qiáng)行修復(fù)并重啟系統(tǒng),進(jìn)入系統(tǒng)后啟動(dòng)數(shù)據(jù)庫(kù)和應(yīng)用軟件,沒(méi)有
出現(xiàn)報(bào)錯(cuò),一切正常。
10、由用戶方工程師對(duì)恢復(fù)數(shù)據(jù)進(jìn)行檢測(cè),經(jīng)過(guò)用戶方檢測(cè),確認(rèn)恢復(fù)數(shù)據(jù)有效,認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9160瀏覽量
85427 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
573瀏覽量
17458 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3799瀏覽量
64395 -
RAID5
+關(guān)注
關(guān)注
0文章
120瀏覽量
12727
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論