服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境:
華為S5300存儲(chǔ)中有12塊FC硬盤,其中11塊硬盤作為數(shù)據(jù)盤組建了一組RAID5陣列,剩下的1塊硬盤作為熱備盤使用。基于RAID的LUN分配給linux操作系統(tǒng)使用,存放的數(shù)據(jù)主要是Oracle數(shù)據(jù)庫。
服務(wù)器存儲(chǔ)故障:
RAID5陣列中1塊硬盤出現(xiàn)故障離線,熱備盤自動(dòng)激活開始同步數(shù)據(jù),在同步數(shù)據(jù)的過程中又一塊硬盤離線,RAID5陣列癱瘓,上層LUN無法使用。
服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)過程:
1、將故障存儲(chǔ)中所有磁盤做好標(biāo)記后取出。硬件工程師對(duì)所有磁盤做物理故障檢測(cè),沒有發(fā)現(xiàn)有硬盤存在硬件故障,都可以正常讀取。將所有磁盤以只讀方式進(jìn)行扇區(qū)級(jí)全盤鏡像,在鏡像過程中沒有發(fā)現(xiàn)有磁盤存在大量壞道。鏡像完成后將所有磁盤按照原樣還原到原存儲(chǔ)中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。由于沒有檢測(cè)到有磁盤存在物理故障或者大量壞道,基本上可以判斷某些硬盤離線的原因就是磁盤讀寫不穩(wěn)定。故障存儲(chǔ)raid控制器通常會(huì)將性能不穩(wěn)定的磁盤識(shí)別為壞盤,并踢出RAID。一旦RAID中掉線的磁盤數(shù)據(jù)超過該RAID級(jí)別所允許掉盤的最大數(shù)量,該RAID將不可用,基于RAID的LUN也不可用。
2、基于鏡像文件分析所有硬盤底層數(shù)據(jù)。分析底層RAID相關(guān)信息,根據(jù)分析獲取到的raid信息重組RAID。RAID重建完成后,分析Oracle數(shù)據(jù)庫頁在每個(gè)磁盤中分布的情況。
3、由于RAID中有兩塊盤掉線且有一塊硬盤數(shù)據(jù)被同步破壞。分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個(gè)條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,初步判斷此硬盤可能是被同步破壞的硬盤。通過北亞企安自主開發(fā)的RAID校驗(yàn)程序?qū)@個(gè)條帶做校驗(yàn),確認(rèn)該盤就是被同步損壞的盤。
4、分析LUN在RAID中的分配情況以及LUN分配的數(shù)據(jù)塊MAP。將LUN的數(shù)據(jù)塊MAP提取出來,北亞企安數(shù)據(jù)恢復(fù)工程師編寫相應(yīng)程序解析LUN的數(shù)據(jù)塊MAP,然后根據(jù)數(shù)據(jù)塊MAP導(dǎo)出LUN的數(shù)據(jù)。
5、由于是使用熱備盤重組RAID,EXT3文件系統(tǒng)無法正常掛載,所以只能先提取oracle數(shù)據(jù)庫文件,利用北亞企安自主開發(fā)的文件系統(tǒng)解析程序?qū)ζ溥M(jìn)行文件系統(tǒng)解析,導(dǎo)出oracle數(shù)據(jù)庫文件。
6、使用Oracle數(shù)據(jù)庫文件檢測(cè)工具檢測(cè)每個(gè)數(shù)據(jù)庫文件的完整性,經(jīng)過檢測(cè)發(fā)現(xiàn)有錯(cuò)誤。使用北亞企安自主研發(fā)的Oracle數(shù)據(jù)庫檢測(cè)工具檢測(cè)。經(jīng)過檢測(cè)發(fā)現(xiàn)部分?jǐn)?shù)據(jù)庫文件和日志文件錯(cuò)誤:system和sysaux表空間存在上百個(gè)壞塊,3個(gè)控制文件存在大量壞塊,eschoolspace表空間的3個(gè)文件中的壞塊多達(dá)上千個(gè),undotbs02.dbf丟失。北亞企安數(shù)據(jù)庫工程師對(duì)這些損壞的文件進(jìn)行修復(fù)。
北亞企安數(shù)據(jù)恢復(fù)—RAID5數(shù)據(jù)恢復(fù) 北亞企安數(shù)據(jù)恢復(fù)—RAID5數(shù)據(jù)恢復(fù)
7、創(chuàng)建控制文件和undo表空間,啟動(dòng)數(shù)據(jù)庫到mount。system數(shù)據(jù)文件壞塊導(dǎo)致數(shù)據(jù)庫無法打開,各種隱含參數(shù)也不能繞過system的壞塊。搭建數(shù)據(jù)庫環(huán)境,使用dmp文件還原數(shù)據(jù)庫,但是某個(gè)日期之后的數(shù)據(jù)導(dǎo)入報(bào)錯(cuò),只能導(dǎo)入這個(gè)日期之前的數(shù)據(jù)。
北亞企安數(shù)據(jù)恢復(fù)—RAID5數(shù)據(jù)恢復(fù)
由于故障發(fā)生后又對(duì)RAID進(jìn)行了重建,導(dǎo)致一塊盤的數(shù)據(jù)被同步破壞。在第二塊盤離線之前,熱備盤已經(jīng)同步了一段時(shí)間,已經(jīng)寫入了部分?jǐn)?shù)據(jù),所以使用熱備盤中的數(shù)據(jù)只能恢復(fù)某個(gè)日期之前的數(shù)據(jù)。
8、在用戶方的配合下啟動(dòng)Oracle數(shù)據(jù)庫。在本地虛擬機(jī)安裝OA客戶端,通過OA客戶端對(duì)數(shù)據(jù)記錄進(jìn)行驗(yàn)證,并且安排不同部門人員進(jìn)行遠(yuǎn)程驗(yàn)證。
9、經(jīng)過用戶方驗(yàn)證,確認(rèn)恢復(fù)出來的數(shù)據(jù)有效,認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。沒有恢復(fù)出來的數(shù)據(jù)量比較少,可以通過其他方式人工補(bǔ)回來。
審核編輯 黃宇
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4314瀏覽量
85850 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
573瀏覽量
17457 -
RAID5
+關(guān)注
關(guān)注
0文章
120瀏覽量
12727
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論