服務(wù)器存儲數(shù)據(jù)恢復(fù)環(huán)境:
某品牌MSA2000服務(wù)器存儲中有一組由8塊SAS硬盤組建的raid5磁盤陣列,其中包含一塊熱備盤。分配了6個LUN,均分配給HP-Unix小機使用。磁盤分區(qū)由LVM進行管理,存放的數(shù)據(jù)主要為Oracle數(shù)據(jù)庫及OA服務(wù)端。
服務(wù)器存儲故障:
服務(wù)器存儲raid5陣列中有兩塊硬盤先后離線,服務(wù)器癱瘓,無法正常訪問lun。
服務(wù)器存儲數(shù)據(jù)恢復(fù)過程:
1、將所有磁盤編號標記后取出故障服務(wù)器存儲,硬件工程師分別對服務(wù)器中所有磁盤進行物理故障檢測和壞道檢測,均無異常。
將所有磁盤以只讀方式鏡像成文件,鏡像完成后將所有磁盤按照編號還原到故障存儲中。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
備份完成的部分數(shù)據(jù):
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
2、MSA2000存儲中一旦某些磁盤讀寫性能不穩(wěn)定,該存儲中的raid控制器會將這些磁盤識別為壞盤并踢出RAID。一旦RAID中掉線的盤數(shù)到達到采用的RAID級別所允許掉盤的極限,RAID不可用,服務(wù)器癱瘓。
3、存儲中的LUN都是基于RAID的,要想恢復(fù)數(shù)據(jù)就需要先將原始RAID重組出來。分析Oracle數(shù)據(jù)庫頁在每個磁盤中分布的情況,并根據(jù)數(shù)據(jù)分布的情況獲取RAID條帶大小,盤序、數(shù)據(jù)走向等重組RAID所需要的信息。
4、根據(jù)分析出來的RAID信息重組原始RAID。重組完成后分析LUN在RAID中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP。由于有6個LUN,因此只需要將每一個LUN的數(shù)據(jù)塊分布MAP提取出來。北亞企安數(shù)據(jù)恢復(fù)工程師根據(jù)這些信息編寫相應(yīng)的程序,解析所有LUN的數(shù)據(jù)MAP,然后根據(jù)數(shù)據(jù)MAP導(dǎo)出所有LUN的數(shù)據(jù)。
導(dǎo)出的部分數(shù)據(jù):
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
5、分析所有LUN,發(fā)現(xiàn)所有LUN中均包含LVM邏輯卷信息。嘗試解析每個LUN中的LVM信息,發(fā)現(xiàn)其中一共有三套LVM:第一個LVM中劃分了一個LV,存放OA服務(wù)器端的數(shù)據(jù);第二個LVM中劃分了一個LV,存放臨時備份數(shù)據(jù);剩下的4個LUN組成一個LVM,劃分了一個LV,存放Oracle數(shù)據(jù)庫文件。北亞企安數(shù)據(jù)恢復(fù)工程師編寫LVM解釋程序,嘗試解釋每套LVM中的LV卷,但是在解釋過程中出錯。
6、開發(fā)工程師debug程序出錯的位置,分析程序報錯原因,由文件系統(tǒng)工程師對恢復(fù)出來的LUN做檢測,檢測LVM信息是否會因為存儲癱瘓而導(dǎo)致LMV邏輯卷的信息損壞。經(jīng)過檢測發(fā)現(xiàn)LVM信息確實被破壞。北亞企安數(shù)據(jù)恢復(fù)工程師嘗試人工修復(fù)損壞的區(qū)域,并同步修改程序重新解析LVM邏輯卷。
7、搭建HP-Unix環(huán)境,將解釋出來的LV卷映射到HP-Unix。嘗試Mount文件系統(tǒng),結(jié)果Mount文件系統(tǒng)出錯。嘗試使用“fsck –F vxfs” 命令修復(fù)vxfs文件系統(tǒng),修復(fù)完成還是不能掛載。懷疑vxfs文件系統(tǒng)元數(shù)據(jù)被破壞。
8、仔細分析解析出來的LV,根據(jù)VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗此文件系統(tǒng)的完整性。分析發(fā)現(xiàn)VXFS文件系統(tǒng)確實存在問題,存儲癱瘓的同時此文件系統(tǒng)正在執(zhí)行IO操作,因此部分文件系統(tǒng)元文件損壞。人工修復(fù)這些損壞的元文件,直到能夠正常解析VXFS文件系統(tǒng)。再次將修復(fù)好的LV卷掛載到HP-Unix小機上,嘗試Mount文件系統(tǒng),這回文件系統(tǒng)沒有報錯,成功掛載。
9、在HP-Unix機器上mount文件系統(tǒng)后,將所有用戶數(shù)據(jù)備份至指定空間。
部分文件目錄:
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
10、使用Oracle數(shù)據(jù)庫文件檢測工具“dbv”檢測每個數(shù)據(jù)庫文件是否完整,沒有發(fā)現(xiàn)錯誤。使用北亞企安自主研發(fā)的Oracle數(shù)據(jù)庫檢測工具進行檢測,發(fā)現(xiàn)有部分數(shù)據(jù)庫文件和日志文件校驗不一致。由數(shù)據(jù)庫工程師修復(fù)此類文件并校驗,直到所有文件均通過校驗。
11、將恢復(fù)出來的Oracle數(shù)據(jù)庫附加到原始生產(chǎn)環(huán)境的HP-Unix服務(wù)器中,嘗試啟動Oracle數(shù)據(jù)庫,Oracle數(shù)據(jù)庫啟動成功。
北亞企安數(shù)據(jù)恢復(fù)——raid5數(shù)據(jù)恢復(fù)
12、啟動Oracle數(shù)據(jù)庫和OA服務(wù)端,通過OA客戶端對最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄進行驗證,并且安排不同部門人員進行遠程驗證。經(jīng)過仔細驗證,確認數(shù)據(jù)完整有效。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9540瀏覽量
86800 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
606瀏覽量
17895 -
RAID5
+關(guān)注
關(guān)注
0文章
126瀏覽量
12908
發(fā)布評論請先 登錄
相關(guān)推薦
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列中硬盤壞道導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—Raid5陣列熱備盤上線失敗的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列崩潰導(dǎo)致上層lun無法正常使用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—雙循環(huán)RAID5陣列崩潰,數(shù)據(jù)如何恢復(fù)?
服務(wù)器數(shù)據(jù)恢復(fù)—不當(dāng)操作導(dǎo)致raid5陣列數(shù)據(jù)無法恢復(fù)的案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤未全部成功啟用的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列熱備盤未完全激活導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—EMC存儲中raid5陣列多塊硬盤離線的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列硬盤壞道導(dǎo)致raid崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—磁盤離線但熱備盤未完全啟用導(dǎo)致raid5陣列崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—同友存儲raid5陣列崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—raid5陣列磁盤離線后強制上線導(dǎo)致數(shù)據(jù)丟失的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—X3650服務(wù)器raid5磁盤陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—RAID5多塊磁盤掉線導(dǎo)致崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)—StorNext文件系統(tǒng)下raid5數(shù)據(jù)恢復(fù)案例

評論