服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障:
5臺(tái)節(jié)點(diǎn)服務(wù)器,每臺(tái)節(jié)點(diǎn)服務(wù)器上有一組RAID5陣列。每組RAID5陣列上有6塊硬盤(其中1塊硬盤設(shè)置為熱備盤,其他5塊硬盤為數(shù)據(jù)盤)。上層系統(tǒng)環(huán)境為L(zhǎng)ustre分布式文件系統(tǒng)。
機(jī)房天花板漏水導(dǎo)致這5臺(tái)節(jié)點(diǎn)服務(wù)器進(jìn)水,每臺(tái)服務(wù)器都有至少2塊硬盤出現(xiàn)故障。每臺(tái)服務(wù)器中的RAID5陣列短時(shí)間內(nèi)同時(shí)掉線2塊或以上數(shù)量的硬盤,導(dǎo)致RAID崩潰,服務(wù)器中數(shù)據(jù)無(wú)法正常讀取。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將所有服務(wù)器中的硬盤做好標(biāo)記后取出,硬件工程師對(duì)所有硬盤進(jìn)行硬件故障檢測(cè)。通過(guò)更換磁頭、修復(fù)固件等方式,對(duì)存在故障且無(wú)法讀取的硬盤進(jìn)行修復(fù)。修復(fù)完成后以只讀方式鏡像故障硬盤。沒(méi)有出現(xiàn)故障的硬盤也以只讀方式進(jìn)行全盤鏡像。所有硬盤鏡像完成后,按照原樣將所有硬盤還原到服務(wù)器中。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析所有磁盤底層數(shù)據(jù),獲取RAID校驗(yàn)形式、條帶大小、盤序等重組RAID的相關(guān)信息,利用這些RAID信息虛擬重組所有RAID。
3、解析Lustre分布式文件系統(tǒng)。
Lustre分布式系統(tǒng)由元數(shù)據(jù)卷(MDS)和數(shù)據(jù)卷(OST)組成,重組RAID后就可以得到MDS分區(qū)和OST分區(qū)。Lustre文件系統(tǒng)中所有文件的文件名、文件路徑等屬性信息存放在MDS分區(qū);文件對(duì)應(yīng)的數(shù)據(jù)內(nèi)容全部存放在OST分區(qū)。
MDS分區(qū)是一個(gè)EXT3文件系統(tǒng),除了節(jié)點(diǎn)類型為文件的解析方式不同之外,其余所有解析方式和Ext3一樣。
從MDS分區(qū)中獲取到整個(gè)Lustre中所有文件的目錄結(jié)構(gòu),文件名稱,文件編號(hào),所屬OST號(hào)等屬性信息。
北亞企安數(shù)據(jù)恢復(fù)—Lustre數(shù)據(jù)恢復(fù)
4、根據(jù)從MDS分區(qū)中獲取到的目錄結(jié)構(gòu)、文件名稱、文件編號(hào)、所屬OST號(hào)等屬性信息,北亞企安數(shù)據(jù)恢復(fù)工程師整理重構(gòu)出文件的原始路徑,并定位到索引的OST卷及相關(guān)數(shù)據(jù)區(qū)域,獲取相關(guān)數(shù)據(jù)文件。直至恢復(fù)出所有數(shù)據(jù)。
5、隨機(jī)抽取部分文件校驗(yàn),所有抽檢的文件正確無(wú)誤。對(duì)恢復(fù)數(shù)據(jù)的數(shù)據(jù)量進(jìn)行校驗(yàn)也沒(méi)有發(fā)現(xiàn)問(wèn)題。用戶方確認(rèn)數(shù)據(jù)完整恢復(fù),目錄結(jié)構(gòu)完好。北亞數(shù)據(jù)恢復(fù)工程師協(xié)助用戶方工程師將恢復(fù)出來(lái)的數(shù)據(jù)遷移到用戶方準(zhǔn)備好的設(shè)備環(huán)境中。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9247瀏覽量
85730 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
583瀏覽量
17545
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論