服務器數(shù)據(jù)恢復環(huán)境:
某公司一臺服務器中組建一組raid5磁盤陣列;
上層操作系統(tǒng)為linux redhat,部署OA系統(tǒng),后端數(shù)據(jù)庫為oracle。
服務器故障&初檢:
raid5中有2塊磁盤先后掉線,服務器崩潰。oracle已經(jīng)不對該OA系統(tǒng)提供后續(xù)技術(shù)支持,用戶方要求恢復數(shù)據(jù)和操作系統(tǒng)。
經(jīng)過初步檢測,發(fā)現(xiàn)熱備盤沒有啟用,硬盤無明顯的物理故障和同步表現(xiàn)。
服務器數(shù)據(jù)恢復過程:
1、將故障服務器中所有硬盤做好標記,取出后掛載至只讀環(huán)境,對所有硬盤以只讀方式做完全鏡像備份,鏡像過程中發(fā)現(xiàn)有一塊磁盤(2號盤)有少量壞扇區(qū),其他磁盤均沒有發(fā)現(xiàn)壞道。鏡像完成后將硬盤按照編號復原至原服務器,之后的數(shù)據(jù)分析和數(shù)據(jù)恢復操作都基于鏡像文件進行,避免對原始數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析RAID結(jié)構(gòu),獲取到原RAID級別,條帶規(guī)則,條帶大小,校驗方向,META區(qū)域等RAID相關(guān)信息。分析結(jié)構(gòu):得到的最佳結(jié)構(gòu)為0,1,2,3盤序,缺3號盤,塊大小512扇區(qū),backward parity(Adaptec)。
raid結(jié)構(gòu):
北亞企安數(shù)據(jù)恢復——raid5數(shù)據(jù)恢復
3、檢測虛擬重構(gòu)的RAID結(jié)構(gòu)是否正確,經(jīng)過檢測發(fā)現(xiàn)200M以上的最新壓縮包解壓無報錯,確定結(jié)構(gòu)正確。直接按此結(jié)構(gòu)生成虛擬RAID到一塊單硬盤上,打開文件系統(tǒng)無明顯報錯。
4、確定備份包安全的前提下,經(jīng)用戶方同意后,北亞企安數(shù)據(jù)恢復工程師用全新硬盤更換損壞的2號盤,然后對原盤重建RAID。將恢復好的單盤用USB方式接入故障服務器,再用linux SystemRescueCd啟動故障服務器,之后通過dd命令進行全盤回寫。
5、完成回寫后啟動操作系統(tǒng),結(jié)果發(fā)現(xiàn)無法進入系統(tǒng)并報錯,報錯信息為:“/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied”。懷疑此文件權(quán)限有問題,用SystemRescueCd重啟后檢查發(fā)現(xiàn)此文件的時間,權(quán)限,大小均有明顯錯誤,顯然是節(jié)點損壞。
6、重新分析&重組數(shù)據(jù)中的根分區(qū),定位出錯的/sbin/pidof,發(fā)現(xiàn)問題是由2號盤壞道導致的。
7、通過raid中的另外3塊盤對2號盤的損壞區(qū)域進行xor補齊。補齊后重新校驗文件系統(tǒng),依然有錯誤,再次檢查inode表,發(fā)現(xiàn)2號盤損壞區(qū)域有部分節(jié)點表現(xiàn)為下圖中的55 55 55部分。
北亞企安數(shù)據(jù)恢復——raid5數(shù)據(jù)恢復
8、很明顯,雖然節(jié)點中描述的uid還正常存在,但屬性,大小和最初的分配塊全部都是錯誤的。按照所有的可能進行分析后,確實沒有任何辦法能找回此損壞節(jié)點。只能嘗試修復此節(jié)點或復制一個相同的文件過來。
9、北亞企安數(shù)據(jù)恢復工程師對所有可能有錯誤的文件通過日志確定原節(jié)點塊的節(jié)點信息并做修正。
10、修正后重新dd根分區(qū),執(zhí)行fsck -fn /dev/sda5進行檢測,出現(xiàn)報錯:
北亞企安數(shù)據(jù)恢復——raid5數(shù)據(jù)恢復
報錯提示在系統(tǒng)中發(fā)現(xiàn)有多個節(jié)點共用同樣的數(shù)據(jù)塊。按此提示進行底層分析,發(fā)現(xiàn)因3號盤早掉線,存在節(jié)點信息的新舊交集。
11、按節(jié)點所屬的文件進行區(qū)別,清除錯誤節(jié)點后再次執(zhí)行fsck -fn /dev/sda5進行檢測,依然有極少量的報錯信息。根據(jù)報錯信息的提示,發(fā)現(xiàn)這些節(jié)點多位于doc目錄下,不影響系統(tǒng)的啟動,于是直接執(zhí)行fsck -fy /dev/sda5強行修復。
12、修復完成后重啟系統(tǒng),成功進入系統(tǒng)桌面。啟動數(shù)據(jù)庫服務,啟動OA系統(tǒng),一切正常,無報錯。
13、由用戶方工程師親自驗證,經(jīng)過反復驗證,確認恢復結(jié)果有效。至此,本次數(shù)據(jù)恢復工作完成。
審核編輯黃宇
-
Linux
+關(guān)注
關(guān)注
87文章
11327瀏覽量
209966 -
服務器
+關(guān)注
關(guān)注
12文章
9255瀏覽量
85754 -
數(shù)據(jù)恢復
+關(guān)注
關(guān)注
10文章
583瀏覽量
17550 -
RAID5
+關(guān)注
關(guān)注
0文章
122瀏覽量
12746
發(fā)布評論請先 登錄
相關(guān)推薦
評論