服務器數(shù)據(jù)恢復環(huán)境:
DELL POWEREDGE某型號服務器中有一組由6塊SCSI硬盤組建的RAID5陣列,LINUX REDHAT操作系統(tǒng),EXT3文件系統(tǒng),存放圖片文件。
服務器故障&分析:
服務器raid5陣列中有一塊硬盤離線,管理員沒有及時發(fā)現(xiàn),直到服務器raid5陣列中的另一塊硬盤掉線,raid5陣列癱瘓,服務器無法正常工作。管理員聯(lián)系DELL售后,DELL工程師建議將其中一塊離線硬盤強制上線并強調(diào)了該操作的風險性。和領導的商量后,管理員將其中的一塊離線盤強制上線。上線過程中發(fā)現(xiàn)服務器操作系統(tǒng)啟動異常,管理員于是馬上關閉服務器。
此類故障非常普遍。RAID5陣列僅支持一塊硬盤掉線的冗余保護,如果有兩塊硬盤離線,RAID5陣列便會崩潰。為了保護數(shù)據(jù),RAID控制器廠商的設計思路為:只要有硬盤下線,RAID控制器是不會自動讓離線硬盤上線的。由于RAID控制器的高敏感度,通常掉線的硬盤大概率不會存在嚴重的物理故障,甚至很多離線硬盤是完好的(掉線原因可能是信號受阻、電源波動或控制器BUG等)。正如DELL工程師強調(diào)的,強制上線有較大的風險性,如果強制上線出現(xiàn)問題,RAID控制器會自動做出某些不可逆操作。這個時候進入操作系統(tǒng),文件系統(tǒng)的不一致會造成系統(tǒng)進行自我修復,然后導致所有的硬盤數(shù)據(jù)不一致。
服務器數(shù)據(jù)恢復過程:
1、將故障服務器中所有磁盤編號后取出,以只讀方式做扇區(qū)級別的鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復操作都基于鏡像文件進行,備份后將所有磁盤按照編號還原到原服務器中。在備份過程中發(fā)現(xiàn)多塊硬盤存在壞道,只是RAID控制器沒有檢測到,暫時沒有下線。
2、基于鏡像文件分析原RAID5陣列的結構,根據(jù)分析出來的RAID結構相關信息構建虛擬RAID。
3、驗證RAID結構的正確性,北亞企安數(shù)據(jù)恢復工程師修復部分被破壞的結構后將數(shù)據(jù)導出到另一存儲中。
4、在原服務器上搭建新的RAID并將數(shù)據(jù)遷移至新RAID中。
5、用戶通過抽樣檢測,絕大部分圖片文件可以正常打開,只有有極少數(shù)文件有問題,用戶認可數(shù)據(jù)恢復結果。
審核編輯 黃宇
-
服務器
+關注
關注
12文章
9160瀏覽量
85425 -
數(shù)據(jù)恢復
+關注
關注
10文章
573瀏覽量
17457 -
磁盤
+關注
關注
1文章
379瀏覽量
25209 -
RAID5
+關注
關注
0文章
120瀏覽量
12727
發(fā)布評論請先 登錄
相關推薦
評論