服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
HP-EVA存儲(chǔ)環(huán)境:EVA某型號(hào)控制器+EVA擴(kuò)展柜+FC硬盤(pán)。
服務(wù)器故障:
EVA存儲(chǔ)中兩塊磁盤(pán)掉線導(dǎo)致存儲(chǔ)中某些LUN丟失不可用。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、首先對(duì)故障存儲(chǔ)中所有磁盤(pán)做物理故障檢測(cè),經(jīng)過(guò)檢測(cè)沒(méi)有發(fā)現(xiàn)有硬盤(pán)存在物理故障。使用壞道檢測(cè)工具檢測(cè)也沒(méi)有發(fā)現(xiàn)壞道,磁盤(pán)壞道檢測(cè)日志部分截圖:
北亞企安數(shù)據(jù)恢復(fù)——EVA存儲(chǔ)數(shù)據(jù)恢復(fù)
2、將故障存儲(chǔ)中所有磁盤(pán)以只讀方式做完整鏡像備份,以防后續(xù)數(shù)據(jù)恢復(fù)過(guò)程中操作不當(dāng)對(duì)原始數(shù)據(jù)造成二次破壞。部分備份數(shù)據(jù)如下:
北亞企安數(shù)據(jù)恢復(fù)——EVA存儲(chǔ)數(shù)據(jù)恢復(fù)
3、由于所有磁盤(pán)沒(méi)有發(fā)現(xiàn)物理故障或者壞道,可以判斷硬盤(pán)掉線是因?yàn)榇疟P(pán)讀寫(xiě)不穩(wěn)定導(dǎo)致的。EVA控制器對(duì)磁盤(pán)的檢測(cè)策略非常嚴(yán)格,EVA控制器會(huì)認(rèn)為性能不穩(wěn)定的磁盤(pán)是壞盤(pán),將認(rèn)為是壞盤(pán)的磁盤(pán)踢出磁盤(pán)組。如果某個(gè)LUN的同一個(gè)條帶中掉線的磁盤(pán)到達(dá)極限,這個(gè)LUN將不可用,即如果EVA存儲(chǔ)中所有的LUN都包含這些掉線的盤(pán),所有LUN都會(huì)受影響,所以兩塊磁盤(pán)掉線也會(huì)導(dǎo)致整個(gè)存儲(chǔ)的LUN都不可用。目前的情況是現(xiàn)存8個(gè)LUN,損壞7個(gè)LUN,丟失6個(gè)LUN,需要恢復(fù)存儲(chǔ)中所有LUN的數(shù)據(jù)。
4、HP-EVA的LUN都是以RAID條目的形式來(lái)存儲(chǔ)數(shù)據(jù)的,EVA將每個(gè)磁盤(pán)的不同塊組成一個(gè)RAID條目,RAID條目的類(lèi)型可以有很多種。需要分析出組成LUN的RAID條目類(lèi)型和這個(gè)RAID條目是由哪些盤(pán)的哪些塊組成。這些信息都存放在LUN_MAP中,每個(gè)LUN都有一份LUN_MAP。EVA將LUN_MAP分別存放在不同的磁盤(pán)中,使用一個(gè)索引來(lái)指定其位置。因此去每個(gè)磁盤(pán)中找到這個(gè)指向LUN_MAP的索引就可以找到現(xiàn)存LUN的信息。
5、雖然磁盤(pán)中記錄了指向LUN_MAP的索引,但是它只記錄現(xiàn)存的LUN,丟失的LUN是不會(huì)被記錄索引的。由于EVA中刪除一個(gè)LUN只會(huì)清除這個(gè)LUN的索引,并不會(huì)清除這個(gè)LUN的LUN_MAP。所以只需要掃描所有磁盤(pán),找到所有符合LUN_MAP的數(shù)據(jù)塊,排除現(xiàn)有的LUN_MAP,剩下的LUN_MAP也不一定全是刪除的,也有一些可能是舊的。這種情況下是無(wú)法在LUN_MAP中篩選的,只能先將所有LUN_MAP的數(shù)據(jù)都恢復(fù)出來(lái),人工去核對(duì)哪些LUN是刪除的。
6、掉線磁盤(pán)中存放的是一些舊的數(shù)據(jù),在生成數(shù)據(jù)的時(shí)候需要將這些磁盤(pán)都排除掉,提取數(shù)據(jù)之前需要把這些掉線磁盤(pán)找到。由于LUN的RAID結(jié)構(gòu)大多都是RAID5,只需要將一個(gè)LUN的RAID條目通過(guò)RAID5的校驗(yàn)算法算出校驗(yàn)值,再和原有的校驗(yàn)值做比較就可以判斷這個(gè)條目中是否有掉線盤(pán)。將一個(gè)LUN的所有LUN_MAP都校驗(yàn)一遍就可以知道這個(gè)LUN中的哪些RAID條目中有掉線盤(pán),這些RAID條目中都存在的那個(gè)盤(pán)就一定是掉線盤(pán)。排除掉掉線盤(pán)并根據(jù)LUN_MAP恢復(fù)所有LUN的數(shù)據(jù)即可。
7、北亞企安數(shù)據(jù)恢復(fù)工程師編寫(xiě)掃描LUN_MAP的程序掃描全部LUN_MAP,結(jié)合人工分析獲取到最精確的LUN_MAP。編寫(xiě)檢測(cè)RAID條目的程序檢測(cè)所有LUN中掉線的磁盤(pán),結(jié)合人工分析排除掉掉線的磁盤(pán)。編寫(xiě)LUN數(shù)據(jù)恢復(fù)程序結(jié)合LUN_MAP恢復(fù)所有LUN數(shù)據(jù)。
8、人工核對(duì)恢復(fù)出來(lái)的每個(gè)LUN,確認(rèn)是否和用戶方工程師描述的一致。部分LUN如下:
北亞企安數(shù)據(jù)恢復(fù)——EVA存儲(chǔ)數(shù)據(jù)恢復(fù)
數(shù)據(jù)驗(yàn)證:
用戶方工程師對(duì)恢復(fù)出來(lái)的數(shù)據(jù)進(jìn)行檢驗(yàn),經(jīng)過(guò)反復(fù)驗(yàn)證后確認(rèn)數(shù)據(jù)完整可用,本次數(shù)據(jù)恢復(fù)工作完成。
EVA存儲(chǔ)數(shù)據(jù)安全Tip:
1、經(jīng)常巡視機(jī)房設(shè)備,發(fā)現(xiàn)報(bào)警信息及時(shí)處理。
2、操作存儲(chǔ)時(shí)要謹(jǐn)慎,避免誤操作導(dǎo)致數(shù)據(jù)丟失。
3、如果發(fā)現(xiàn)EVA控制器部分模塊不穩(wěn)定,應(yīng)及時(shí)更換。
4、由于EVA存儲(chǔ)故障多是由磁盤(pán)不穩(wěn)定導(dǎo)致的,EVA存儲(chǔ)內(nèi)的磁盤(pán)應(yīng)該是同一批次的磁盤(pán)。因此,沒(méi)有掉線的磁盤(pán)性能也快到極限,如有條件建議一起更換這批磁盤(pán)。
審核編輯:湯梓紅
-
控制器
+關(guān)注
關(guān)注
112文章
16419瀏覽量
178804 -
硬盤(pán)
+關(guān)注
關(guān)注
3文章
1315瀏覽量
57390 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9262瀏覽量
85768 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
584瀏覽量
17554
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論