在上篇文章“企業(yè)級(jí)存儲(chǔ)盤中的操作特性”中,基于一家主要存儲(chǔ)供應(yīng)商的近200萬(wàn)個(gè)SSD的大量企業(yè)存儲(chǔ)系統(tǒng),對(duì)生產(chǎn)使用中SSD的關(guān)鍵操作特性進(jìn)行了大規(guī)模的現(xiàn)場(chǎng)研究。今天接著分享SSD故障預(yù)測(cè)技術(shù)。
固態(tài)驅(qū)動(dòng)器(SSD)故障很可能導(dǎo)致系統(tǒng)級(jí)故障,從而導(dǎo)致停機(jī),從而使SSD故障預(yù)測(cè)對(duì)大規(guī)模SSD部署至關(guān)重要?,F(xiàn)有的SSD故障預(yù)測(cè)研究大多基于定制的SSD,具有專有的監(jiān)控指標(biāo),難以重現(xiàn)。為了支持不同驅(qū)動(dòng)器模型和供應(yīng)商的一般SSD故障預(yù)測(cè),本文提出了一種向外更新集成特征排序(WEFR),以自動(dòng)化、魯棒的方式選擇智能屬性作為學(xué)習(xí)特征。WEFR結(jié)合了不同的特征排序結(jié)果,根據(jù)復(fù)雜度度量和磨損程度的變化點(diǎn)檢測(cè),自動(dòng)生成最終的特征選擇。
01?背景及動(dòng)機(jī)
一、數(shù)據(jù)收集
本文從阿里巴巴的五個(gè)基于ssd的數(shù)據(jù)中心收集數(shù)據(jù)。該數(shù)據(jù)集涵蓋了從2018年1月到2019年12月的為期兩年的、來(lái)自三個(gè)供應(yīng)商的6個(gè)驅(qū)動(dòng)器模型的近500Kssd。本文將這三個(gè)供應(yīng)商稱為MA、MB和MC,每個(gè)供應(yīng)商都包括兩個(gè)驅(qū)動(dòng)器模型(用供應(yīng)商后面的數(shù)字表示)。本文的數(shù)據(jù)集包括兩種數(shù)據(jù)類型:SMART日志和故障票據(jù)。 ????
SMART日志。SMART是一種廣泛采用的監(jiān)視磁盤驅(qū)動(dòng)器狀態(tài)(稱為屬性)的工具。SMART屬性是特定于供應(yīng)商的。它們每個(gè)都有原始的和標(biāo)準(zhǔn)化的數(shù)值(在SMART屬性名稱之后分別用“R”和“N”表示)。本文每天收集每個(gè)SSD的智能屬性。表一顯示了為每個(gè)驅(qū)動(dòng)器模型收集的SMART屬性的概述。該數(shù)據(jù)集總共跨越了22個(gè)SMART屬性。 ????
故障記錄。本文的維護(hù)系統(tǒng)在每個(gè)服務(wù)器上部署監(jiān)視守護(hù)進(jìn)程,定期執(zhí)行基于規(guī)則的檢測(cè),以檢查異常行為和故障。一旦檢測(cè)到異常行為和故障,維護(hù)系統(tǒng)就會(huì)生成故障報(bào)告(稱為故障記錄單)。每個(gè)故障記錄單記錄驅(qū)動(dòng)器ID和故障發(fā)生的時(shí)間戳。該數(shù)據(jù)集總共涵蓋了7K個(gè)SSD故障的故障記錄單。
? 二、故障預(yù)測(cè) ????本文將SSD故障預(yù)測(cè)作為一個(gè)離線分類問(wèn)題,以預(yù)測(cè)SSD是否會(huì)在未來(lái)一段時(shí)間內(nèi)(例如,在未來(lái)30天內(nèi))失敗。本文將每個(gè)SMART屬性的原始值和標(biāo)準(zhǔn)化值視為兩個(gè)學(xué)習(xí)特征,并將一個(gè)學(xué)習(xí)特征的向量稱為輸入變量。本文將驅(qū)動(dòng)器狀態(tài)視為一個(gè)指標(biāo)變量(稱為目標(biāo)變量)(0表示健康狀態(tài),1表示失?。?。本文將每天SSD的學(xué)習(xí)特性和驅(qū)動(dòng)狀態(tài)作為樣本。本文將出現(xiàn)失敗ssd和健康ssd對(duì)應(yīng)的樣本分別稱為陽(yáng)性樣本和陰性樣本。離線故障預(yù)測(cè)的工作流程包括數(shù)據(jù)預(yù)處理、特征選擇、特征生成、預(yù)測(cè)模型訓(xùn)練、預(yù)測(cè)模型驗(yàn)證和預(yù)測(cè)。 ?
三、特征選擇方法 本文考慮了五種最先進(jìn)的SSD故障預(yù)測(cè)的特征選擇方法。
皮爾遜相關(guān)度量學(xué)習(xí)特征與目標(biāo)變量之間的線性關(guān)系。
斯皮爾曼相關(guān)性測(cè)量了學(xué)習(xí)特征和目標(biāo)變量之間的單調(diào)關(guān)系(不僅僅是線性關(guān)系)。它被之前的工作用于SSD故障預(yù)測(cè)。
J-index使用分類任務(wù)來(lái)衡量一個(gè)學(xué)習(xí)特征對(duì)目標(biāo)變量的類別進(jìn)行正確分類的能力。它被之前的工作用于預(yù)測(cè)HDD故障。
隨機(jī)森林提供特征重要性評(píng)估,它衡量在學(xué)習(xí)特征中添加噪聲后分類精度的降低程度。特征重要性得分較高的特征對(duì)HDD故障預(yù)測(cè)精度的影響較大。之前的工作也將隨機(jī)森林用于預(yù)測(cè)SSD故障。
XGBoost還提供了特征重要性評(píng)估,它測(cè)量了訓(xùn)練具有學(xué)習(xí)特征的所有增強(qiáng)樹(shù)的分割數(shù),以及在樹(shù)中使用該特征的平均增益。
02?特征重要性研究 ? ?
一、特性對(duì)SSD故障預(yù)測(cè)的重要性
? ????表三顯示了預(yù)測(cè)每個(gè)驅(qū)動(dòng)器模型的SSD故障的頂部和最后三個(gè)重要的學(xué)習(xí)特征。除了重要的學(xué)習(xí)特征外,本文還觀察到存在一些瑣碎的特征(例如,PSCN和MA2的特征重要性得分和PMSCR的特征重要性得分僅為0.001)。這種瑣碎的學(xué)習(xí)特征可能會(huì)降低作為噪聲的SSD預(yù)測(cè)精度。因此,特征選擇對(duì)于預(yù)測(cè)SSD故障是必要的。 ?
二、使用不同選擇方法的特征重要性 ????
表4顯示,MC1的前5個(gè)重要學(xué)習(xí)特征的排名因特征選擇方法的不同而不同。這一發(fā)現(xiàn)也適用于其他驅(qū)動(dòng)器模型(表中未顯示)。這種不同的排名帶來(lái)了以下問(wèn)題:(i)哪種特征選擇方法對(duì)SSD故障預(yù)測(cè)更有效?(ii)本文應(yīng)該選擇多少個(gè)重要的功能?
? 三、在不同的磨損程度下的特征重要性
????表五顯示出在不同的磨損程度下,相同的使用隨機(jī)森林在同一數(shù)據(jù)集中進(jìn)行特征選擇卻出現(xiàn)了不同的結(jié)果。這提示本文不同磨損階段是否有著不同的表現(xiàn)。
????圖1顯示了六種驅(qū)動(dòng)模型的存活率與MWIN之間的關(guān)系。本文觀察到,MA1、MA2、MC1和MC2的存活率隨MWIN的變化而變化,而MB1和MB2的存活率由于變化范圍較小而沒(méi)有明顯的變化趨勢(shì)。具體來(lái)說(shuō),對(duì)于MA1、MA2和MC1的存活率隨著MWIN的降低而降低,而對(duì)于MC2,隨著MWIN的降低,MWIN的存活率首先增加到70左右,然后由于固件逐漸固定的一些問(wèn)題而降低。這表明,SSD的特性可能會(huì)隨著磨損程度的變化而變化。因此,特征的重要性也可能隨著MWIN值的不同而改變。
03?磨損更新的集成特征選擇 ? ? ???
?本文提出了磨損更新集成特征排序(WEFR),這是一種實(shí)用的特征排序方法,在自動(dòng)和穩(wěn)健的屬性中選擇學(xué)習(xí)特征,從而推廣不同模型和供應(yīng)商的SSD故障預(yù)測(cè)。WEFR解決了在SSD故障預(yù)測(cè)的特征選擇方面面臨的以下挑戰(zhàn): ??
??健壯的功能選擇。不同的特征選擇方法可以選擇不同的學(xué)習(xí)特征。此外,特征選擇方法并不總是最優(yōu)的各種驅(qū)動(dòng)模型。因此,WEFR應(yīng)該結(jié)合特征選擇方法,以一種穩(wěn)健的方式來(lái)選擇特征。 ????
正在更新功能選擇。選擇的特性不同具有不同磨損程度的SSD。此外,ssd的磨損程度也隨時(shí)間的增加而增加。因此,WEFR應(yīng)該為MWIN值的ssd選擇學(xué)習(xí)特征,并隨著時(shí)間的推移更新所選特征。 ?
算法概述: ????算法1顯示了WEFR的工作流程。具體來(lái)說(shuō),它將來(lái)自相同驅(qū)動(dòng)器模型的SMART屬性的學(xué)習(xí)特征作為輸入。它采用常用的特征選擇方法進(jìn)行初步的特征選擇,并根據(jù)特征的重要性對(duì)學(xué)習(xí)特征進(jìn)行排序。為了防止某些方法的偏差(即無(wú)效的特征選擇),它刪除了與其他方法偏差較大的排名,并通過(guò)排名的平均值(排名行1-7)獲得最終排名。它根據(jù)最終的排名自動(dòng)確定特征計(jì)數(shù),并選擇最終的學(xué)習(xí)特征(第8行)。如果它檢測(cè)到MWIN的存活率的變化點(diǎn),它將更新具有不同MWIN組的SSD組的所選特征(第9-15行)。最后,它輸出在同一驅(qū)動(dòng)器模型中的所有ssd或每一組MWIN的學(xué)習(xí)的學(xué)習(xí)特性。
偏差的計(jì)算如下圖所示:
? 04?實(shí)驗(yàn)結(jié)果 ? ?
一、魯棒特征選擇的有效性
????本文比較了沒(méi)有特征選擇(即使用所有學(xué)習(xí)特征)和五種最先進(jìn)的特征選擇方法(第II-C節(jié))的WEFR的預(yù)測(cè)精度。對(duì)于五種最先進(jìn)的特征選擇方法,本文將所選特征的百分比從10%線性調(diào)整到100%,以找到最高的預(yù)測(cè)精度。表VI顯示,與沒(méi)有特征選擇相比,WEFR對(duì)MA1、MA2、MB1、MB2、MC1和MC2的固定召回率分別提高了13%(8%)、18%、18%(12%)、17%(10%)、25%(13%)、12%(6%)和13%(6%)??偟膩?lái)說(shuō),與所有驅(qū)動(dòng)模型沒(méi)有特征選擇相比,WEFR將精度(f0.5分?jǐn)?shù))提高了22%(10%),證實(shí)了特征選擇對(duì)SSD故障預(yù)測(cè)的重要性。 ?
二、自動(dòng)特征選擇的有效性
????本文評(píng)估了WEFR中自動(dòng)特征選擇的有效性,并將其與使用固定百分比的被選擇特征(從10%線性增加到100%)進(jìn)行比較。圖2顯示,當(dāng)確定6個(gè)驅(qū)動(dòng)器模型的所選特性的百分比時(shí),WEFR的F0.5-score始終高于或等于最高的F0.5-score。具體來(lái)說(shuō),WEFR自動(dòng)確定的MA1、MA2、MB1、MB2、MC1、MC2所選擇的特征的百分比分別為31%、34%、28%、26%、63%和28%,在確定所選特征的百分比時(shí),與最高F0.5-score對(duì)應(yīng)的所選特征的百分比接近。請(qǐng)注意,使用自動(dòng)特性選擇也比調(diào)優(yōu)生產(chǎn)中選定特性的適當(dāng)百分比更靈活。 ?
? 三、更新特征選擇的有效性 ???
?從表7中可以看出,與不更新特征選擇相比,WEFR通過(guò)更新MA1、MA2、MC1和MC2的選定特征,提高了精度和F0.5-score。具體來(lái)說(shuō),與WEFR(無(wú)更新)相比,WEFR將MA1、MA2、MC1和MC2的精度(F0.5-score)分別提高了6%(4%)、4%(2%)、5%(2%)和6%(2%)。
對(duì)于低MWIN的ssd,與WEFR(無(wú)更新)相比,WEFR對(duì)MA1、MA2、MC1和MC2的精度(f0.5分?jǐn)?shù))分別提高了13%(9%)、12%(8%)、13%(6%)和13%(6%)。這證實(shí)了特征的重要性隨著MWIN的變化而變化,有必要用MWIN更新所選的特征。高M(jìn)WIN的WEFR和WEFR之間的F0.5-score(無(wú)更新)差異不顯著,且在1%以內(nèi)(未見(jiàn)表七)。 感謝本次論文解讀者,來(lái)自華東師范大學(xué)的碩士生梁宇炯,主要研究方向?yàn)镾SD故障預(yù)測(cè)。
編輯:黃飛
?
評(píng)論
查看更多