0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳談SSD故障預(yù)測技術(shù)

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:SCS存儲專委 ? 2023-01-03 14:27 ? 次閱讀

在上篇文章“企業(yè)級存儲盤中的操作特性”中,基于一家主要存儲供應(yīng)商的近200萬個SSD的大量企業(yè)存儲系統(tǒng),對生產(chǎn)使用中SSD的關(guān)鍵操作特性進(jìn)行了大規(guī)模的現(xiàn)場研究。今天接著分享SSD故障預(yù)測技術(shù)。

固態(tài)驅(qū)動器(SSD)故障很可能導(dǎo)致系統(tǒng)級故障,從而導(dǎo)致停機,從而使SSD故障預(yù)測對大規(guī)模SSD部署至關(guān)重要?,F(xiàn)有的SSD故障預(yù)測研究大多基于定制的SSD,具有專有的監(jiān)控指標(biāo),難以重現(xiàn)。為了支持不同驅(qū)動器模型和供應(yīng)商的一般SSD故障預(yù)測,本文提出了一種向外更新集成特征排序(WEFR),以自動化、魯棒的方式選擇智能屬性作為學(xué)習(xí)特征。WEFR結(jié)合了不同的特征排序結(jié)果,根據(jù)復(fù)雜度度量和磨損程度的變化點檢測,自動生成最終的特征選擇。

01 背景及動機

一、數(shù)據(jù)收集

本文從阿里巴巴的五個基于ssd的數(shù)據(jù)中心收集數(shù)據(jù)。該數(shù)據(jù)集涵蓋了從2018年1月到2019年12月的為期兩年的、來自三個供應(yīng)商的6個驅(qū)動器模型的近500Kssd。本文將這三個供應(yīng)商稱為MA、MB和MC,每個供應(yīng)商都包括兩個驅(qū)動器模型(用供應(yīng)商后面的數(shù)字表示)。本文的數(shù)據(jù)集包括兩種數(shù)據(jù)類型:SMART日志和故障票據(jù)。

SMART日志。SMART是一種廣泛采用的監(jiān)視磁盤驅(qū)動器狀態(tài)(稱為屬性)的工具。SMART屬性是特定于供應(yīng)商的。它們每個都有原始的和標(biāo)準(zhǔn)化的數(shù)值(在SMART屬性名稱之后分別用“R”和“N”表示)。本文每天收集每個SSD的智能屬性。表一顯示了為每個驅(qū)動器模型收集的SMART屬性的概述。該數(shù)據(jù)集總共跨越了22個SMART屬性。

故障記錄。本文的維護系統(tǒng)在每個服務(wù)器上部署監(jiān)視守護進(jìn)程,定期執(zhí)行基于規(guī)則的檢測,以檢查異常行為和故障。一旦檢測到異常行為和故障,維護系統(tǒng)就會生成故障報告(稱為故障記錄單)。每個故障記錄單記錄驅(qū)動器ID和故障發(fā)生的時間戳。該數(shù)據(jù)集總共涵蓋了7K個SSD故障的故障記錄單。

二、故障預(yù)測

本文將SSD故障預(yù)測作為一個離線分類問題,以預(yù)測SSD是否會在未來一段時間內(nèi)(例如,在未來30天內(nèi))失敗。本文將每個SMART屬性的原始值和標(biāo)準(zhǔn)化值視為兩個學(xué)習(xí)特征,并將一個學(xué)習(xí)特征的向量稱為輸入變量。本文將驅(qū)動器狀態(tài)視為一個指標(biāo)變量(稱為目標(biāo)變量)(0表示健康狀態(tài),1表示失敗)。本文將每天SSD的學(xué)習(xí)特性和驅(qū)動狀態(tài)作為樣本。本文將出現(xiàn)失敗ssd和健康ssd對應(yīng)的樣本分別稱為陽性樣本和陰性樣本。離線故障預(yù)測的工作流程包括數(shù)據(jù)預(yù)處理、特征選擇、特征生成、預(yù)測模型訓(xùn)練、預(yù)測模型驗證和預(yù)測。

三、特征選擇方法

本文考慮了五種最先進(jìn)的SSD故障預(yù)測的特征選擇方法。

皮爾遜相關(guān)度量學(xué)習(xí)特征與目標(biāo)變量之間的線性關(guān)系。

斯皮爾曼相關(guān)性測量了學(xué)習(xí)特征和目標(biāo)變量之間的單調(diào)關(guān)系(不僅僅是線性關(guān)系)。它被之前的工作用于SSD故障預(yù)測。

J-index使用分類任務(wù)來衡量一個學(xué)習(xí)特征對目標(biāo)變量的類別進(jìn)行正確分類的能力。它被之前的工作用于預(yù)測HDD故障。

隨機森林提供特征重要性評估,它衡量在學(xué)習(xí)特征中添加噪聲后分類精度的降低程度。特征重要性得分較高的特征對HDD故障預(yù)測精度的影響較大。之前的工作也將隨機森林用于預(yù)測SSD故障。

XGBoost還提供了特征重要性評估,它測量了訓(xùn)練具有學(xué)習(xí)特征的所有增強樹的分割數(shù),以及在樹中使用該特征的平均增益。

02 特征重要性研究

一、特性對SSD故障預(yù)測的重要性

c40215ba-8941-11ed-bfe3-dac502259ad0.png

表三顯示了預(yù)測每個驅(qū)動器模型的SSD故障的頂部和最后三個重要的學(xué)習(xí)特征。除了重要的學(xué)習(xí)特征外,本文還觀察到存在一些瑣碎的特征(例如,PSCN和MA2的特征重要性得分和PMSCR的特征重要性得分僅為0.001)。這種瑣碎的學(xué)習(xí)特征可能會降低作為噪聲的SSD預(yù)測精度。因此,特征選擇對于預(yù)測SSD故障是必要的。

二、使用不同選擇方法的特征重要性

表4顯示,MC1的前5個重要學(xué)習(xí)特征的排名因特征選擇方法的不同而不同。這一發(fā)現(xiàn)也適用于其他驅(qū)動器模型(表中未顯示)。這種不同的排名帶來了以下問題:(i)哪種特征選擇方法對SSD故障預(yù)測更有效?(ii)本文應(yīng)該選擇多少個重要的功能?

c437999c-8941-11ed-bfe3-dac502259ad0.png

三、在不同的磨損程度下的特征重要性

c45f34a2-8941-11ed-bfe3-dac502259ad0.png

表五顯示出在不同的磨損程度下,相同的使用隨機森林在同一數(shù)據(jù)集中進(jìn)行特征選擇卻出現(xiàn)了不同的結(jié)果。這提示本文不同磨損階段是否有著不同的表現(xiàn)。

c47d0da6-8941-11ed-bfe3-dac502259ad0.png

圖1顯示了六種驅(qū)動模型的存活率與MWIN之間的關(guān)系。本文觀察到,MA1、MA2、MC1和MC2的存活率隨MWIN的變化而變化,而MB1和MB2的存活率由于變化范圍較小而沒有明顯的變化趨勢。具體來說,對于MA1、MA2和MC1的存活率隨著MWIN的降低而降低,而對于MC2,隨著MWIN的降低,MWIN的存活率首先增加到70左右,然后由于固件逐漸固定的一些問題而降低。這表明,SSD的特性可能會隨著磨損程度的變化而變化。因此,特征的重要性也可能隨著MWIN值的不同而改變。

03 磨損更新的集成特征選擇

本文提出了磨損更新集成特征排序(WEFR),這是一種實用的特征排序方法,在自動和穩(wěn)健的屬性中選擇學(xué)習(xí)特征,從而推廣不同模型和供應(yīng)商的SSD故障預(yù)測。WEFR解決了在SSD故障預(yù)測的特征選擇方面面臨的以下挑戰(zhàn):

健壯的功能選擇。不同的特征選擇方法可以選擇不同的學(xué)習(xí)特征。此外,特征選擇方法并不總是最優(yōu)的各種驅(qū)動模型。因此,WEFR應(yīng)該結(jié)合特征選擇方法,以一種穩(wěn)健的方式來選擇特征。

正在更新功能選擇。選擇的特性不同具有不同磨損程度的SSD。此外,ssd的磨損程度也隨時間的增加而增加。因此,WEFR應(yīng)該為MWIN值的ssd選擇學(xué)習(xí)特征,并隨著時間的推移更新所選特征。

算法概述:

算法1顯示了WEFR的工作流程。具體來說,它將來自相同驅(qū)動器模型的SMART屬性的學(xué)習(xí)特征作為輸入。它采用常用的特征選擇方法進(jìn)行初步的特征選擇,并根據(jù)特征的重要性對學(xué)習(xí)特征進(jìn)行排序。為了防止某些方法的偏差(即無效的特征選擇),它刪除了與其他方法偏差較大的排名,并通過排名的平均值(排名行1-7)獲得最終排名。它根據(jù)最終的排名自動確定特征計數(shù),并選擇最終的學(xué)習(xí)特征(第8行)。如果它檢測到MWIN的存活率的變化點,它將更新具有不同MWIN組的SSD組的所選特征(第9-15行)。最后,它輸出在同一驅(qū)動器模型中的所有ssd或每一組MWIN的學(xué)習(xí)的學(xué)習(xí)特性。

c4a75fc0-8941-11ed-bfe3-dac502259ad0.png

偏差的計算如下圖所示:

c4c3705c-8941-11ed-bfe3-dac502259ad0.png

04 實驗結(jié)果

一、魯棒特征選擇的有效性

c4d2cfa2-8941-11ed-bfe3-dac502259ad0.png

本文比較了沒有特征選擇(即使用所有學(xué)習(xí)特征)和五種最先進(jìn)的特征選擇方法(第II-C節(jié))的WEFR的預(yù)測精度。對于五種最先進(jìn)的特征選擇方法,本文將所選特征的百分比從10%線性調(diào)整到100%,以找到最高的預(yù)測精度。表VI顯示,與沒有特征選擇相比,WEFR對MA1、MA2、MB1、MB2、MC1和MC2的固定召回率分別提高了13%(8%)、18%、18%(12%)、17%(10%)、25%(13%)、12%(6%)和13%(6%)。總的來說,與所有驅(qū)動模型沒有特征選擇相比,WEFR將精度(f0.5分?jǐn)?shù))提高了22%(10%),證實了特征選擇對SSD故障預(yù)測的重要性。

二、自動特征選擇的有效性

本文評估了WEFR中自動特征選擇的有效性,并將其與使用固定百分比的被選擇特征(從10%線性增加到100%)進(jìn)行比較。圖2顯示,當(dāng)確定6個驅(qū)動器模型的所選特性的百分比時,WEFR的F0.5-score始終高于或等于最高的F0.5-score。具體來說,WEFR自動確定的MA1、MA2、MB1、MB2、MC1、MC2所選擇的特征的百分比分別為31%、34%、28%、26%、63%和28%,在確定所選特征的百分比時,與最高F0.5-score對應(yīng)的所選特征的百分比接近。請注意,使用自動特性選擇也比調(diào)優(yōu)生產(chǎn)中選定特性的適當(dāng)百分比更靈活。

c500010c-8941-11ed-bfe3-dac502259ad0.png

三、更新特征選擇的有效性

從表7中可以看出,與不更新特征選擇相比,WEFR通過更新MA1、MA2、MC1和MC2的選定特征,提高了精度和F0.5-score。具體來說,與WEFR(無更新)相比,WEFR將MA1、MA2、MC1和MC2的精度(F0.5-score)分別提高了6%(4%)、4%(2%)、5%(2%)和6%(2%)。

c51c41aa-8941-11ed-bfe3-dac502259ad0.png

對于低MWIN的ssd,與WEFR(無更新)相比,WEFR對MA1、MA2、MC1和MC2的精度(f0.5分?jǐn)?shù))分別提高了13%(9%)、12%(8%)、13%(6%)和13%(6%)。這證實了特征的重要性隨著MWIN的變化而變化,有必要用MWIN更新所選的特征。高M(jìn)WIN的WEFR和WEFR之間的F0.5-score(無更新)差異不顯著,且在1%以內(nèi)(未見表七)。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4507

    瀏覽量

    87128
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    21

    文章

    2953

    瀏覽量

    119189
  • 故障預(yù)測
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    6708
  • 固態(tài)驅(qū)動器

    關(guān)注

    0

    文章

    12

    瀏覽量

    10609

原文標(biāo)題:收藏:詳談SSD故障預(yù)測技術(shù)

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 1人收藏

    評論

    相關(guān)推薦
    熱點推薦

    EMC難不難做?帶你讀懂EMC 詳談EMC

    讀懂EMC:詳談EMC
    的頭像 發(fā)表于 07-31 11:23 ?3233次閱讀
    EMC難不難做?帶你讀懂EMC <b class='flag-5'>詳談</b>EMC

    SSD是什么意思,什么是SSD

    100MB/S,高于市面上60 MB/S的速度。每一個新生事物的出現(xiàn)總會遇到價格偏高的問題,SSD也因其研發(fā)成本、技術(shù)含量等問題,價格相對于其他存儲設(shè)備來說要高,但其優(yōu)勢也還是非常明顯的。有專家預(yù)測,到2010年
    發(fā)表于 03-25 16:20

    采用nvSRAM確保企業(yè)級SSD故障時電源可靠性

      SSD技術(shù)概覽  固態(tài)驅(qū)動器(SSD)是采用固態(tài)半導(dǎo)體存儲器(如NAND閃存)而非傳統(tǒng)硬盤驅(qū)動器(HDD)中磁性元件來永久存儲信息的一種數(shù)據(jù)存儲設(shè)備。由于數(shù)據(jù)可隨機存取,不像HDD那樣受磁盤轉(zhuǎn)動
    發(fā)表于 09-26 09:44

    關(guān)于電機的深度學(xué)習(xí)故障預(yù)測簡析

    故障預(yù)測數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理模型CNNLSTMGAN具體情況特殊處理數(shù)據(jù)量較大數(shù)據(jù)量不足特征雜糅
    發(fā)表于 09-13 07:23

    詳談服務(wù)器電源

    詳談服務(wù)器電源 在服務(wù)器各個部件中,電
    發(fā)表于 12-26 17:23 ?2696次閱讀

    旋轉(zhuǎn)機械的故障預(yù)測方法綜述

    介紹了各種方法的實際應(yīng)用情況。最后,探討了旋轉(zhuǎn)機械故障預(yù)測技術(shù)的難點問題以及發(fā)展趨勢。
    發(fā)表于 03-05 09:13 ?2111次閱讀

    Linux內(nèi)核編譯詳談

    Linux內(nèi)核編譯詳談
    發(fā)表于 10-30 09:51 ?7次下載
    Linux內(nèi)核編譯<b class='flag-5'>詳談</b>

    支持向量機的故障預(yù)測模型

    針對現(xiàn)有的故障預(yù)測技術(shù)無法從整體上反映系統(tǒng)性能下降趨勢等問題,提出一種基于健康度分析的故障預(yù)測方法。首先,在支持向量機回歸算法基礎(chǔ)上構(gòu)造多輸
    發(fā)表于 12-29 11:24 ?0次下載

    三星FIP故障定位技術(shù),讓SSD的壽命提升

    三星最近開發(fā)了一種可以檢測NAND芯片故障技術(shù),該技術(shù)可以提升SSD的壽命和可靠性,并且宣布將在即將發(fā)布的PCIe 4.0 SSD產(chǎn)品中使
    的頭像 發(fā)表于 11-18 15:53 ?3644次閱讀

    SSD硬盤的故障分析以及解決辦法

    SSD硬盤故障是否曾讓你感覺到困擾呢?今天快快小編就來給大家詳細(xì)介紹SSD硬盤故障的4大原因,并附上解決措施,希望對小伙伴們有幫助。
    的頭像 發(fā)表于 04-02 14:54 ?8380次閱讀

    詳談數(shù)組和指針的區(qū)別與聯(lián)系

    詳談數(shù)組和指針的區(qū)別與聯(lián)系
    的頭像 發(fā)表于 06-29 15:18 ?2.3w次閱讀
    <b class='flag-5'>詳談</b>數(shù)組和指針的區(qū)別與聯(lián)系

    SSD故障的四個主要原因及解決辦法

    與硬盤驅(qū)動器相比,SSD更加可靠;然而,并沒有完美的存儲技術(shù)。即使是最新的NVMeSSD,也可能會突然或逐漸出現(xiàn)故障。
    發(fā)表于 12-08 11:01 ?1.1w次閱讀

    基于RNN的GIS故障預(yù)測算法及系統(tǒng)設(shè)計

    基于RNN的GIS故障預(yù)測算法及系統(tǒng)設(shè)計
    發(fā)表于 07-01 15:38 ?30次下載

    SSD故障排查與解決方案

    隨著固態(tài)硬盤(SSD)的普及,越來越多的用戶選擇使用SSD作為電腦的主要存儲設(shè)備。然而,SSD在使用過程中也可能會出現(xiàn)各種故障。 一、SSD
    的頭像 發(fā)表于 11-11 11:11 ?3285次閱讀

    MVTRF:多視圖特征預(yù)測SSD故障

    固態(tài)硬盤( Solid State Drive,SSD )在大型數(shù)據(jù)中心中發(fā)揮著重要作用。SSD故障會影響存儲系統(tǒng)的穩(wěn)定性,造成額外的維護開銷。為了提前預(yù)測和處理
    的頭像 發(fā)表于 12-30 11:04 ?482次閱讀
    MVTRF:多視圖特征<b class='flag-5'>預(yù)測</b><b class='flag-5'>SSD</b><b class='flag-5'>故障</b>

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品