0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于機(jī)器學(xué)習(xí)的磁盤故障預(yù)測的挑戰(zhàn)及設(shè)計思想

電子工程師 ? 來源:網(wǎng)絡(luò)整理 ? 作者:工程師李察 ? 2018-09-08 10:44 ? 次閱讀

RGF算法+遷移學(xué)習(xí)精確預(yù)測硬盤故障?!禤redicting Disk Replacement towards Reliable Data Centers》由IBM研究院發(fā)表于數(shù)據(jù)挖掘頂會議KDD 2016。磁盤是當(dāng)今數(shù)據(jù)中心中最常見的硬件設(shè)備,也是最易發(fā)生故障的設(shè)備。盡管有如RAID的防御機(jī)制,系統(tǒng)的可用性和可靠性仍然經(jīng)常嚴(yán)重沖擊。 本文采用RGF算法和遷移學(xué)習(xí)精確預(yù)測硬盤故障從而判斷硬盤是否應(yīng)該更換。其方法對硬件設(shè)備的故障預(yù)測有借鑒意義。

互聯(lián)網(wǎng)迅速發(fā)展,網(wǎng)絡(luò)服務(wù)數(shù)量驟增, 大規(guī)模海量數(shù)據(jù)存儲系統(tǒng)是必不可少的支持。雖然新的存儲介質(zhì)例如SSD,已經(jīng)在讀性能等很多方面擁有了比磁盤更好的性能,但就目前來講,其高昂的花費使大部分?jǐn)?shù)據(jù)中心難以負(fù)擔(dān)。因此,大型數(shù)據(jù)中心依然采用傳統(tǒng)的以磁盤為主的存儲系統(tǒng)。這樣做采購成本上雖然有了節(jié)省,但磁盤頻繁損壞導(dǎo)致的數(shù)據(jù)丟失給企業(yè)帶來的損失也是不可忽視的重大問題。

據(jù)美國63個數(shù)據(jù)中心組織進(jìn)行的一項研究顯示,數(shù)據(jù)中心的停機(jī)費用在過去幾年中顯著增加,從2010年的5600美元/分鐘增加到2016年的8851美元/分鐘。以往基于磁盤SMART屬性建立的各種磁盤故障預(yù)測模型,雖然取得了一定的效果,但是其在SMART屬性選擇、準(zhǔn)確性以及模型的復(fù)用性上存在不足之處。

因此,本文提出了一個自動、精確的磁盤故障預(yù)測的方法,判斷磁盤在接下來一段時間內(nèi)需不需要替換。下面兩個圖展示的是有無替換預(yù)測的磁盤可用性示意圖。左圖代表的是傳統(tǒng)的磁盤異常檢測,磁盤狀態(tài)開始變差后才檢測到磁盤故障,這時的可用性已經(jīng)降到了最低才開始更換磁盤。右圖展示的是使用磁盤故障預(yù)測的情況,首先系統(tǒng)判斷磁盤的狀態(tài)即將要變差,然后工程師在磁盤可用性降低之前更換磁盤。通過這兩個圖的對比,我們可以看出提前預(yù)測磁盤故障可以降低故障對系統(tǒng)可用性的沖擊。

基于機(jī)器學(xué)習(xí)的磁盤故障預(yù)測的挑戰(zhàn)及設(shè)計思想

磁盤故障預(yù)測的挑戰(zhàn)

但是,磁盤故障預(yù)測,存在如下挑戰(zhàn):

不是所有的SMART屬性都與磁盤故障相關(guān)。因為缺乏SMART屬性對磁盤狀態(tài)指示的標(biāo)準(zhǔn),所以需要從SMART屬性中選擇與一部分磁盤故障相關(guān)的屬性,作為故障預(yù)測模型的輸入。

磁盤故障數(shù)據(jù)高度不平衡。隨著時間的推移,健康磁盤的SMART數(shù)據(jù)量一直在增加,但是只有一小部分磁盤(2%)被替換,即被替換的磁盤數(shù)據(jù)非常少。分類算法通常最大限度地提升整體精度,少數(shù)類所包含的信息就會很有限,從而難以確定少數(shù)類數(shù)據(jù)的分布,即在其內(nèi)部難以發(fā)現(xiàn)規(guī)律,進(jìn)而造成少數(shù)類的識別率低。

不同類型的磁盤SMART存在差異。SMART是特定于制造商的,它們的編碼和標(biāo)準(zhǔn)化在制造商之間差別很大,所以不能使用同一個預(yù)測性模型來判斷不同型號的磁盤。下面兩個圖展示的是不同類型磁盤的SMART數(shù)據(jù)差異,其中左圖表示的是溫度,右圖表示的是開機(jī)關(guān)機(jī)的周期,從兩個圖的對比可以看出,不同類型的磁盤SMART確實存在差異。

設(shè)計思想

本文分為如下五步來解決故障預(yù)測的挑戰(zhàn):

選擇SMART屬性。使用突變點(changepoint)檢測的方法對SMART屬性分類,選擇與磁盤替換相關(guān)的SMART屬性。

生成時間序列。使用指數(shù)平滑來生成簡化但是信息豐富的時間序列。

解決數(shù)據(jù)不平衡性。通過欠抽樣(downsampling)選擇具有代表性的健康磁盤的數(shù)據(jù),然后用這些數(shù)據(jù)來代表全部的健康磁盤,從而使健康磁盤與替換磁盤的比例達(dá)到平衡。

對磁盤狀態(tài)分類。RGF是一個分類算法,可以將磁盤的狀態(tài)分成0/1的狀態(tài),如果當(dāng)前時間序列被分成1狀態(tài),則認(rèn)為磁盤即將出現(xiàn)故障,需要更換磁盤。

遷移學(xué)習(xí)。考慮到同一廠商生產(chǎn)的不同磁盤模型之間也存在一定差異,本文使用了遷移學(xué)習(xí)的方法,從而利用某種磁盤上訓(xùn)練的模型來預(yù)測同一廠商的其他磁盤的故障替換情況。

1、選擇SMART屬性

因為SMART數(shù)據(jù)是隨著時間的增長而生成的,所以文中是通過時間序列突變點(changepoint)檢測來確定SMART與磁盤替換的相關(guān)性。當(dāng)被替換的磁盤SMART時間序列中某個SMART屬性發(fā)生突變,而且這個轉(zhuǎn)變是永久性不可恢復(fù)的,那么可以認(rèn)為這個屬性與磁盤替換是相關(guān)的。

下圖展示的是SMART_187_raw(無法糾正的錯誤)的折線圖,這是報告給操作系統(tǒng)的無法通過硬件ECC校正的錯誤。如果數(shù)據(jù)值不為零,就應(yīng)該備份磁盤上的數(shù)據(jù)了。從圖中可以看出在第50天的時候,SMART_187_raw值突然增大,即第50天為突變點。

基于機(jī)器學(xué)習(xí)的磁盤故障預(yù)測的挑戰(zhàn)及設(shè)計思想

通過檢測每一個SMART屬性,本文得到了下表中展示的結(jié)果(只展示部分結(jié)果)。在表格中,SgtA和HitA分別表示希捷和日立的磁盤型號,Ratio表示磁盤替換前該屬性值出現(xiàn)突變的比例。我們可以看出有些SMART屬性確實與磁盤替換無關(guān),而且對于不同型號的磁盤,與磁盤替換事件相關(guān)的SMART屬性是不相同的。

基于機(jī)器學(xué)習(xí)的磁盤故障預(yù)測的挑戰(zhàn)及設(shè)計思想

2、生成時間序列

經(jīng)過第一步的SMART屬性值的挑選,下一步需要做的是生成預(yù)測模型可以使用的時間序列。使用時間序列作為模型的數(shù)據(jù)是基于如下三點考慮的:

每天的數(shù)據(jù)都是不穩(wěn)定的,可能某天的SMART數(shù)據(jù)缺失。

磁盤具有一定的自恢復(fù)性,不能根據(jù)某一天的數(shù)據(jù)來判定磁盤接下來一段時間的狀態(tài)。

如果只看某一天的數(shù)據(jù),則無法提前一段時間來預(yù)測磁盤故障,也就無法留出充足的時間給工程師更換磁盤。

所以本文使用指數(shù)平滑的方法來生成時間序列,S_t=α·Y_t+(1-α)·S_(t-1)是指數(shù)平滑的公式,其中α是平滑參數(shù),Y_t是之前t個數(shù)據(jù)的平滑值。α越接近1,平滑后的值越接近當(dāng)前時間的數(shù)據(jù)值。指數(shù)平滑不舍棄過去的數(shù)據(jù),而是僅給予逐漸減弱的影響程度,即隨著數(shù)據(jù)的遠(yuǎn)離,賦予逐漸收斂為零的權(quán)數(shù)。

3、解決數(shù)據(jù)不平衡性

遇到不平衡數(shù)據(jù)時,以總體分類準(zhǔn)確率為學(xué)習(xí)目標(biāo)的傳統(tǒng)分類算法會過多地關(guān)注多數(shù)類,而使少數(shù)類樣本的分類性能下降。因為這些算法大多數(shù)建立在各類數(shù)據(jù)分布平衡的假設(shè)之下,以尋求數(shù)據(jù)總體分類準(zhǔn)確率為最大目標(biāo)。而在磁盤故障預(yù)測的場景下,磁盤故障的數(shù)量是遠(yuǎn)遠(yuǎn)小于正常磁盤的。本文使用了欠抽樣(downsampling)的方式來平衡數(shù)據(jù)。

具體做法是這樣的,對健康磁盤的時間序列樣本做K-means聚類,聚類之后每一個類別中樣本都是相似的,然后選擇距離聚類中心最近的n個點作為健康磁盤樣本的抽樣結(jié)果。

4、對磁盤狀態(tài)分類

本文使用了RGF算法對磁盤狀態(tài)分類。RGF 算法是一個分類算法,它是GBDT(梯度提升決策樹)算法最好的變種之一。針對 GBDT 每次迭代只優(yōu)化新建樹以及過擬合的問題,RGF使用了正則化的全局優(yōu)化貪心搜索改進(jìn)算法:

每次迭代直接對整個貪心森林進(jìn)行學(xué)習(xí)

新增決策樹后進(jìn)行全局的參數(shù)優(yōu)化

引入顯式的針對決策樹的正則項來防止過擬合

基于機(jī)器學(xué)習(xí)的磁盤故障預(yù)測的挑戰(zhàn)及設(shè)計思想

文中對比了RGF與其他分類算法的分類結(jié)果,上表中的P、R、F分別表示準(zhǔn)確率(precision)、召回率(recall)、F-分?jǐn)?shù)(F-score)。從表中可以看出,RGF的效果是最好的。

5、遷移學(xué)習(xí)

同一廠商生產(chǎn)的不同磁盤模型之間也是存在差異的。本文發(fā)現(xiàn),不同磁盤模型之間具有相似的SMART屬性,但相同的SMART屬性之間的數(shù)據(jù)分布不同。因此,直接將訓(xùn)練集磁盤模型上建立的預(yù)測模型用于同一廠商生產(chǎn)的其他磁盤模型的故障預(yù)測,不能達(dá)到最好的預(yù)測效果。

首先我們來說明遷移學(xué)習(xí)中的兩個重要概念,域(domain)和任務(wù)(task)。如下圖所示。

域(domain):包括特征空間(feature space)X和邊緣概率分布(marginal probability distribution)P(x), x ∈X。例如,一組圖片中的所有可能顏色構(gòu)成一個特征空間,而各種顏色出現(xiàn)的頻率則為邊緣概率分布。

任務(wù)(task):給定一個域,任務(wù)還包含兩個要素,標(biāo)簽空間(label space)y和預(yù)測函數(shù)(predictive function)f(·)=P(y|x)。例如,一組圖片中可能出現(xiàn)的所有元素構(gòu)成一個標(biāo)簽空間,而通過預(yù)測函數(shù)可以得出某幅特定圖片中包含哪些元素。

同一廠商生產(chǎn)的不同磁盤模型之間具有一定的關(guān)聯(lián)性,但它們之間存在樣本選擇偏差(sample selection bias)。即不同種磁盤模型之間雖然具有大量的重疊特征,但源數(shù)據(jù)實例(帶標(biāo)簽的訓(xùn)練數(shù)據(jù))和目標(biāo)數(shù)據(jù)實例(無標(biāo)簽的測試數(shù)據(jù))的分布不同。因此,作者采用了基于實例的遷移學(xué)習(xí)方法來消除源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的樣本選擇偏差,從而將某種磁盤上訓(xùn)練的模型應(yīng)用于其他磁盤上。

具體的,對于兩種磁盤模型1和2,將帶標(biāo)簽的磁盤1實例與無標(biāo)簽的磁盤2實例放在一起。訓(xùn)練一個分類函數(shù),使f(x)表示一個磁盤屬于模型1或模型2的概率。利用分類函數(shù)f對帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集進(jìn)行重新采樣,從而消除樣本選擇偏差,使訓(xùn)練集與測試集數(shù)據(jù)服從同一分布。此時,根據(jù)重新采樣的訓(xùn)練集,利用前文所述的RGF算法訓(xùn)練出函數(shù),g(x)代表該類型磁盤的一個實例需要進(jìn)行替換的概率。由于重新采樣的訓(xùn)練集與測試集服從相同的數(shù)據(jù)分布,因此可將預(yù)測函數(shù)g直接應(yīng)用于同一廠商生產(chǎn)的其他磁盤模型上(測試集)。

基于機(jī)器學(xué)習(xí)的磁盤故障預(yù)測的挑戰(zhàn)及設(shè)計思想

作者分別使用兩個廠商生產(chǎn)的磁盤的數(shù)據(jù)集SgtA和HitA訓(xùn)練模型,并使用遷移學(xué)習(xí)的方法將兩種模型分別應(yīng)用于同廠商的其他磁盤數(shù)據(jù)集SgtB和HitB上。上表分別展示了直接將模型 A應(yīng)用于磁盤B上以及運用遷移學(xué)習(xí)方法將模型A應(yīng)用于磁盤B的替換預(yù)測的準(zhǔn)確率、召回率、F-分?jǐn)?shù)??梢钥闯?,應(yīng)用遷移學(xué)習(xí)方法后,預(yù)測準(zhǔn)確性得到了很大提高,從而大大減少了需要訓(xùn)練的模型數(shù)量。

總結(jié)

本文介紹了一套自動、精確的磁盤故障預(yù)測方法,用于判斷磁盤在接下來一段時間內(nèi)是否需要替換。通過選擇SMART屬性、生成時間序列、解決數(shù)據(jù)不平衡性等步驟,將磁盤故障預(yù)測轉(zhuǎn)化為對時間序列數(shù)據(jù)的分類問題。之后使用RGF算法對磁盤狀態(tài)進(jìn)行分類,從而找出可能發(fā)生故障的磁盤。對于同一廠商生產(chǎn)的不同型號的磁盤,采用遷移學(xué)習(xí)的方法進(jìn)行處理,在保證預(yù)測準(zhǔn)確性的同時減少模型訓(xùn)練開銷。最后,文中采用不同廠商、多種類型的磁盤SMART數(shù)據(jù)驗證該方法,達(dá)到了較高的準(zhǔn)確率和召回率。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • IBM
    IBM
    +關(guān)注

    關(guān)注

    3

    文章

    1760

    瀏覽量

    74758
  • 磁盤
    +關(guān)注

    關(guān)注

    1

    文章

    379

    瀏覽量

    25232
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132831
收藏 人收藏

    評論

    相關(guān)推薦

    [轉(zhuǎn)]物聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)究竟有哪些真實應(yīng)用價值?

    。Goldcorp是一個很好的例子,Goldcorp是一家采礦公司,它使用巨大的車輛來運送材料。當(dāng)這些運輸車輛出現(xiàn)故障時,Goldcorp每天將損失200萬美元。 Goldcorp正在使用機(jī)器學(xué)習(xí)
    發(fā)表于 04-19 11:01

    【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實戰(zhàn)》

    數(shù)據(jù)分析及可視化。通過各種實例,讀者可從中學(xué)會機(jī)器學(xué)習(xí)的核心算法,并能將其運用于一些策略性任務(wù)中,如分類、預(yù)測、推薦。另外,還可用它們來實現(xiàn)一些更高級的功能,如匯總和簡化等。下載鏈接:[hide][/hide
    發(fā)表于 06-01 15:49

    深度學(xué)習(xí)預(yù)測和健康管理中的應(yīng)用

    深度學(xué)習(xí)預(yù)測和健康管理中的應(yīng)用綜述摘要深度學(xué)習(xí)預(yù)測和健康管理(PHM)引起了濃厚的興趣,因為它具有強(qiáng)大的表示能力,自動化的功能學(xué)習(xí)能力以
    發(fā)表于 07-12 06:46

    什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門

    可以采取行動的洞察力。條形圖固然不錯,但是如果我們真正想要的是能夠在機(jī)器故障和脫機(jī)之前預(yù)測到它需要服務(wù),那么簡單的算法方法是不行的。機(jī)器學(xué)習(xí)
    發(fā)表于 06-21 11:06

    基于機(jī)器學(xué)習(xí)的車位狀態(tài)預(yù)測方法

    本發(fā)明公開一種基于機(jī)器學(xué)習(xí)的車位狀態(tài)預(yù)測方法,基于歷史數(shù)據(jù),建立回歸決策樹模型進(jìn)而構(gòu)建改進(jìn)決策樹模型,對每個區(qū)域的停車率進(jìn)行預(yù)測,基于停車率和用戶喜好度為用戶推薦相應(yīng)的停車區(qū)域,獲取相
    發(fā)表于 09-21 07:24

    磁盤陣列技術(shù)原理學(xué)習(xí)

    磁盤陣列技術(shù)原理學(xué)習(xí) 【簡 介】我們?yōu)槭裁匆褂?b class='flag-5'>磁盤陣列?使用磁盤陣列的好處,在于數(shù)據(jù)的安全、存取的速度及超大的存儲容量。如何確
    發(fā)表于 08-01 11:11 ?1037次閱讀
    <b class='flag-5'>磁盤</b>陣列技術(shù)原理<b class='flag-5'>學(xué)習(xí)</b>

    美國軍方“征用”AI助手 用機(jī)器學(xué)習(xí)預(yù)測軍車故障

    美國軍方?jīng)Q定“征用”最近幾年大火的AI助手,讓機(jī)器學(xué)習(xí)軟件來預(yù)測哪些軍車需要維護(hù),提前標(biāo)記出需要維護(hù)的機(jī)械部件。
    的頭像 發(fā)表于 06-28 09:05 ?3093次閱讀

    預(yù)測”是美國政府應(yīng)用機(jī)器學(xué)習(xí)的重要途徑

    在過去兩年中,各級機(jī)構(gòu)越來越多地尋求利用機(jī)器學(xué)習(xí),由橡樹嶺國家實驗室的研究人員開發(fā)的機(jī)器學(xué)習(xí)技術(shù)已被聯(lián)邦緊急事務(wù)管理局用于尋找被熔巖流吞噬的人造結(jié)構(gòu)。密蘇里州開發(fā)了一種
    的頭像 發(fā)表于 08-21 09:01 ?2939次閱讀

    如何使用機(jī)器學(xué)習(xí)技術(shù)解決社會網(wǎng)絡(luò)鏈接預(yù)測問題

    問題,嘗試使用機(jī)器學(xué)習(xí)的方法解決社會網(wǎng)絡(luò)鏈接預(yù)測問題,最終通過實驗得到驗證,相似度屬性特征對鏈接預(yù)測具有較高影響力,鏈接預(yù)測問題可以轉(zhuǎn)化為分
    發(fā)表于 11-21 17:13 ?20次下載

    磁盤陣列的常見故障

    磁盤陣列(Redundant Arrays of Independent Drives,RAID),有“獨立磁盤構(gòu)成的具有冗余能力的陣列”之意。本視頻主要介紹了磁盤陣列的常見故障。
    的頭像 發(fā)表于 11-23 17:02 ?1.7w次閱讀

    使用機(jī)器學(xué)習(xí)預(yù)測公交車延誤

    近日,Google 地圖為數(shù)百個城市推出了基于機(jī)器學(xué)習(xí)的實時公交延誤預(yù)測服務(wù),方便出行者提前安排出行計劃。
    的頭像 發(fā)表于 07-12 11:16 ?3377次閱讀

    機(jī)器學(xué)習(xí)準(zhǔn)確預(yù)測發(fā)病風(fēng)險

    機(jī)器學(xué)習(xí)算法在改善慢性病風(fēng)險評估和護(hù)理方面發(fā)揮了關(guān)鍵作用,尤其對阿爾茨海默病(俗稱老年癡呆癥)患者和心臟病患者,機(jī)器學(xué)習(xí)可準(zhǔn)確地預(yù)測發(fā)病風(fēng)險
    的頭像 發(fā)表于 07-19 17:15 ?3580次閱讀

    基于機(jī)器學(xué)習(xí)算法的水文趨勢預(yù)測方法

    針對傳統(tǒng)的利用神經(jīng)網(wǎng)絡(luò)等工具進(jìn)行水文趨勢預(yù)測得出結(jié)果不具備解釋性等不足,文中提出一種基于機(jī)器學(xué)習(xí)算法的水文趨勢預(yù)測方法,該方法旨在利用 XGBOOST
    發(fā)表于 04-26 15:39 ?6次下載
    基于<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法的水文趨勢<b class='flag-5'>預(yù)測</b>方法

    使用機(jī)器學(xué)習(xí)的腎臟疾病預(yù)測

    電子發(fā)燒友網(wǎng)站提供《使用機(jī)器學(xué)習(xí)的腎臟疾病預(yù)測器.zip》資料免費下載
    發(fā)表于 11-09 09:28 ?2次下載
    使用<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的腎臟疾病<b class='flag-5'>預(yù)測</b>器

    使用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測

    電子發(fā)燒友網(wǎng)站提供《使用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測.zip》資料免費下載
    發(fā)表于 07-04 10:22 ?0次下載
    使用<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>進(jìn)行<b class='flag-5'>預(yù)測</b>