0
    • 聊天消息
    • 系統(tǒng)消息
    • 評論與回復(fù)
    登錄后你可以
    • 下載海量資料
    • 學(xué)習(xí)在線課程
    • 觀看技術(shù)視頻
    • 寫文章/發(fā)帖/加入社區(qū)
    會員中心
    創(chuàng)作中心

    完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

    3天內(nèi)不再提示

    谷歌突然遭遇全球大面積故障 到底是哪里出了問題

    ss ? 來源:常言道 ? 作者:丁常彥 ? 2020-12-22 15:27 ? 次閱讀

    自動配額管理系統(tǒng)出現(xiàn)故障,屬于典型的運維問題。

    據(jù)彭博社報道,美國太平洋時間12月14日凌晨3點47分左右,谷歌突然遭遇全球大面積故障,導(dǎo)致旗下的YouTube、Gmail、Google Drive、Google Search等服務(wù)出現(xiàn)異常,用戶無法正常使用,全球多個國家及地區(qū)用戶均受到影響。直到當(dāng)?shù)貢r間早上8點左右,谷歌的大多數(shù)服務(wù)才恢復(fù)正常。

    這已經(jīng)是谷歌5個月內(nèi)第三次“掉鏈子”了。今年8月20日,谷歌旗下多項服務(wù)出現(xiàn)異常,涉及美國、印度、日本等多個地區(qū),官方搶修5小時后才恢復(fù)正常;今年9月25日,谷歌系統(tǒng)癱瘓多半集中在美國東岸Gmail、YouTube、Google云端在系統(tǒng)死機時,不斷有用戶持續(xù)嘗試進入,但都無法順利使用。

    到底是哪里出了問題?

    對于12月14日這次全球大面積癱瘓,谷歌的工程師們連夜奮戰(zhàn),反應(yīng)不可謂不迅速。但相比較危機之后的迅速反應(yīng),用戶更希望谷歌能夠提前做出預(yù)判,避免問題發(fā)生。

    12月15日,谷歌官方出具的一份調(diào)查報告顯示,導(dǎo)致宕機的原因是“internal storage quota issue”,即內(nèi)部存儲配額問題。具體來說就是:“我們的自動配額管理系統(tǒng)出現(xiàn)了問題,降低了谷歌中央身份管理系統(tǒng)的容量,導(dǎo)致其在全球范圍內(nèi)返回錯誤。因此,我們無法驗證用戶請求是否經(jīng)過認(rèn)證,并向用戶提供錯誤?!?/p>

    自動配額管理?這概念根本不理解啊,小編趕緊去咨詢了華為存儲的專家,經(jīng)過專家解釋,小編終于明白了。原來數(shù)據(jù)要寫入到存儲中,需要將數(shù)據(jù)存放在一個池中,每個要存進來的數(shù)據(jù)都要在對應(yīng)的空間內(nèi)存放,業(yè)務(wù)能寫多少數(shù)據(jù)到池中,則需要“配額”來管理。

    這就類似于倉庫管理一樣,貨物來了要想入庫,必須先讓倉庫管理員給指定位置。而自動配額管理出了問題,就相當(dāng)于來了一卡車貨,倉庫管理員只給了幾平米的空間,倉庫管理員又沒有及時調(diào)整地方,貨物根本無法入庫,不報錯才怪。

    華為存儲的專家認(rèn)為,自動配額管理系統(tǒng)出現(xiàn)故障,屬于典型的運維問題;配額的出發(fā)點是希望限制應(yīng)用對存儲資源的無節(jié)制使用,但凡事總有例外,如果有突發(fā)情況,自動配額管理系統(tǒng)不能及時調(diào)整配額或者給出了錯誤的配額,就會導(dǎo)致谷歌這樣的問題出現(xiàn)。

    搞清楚了問題根源,以后如何徹底避免類似問題出現(xiàn)呢?專家建議,運維工作不僅僅在存儲池即將寫滿的時候報警,如果能做到提前預(yù)測,在存儲池即將寫滿的幾個月之前就能發(fā)出預(yù)警,提前擴容來避免自動配額管理系統(tǒng)“罷工”。

    存儲的智能運維該怎么做?

    調(diào)查顯示,隨著全球數(shù)據(jù)規(guī)模的爆炸式增長,企業(yè)數(shù)據(jù)中心的故障中,與存儲設(shè)備有關(guān)的故障占到70%以上。尤其在新技術(shù)和新應(yīng)用層出不窮的今天,運維工作日趨復(fù)雜。傳統(tǒng)運維高度依賴人的經(jīng)驗,如何借助AI等技術(shù)的應(yīng)用,實現(xiàn)智能運維已經(jīng)成為行業(yè)發(fā)展的大勢所趨。

    谷歌自動配額管理系統(tǒng)出現(xiàn)問題無疑給智能運維提出了更高要求,企業(yè)必須選擇更先進的存儲容量預(yù)測和管理解決方案,以應(yīng)對在智能運維上可能遇到的風(fēng)險。為此,華為存儲也在逐步構(gòu)建起面向智能運維的AI能力,圍繞客戶關(guān)心的設(shè)備異常、容量預(yù)警等關(guān)鍵場景,逐步發(fā)布多個重量級AI特性,為客戶業(yè)務(wù)的正常運行保駕護航。

    DME(Data Management Engine,數(shù)據(jù)管理引擎DME)是華為數(shù)據(jù)基礎(chǔ)設(shè)施智能運維平臺,該平臺通過與存儲設(shè)備內(nèi)置的設(shè)備AI以及云端AI(eService)實現(xiàn)三層AI協(xié)同,并通過融合統(tǒng)一的管理界面、自動化的閉環(huán)機制以及開放的API、旨在使能數(shù)據(jù)存儲的“規(guī)劃、建設(shè)、運維、優(yōu)化”全生命周期場景的管理與運維自動化,幫助客戶簡化存儲管理,提升數(shù)據(jù)中心的運營效率。

    在容量預(yù)測方面,如果客戶能夠提前預(yù)知存儲設(shè)備或存儲池,甚至是更細粒度對象的容量變化趨勢,那么容量配額不足導(dǎo)致服務(wù)宕機的發(fā)生可能性則會大大降低。華為提供的云上+本地聯(lián)動運維能力,基于時序預(yù)測等關(guān)鍵技術(shù),能夠向客戶提供未來最長365天的容量趨勢預(yù)測,并能夠提前預(yù)警80%配額,提醒用戶提前擴容。

    在風(fēng)險盤預(yù)測方面,華為硬盤異常檢測模型服務(wù)依托華為自身在硬件領(lǐng)域的技術(shù)及經(jīng)驗積累,基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)等硬盤關(guān)鍵數(shù)據(jù)信息構(gòu)建機器學(xué)習(xí)模型,每日采集數(shù)據(jù)中心硬盤數(shù)據(jù)(硬盤ID、SN、硬盤非安全斷電次數(shù)、通電時長),從歷史數(shù)據(jù)中識別硬盤不同屬性的突變模式對當(dāng)前狀態(tài)進行預(yù)測。

    結(jié)合用戶反饋數(shù)據(jù),定期執(zhí)行模型自優(yōu)化,持續(xù)提升預(yù)測精度,可以為數(shù)據(jù)中心硬盤提供主動運維。截至目前,華為硬盤異常檢測模型服務(wù)已經(jīng)覆蓋200多家企業(yè)數(shù)據(jù)中心,可幫助客戶提前14天識別硬盤故障或風(fēng)險,其中查全率達80%,誤報率低于0.1%。

    在存儲性能異常預(yù)測管理方面,華為可以圍繞存儲性能相關(guān)問題提供全面分析處理方案。其中,基于時間序列預(yù)測等關(guān)鍵技術(shù)的性能預(yù)測特性以及基于閾值觸發(fā)的性能潮汐預(yù)警,能夠讓客戶預(yù)知設(shè)備關(guān)鍵性能指標(biāo)變化趨勢,如時延、IOPS、塊帶寬等,從而提早發(fā)現(xiàn)設(shè)備性能瓶頸點,輔助客戶盡早規(guī)避可能發(fā)生的異常。

    基于機器學(xué)習(xí)的關(guān)鍵性能KPI異常檢測及根因定界特性,無監(jiān)督自學(xué)習(xí)的異常檢測模型能夠?qū)崟r檢測設(shè)備時延是否異常,現(xiàn)網(wǎng)數(shù)據(jù)驗證,異常檢測準(zhǔn)確率近90%;存儲設(shè)備內(nèi)置基于多集成樹算法融合模型,外加皮爾遜相關(guān)性關(guān)聯(lián)分析算法,實現(xiàn)異常根因的定界分析,基于現(xiàn)網(wǎng)數(shù)據(jù)的驗證結(jié)果,根因定界Top3命中準(zhǔn)確率近83%,提升客戶發(fā)現(xiàn)性能問題、定位問題邊界的效率。

    未來,華為存儲將基于領(lǐng)先的三層AI架構(gòu),通過與客戶的聯(lián)合創(chuàng)新,逐步推動產(chǎn)業(yè)邁向數(shù)據(jù)基礎(chǔ)設(shè)施的“自動駕駛”時代,實現(xiàn)異常場景的快速自愈等L3級特性,不斷降低客戶運維門檻和運維成本,實時保障客戶業(yè)務(wù)不受干擾。

    數(shù)據(jù)基礎(chǔ)設(shè)施進入AIOps時代

    AIOps的概念最早出現(xiàn)在Gartner的報告上,即將人工智能應(yīng)用于運維領(lǐng)域,基于已有的運維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過機器學(xué)習(xí)的方式來進一步解決自動化運維沒辦法解決的問題。簡單地說,過去需要花費數(shù)個小時、數(shù)天甚至數(shù)周才能完成的故障診斷和修復(fù)工作,AIOps可能只需要花幾秒鐘,而且判斷更加精準(zhǔn)。

    Gartner相關(guān)報告預(yù)測,AIOps的全球部署率將從2017年的10%增加到2020年的50%。到了2022年,部署AIOps平臺的大型企業(yè)數(shù)量將2017年的不足5%,迅速提升到40%左右。如今,AIOps主要應(yīng)用于電信、互聯(lián)網(wǎng)、金融等多個涉及的IT運維領(lǐng)域,涉及網(wǎng)絡(luò)、存儲等多個層面。

    尤其在數(shù)據(jù)基礎(chǔ)設(shè)施層面,AIOps的應(yīng)用不僅可以提升其自動化運維、故障處理和數(shù)據(jù)管理等能力,還可以進一步推動數(shù)據(jù)基礎(chǔ)設(shè)施的智能管理,從而幫助存儲管理員從繁瑣、復(fù)雜的工作中解放出來。

    華為DME作為融合AIOps理念的產(chǎn)品,正在開啟數(shù)據(jù)基礎(chǔ)設(shè)施運維自動化時代。以某全國性商業(yè)銀行為例,該銀行基于華為DME數(shù)據(jù)管理引擎,在融合管理、業(yè)務(wù)變更以及統(tǒng)一運維等場景引入安全可控的自動化以及智能能力,顯著提升了運維效率及業(yè)務(wù)敏捷水平。

    其中,在業(yè)務(wù)變更方面,傳統(tǒng)方式下,銀行為了確保零失誤,往往采用堆人堆時間的方式,每一個具體任務(wù)都由運維工程師出具一個設(shè)計腳本,單任務(wù)腳本往往需要45分鐘,而通過華為DME的應(yīng)用,單任務(wù)腳本準(zhǔn)備時間從45分鐘降低到10分鐘。在變更執(zhí)行階段,通過自動化能力的引入,變更前預(yù)審時間從20分鐘直接減少到半分鐘;不僅如此,DME還能夠?qū)崿F(xiàn)所有任務(wù)的并發(fā)執(zhí)行,大大減少人力投入,變更任務(wù)越重,效率提升越明顯。

    而在性能分析方面,通過華為DME的引入,相較之前的逐段分析,通過端到端的拓?fù)涑尸F(xiàn)以及快速關(guān)聯(lián)分析,性能問題的定位時間從小時級銳減到分鐘級。

    從谷歌的此次全球宕機事件,我們可以看出,在數(shù)據(jù)基礎(chǔ)設(shè)施的運維層面,擁有強大的AIOps能力,才能在短時間內(nèi)完成故障診斷和自動修復(fù),對于保障業(yè)務(wù)連續(xù)性意義重大。正因為如此,華為也在通過DME與自身存儲產(chǎn)品的融合,致力于為企業(yè)實現(xiàn)AIOps提供軟硬搭配的全方位解決方案,為企業(yè)的數(shù)字化轉(zhuǎn)型提供有力支撐。

    責(zé)任編輯:xj

    聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
    • 谷歌
      +關(guān)注

      關(guān)注

      27

      文章

      6171

      瀏覽量

      105484
    • 智能化
      +關(guān)注

      關(guān)注

      15

      文章

      4897

      瀏覽量

      55449
    • 運維
      +關(guān)注

      關(guān)注

      1

      文章

      259

      瀏覽量

      7585
    收藏 人收藏

      評論

      相關(guān)推薦

      高溫大面積碳化硅外延生長裝置及處理方法

      碳化硅(SiC)作為一種具有優(yōu)異物理和化學(xué)性質(zhì)的半導(dǎo)體材料,在電力電子、航空航天、新能源汽車等領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。高質(zhì)量、大面積的SiC外延生長是實現(xiàn)高性能SiC器件制造的關(guān)鍵環(huán)節(jié)。然而
      的頭像 發(fā)表于 01-03 15:11 ?94次閱讀
      高溫<b class='flag-5'>大面積</b>碳化硅外延生長裝置及處理方法

      變頻器出現(xiàn)輸出突然消失故障原因及解決

      ? ? ? 變頻器作為現(xiàn)代工業(yè)自動化中不可或缺的重要設(shè)備,其在電機調(diào)速、節(jié)能降耗等方面發(fā)揮著關(guān)鍵作用。然而,在實際應(yīng)用中,變頻器偶爾會出現(xiàn)輸出突然消失的故障,這不僅影響生產(chǎn)線的正常運行,還可能對設(shè)備
      的頭像 發(fā)表于 01-03 07:38 ?24次閱讀

      AI作怪!監(jiān)管機構(gòu)預(yù)測北美最早明年出現(xiàn)大面積停電

      行業(yè)芯事行業(yè)資訊
      電子發(fā)燒友網(wǎng)官方
      發(fā)布于 :2024年12月19日 13:58:13

      破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1

      破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1 9月10日,全球服務(wù)機器人領(lǐng)導(dǎo)者普渡機器人發(fā)布了全新AI智能掃地機器人,PUDU MT1。PUDU MT1是全球首款面向大場
      的頭像 發(fā)表于 09-12 14:37 ?470次閱讀

      功放和運放到底是什么區(qū)別?

      想請問一下功放和運放到底是什么區(qū)別,感覺只要接一個小負(fù)載,運放的輸出電流也可以很大???到底有什么區(qū)別啊
      發(fā)表于 09-10 07:00

      運放的輸入電容到底是什么?

      我想請問一下運放的輸入電容到底是什么?
      發(fā)表于 09-04 06:52

      LMH6502的輸入電壓到底是多少?

      LMH6502的輸入電壓到底是多少,我稍微給如大一點點的信號,放大不行還能接受,我衰減都失真,
      發(fā)表于 08-27 07:02

      大面積燒結(jié)銀AS9387成為碳化硅功率器件封裝的首選

      大面積燒結(jié)銀AS9387成為碳化硅功率器件封裝的首選
      的頭像 發(fā)表于 08-09 18:15 ?740次閱讀
      <b class='flag-5'>大面積</b>燒結(jié)銀AS9387成為碳化硅功率器件封裝的首選

      日本旭化成氮化鋁基板技術(shù)突破:邁向更大面積與實用化

      全球半導(dǎo)體科技日新月異的大背景下,日本旭化成株式會社在功率半導(dǎo)體等應(yīng)用領(lǐng)域取得了令人矚目的技術(shù)突破。該公司近日宣布,其氮化鋁基板技術(shù)已實現(xiàn)了可使用面積的顯著擴大,這一進步為功率半導(dǎo)體的發(fā)展注入
      的頭像 發(fā)表于 06-15 16:48 ?734次閱讀

      共享單車到底是什么通信原理

      我們經(jīng)常騎的共享單車到底是什么通信原理,有人了解過嗎? 一、智能車鎖 共享單車最核心的硬件是智能車鎖,主要用于實現(xiàn)控制和定位功能。
      發(fā)表于 04-09 10:33 ?864次閱讀
      共享單車<b class='flag-5'>到底是</b>什么通信原理

      輸入捕獲實驗是如何判斷他溢出了呢?

      請問,在剛剛捕獲上升沿的時候,如果溢出了,在我圈的最后一行里會出現(xiàn)STA++,表示溢出了一次,可是,他到底是如何判斷他溢出了呢?上面只是寫了,捕獲到高電平后,如果,STA還能存放數(shù)據(jù),
      發(fā)表于 04-08 07:10

      共享單車到底是什么通信原理?

      我們經(jīng)常騎的共享單車到底是什么通信原理,有人了解過嗎?下面寶藍小編就帶大家了解下。
      的頭像 發(fā)表于 02-25 10:32 ?1427次閱讀
      共享單車<b class='flag-5'>到底是</b>什么通信原理?

      帶負(fù)荷調(diào)壓時變壓器跳閘故障診斷分析

      故障現(xiàn)象:在運行幾年后,帶負(fù)荷進行電壓調(diào)節(jié),在此過程中變壓器突然跳閘,導(dǎo)致大面積停電。
      的頭像 發(fā)表于 01-18 09:50 ?706次閱讀

      功放pcb大面積覆銅的好處有哪些呢?

      功放pcb大面積覆銅的好處有哪些呢? 功放(功率放大器)是一種用于放大電信號的電子設(shè)備,主要用于音頻系統(tǒng)、通信系統(tǒng)、測量儀器等領(lǐng)域。作為功放的關(guān)鍵組成部分之一,功放PCB的設(shè)計和制造對于整個功放
      的頭像 發(fā)表于 01-17 16:50 ?821次閱讀

      請問M487KMCAN的SRAM到底是128KB還是160K?

      M487KMCAN的SRAM到底是128 KB 還是160K
      發(fā)表于 01-16 07:18