0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云大面積宕機(jī),淘寶、餓了么等多產(chǎn)品“崩了”,機(jī)房運(yùn)行面臨四大挑戰(zhàn)

Felix分析 ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:吳子鵬 ? 2023-11-14 09:05 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)11月12日下午,就在雙十一大促的后一天,阿里云疑似發(fā)生大規(guī)模、大范圍故障,導(dǎo)致包括淘寶、閑魚(yú)、阿里云盤(pán)、釘釘在內(nèi)的阿里系產(chǎn)品全線崩潰。一時(shí)間,“阿里云盤(pán)崩了”“淘寶又崩了”“釘釘崩了”和“閑魚(yú)崩了”等多條相關(guān)詞條進(jìn)入微博熱搜榜。


12日晚8點(diǎn),阿里方面發(fā)布官方消息稱,19:20左右,經(jīng)工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤(pán)等APP已全面恢復(fù)。

根據(jù)群公告和官方信息,此次阿里云系統(tǒng)宕機(jī)的時(shí)間線為:
·17時(shí)44分起,阿里云產(chǎn)品控制臺(tái)訪問(wèn)及API調(diào)用出現(xiàn)使用異常,阿里云工程師開(kāi)始緊急介入排查;
·17時(shí)50分,阿里云已確認(rèn)故障原因與某個(gè)底層服務(wù)組件有關(guān),工程師緊急處理中;
·18時(shí)54分,經(jīng)過(guò)阿里工程師處理,杭州、北京等地域控制臺(tái)已恢復(fù),其他地域控制臺(tái)服務(wù)逐步恢復(fù)中;
·19時(shí)20分,阿里工程師通過(guò)分批重啟組件服務(wù),絕大部分地域控制臺(tái)服務(wù)已恢復(fù)訪問(wèn);
·19時(shí)43分,異常管控服務(wù)組件均已完成重啟,除個(gè)別云產(chǎn)品(如消息隊(duì)列MQ、消息服務(wù)MNS)仍需處理,其余云產(chǎn)品控制臺(tái)及API服務(wù)已恢復(fù);
·20時(shí)12分,北京、杭州等地域消息隊(duì)列MQ已完成重啟,其余地域逐步恢復(fù)中;
·21時(shí)11分,受影響云產(chǎn)品均已恢復(fù),因故障影響部分云產(chǎn)品的數(shù)據(jù)(如監(jiān)控、賬單等)可能存在延遲推送情況,不影響業(yè)務(wù)運(yùn)行。

此次宕機(jī)波及甚廣

上面的詞條可能有細(xì)心的網(wǎng)友已經(jīng)發(fā)現(xiàn),“淘寶又崩了”這個(gè)詞條多了一個(gè)又字。近兩年,幾乎每年都有“淘寶崩了”進(jìn)入微博熱搜榜。

2021年10月20日晚間,由于雙十一改成了“八點(diǎn)檔”而不再是零點(diǎn)開(kāi)售,所以很多人開(kāi)始在此時(shí)蹲守,準(zhǔn)備“褥羊毛”,或者趁著便宜買自己需要的東西。然而,預(yù)售剛開(kāi)始就有網(wǎng)友反饋給客服發(fā)消息發(fā)不出去。原因就是服務(wù)器系統(tǒng)受不了如此巨大的訪問(wèn)量,崩潰了。隨后,淘寶官方賬號(hào)在當(dāng)天20時(shí)43分的時(shí)候回復(fù)稱,原來(lái)不熬夜的你們這么猛嗎?

2022年7月12日晚間,“淘寶崩了”再次上熱搜,據(jù)多名網(wǎng)友反映,他們?cè)谫?gòu)買商品時(shí)突然遇到了卡頓的情況。針對(duì)這一次的情況,淘寶官方賬號(hào)表示:平臺(tái)正常。

當(dāng)然,阿里云也不是第一次發(fā)生規(guī)模性故障了。2022年12月,阿里云香港地域發(fā)生長(zhǎng)時(shí)間持續(xù)性故障,服務(wù)中斷一度超過(guò)12小時(shí),這是阿里云運(yùn)營(yíng)十多年來(lái)持續(xù)時(shí)間最長(zhǎng)的一次大規(guī)模故障。2022年12月25日,阿里云在官方微信發(fā)布《關(guān)于阿里云香港Region可用區(qū)C服務(wù)中斷事件的說(shuō)明 》。其中提到,12月18日,由于香港Region可用區(qū)C機(jī)房冷卻系統(tǒng)失效,包間溫度逐漸升高,導(dǎo)致一機(jī)房包間溫度達(dá)到臨界值觸發(fā)消防系統(tǒng)噴淋,電源柜和多列機(jī)柜進(jìn)水,部分機(jī)器硬件損壞。整個(gè)處置過(guò)程超過(guò)10小時(shí)。

雖然這一次阿里云的故障處置沒(méi)有香港那么久,不過(guò)從上面的時(shí)間線也能夠看出,基本上也是花費(fèi)了一個(gè)半小時(shí)才做到絕大部分地域的正常訪問(wèn)。并且,此次系統(tǒng)宕機(jī)的影響范圍遠(yuǎn)超上一次阿里云香港地域故障。

阿里云公告顯示,國(guó)內(nèi)包括華北2 (北京)、華北6 (烏蘭察布)、華南1(深圳)、中國(guó)香港、華東1(杭州)等節(jié)點(diǎn)受到影響;國(guó)際市場(chǎng)包括英國(guó)(倫敦)、韓國(guó)(首爾)、日本(東京)、阿聯(lián)酋(迪拜)、美國(guó) (弗吉尼亞)、菲律賓 (馬尼拉)、新加坡等節(jié)點(diǎn)受到影響。

阿里云公告顯示,受影響的主要產(chǎn)品包括OSS、OTS、SLS、MNS等產(chǎn)品,大部分產(chǎn)品如ECS、RDS、網(wǎng)絡(luò)等運(yùn)營(yíng)正常。這些受影響的產(chǎn)品包括企業(yè)級(jí)分布式應(yīng)用服務(wù)、云原生大數(shù)據(jù)計(jì)算服務(wù)MaxCompute、云存儲(chǔ)網(wǎng)關(guān)、塊存儲(chǔ)、混合云備份服務(wù)、云原生內(nèi)存數(shù)據(jù)庫(kù)Tair、運(yùn)維安全中心(堡壘機(jī))、數(shù)據(jù)庫(kù)備份、物聯(lián)網(wǎng)平臺(tái)、超級(jí)計(jì)算集群、彈性裸金屬服務(wù)器、云服務(wù)器ECS、云呼叫中心、交通云控平臺(tái)、客服工作臺(tái)、視覺(jué)智能開(kāi)放平臺(tái)、運(yùn)維事件中心和新零售智能助理等。

2022年12月,當(dāng)阿里云香港地域節(jié)點(diǎn)發(fā)生故障時(shí),有消息人士稱,阿里云將此次故障定義為“p0級(jí)事故”。隨后不久,時(shí)任阿里巴巴集團(tuán)董事會(huì)主席兼CEO張勇發(fā)出全員郵件稱,自己將兼任阿里云智能總裁,取代原總裁張建鋒。

如今,最新的故障雖然時(shí)間沒(méi)有那么長(zhǎng),但是波及面實(shí)在是太大了,不知道阿里云是否會(huì)繼續(xù)自己的鐵血管理風(fēng)格。

機(jī)房運(yùn)轉(zhuǎn)的四大挑戰(zhàn)

我們都知道,云計(jì)算是互聯(lián)網(wǎng)的核心支撐技術(shù)之一。根據(jù)Gartner相關(guān)統(tǒng)計(jì)數(shù)據(jù),2022年以IaaS、PaaS、SaaS 為代表的全球云計(jì)算市場(chǎng)規(guī)模為 4910億美元,同比增長(zhǎng)19%,雖然增速有所降低,不過(guò)市場(chǎng)需求依然強(qiáng)勁。這表明,雖然有經(jīng)濟(jì)下行和通脹的壓力存在,云計(jì)算依然是未來(lái)的重要發(fā)展趨勢(shì)和實(shí)現(xiàn)新科技的重要手段,預(yù)計(jì)全球云計(jì)算市場(chǎng)規(guī)模會(huì)在2026年突破萬(wàn)億美元級(jí)別。

在市場(chǎng)份額方面,IDC的數(shù)據(jù)顯示,在公有云IaaS市場(chǎng),2022年全球前四名云廠商依次為亞馬遜、微軟、谷歌和阿里云,其中阿里云的市場(chǎng)份額為5.2%。當(dāng)然,如果僅統(tǒng)計(jì)中國(guó)企業(yè)或MNC使用國(guó)內(nèi)公有云資源的業(yè)務(wù),阿里云是當(dāng)之無(wú)愧的市場(chǎng)第一,2022年上半年的占比高達(dá)37.2%。

這些大的云計(jì)算企業(yè)基本每年都會(huì)規(guī)模性故障,比如2022年7月,因遭遇極端高溫天氣,甲骨文和谷歌在倫敦的數(shù)據(jù)中心也曾因冷卻系統(tǒng)出現(xiàn)問(wèn)題而發(fā)生運(yùn)行故障,導(dǎo)致部分網(wǎng)站癱瘓。

綜合而言,作為云計(jì)算的硬件底層,機(jī)房主要會(huì)遇到四大方面的挑戰(zhàn),分別來(lái)自環(huán)境、電力、硬件和軟件。

機(jī)房會(huì)遇到的環(huán)境挑戰(zhàn)非常多,首當(dāng)其沖就是高溫,上述甲骨文和谷歌的機(jī)房故障就是因?yàn)楦邷?,一旦溫度?fù)荷超過(guò)降溫系統(tǒng)的極限,宕機(jī)是不可避免的。除了高溫之外,濕度過(guò)高、震動(dòng)、灰塵和自然災(zāi)害等,都會(huì)對(duì)機(jī)房的運(yùn)行造成很大的干擾。

機(jī)房的電力問(wèn)題有時(shí)來(lái)自外部,有時(shí)則是內(nèi)部。外部原因主要是供電系統(tǒng)突發(fā)故障,非預(yù)期性斷電是最常見(jiàn)的故障;內(nèi)部原因則主要是初期規(guī)劃問(wèn)題,有時(shí)候可能是對(duì)于服務(wù)器更新?lián)Q代帶來(lái)的用電增長(zhǎng)估計(jì)不足,有時(shí)候可能是成本壓力沒(méi)有備用設(shè)備。

第三個(gè)挑戰(zhàn)是硬件本身的問(wèn)題,機(jī)房的主要硬件設(shè)備包括服務(wù)器、交換機(jī)、路由器、硬件網(wǎng)關(guān)、硬件防火墻、交/直流電源、冷卻系統(tǒng)和監(jiān)控系統(tǒng)。這是一套配合非常緊密的硬件系統(tǒng),某一類設(shè)備故障和設(shè)備老化都有可能造成機(jī)架大面積癱瘓。

最后一個(gè)挑戰(zhàn)則來(lái)自軟件。在服務(wù)領(lǐng)域,軟件負(fù)責(zé)整個(gè)系統(tǒng)的監(jiān)管、調(diào)度,同時(shí)軟件還能夠提升服務(wù)器集群的性能、安全性和可擴(kuò)展性,當(dāng)然服務(wù)器上的軟件本身也是一種服務(wù)。軟件端造成沖擊最常見(jiàn)的兩種方式是數(shù)據(jù)訪問(wèn)量短時(shí)間劇增,以及軟件升級(jí)和更新。

此次阿里云的故障來(lái)自產(chǎn)品控制臺(tái)訪問(wèn)及API調(diào)用,實(shí)際上就是軟件系統(tǒng)出了問(wèn)題。對(duì)于這類問(wèn)題,系統(tǒng)重啟是最直接有效的方式,不過(guò)過(guò)程中需要對(duì)數(shù)據(jù)進(jìn)行留存和保護(hù)。

小結(jié)

大數(shù)據(jù)時(shí)代一個(gè)重要的特征是越來(lái)越多的數(shù)據(jù)及相關(guān)服務(wù)匯集在科技巨頭的設(shè)備上,一旦發(fā)生故障就會(huì)產(chǎn)生很大的波及范圍,也就會(huì)引起廣泛的關(guān)注。雖然大家都知道故障來(lái)自哪些方面,不過(guò)由于設(shè)備更新?lián)Q代和系統(tǒng)升級(jí)的節(jié)奏太快,很多問(wèn)題是很難具體化的,在爆發(fā)之前它們都是未知的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    956

    瀏覽量

    43036
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    阿里代理有哪些?

    阿里作為全球領(lǐng)先的計(jì)算服務(wù)商,提供多種級(jí)別的代理商合作伙伴,以便更好地服務(wù)企業(yè)客戶。不同級(jí)別的阿里代理商在服務(wù)、技術(shù)支持和返傭方面有顯
    的頭像 發(fā)表于 12-06 15:44 ?163次閱讀

    阿里財(cái)報(bào)亮點(diǎn):連續(xù)季度增速上揚(yáng),利潤(rùn)猛增89%

    %的環(huán)比增長(zhǎng),這也是阿里連續(xù)第個(gè)季度在增速上實(shí)現(xiàn)上漲,展現(xiàn)強(qiáng)勁的發(fā)展勢(shì)頭。 在利潤(rùn)方面,阿里
    的頭像 發(fā)表于 11-18 15:05 ?409次閱讀

    無(wú)線終端ZWS應(yīng)用()-ZigBee網(wǎng)關(guān)&智慧工廠行業(yè)應(yīng)用

    導(dǎo)讀傳統(tǒng)制造廠面臨著實(shí)現(xiàn)多種不同協(xié)議以及設(shè)備互聯(lián)的挑戰(zhàn),如何有效連接和管理在各個(gè)工業(yè)現(xiàn)場(chǎng)的設(shè)備?本文介紹基于致遠(yuǎn)電子ZigBee網(wǎng)關(guān)和ZWS物聯(lián)網(wǎng)的智慧工廠應(yīng)用。中央空調(diào)、電力配電箱、大型儀器儀表
    的頭像 發(fā)表于 11-08 01:05 ?220次閱讀
    無(wú)線終端ZWS<b class='flag-5'>云</b>應(yīng)用(<b class='flag-5'>四</b>)-ZigBee網(wǎng)關(guān)&amp;amp;<b class='flag-5'>云</b>智慧工廠行業(yè)應(yīng)用

    英特爾和阿里開(kāi)發(fā)DDR5內(nèi)存故障預(yù)測(cè)和預(yù)防解決方案

    阿里數(shù)據(jù)中心,內(nèi)存故障是服務(wù)器穩(wěn)定運(yùn)行面臨的主要挑戰(zhàn)之一。大規(guī)模數(shù)據(jù)中心中的內(nèi)存故障,不僅會(huì)降低服務(wù)器的可靠性,還可能中斷數(shù)據(jù)中心的服務(wù)
    的頭像 發(fā)表于 10-12 10:34 ?774次閱讀
    英特爾和<b class='flag-5'>阿里</b><b class='flag-5'>云</b>開(kāi)發(fā)DDR5內(nèi)存故障預(yù)測(cè)和預(yù)防解決方案

    破解大面積場(chǎng)景清潔難題,普渡推出AI智能掃地機(jī)器人PUDU MT1

    破解大面積場(chǎng)景清潔難題,普渡推出AI智能掃地機(jī)器人PUDU MT1 9月10日,全球服務(wù)機(jī)器人領(lǐng)導(dǎo)者普渡機(jī)器人發(fā)布全新AI智能掃地機(jī)器人,PUDU MT1。PUDU MT1是全球首款面向大場(chǎng)
    的頭像 發(fā)表于 09-12 14:37 ?454次閱讀

    大面積燒結(jié)銀AS9387成為碳化硅功率器件封裝的首選

    大面積燒結(jié)銀AS9387成為碳化硅功率器件封裝的首選
    的頭像 發(fā)表于 08-09 18:15 ?729次閱讀
    <b class='flag-5'>大面積</b>燒結(jié)銀AS9387成為碳化硅功率器件封裝的首選

    阿里設(shè)備的物模型數(shù)據(jù)里面始終沒(méi)有值是為什么?

    如上圖,不知道講清楚沒(méi)有。 IG502自定義TOPIC 上發(fā)到阿里沒(méi)問(wèn)題。采用阿里物模型的格式來(lái)上發(fā)就不行。請(qǐng)大佬指教!
    發(fā)表于 07-24 07:49

    ESP32S3連接阿里物聯(lián)網(wǎng)平臺(tái)LinkSDK報(bào)錯(cuò)怎么解決?

    背景:參考阿里官方文檔:樂(lè)鑫ESP32開(kāi)發(fā)板移植(https://help.aliyun.com/document_detail ... 82038.0.i3)進(jìn)行 SDK 移植操作。 環(huán)境
    發(fā)表于 06-28 11:30

    日本旭化成氮化鋁基板技術(shù)突破:邁向更大面積與實(shí)用化

    在全球半導(dǎo)體科技日新月異的大背景下,日本旭化成株式會(huì)社在功率半導(dǎo)體應(yīng)用領(lǐng)域取得了令人矚目的技術(shù)突破。該公司近日宣布,其氮化鋁基板技術(shù)已實(shí)現(xiàn)可使用面積的顯著擴(kuò)大,這一進(jìn)步為功率半導(dǎo)體的發(fā)展注入
    的頭像 發(fā)表于 06-15 16:48 ?720次閱讀

    阿里全面降價(jià),釋放了什么信號(hào)?

    元宵節(jié)剛過(guò),阿里就放了一個(gè)大招——今天(2月29日)上午,阿里發(fā)布通告,宣布全線下調(diào)產(chǎn)品
    的頭像 發(fā)表于 04-16 08:05 ?145次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>全面降價(jià),釋放了什么信號(hào)?

    洲明科技攜COB尖端產(chǎn)品、隧道照明創(chuàng)新成果亮相“3號(hào)館L310”

    展位現(xiàn)場(chǎng)還原“高速監(jiān)控中心”應(yīng)用場(chǎng)景,洲明設(shè)置大面積的戶內(nèi)高端產(chǎn)品——星鉆系列UMiniIII 0.9作為中心顯示終端,產(chǎn)品依托光顯場(chǎng)
    的頭像 發(fā)表于 03-29 10:04 ?442次閱讀
    洲明科技攜COB尖端<b class='flag-5'>產(chǎn)品</b>、隧道照明<b class='flag-5'>等</b>創(chuàng)新成果亮相“3號(hào)館L310”

    阿里為什么能降價(jià)?釋放了什么信號(hào)?

    今天(2月29日)上午,阿里發(fā)布通告,宣布全線下調(diào)產(chǎn)品官網(wǎng)售價(jià)。這次降價(jià)涉及計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)在內(nèi)的100多款
    的頭像 發(fā)表于 02-29 17:37 ?1105次閱讀

    大幅增持阿里股票 馬取代軟銀成為阿里巴巴最大股東

    大幅增持阿里股票 馬取代軟銀成為阿里巴巴最大股東 有媒體報(bào)道,阿里巴巴創(chuàng)始人馬、蔡崇信近
    的頭像 發(fā)表于 01-24 18:55 ?1088次閱讀

    帶負(fù)荷調(diào)壓時(shí)變壓器跳閘故障診斷分析

    故障現(xiàn)象:在運(yùn)行幾年后,帶負(fù)荷進(jìn)行電壓調(diào)節(jié),在此過(guò)程中變壓器突然跳閘,導(dǎo)致大面積停電。
    的頭像 發(fā)表于 01-18 09:50 ?696次閱讀

    功放pcb大面積覆銅的好處有哪些呢?

    功放pcb大面積覆銅的好處有哪些呢? 功放(功率放大器)是一種用于放大電信號(hào)的電子設(shè)備,主要用于音頻系統(tǒng)、通信系統(tǒng)、測(cè)量?jī)x器領(lǐng)域。作為功放的關(guān)鍵組成部分之一,功放PCB的設(shè)計(jì)和制造對(duì)于整個(gè)功放
    的頭像 發(fā)表于 01-17 16:50 ?806次閱讀