電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)11月12日下午,就在雙十一大促的后一天,阿里云疑似發(fā)生大規(guī)模、大范圍故障,導(dǎo)致包括淘寶、閑魚(yú)、阿里云盤(pán)、釘釘在內(nèi)的阿里系產(chǎn)品全線崩潰。一時(shí)間,“阿里云盤(pán)崩了”“淘寶又崩了”“釘釘崩了”和“閑魚(yú)崩了”等多條相關(guān)詞條進(jìn)入微博熱搜榜。
12日晚8點(diǎn),阿里方面發(fā)布官方消息稱,19:20左右,經(jīng)工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤(pán)等APP已全面恢復(fù)。
根據(jù)群公告和官方信息,此次阿里云系統(tǒng)宕機(jī)的時(shí)間線為:
·17時(shí)44分起,阿里云產(chǎn)品控制臺(tái)訪問(wèn)及API調(diào)用出現(xiàn)使用異常,阿里云工程師開(kāi)始緊急介入排查;
·17時(shí)50分,阿里云已確認(rèn)故障原因與某個(gè)底層服務(wù)組件有關(guān),工程師緊急處理中;
·18時(shí)54分,經(jīng)過(guò)阿里工程師處理,杭州、北京等地域控制臺(tái)已恢復(fù),其他地域控制臺(tái)服務(wù)逐步恢復(fù)中;
·19時(shí)20分,阿里工程師通過(guò)分批重啟組件服務(wù),絕大部分地域控制臺(tái)服務(wù)已恢復(fù)訪問(wèn);
·19時(shí)43分,異常管控服務(wù)組件均已完成重啟,除個(gè)別云產(chǎn)品(如消息隊(duì)列MQ、消息服務(wù)MNS)仍需處理,其余云產(chǎn)品控制臺(tái)及API服務(wù)已恢復(fù);
·20時(shí)12分,北京、杭州等地域消息隊(duì)列MQ已完成重啟,其余地域逐步恢復(fù)中;
·21時(shí)11分,受影響云產(chǎn)品均已恢復(fù),因故障影響部分云產(chǎn)品的數(shù)據(jù)(如監(jiān)控、賬單等)可能存在延遲推送情況,不影響業(yè)務(wù)運(yùn)行。
此次宕機(jī)波及甚廣
上面的詞條可能有細(xì)心的網(wǎng)友已經(jīng)發(fā)現(xiàn),“淘寶又崩了”這個(gè)詞條多了一個(gè)又字。近兩年,幾乎每年都有“淘寶崩了”進(jìn)入微博熱搜榜。
2021年10月20日晚間,由于雙十一改成了“八點(diǎn)檔”而不再是零點(diǎn)開(kāi)售,所以很多人開(kāi)始在此時(shí)蹲守,準(zhǔn)備“褥羊毛”,或者趁著便宜買自己需要的東西。然而,預(yù)售剛開(kāi)始就有網(wǎng)友反饋給客服發(fā)消息發(fā)不出去。原因就是服務(wù)器系統(tǒng)受不了如此巨大的訪問(wèn)量,崩潰了。隨后,淘寶官方賬號(hào)在當(dāng)天20時(shí)43分的時(shí)候回復(fù)稱,原來(lái)不熬夜的你們這么猛嗎?
2022年7月12日晚間,“淘寶崩了”再次上熱搜,據(jù)多名網(wǎng)友反映,他們?cè)谫?gòu)買商品時(shí)突然遇到了卡頓的情況。針對(duì)這一次的情況,淘寶官方賬號(hào)表示:平臺(tái)正常。
當(dāng)然,阿里云也不是第一次發(fā)生規(guī)模性故障了。2022年12月,阿里云香港地域發(fā)生長(zhǎng)時(shí)間持續(xù)性故障,服務(wù)中斷一度超過(guò)12小時(shí),這是阿里云運(yùn)營(yíng)十多年來(lái)持續(xù)時(shí)間最長(zhǎng)的一次大規(guī)模故障。2022年12月25日,阿里云在官方微信發(fā)布《關(guān)于阿里云香港Region可用區(qū)C服務(wù)中斷事件的說(shuō)明 》。其中提到,12月18日,由于香港Region可用區(qū)C機(jī)房冷卻系統(tǒng)失效,包間溫度逐漸升高,導(dǎo)致一機(jī)房包間溫度達(dá)到臨界值觸發(fā)消防系統(tǒng)噴淋,電源柜和多列機(jī)柜進(jìn)水,部分機(jī)器硬件損壞。整個(gè)處置過(guò)程超過(guò)10小時(shí)。
雖然這一次阿里云的故障處置沒(méi)有香港那么久,不過(guò)從上面的時(shí)間線也能夠看出,基本上也是花費(fèi)了一個(gè)半小時(shí)才做到絕大部分地域的正常訪問(wèn)。并且,此次系統(tǒng)宕機(jī)的影響范圍遠(yuǎn)超上一次阿里云香港地域故障。
阿里云公告顯示,國(guó)內(nèi)包括華北2 (北京)、華北6 (烏蘭察布)、華南1(深圳)、中國(guó)香港、華東1(杭州)等節(jié)點(diǎn)受到影響;國(guó)際市場(chǎng)包括英國(guó)(倫敦)、韓國(guó)(首爾)、日本(東京)、阿聯(lián)酋(迪拜)、美國(guó) (弗吉尼亞)、菲律賓 (馬尼拉)、新加坡等節(jié)點(diǎn)受到影響。
阿里云公告顯示,受影響的主要產(chǎn)品包括OSS、OTS、SLS、MNS等產(chǎn)品,大部分產(chǎn)品如ECS、RDS、網(wǎng)絡(luò)等運(yùn)營(yíng)正常。這些受影響的產(chǎn)品包括企業(yè)級(jí)分布式應(yīng)用服務(wù)、云原生大數(shù)據(jù)計(jì)算服務(wù)MaxCompute、云存儲(chǔ)網(wǎng)關(guān)、塊存儲(chǔ)、混合云備份服務(wù)、云原生內(nèi)存數(shù)據(jù)庫(kù)Tair、運(yùn)維安全中心(堡壘機(jī))、數(shù)據(jù)庫(kù)備份、物聯(lián)網(wǎng)平臺(tái)、超級(jí)計(jì)算集群、彈性裸金屬服務(wù)器、云服務(wù)器ECS、云呼叫中心、交通云控平臺(tái)、客服工作臺(tái)、視覺(jué)智能開(kāi)放平臺(tái)、運(yùn)維事件中心和新零售智能助理等。
2022年12月,當(dāng)阿里云香港地域節(jié)點(diǎn)發(fā)生故障時(shí),有消息人士稱,阿里云將此次故障定義為“p0級(jí)事故”。隨后不久,時(shí)任阿里巴巴集團(tuán)董事會(huì)主席兼CEO張勇發(fā)出全員郵件稱,自己將兼任阿里云智能總裁,取代原總裁張建鋒。
如今,最新的故障雖然時(shí)間沒(méi)有那么長(zhǎng),但是波及面實(shí)在是太大了,不知道阿里云是否會(huì)繼續(xù)自己的鐵血管理風(fēng)格。
機(jī)房運(yùn)轉(zhuǎn)的四大挑戰(zhàn)
我們都知道,云計(jì)算是互聯(lián)網(wǎng)的核心支撐技術(shù)之一。根據(jù)Gartner相關(guān)統(tǒng)計(jì)數(shù)據(jù),2022年以IaaS、PaaS、SaaS 為代表的全球云計(jì)算市場(chǎng)規(guī)模為 4910億美元,同比增長(zhǎng)19%,雖然增速有所降低,不過(guò)市場(chǎng)需求依然強(qiáng)勁。這表明,雖然有經(jīng)濟(jì)下行和通脹的壓力存在,云計(jì)算依然是未來(lái)的重要發(fā)展趨勢(shì)和實(shí)現(xiàn)新科技的重要手段,預(yù)計(jì)全球云計(jì)算市場(chǎng)規(guī)模會(huì)在2026年突破萬(wàn)億美元級(jí)別。
在市場(chǎng)份額方面,IDC的數(shù)據(jù)顯示,在公有云IaaS市場(chǎng),2022年全球前四名云廠商依次為亞馬遜、微軟、谷歌和阿里云,其中阿里云的市場(chǎng)份額為5.2%。當(dāng)然,如果僅統(tǒng)計(jì)中國(guó)企業(yè)或MNC使用國(guó)內(nèi)公有云資源的業(yè)務(wù),阿里云是當(dāng)之無(wú)愧的市場(chǎng)第一,2022年上半年的占比高達(dá)37.2%。
這些大的云計(jì)算企業(yè)基本每年都會(huì)規(guī)模性故障,比如2022年7月,因遭遇極端高溫天氣,甲骨文和谷歌在倫敦的數(shù)據(jù)中心也曾因冷卻系統(tǒng)出現(xiàn)問(wèn)題而發(fā)生運(yùn)行故障,導(dǎo)致部分網(wǎng)站癱瘓。
綜合而言,作為云計(jì)算的硬件底層,機(jī)房主要會(huì)遇到四大方面的挑戰(zhàn),分別來(lái)自環(huán)境、電力、硬件和軟件。
機(jī)房會(huì)遇到的環(huán)境挑戰(zhàn)非常多,首當(dāng)其沖就是高溫,上述甲骨文和谷歌的機(jī)房故障就是因?yàn)楦邷?,一旦溫度?fù)荷超過(guò)降溫系統(tǒng)的極限,宕機(jī)是不可避免的。除了高溫之外,濕度過(guò)高、震動(dòng)、灰塵和自然災(zāi)害等,都會(huì)對(duì)機(jī)房的運(yùn)行造成很大的干擾。
機(jī)房的電力問(wèn)題有時(shí)來(lái)自外部,有時(shí)則是內(nèi)部。外部原因主要是供電系統(tǒng)突發(fā)故障,非預(yù)期性斷電是最常見(jiàn)的故障;內(nèi)部原因則主要是初期規(guī)劃問(wèn)題,有時(shí)候可能是對(duì)于服務(wù)器更新?lián)Q代帶來(lái)的用電增長(zhǎng)估計(jì)不足,有時(shí)候可能是成本壓力沒(méi)有備用設(shè)備。
第三個(gè)挑戰(zhàn)是硬件本身的問(wèn)題,機(jī)房的主要硬件設(shè)備包括服務(wù)器、交換機(jī)、路由器、硬件網(wǎng)關(guān)、硬件防火墻、交/直流電源、冷卻系統(tǒng)和監(jiān)控系統(tǒng)。這是一套配合非常緊密的硬件系統(tǒng),某一類設(shè)備故障和設(shè)備老化都有可能造成機(jī)架大面積癱瘓。
最后一個(gè)挑戰(zhàn)則來(lái)自軟件。在服務(wù)領(lǐng)域,軟件負(fù)責(zé)整個(gè)系統(tǒng)的監(jiān)管、調(diào)度,同時(shí)軟件還能夠提升服務(wù)器集群的性能、安全性和可擴(kuò)展性,當(dāng)然服務(wù)器上的軟件本身也是一種服務(wù)。軟件端造成沖擊最常見(jiàn)的兩種方式是數(shù)據(jù)訪問(wèn)量短時(shí)間劇增,以及軟件升級(jí)和更新。
此次阿里云的故障來(lái)自產(chǎn)品控制臺(tái)訪問(wèn)及API調(diào)用,實(shí)際上就是軟件系統(tǒng)出了問(wèn)題。對(duì)于這類問(wèn)題,系統(tǒng)重啟是最直接有效的方式,不過(guò)過(guò)程中需要對(duì)數(shù)據(jù)進(jìn)行留存和保護(hù)。
小結(jié)
大數(shù)據(jù)時(shí)代一個(gè)重要的特征是越來(lái)越多的數(shù)據(jù)及相關(guān)服務(wù)匯集在科技巨頭的設(shè)備上,一旦發(fā)生故障就會(huì)產(chǎn)生很大的波及范圍,也就會(huì)引起廣泛的關(guān)注。雖然大家都知道故障來(lái)自哪些方面,不過(guò)由于設(shè)備更新?lián)Q代和系統(tǒng)升級(jí)的節(jié)奏太快,很多問(wèn)題是很難具體化的,在爆發(fā)之前它們都是未知的。
-
阿里云
+關(guān)注
關(guān)注
3文章
956瀏覽量
43036
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論