12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機(jī),旗下用戶大受影響。據(jù)悉,谷歌公司的自動系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報任何服務(wù)都沒有出現(xiàn)問題,包括消費(fèi)者服務(wù)和面向開發(fā)者的云服務(wù)。
12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機(jī),旗下用戶大受影響。
綜合多家媒體報導(dǎo),監(jiān)察故障的網(wǎng)站“Downdetector”顯示了超過9000個報告YouTube出現(xiàn)問題的用戶報告。當(dāng)用戶嘗試登錄YouTube時,會出現(xiàn)一只猴子,并看到“出了點問題”的字句。
除了YouTube,谷歌旗下Gmail郵箱,Google日歷、Google Drive、Google Search等服務(wù)也都受到影響,但大部分搜索引擎業(yè)務(wù)仍然完好,影響波及美國、歐洲、印度、加拿大、南非、中南美洲國家、澳大利亞和其他一些國家的用戶。
據(jù)英國《衛(wèi)報》當(dāng)天報道,Google服務(wù)的大面積癱瘓大約從格林尼治標(biāo)準(zhǔn)時間(GMT)12月14日上午11時50分開始(北京時間19時50分),影響了公司旗下絕大多數(shù)的服務(wù)。而谷歌公司的自動系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報任何服務(wù)都沒有出現(xiàn)問題,包括消費(fèi)者服務(wù)和面向開發(fā)者的云服務(wù)。12時25分,谷歌才終于發(fā)現(xiàn)了問題。
隨后,Google Cloud在推特上回應(yīng):宕機(jī)是由于硬盤滿了。
谷歌宕機(jī),由來已久
據(jù)谷歌官方聲明,本次事故原因是由于服務(wù)器上的硬盤空間分配出了問題,導(dǎo)致認(rèn)證系統(tǒng)出了故障。其實,早前就有消息傳出,谷歌云端運(yùn)算服務(wù)容量存在問題。前段時間,谷歌宣布明年停止免費(fèi)照片上傳容量, 并鼓勵訂閱Google One也能說明這一點。
時至今日,谷歌終于還是栽了。
其實,這已經(jīng)是谷歌今年第3次宕機(jī)事件了。9月25日,谷歌就曾上演過一次全球宕機(jī),當(dāng)時谷歌系統(tǒng)癱瘓多半集中在美國東岸,Gmail、YouTube、谷歌云端在系統(tǒng)宕機(jī)時,不斷有用戶持續(xù)嘗試進(jìn)入,但都無法順利使用。
再往前,美東時間6月2號,基于谷歌云架構(gòu)服務(wù)的諸多谷歌服務(wù)也在全球范圍內(nèi)遭遇大規(guī)模中斷,宕機(jī)近4小時。據(jù)悉,不僅是Snapchat、Vimeo、Shopify、Pokemon GO等外部服務(wù),包括如YouTube、Gmail、Google Search等谷歌自家服務(wù)的運(yùn)行也受到了影響。
美國東海岸用戶率先報告了這個問題,同時,宕機(jī)監(jiān)控器DownDetector的報告表明,北美、英國、歐洲、南美等全球多地也受此影響。對于這個問題,谷歌公司表示是因為網(wǎng)絡(luò)系統(tǒng)出現(xiàn)了問題,以后一定加強(qiáng)管理。
宕機(jī)的代價有多大?或許無人知曉確切的答案,但是可以粗略的估算一下。2013年谷歌曾發(fā)生過一次5分鐘的宕機(jī),谷歌當(dāng)年第二季度營收達(dá)到141億美元,相當(dāng)于每分鐘營收10.8萬美元,換句話說,谷歌所有服務(wù)宕機(jī)5分鐘,其直接損失就是54.5萬美元,還不算由此帶來的企業(yè)商譽(yù)影響和對客戶業(yè)務(wù)的間接影響。
由此算來,谷歌單單今年的幾次宕機(jī),所帶來的損失就已經(jīng)難以估量。而這其中,幾乎所有問題都圍繞其云架構(gòu)服務(wù)展開,而云架構(gòu)講究多地多活,防止單點故障。一個服務(wù)器出故障應(yīng)該可以在幾分鐘內(nèi)檢測到,然后引流到其它服務(wù)器,同時啟動休眠的服務(wù)器。
可見,谷歌云的市場占有率始終干不過前面兩家大廠,也是有原因的。
主流廠商,競相爭“宕”
其實,不只是谷歌,微軟也曾在云和硬盤方面發(fā)生過事故。
今年9月初,Windows 10的更新就出現(xiàn)了翻車事故。據(jù)了解,微軟在更新中修復(fù)了Windows 10 2004的一些bug,但同時又引入了幾個新的問題,導(dǎo)致用戶頻繁遇到PC崩潰、循環(huán)重啟等情況。
而在之后的修復(fù)過程中,微軟除修復(fù)一些常規(guī)bug,還特意更新解決了NVME固態(tài)硬盤引起的系統(tǒng)崩潰。據(jù)了解,Windows和NVMe固態(tài)硬盤的兼容問題一直都很差。此前,Windows 7就不支持使用NVMe的固態(tài)硬盤,因此裝有NVME固態(tài)的電腦需要單獨(dú)集成相關(guān)驅(qū)動才可使用。而即使此次修復(fù),由于存儲設(shè)備兼容性問題,也不是每個人的電腦都能夠收到此次更新。
在云端,微軟云計算服務(wù)Azure的主要組件在2014年8月就發(fā)生全球大范圍宕機(jī)。微軟表示,Azure服務(wù)當(dāng)時處于中斷狀態(tài),原因是位于全球多個數(shù)據(jù)中心的至少6個主要Azure組件無法提供服務(wù)。Azure允許企業(yè)獲取計算資源,通過互聯(lián)網(wǎng)運(yùn)行程序。
更令人震驚的是,2018年9月4日,微軟在美國中南部地區(qū)的圣安東尼奧數(shù)據(jù)中心由于雷電天氣影響導(dǎo)致電壓激增,數(shù)據(jù)中心的冷卻系統(tǒng)發(fā)生故障。為保證數(shù)據(jù)和硬件完整性,數(shù)據(jù)中心的自動化措施強(qiáng)制關(guān)閉了系統(tǒng)電源以防止機(jī)器因過熱造成損壞。這一事故引發(fā)了 Azure 中斷,Office 365 以及 Azure Active Directory 服務(wù)都受到影響,并且恢復(fù)相關(guān)存儲服務(wù)經(jīng)歷了很長時間。
故障從9月4日上午9點(北京時間9月4日17:00)左右開始出現(xiàn)問題,一直持續(xù)到9月5日13點左右(北京時間9月5日21:00左右),整個故障中斷時間超過 24 小時。
除了谷歌和微軟,即使全球最領(lǐng)先的亞馬遜云也曾屢次三番出現(xiàn)故障。
據(jù)外媒報道,2020年11月25日,亞馬遜云端服務(wù)Amazon Web Services(AWS)遭遇了持續(xù)數(shù)小時的故障,導(dǎo)致部分網(wǎng)站和服務(wù)系統(tǒng)崩潰。AWS的服務(wù)狀態(tài)頁面上的通知顯示,因其處理大量數(shù)據(jù)流的服務(wù)器Kinesis出現(xiàn)問題,導(dǎo)致一些網(wǎng)站的“錯誤率增加”,亞馬遜已經(jīng)對該問題進(jìn)行了修復(fù),但完全恢復(fù)還需要一段時間,并貼出了當(dāng)前受到影響的服務(wù)。
值得一提的是,正值北美“黑色星期五”前夕,AWS宕機(jī)可能影響到亞馬遜的電商業(yè)務(wù)。有賣家稱,其亞馬遜上的訂單數(shù)據(jù)突然急劇下降,甚至廣告費(fèi)用也出現(xiàn)了異常。
此前,AWS云存儲服務(wù)S3也曾在2017年出現(xiàn)大宕機(jī),該錯誤持續(xù)了4個小時,彼時AWS解釋稱該故障是由于一名程序員在調(diào)試系統(tǒng)的時候,運(yùn)行了一條原本打算刪除少量服務(wù)器的腳本,結(jié)果輸錯了一個字母,導(dǎo)致大量服務(wù)器被刪。被錯誤移除的服務(wù)其中運(yùn)行著兩套S3的子系統(tǒng),從而導(dǎo)致S3不能正常工作,S3 API處于不可用狀態(tài)。
不只是國外巨頭,國內(nèi)包括阿里云、華為云在內(nèi)的業(yè)內(nèi)巨頭也曾出現(xiàn)宕機(jī)事故。
2020年4月10日上午,大批網(wǎng)友在微博反饋華為云崩了,出現(xiàn)登錄異常、管理后臺無法訪問等情況。從網(wǎng)友曬圖來看,不少使用云服務(wù)的后臺都出現(xiàn)了“服務(wù)器暫時過載或處于維護(hù)中,請稍后重試?!薄敖?shù)據(jù)庫連接時出錯”等提示。
2019年3月20日下午,阿里系多款產(chǎn)品短時無法正常運(yùn)作,時長約10分鐘,涉及App包括淘寶、天貓、淘寶直播、閑魚等。新浪科技親測發(fā)現(xiàn),淘寶和閑魚均出現(xiàn)“重新加載”提示。
讓外界頗感意外的是,阿里對外僅答復(fù)“修好了”,并未公布阿里系應(yīng)用全線“崩潰”的原因。另外,僅僅1天后,3月21日,部署在阿里云上的鐵路12306部分服務(wù)又一次發(fā)生故障。當(dāng)用戶搜索車票時系統(tǒng)顯示“很抱歉,查詢失敗,您可以稍后點擊下面按鈕重試”。
由此可見,在越來越依賴“云計算”的今天,目前主流的云服務(wù)廠商依然不能確保萬無一失。然而,在萬物上云的今天,云服務(wù)一旦出現(xiàn)問題,所將造成的損失也將更加巨大。
如何避免云服務(wù)/云平臺故障給自身業(yè)務(wù)帶來損失?
毫無疑問,云服務(wù)在未來將成為電力一樣的新型基礎(chǔ)設(shè)施。然而,正如人類至今也沒做到絕對避免停電一樣,云服務(wù)在漫長的運(yùn)行過程中發(fā)生故障亦在所難免,我們所要做的就是避免停電損失擴(kuò)大化。
對于大部分業(yè)務(wù)來說,云平臺的故障造成的損失并不致命。因此,我們可以通過多重保障,以避免云平臺故障造成的損失擴(kuò)大化,從而讓損失可控。例如:
核心數(shù)據(jù)定期異地備份,尤其需要保證備份的可用性。
保留少量自有服務(wù)器或其它云平臺主機(jī),一旦發(fā)生故障,及時發(fā)布公告告知用戶。
組織運(yùn)維人員配合云平臺恢復(fù)服務(wù),核心運(yùn)維保持隨時在線。
及時對損失做出評估。
當(dāng)然,在消費(fèi)等服務(wù)之外,包括智慧醫(yī)療、智能交通等服務(wù)也將成為未來的主流應(yīng)用場景之一。在這些領(lǐng)域,即使細(xì)微延遲都可能導(dǎo)致“人命關(guān)天”。對此,應(yīng)該在邊緣側(cè)部署相對應(yīng)的分析與計算能力,通過云邊協(xié)同,保障場景的連續(xù)性、穩(wěn)定性。
隨著科技的不斷發(fā)展,未來或?qū)⒂性絹碓蕉嗟墓收习l(fā)生。為此,雞蛋不能裝在一個籃子里,請?zhí)崆白龊肞lan B。
責(zé)任編輯:xj
-
谷歌
+關(guān)注
關(guān)注
27文章
6172瀏覽量
105622 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9231瀏覽量
85625
發(fā)布評論請先 登錄
相關(guān)推薦
評論