昨天,技術(shù)圈又出了攪動全技術(shù)人的一次重大技術(shù)故障。記得上一次是攜程2015年癱瘓了11小時,損失高達7000W+。
阿里云是國內(nèi)最大的云服務(wù)商,服務(wù)著制造、金融、政務(wù)、交通、醫(yī)療、電信、能源等眾多領(lǐng)域的領(lǐng)軍企業(yè),包括中國聯(lián)通、12306、中石化、中石油、飛利浦、華大基因等大型企業(yè)客戶,以及微博、知乎、錘子科技等明星互聯(lián)網(wǎng)公司。在天貓雙11全球狂歡節(jié)、12306春運購票等極富挑戰(zhàn)的應(yīng)用場景中,阿里云保持著良好的運行紀(jì)錄。
6月27日下午,阿里云出現(xiàn)重大技術(shù)故障,故障于北京時間2018年6月27日,16:21左右開始,16:50分開始陸續(xù)恢復(fù)。官方給出的故障時間大概持續(xù)30分鐘,陸續(xù)恢復(fù)時間有一個小時多。
在6月27日凌晨時分,阿里云給了官方說明,最后官方給出的說明是:“我們在運維上的一個操作失誤,導(dǎo)致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題。”引發(fā)了大量吐槽。
對于此故障的原因,網(wǎng)上傳的各種版本都有,傳的最多的是以下2個版本:
網(wǎng)上流傳故障原因版本一
網(wǎng)上流傳故障原因版本二
小編邀請原美團點評運維架構(gòu)師&馬哥教育聯(lián)合創(chuàng)始人張sir對本次故障解讀:
“至于實習(xí)生誤刪登陸服務(wù)之說,應(yīng)該是不存在的,一方面,大型互聯(lián)網(wǎng)公司尤其是阿里云這樣的公司,對工程師權(quán)限有著極為嚴(yán)格的控制,因為阿里云數(shù)十萬臺服務(wù)器,支撐了全國各行各業(yè)千億以上規(guī)模的線上業(yè)務(wù),不可能讓實習(xí)生不熟悉的情況下,給予過高的管理權(quán)限。這是極其不專業(yè)的做法"
”對于版本二的說法,說的比較含糊和籠統(tǒng),我通過內(nèi)部了解到原因:”
"這個說法跟阿里云官方通告是比較符合的,本次故障的嚴(yán)重程度是非常高的,故障級別定義在S1級別,整個阿里集團的核心業(yè)務(wù),以及依托阿里云的公司,很多都受了影響。"
"對于企業(yè)來說,上線都是開發(fā)-測試-上線大致都是以下這樣的流程,通常開發(fā)會開發(fā)出來程序,然后交給測試工程師,測試工程師測試完成后,后提交給運維工程師進行線上服務(wù)配置以及業(yè)務(wù)上線。"
“本次故障,阿里官方說明:工程師團隊,在上線一次自動化運維新功能的時候,執(zhí)行了一項變更驗證操作,這一項功能在測試環(huán)境驗證中未出現(xiàn)問題,上線生產(chǎn)環(huán)境中,觸發(fā)了一個未知的bug。這個bug后來通過阿里的同學(xué)證實:具體原因是一個核心的應(yīng)用在拉VIP列表的時候,返回了空列表,這就會導(dǎo)致上千VIP被禁用了。VIP = Virtual IP Address,虛擬IP地址,主要作用為集群的負(fù)載均衡的入口地址,可通過一個VIP的地址,實現(xiàn)一組業(yè)務(wù)的訪問,通常也叫集群負(fù)載均衡技術(shù)。VIP是集群業(yè)務(wù)的入口,如果數(shù)千個VIP被禁用了,可能后端上萬臺的服務(wù)、應(yīng)用、數(shù)據(jù)庫等將直接無法訪問,本次故障盲點,是測試通過了,在生產(chǎn)環(huán)境觸發(fā)了一個未知bug,導(dǎo)致核心應(yīng)用在拉取VIP列表時,為空了,導(dǎo)致內(nèi)部的上千臺負(fù)載均衡不可用,從而后端的應(yīng)用也不可達?!?/p>
"如圖所示,對于大型互聯(lián)網(wǎng)公司,運維技術(shù)架構(gòu)都是多層機構(gòu)。在內(nèi)部負(fù)載均衡上配置的VIP如果不可達的話,后端的service層和數(shù)據(jù)庫等內(nèi)容,都是不可達的,這也是為什么故障的時候,頁面能打開,但是報錯為502故障,502錯誤一般常為后端服務(wù)器不可用,這也說明了故障的根源所在。阿里的運維團隊故障響應(yīng)還是比較給力的,數(shù)千個VIP配置錯誤,在半小時內(nèi)從發(fā)現(xiàn),到定位,到故障排除,以及解決,還是挺快的?!?/p>
“在一個龐大復(fù)雜的架構(gòu)體系中,會涉及到成千上萬的配置以及幾十種技術(shù)的應(yīng)用,有時候可能因為一條配置的錯誤,會導(dǎo)致整個服務(wù)崩盤。而出故障時,一位優(yōu)秀的運維工程師,可為公司挽回巨大損失。運維工程師目前已經(jīng)是各家互聯(lián)網(wǎng)公司必不可少的重要崗位,是要求有極高的技術(shù)能力和心理素質(zhì)(當(dāng)出現(xiàn)故障時,耽誤一分鐘損失上百萬的時候,那種壓力是常人無法理解的),所以這也是,為什么業(yè)內(nèi)優(yōu)秀的運維工程師是比較稀缺的。一個優(yōu)秀的運維工程師或者云計算工程師,是需要不斷的提升和學(xué)習(xí),因為公司的業(yè)務(wù)需要不斷的完善架構(gòu)體系,保障服務(wù)正常運行,以及服務(wù)性能和工作效率不斷的優(yōu)化和改進?!?/p>
阿里云對于本次故障,還是非常坦誠的:
"對于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤改進自動化運維技術(shù)和發(fā)布驗證流程,敬畏每一行代碼,敬畏每一份托付。"
此次阿里云重大故障,網(wǎng)友們紛紛討論,運維都要背鍋啦。其實,運維工程師這個群體,比你想象的要厲害,如果不是他們?yōu)榛ヂ?lián)網(wǎng)的業(yè)務(wù)保駕護航,可能故障遠不止此。所以,對于錯誤,我們應(yīng)該包容,錯誤是成長的必經(jīng)之路,更何況,人非圣賢孰能無過?
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11184瀏覽量
103787 -
阿里云
+關(guān)注
關(guān)注
3文章
971瀏覽量
43214 -
運維
+關(guān)注
關(guān)注
1文章
263瀏覽量
7618
原文標(biāo)題:1000+公司業(yè)務(wù)癱瘓,損失過億,阿里云故障真正原因竟是這樣
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論