11月19日,為期兩天的2021 GOPS全球運(yùn)維大會完美落幕。大會由高效運(yùn)維社區(qū)(GreatOPS)和開放運(yùn)維聯(lián)盟(OOPSA)、RPA時(shí)代社區(qū)聯(lián)合主辦,于上海舉行。七牛云受邀出席了此次大會,七牛云運(yùn)維架構(gòu)師敖文武在會中為大家分享了七牛云關(guān)于AIOps的探索與實(shí)踐經(jīng)驗(yàn)。
2021 GOPS全球運(yùn)維大會,主要面向運(yùn)維行業(yè)的中高端技術(shù)人員,目的在于幫助運(yùn)維人員系統(tǒng)學(xué)習(xí)了解相關(guān)知識體系,讓創(chuàng)新技術(shù)推動社會進(jìn)步。七牛云成立至今始終堅(jiān)定不移地推動開發(fā)者生態(tài)的建設(shè)。七牛云團(tuán)隊(duì)運(yùn)營著數(shù)十個(gè)面向開發(fā)者的社群,主張技術(shù)共享并發(fā)起各類技術(shù)傳播的活動,如架構(gòu)師實(shí)踐日、Niu Talk 數(shù)據(jù)科學(xué)系列論壇等,在全球開發(fā)者社區(qū)有著深遠(yuǎn)的影響力和領(lǐng)導(dǎo)力,對AIOps也進(jìn)行了探索、實(shí)踐與思考,擁有著豐富的行業(yè)經(jīng)驗(yàn)。
七牛云敖文武分別從 AI 和運(yùn)維 OPS 的關(guān)系、七牛云內(nèi)部AIOps探索和實(shí)踐、七牛云對AIOps的思考與總結(jié)分三個(gè)方面進(jìn)行了講解與分享。敖文武指出,運(yùn)維在故障處理流程中的各個(gè)環(huán)節(jié),如問題發(fā)現(xiàn)、檢測、分析、根因定位和響應(yīng)處理等,其中在整個(gè)流程中根因定位分析所占時(shí)間長達(dá) 60%,嚴(yán)重依賴運(yùn)維專家的知識和經(jīng)驗(yàn)。而七牛云「PISA」產(chǎn)品,能夠進(jìn)行梳理數(shù)據(jù)建模分析,構(gòu)建出關(guān)鍵業(yè)務(wù)調(diào)用鏈路,并通過動態(tài)閾值計(jì)算,預(yù)測未來服務(wù)分?jǐn)?shù)等算法能力。實(shí)現(xiàn)快速根因定位,有效縮短MTTR 40%,并逐步在運(yùn)維內(nèi)部落地,進(jìn)一步優(yōu)化了根因定位分析占時(shí)長的問題。
從運(yùn)維角度,為什么需要 AIOps?
整個(gè)故障處理過程中,問題定位所需要的時(shí)間占比達(dá)到 60%。
在實(shí)踐中,MTTK (Mean Time to Know) 環(huán)節(jié)嚴(yán)重依賴運(yùn)維專家的知識和經(jīng)驗(yàn),且難以口口相傳,這也從一定程度上影響了實(shí)踐的效果與人才的培養(yǎng)。
所以,我們需要一種方法將專家知識和經(jīng)驗(yàn)沉淀下來,實(shí)現(xiàn)更加高效的定位和決策。
七牛云內(nèi)部的探索和實(shí)踐
內(nèi)部在 AIOPS 上針對如何快速定位問題上做了一些探索和落地實(shí)踐:
系統(tǒng)可觀測性
依托“PISA”智能服務(wù)分析,構(gòu)建系統(tǒng)可觀測性。SRE 專家經(jīng)驗(yàn)知識沉淀,加速問題定位。
業(yè)務(wù)健康評分
多維度 KPI 指標(biāo)占比評分計(jì)算,主動綜合預(yù)測業(yè)務(wù)健康和趨勢預(yù)測。
告警智能降噪
針對不同告警規(guī)則做指標(biāo)數(shù)據(jù)分類,降低告警風(fēng)暴,提升告警準(zhǔn)確度。
動態(tài)閾值
靜態(tài)指標(biāo)弊端很多,無法適應(yīng)流量峰值周期,集群規(guī)模一直在變化。靜態(tài)的閾值要么是設(shè)置過低、要么是過高。所以我們采用時(shí)序檢測算法、訓(xùn)練指標(biāo)歷史數(shù)據(jù),有效識別周期性異常波動。
可觀測性核心要素:1、Metrics 指標(biāo)性統(tǒng)計(jì)
度量應(yīng)用某一類信息的正確率、成功率、流量等,這是我們常見的應(yīng)用單個(gè)統(tǒng)計(jì)聚合。2、Tracing 分布式追蹤
一次請求的范圍,服務(wù)于服務(wù),服務(wù)于組件之間的依賴追蹤。3、Logging 日志記錄
程序在執(zhí)行的過程中間發(fā)生了一些日志,會包含報(bào)錯(cuò)信息、堆棧信息等詳細(xì)日志內(nèi)容。
基于七牛云 Pandora 平臺,構(gòu)建智能運(yùn)維分析工具「PISA」。「PISA」針對企業(yè)在數(shù)字信息化過程中,業(yè)務(wù)系統(tǒng)與 IT 系統(tǒng)割裂,面對IT 人員分析問題難,解決問題耗時(shí)長,各類監(jiān)控軟件數(shù)量繁多但無法協(xié)同等問題現(xiàn)狀,需要有效連接企業(yè)的業(yè)務(wù)系統(tǒng)和 IT 系統(tǒng),通過提升整體的可觀測性、實(shí)時(shí)洞察隱患、快速根因定位、提前預(yù)知故障等手段,才能幫助企業(yè)提高系統(tǒng)穩(wěn)定和減少損失。將傳統(tǒng)的被動式運(yùn)維變成主動式運(yùn)營,讓數(shù)據(jù)產(chǎn)生更高價(jià)值。
除此之外,在平臺機(jī)器學(xué)習(xí)工具包上,還集成了大量的算法、能夠進(jìn)行管理模型和快速驗(yàn)證。雖然工程師直接做算法存在門檻,但卻可以參與模型的訓(xùn)練,也能通過不同條件組合進(jìn)行參數(shù)調(diào)整,特征優(yōu)化以追求更好的效果表達(dá)。關(guān)于我們自己的思考和總結(jié)
數(shù)據(jù)維度越全面越好。
所有數(shù)據(jù)標(biāo)準(zhǔn)化越規(guī)范統(tǒng)一越好。
第三,場景(知識)越深入越好。如果本身對運(yùn)維場景理解不是特別深,不理解場景當(dāng)成產(chǎn)品功能去做的話,只能做出一個(gè)完整的產(chǎn)品功能,但很大概率上無法直接落地。因?yàn)榫€上環(huán)境復(fù)雜多元,而且非常依賴運(yùn)維專家的能力和經(jīng)驗(yàn)。AIOps 能夠順利落地,一定是在 SRE 或 DevOps 最佳實(shí)踐中升華而來。
如何借助AI能力與運(yùn)維場景進(jìn)行一個(gè)數(shù)據(jù)維度全面、數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范統(tǒng)一、場景知識深入的深度結(jié)合并順利落地實(shí)現(xiàn),是七牛云對AIOps的深刻思考與理解。
審核編輯:符乾江
-
AI
+關(guān)注
關(guān)注
87文章
31241瀏覽量
269608 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132831
發(fā)布評論請先 登錄
相關(guān)推薦
評論