網(wǎng)絡功能,經(jīng)歷了從各設備廠家物理機無統(tǒng)一標準的傳統(tǒng)設備(mips、x86、np)演進到物理設備基本統(tǒng)一x86服務器,上層應用虛擬化,繼續(xù)演進到云、云原生。短短十年間,4G演進到5G,5G在2020年走向成熟。
4G走向5G,電信設備從傳統(tǒng)設備演進到虛擬化、云化、時代,軟硬件架構都發(fā)生了翻天覆地的變化。電信業(yè)引入了很多IT的軟件架構、思維、方法等;開源、APP和基礎設施解耦等給電信應用帶來了很多好處、便利,同時也帶來了新的問題,其中對電信運維方式產(chǎn)生了較大的影響。
在2G/3G/4G傳統(tǒng)設備時,業(yè)務一旦出現(xiàn)問題,運維人員不需要太多區(qū)分是硬件故障還是軟件故障,設備本身先進行軟硬件一體的主備倒換,先恢復業(yè)務,再進行故障定位。
在當前云時代,基礎設施集中化,中心DC物理設備規(guī)模龐大(》1000),網(wǎng)絡功能分布式打散分布在不同的物理節(jié)點上,一旦出現(xiàn)故障,原有的軟硬件一體化主備倒換方式不再有效,需要更有效性自動化識別能力,識別故障根源是硬件原因、云平臺原因、還是上層VNF的原因,快速區(qū)別出故障的根本原因,才能快速對故障進行有效隔離和恢復。
實現(xiàn)自動化和智能化的網(wǎng)絡運維,是5G成熟關鍵技術。智能監(jiān)控、故障分析等是自動化運維中關鍵技術。
一、智能監(jiān)控
智能監(jiān)控的目標是,軟件自動化發(fā)現(xiàn)系統(tǒng)運行異常,自動觸發(fā)下一步對異常的分析,從而定位出系統(tǒng)異常根源,快速修復故障。
實現(xiàn)智能監(jiān)控有兩種方式:直接方式和間接方式。
直接方式:對環(huán)境、硬件(計算、存儲、網(wǎng)絡)、Cloud OS等關鍵設施進行指標監(jiān)控,一旦出現(xiàn)異常數(shù)據(jù),進行直接的故障告警、定位;
間接方式:對5G業(yè)務關鍵KPI進行監(jiān)控和多維度的對比分析,通過分析發(fā)現(xiàn)KPI異常判斷故障是否發(fā)生,從而觸發(fā)故障進一步關聯(lián)分析定位。
多維度的對比分析可以從幾個方面進行。
歷史數(shù)據(jù)對比方式。歷史總是相似相近,歷史數(shù)據(jù)對比分析按天、周、月、年、節(jié)假日歷史數(shù)據(jù)綜合進行,通過AI算法預先給出下一階段(小時、天)KPI預測數(shù)據(jù),再根據(jù)實時采集得到的數(shù)據(jù),對比判斷系統(tǒng)是否異常;
同類對比方式。同類型的5G NF的同類KPI變化應該趨于一致,一旦出現(xiàn)較大(超過域值)波動,可以判斷系統(tǒng)異常;單一的NF內部,不同微服務的處理KPI同樣也應該趨同,如果不一致同樣也可以判斷系統(tǒng)異常。
二、故障分析
故障根源分析可以從兩個方面入手,告警、日志。在監(jiān)控系統(tǒng)發(fā)現(xiàn)系統(tǒng)異常后,觸發(fā)縱向分層告警、分層日志關聯(lián)分析;橫向關聯(lián)NF內微服務間,NF-NF間進行關聯(lián)分析,定位故障根源。
1,縱向關聯(lián)
縱向關聯(lián)在垂直架構上,網(wǎng)絡構包括物理層、虛擬層、業(yè)務層三個層次,當?shù)讓映霈F(xiàn)故障時,將影響上層業(yè)務。如圖1:
圖1, 三層架構示意圖
縱向關聯(lián)解決的關鍵問題:底層硬件、虛擬層故障一旦發(fā)生時,上層業(yè)務KPI等指標會出現(xiàn)異常,垂直關聯(lián)把上層業(yè)務的異常和底層故障關聯(lián)起來,識別出根故障的根源是在哪個層次PIM層、VIM層還是VNF業(yè)務本身。
2,橫向關聯(lián)
在水平層次上,VNF內部的微服務間存在業(yè)務流程關聯(lián),存在相互影響的關系,微服務間橫向關聯(lián)用作發(fā)現(xiàn)出問題根本原因的微服務,如圖2。
圖2,同一VNF內不同微服務集群示意圖
在VNF-VNF間業(yè)務流程在不同節(jié)點間流轉時,如果某個節(jié)點發(fā)生故障,也將影響到與其相關的其他節(jié)點,如圖3。比如:AMF、SMF、PCF、UDM等相互之間的關聯(lián)影響,是業(yè)務流程的不同節(jié)點。
圖3. 不同VNF互聯(lián)示意圖
綜上可知,橫向關聯(lián)能夠解決的關鍵問題在于,把一個網(wǎng)元的故障和另一個業(yè)務相關網(wǎng)元的故障關聯(lián)起來,把一個微服的故障和真正出問題的微服務關聯(lián),在應用層這同一層次識別出真正出問題的微服務或組件。
3,常用技術
常用技術包括:數(shù)據(jù)采集、數(shù)據(jù)分類(清洗)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)關聯(lián)、定層定位等。
數(shù)據(jù)采集:業(yè)務告警、業(yè)務kpi、業(yè)務配置操作日志、網(wǎng)絡設備操作日志、存儲設備操作日志、虛擬設備操作日志、虛擬層平臺操作日志、虛擬層系統(tǒng)運行日志等;
數(shù)據(jù)分類:數(shù)據(jù)在清洗分類時主要有幾個標簽,如時間、位置、我影響誰(分類標簽)、誰影響我(分類標簽)。分類標簽有網(wǎng)絡、主機、存儲、配置;
數(shù)據(jù)監(jiān)控:一般對上層KPI進行監(jiān)控,KPI數(shù)據(jù)是統(tǒng)計數(shù)據(jù),可以引入AI算法,對異常KPI進行判斷,一旦出現(xiàn)異常數(shù)據(jù),判斷系統(tǒng)出現(xiàn)故障,觸發(fā)故障根源分析系統(tǒng);
數(shù)據(jù)關聯(lián):主要根據(jù)預置的模板進行,模板以標簽的形式進行關聯(lián),其中位置、時間、我影響誰、誰影響我,是數(shù)據(jù)關聯(lián)主要依據(jù);
定層定位:通過數(shù)據(jù)關聯(lián),從上往下(業(yè)務、虛層、物理層)確定最終的關聯(lián)節(jié)點,水平關聯(lián)通過“分類標簽”最終找到故障起因的網(wǎng)元、微服務或組件。
自動化運維的關鍵技術,除了故障監(jiān)控和故障根源分層關聯(lián)分析,故障自愈能力、全局透視、跨域全方位數(shù)據(jù)采集能力、全網(wǎng)網(wǎng)絡拓撲管理、一鍵自動化測試、一鍵自動化業(yè)務部署等,都是智能運維應具備的成熟商用能力。中興通訊智能運維方案,化繁為簡,降低5G云原生及服務化軟件架構帶來的系統(tǒng)維護復雜性,致力于聚焦5G業(yè)務本身,為客戶創(chuàng)造更大價值。
責任編輯:Ct
評論
查看更多