隨著運營商數(shù)據(jù)中心的規(guī)模越來越大,服務(wù)器數(shù)量越來越多,智能化程度越來越高,數(shù)據(jù)中心網(wǎng)絡(luò)運維遇到了三方面的挑戰(zhàn)。
首先,故障發(fā)現(xiàn)難。網(wǎng)絡(luò)的連接狀態(tài)、資源使用狀態(tài)和策略狀態(tài)對于運維人員來說是一個黑盒。當網(wǎng)絡(luò)故障時,網(wǎng)絡(luò)運維人員無法第一時間感知,而是要等到被業(yè)務(wù)部門投訴時才知道網(wǎng)絡(luò)發(fā)生了故障,但此時也無法及時知道網(wǎng)絡(luò)到底哪里出了故障。據(jù)統(tǒng)計,有85%以上的網(wǎng)絡(luò)故障在業(yè)務(wù)部門投訴后才能被網(wǎng)絡(luò)部門發(fā)現(xiàn)。久而久之,網(wǎng)絡(luò)部門成了“背鍋俠”,無法自證清白。
其次,故障定位難。傳統(tǒng)運維采用SNMP協(xié)議每5分鐘收集一次網(wǎng)絡(luò)信息,周期長、效率低。而且,傳統(tǒng)運維的定位手段只能通過查看日志的方式從海量的故障告警和日志信息中根據(jù)個人經(jīng)驗排查定位問題,效率極其低下。據(jù)統(tǒng)計,一個故障的平均定位時間需要至少76分鐘。網(wǎng)絡(luò)運維人員直呼“寶寶心里苦啊”。
最后,業(yè)務(wù)感知難。隨著云和SDN的發(fā)展,網(wǎng)絡(luò)業(yè)務(wù)的配置方式從傳統(tǒng)的人工配置演變?yōu)橛稍破脚_和控制器配置的方式,網(wǎng)絡(luò)管理員很難實時感知到網(wǎng)絡(luò)的變化。
面對這些網(wǎng)絡(luò)運維的難題,華為提出了從“網(wǎng)絡(luò)應(yīng)用—>網(wǎng)絡(luò)路徑-->網(wǎng)絡(luò)設(shè)備”三個層面進行關(guān)聯(lián)分析的FabricInsight網(wǎng)絡(luò)智能分析器,構(gòu)建“秒級故障感知、分鐘級故障定位”的智能運維能力。
華為FabricInsight網(wǎng)絡(luò)智能分析器架構(gòu)
華為FabricInsight提供如下四大功能:
FabricInsight采用Telemetry技術(shù)實現(xiàn)秒級的數(shù)據(jù)獲取,并基于ERSPAN流鏡像實現(xiàn)訂閱發(fā)布,按需使用。眾所周知,Telemetry一次可以獲取多個數(shù)據(jù),編碼效率很高。這樣FabricInsight具備了實時獲取數(shù)據(jù)的能力,為分析器挖掘數(shù)據(jù)提供了堅實基礎(chǔ)和關(guān)鍵依賴。
數(shù)據(jù)獲取器將從網(wǎng)絡(luò)中獲取到的大量網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)匯聚到大數(shù)據(jù)分析平臺。這個平臺可以對百億級的數(shù)據(jù)進行高效檢索和分析。
大數(shù)據(jù)分析平臺基于內(nèi)置的AI算法對獲取到的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)從“網(wǎng)絡(luò)應(yīng)用->網(wǎng)絡(luò)路徑->網(wǎng)絡(luò)設(shè)備”的層面進行關(guān)聯(lián)分析,包括:網(wǎng)絡(luò)連接類、網(wǎng)絡(luò)性能類、網(wǎng)絡(luò)策略類和網(wǎng)絡(luò)資源類等方面的故障分析。
邊緣交換機上的智能芯片可以實現(xiàn)故障模式的匹配和根因分析,進而實現(xiàn)分布式智能的深度故障分析和按需全流分析。
華為FabricInsight的卓越功能使其具備了一鍵式智能診斷、主動預測性維護和基于流可視的邊緣智能的三大特點,并在實踐中有了廣泛應(yīng)用。
以光模塊故障概率預測為例,這幫助網(wǎng)絡(luò)運維人員提前判斷光模塊的故障概率和“健康狀態(tài)”。
網(wǎng)絡(luò)接口上數(shù)據(jù)的收發(fā)都需要通過光模塊。光模塊長時間運行會引起光器件的性能衰減,從而導致鏈路不穩(wěn)定。而這種不穩(wěn)定的“亞健康”狀態(tài)既沒有故障告警,又影響數(shù)據(jù)收發(fā)的完整性。傳統(tǒng)運維手段無法在光模塊已老化、故障發(fā)生之前及時識別風險并進行預警。光模塊的這種“亞健康”狀態(tài)會導致網(wǎng)絡(luò)提供給業(yè)務(wù)的服務(wù)質(zhì)量下降,使網(wǎng)絡(luò)處于一種“可用”與“不可用”的間歇性中斷的臨界狀態(tài),極大影響業(yè)務(wù)質(zhì)量感知。
光模塊的三個狀態(tài)
華為FabricInsight通過Telemetry實時獲取光模塊KPI,在光模塊視圖呈現(xiàn)全網(wǎng)光模塊的狀態(tài),包括:已經(jīng)故障、可能故障以及故障概率分布。用戶在光模塊視圖通過矩形視圖就可以通過不同的顏色方便快速地識別已經(jīng)故障和高故障率的光模塊。選中高故障率光模塊,就可以查看故障概率預測曲線。用戶還可以結(jié)合光模塊的接收功率、發(fā)送功率、電流、電壓、溫度的動態(tài)曲線等參數(shù)輔助判斷光模塊的運行狀態(tài)。結(jié)合AI算法和人工排查,用戶可以對光模塊的運行狀態(tài)進行準確預測,大大提高運維效率,提供良好的業(yè)務(wù)感知。
華為FabricInsight光模塊狀態(tài)預測界面
綜述,傳統(tǒng)運維面對的是靜態(tài)網(wǎng)絡(luò),采用從網(wǎng)絡(luò)向上看業(yè)務(wù)的視角進行運維。而在云化時代和AI時代,網(wǎng)絡(luò)會隨業(yè)務(wù)動態(tài)變化,傳統(tǒng)運維手段大多失效或者低效,需要采用從業(yè)務(wù)向下看網(wǎng)絡(luò)的視角進行網(wǎng)絡(luò)運維,并結(jié)合AI算法實現(xiàn)應(yīng)用與網(wǎng)絡(luò)的關(guān)聯(lián)分析,解決網(wǎng)絡(luò)故障發(fā)現(xiàn)難、定位難和業(yè)務(wù)感知難的問題。華為FabricInsight智能運維完美地解決了這些問題,為運營商邁入智能時代保駕護航。
-
運營商
+關(guān)注
關(guān)注
4文章
2398瀏覽量
44529 -
華為
+關(guān)注
關(guān)注
216文章
34499瀏覽量
252348
原文標題:華為FabricInsight智能運維為運營商邁入智能時代保駕護航
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論