0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TECS資源池上報(bào)BFD會(huì)話DOWN和網(wǎng)絡(luò)流量異常告警的問(wèn)題處理

中興文檔 ? 來(lái)源:中興文檔 ? 2023-06-07 09:49 ? 次閱讀

某資源池TECS上報(bào)BFD會(huì)話DOWN告警和網(wǎng)絡(luò)流量異常告警,持續(xù)時(shí)間1秒至6分鐘不等,如下圖所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同時(shí),業(yè)務(wù)側(cè)反饋,該資源池ISBG業(yè)務(wù)網(wǎng)元產(chǎn)生指標(biāo)下降等異常情況,但已快速恢復(fù)。

物理節(jié)點(diǎn)上的虛擬機(jī)都通過(guò)業(yè)務(wù)面網(wǎng)卡和節(jié)點(diǎn)外部通信。當(dāng)流量異常時(shí),業(yè)務(wù)網(wǎng)卡上會(huì)出現(xiàn)很多丟棄包。

系統(tǒng)周期性采樣網(wǎng)卡所有收發(fā)包總數(shù)和丟棄包總數(shù),當(dāng)丟棄包占比數(shù)連續(xù)多次超過(guò)門(mén)限時(shí),則上報(bào)告警;當(dāng)連續(xù)幾個(gè)采樣周期的丟棄包占比數(shù)低于門(mén)限,則恢復(fù)告警。

虛擬網(wǎng)絡(luò)上出現(xiàn)較重負(fù)荷,造成報(bào)文丟棄率超過(guò)給定閾值。短暫的指標(biāo)下降異常情況可能和資源相關(guān),例如CPU、內(nèi)存、網(wǎng)絡(luò)資源不足,或者硬盤(pán)的IO讀寫(xiě)過(guò)低導(dǎo)致延遲。

問(wèn)題分析過(guò)程如下:

1.觀察到異常情況后,對(duì)告警內(nèi)容展開(kāi)分析。執(zhí)行dvs show-dpifstats命令,找到對(duì)應(yīng)端口,查看overrun和drop統(tǒng)計(jì)項(xiàng)是否在增加。

2.觀察到計(jì)算服務(wù)器NFV-D-XXX-SRV-15業(yè)務(wù)bond子接口均上報(bào)了網(wǎng)絡(luò)流量異常告警,分析可能是端口丟包。

3.登錄服務(wù)器查看DVS日志,端口丟包量在告警時(shí)刻出現(xiàn)上漲,如下圖所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登錄云平臺(tái)查看NFV-D-XXX-SRV-15承載業(yè)務(wù),該主機(jī)承載虛機(jī)四臺(tái),其中包含ISBG的XX-isbg-OMPIPI_2_L虛機(jī)。分析可能為DVS接收丟包影響到虛機(jī)業(yè)務(wù)。

5.分析SAR日志,確認(rèn)DVS的綁定核在故障期間出現(xiàn)被占用的情況,時(shí)間點(diǎn)與網(wǎng)卡丟包基本一致,認(rèn)定為DVS核占用導(dǎo)致的DVS物理網(wǎng)卡丟包,如下圖所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,該時(shí)間(+8)在日志中大量出現(xiàn)ECC內(nèi)存錯(cuò)誤,內(nèi)存定位DIMM11,如下圖所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC錯(cuò)包出現(xiàn)的時(shí)間點(diǎn)與DVS網(wǎng)卡丟包時(shí)間點(diǎn)(DVS轉(zhuǎn)發(fā)核被占用的時(shí)間點(diǎn))基本重合,認(rèn)定內(nèi)存ECC錯(cuò)誤與DVS的丟包強(qiáng)相關(guān)。

8.根據(jù)日志顯示報(bào)錯(cuò)信息,ECC內(nèi)存錯(cuò)誤觸發(fā)的內(nèi)存槽位為DIMM11。

1.登錄管理頁(yè)面,選擇“云平臺(tái)管理-計(jì)算-實(shí)例”,選中該臺(tái)主機(jī)上虛擬機(jī),完成主機(jī)上虛擬機(jī)的熱遷移,如下圖所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成遷移后,選擇“云平臺(tái)管理-計(jì)算-主機(jī)”,選中這臺(tái)主機(jī),設(shè)置維護(hù)模式,如下圖所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下電服務(wù)器完成內(nèi)存更換,完成后上電,取消“設(shè)置維護(hù)模式”。

4.遷移回虛擬機(jī),測(cè)試正常。

5.內(nèi)存ECC錯(cuò)誤為此次異常故障根因。內(nèi)存ECC錯(cuò)誤影響DVS轉(zhuǎn)發(fā)分析:

l在內(nèi)存ECC錯(cuò)誤故障期間,現(xiàn)有的BIOS配置會(huì)為每一個(gè)內(nèi)存ECC錯(cuò)誤產(chǎn)生一個(gè)SMI中斷。

如果產(chǎn)生ECC風(fēng)暴,那么影響CPU處理性能。

SMI中斷在內(nèi)核感知為NMI,不受內(nèi)核控制,從硬件描述看內(nèi)核是無(wú)法屏蔽此類(lèi)中斷的。內(nèi)存ECC默認(rèn)不告警。

SMI中斷導(dǎo)致CPU進(jìn)入SMM模式,該模式對(duì)于OS是透明的。

因此SMI中斷是硬件和固件(BIOS)共同處理的,其對(duì)于CPU處理流程的打斷,對(duì)OS而言是不可感知的,不會(huì)出現(xiàn)在OS的統(tǒng)計(jì)項(xiàng)里面。

只有當(dāng)BIOS處理SMI后,并以SCI中斷通知OS時(shí),OS才能感知到SCI中斷。但是BIOS是否觸發(fā)SCI中斷也不是OS所能控制的。

總之,SMI中斷對(duì)于DVS處理核的影響是硬件和固件的行為。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SAR
    SAR
    +關(guān)注

    關(guān)注

    3

    文章

    424

    瀏覽量

    46750
  • BIOS
    +關(guān)注

    關(guān)注

    5

    文章

    471

    瀏覽量

    46770
  • ECC
    ECC
    +關(guān)注

    關(guān)注

    0

    文章

    97

    瀏覽量

    20977
  • 虛擬機(jī)
    +關(guān)注

    關(guān)注

    1

    文章

    963

    瀏覽量

    29107
  • SCI
    SCI
    +關(guān)注

    關(guān)注

    1

    文章

    57

    瀏覽量

    20436

原文標(biāo)題:TECS資源池上報(bào)BFD會(huì)話DOWN和網(wǎng)絡(luò)流量異常告警的問(wèn)題處理

文章出處:【微信號(hào):ztedoc,微信公眾號(hào):中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    TECS OpenStack資源池虛擬機(jī)網(wǎng)絡(luò)二層地址無(wú)法互通的問(wèn)題處理

    某運(yùn)營(yíng)商TECS OpenStack使用主機(jī)overlay SDN方案組網(wǎng),運(yùn)維人員在創(chuàng)建虛擬機(jī)測(cè)試虛擬機(jī)網(wǎng)絡(luò)狀態(tài)時(shí)發(fā)現(xiàn)問(wèn)題:在其中一臺(tái)主機(jī)上創(chuàng)建兩臺(tái)同網(wǎng)段虛擬機(jī),虛擬機(jī)之間二層地址無(wú)法Ping通,但是可以Ping通網(wǎng)關(guān)地址,如圖1所示。
    的頭像 發(fā)表于 06-12 09:28 ?87次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛擬機(jī)<b class='flag-5'>網(wǎng)絡(luò)</b>二層地址無(wú)法互通的問(wèn)題<b class='flag-5'>處理</b>

    曙光網(wǎng)絡(luò)發(fā)布網(wǎng)絡(luò)流量回溯分析平臺(tái)SUNA

    AI時(shí)代,日益復(fù)雜的網(wǎng)絡(luò)環(huán)境正給運(yùn)維帶來(lái)嚴(yán)峻挑戰(zhàn)。業(yè)務(wù)系統(tǒng)卡頓、異常流量難溯源、故障定位如大海撈針等問(wèn)題頻發(fā),傳統(tǒng)運(yùn)維手段已難應(yīng)對(duì)海量數(shù)據(jù)洪流的需求。
    的頭像 發(fā)表于 05-22 14:28 ?318次閱讀

    異常流量小區(qū)檢測(cè)功能介紹

    隨著5G部署規(guī)模不斷擴(kuò)大,網(wǎng)管KPI的分析需求突增也日益顯著,存在用戶感知問(wèn)題無(wú)法從告警和KPI數(shù)值中直接體現(xiàn)的情況;或者某些小區(qū)存在故障而網(wǎng)絡(luò)維護(hù)工程師無(wú)法及時(shí)監(jiān)控識(shí)別出來(lái)。異常流量
    的頭像 發(fā)表于 03-22 09:54 ?388次閱讀
    <b class='flag-5'>異常</b>零<b class='flag-5'>流量</b>小區(qū)檢測(cè)功能介紹

    TECS OpenStack資源池主機(jī)磁盤(pán)分區(qū)使用率過(guò)高的問(wèn)題處理

    某運(yùn)營(yíng)商TECS資源池上報(bào)“主機(jī)磁盤(pán)分區(qū)使用率過(guò)高”的告警,如下圖所示。
    的頭像 發(fā)表于 03-21 09:47 ?376次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池主機(jī)磁盤(pán)分區(qū)使用率過(guò)高的問(wèn)題<b class='flag-5'>處理</b>

    TECS OpenStack資源池虛機(jī)寫(xiě)磁盤(pán)時(shí)延高告警的問(wèn)題處理

    某運(yùn)營(yíng)商TECS資源池,在當(dāng)前告警中顯示“虛機(jī)寫(xiě)磁盤(pán)時(shí)延高告警”,如下圖所示。告警統(tǒng)計(jì)總體平均10分鐘左右自動(dòng)恢復(fù)。
    的頭像 發(fā)表于 03-21 09:36 ?341次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛機(jī)寫(xiě)磁盤(pán)時(shí)延高<b class='flag-5'>告警</b>的問(wèn)題<b class='flag-5'>處理</b>

    高效流量復(fù)制匯聚,構(gòu)建自主可控的網(wǎng)絡(luò)安全環(huán)境

    隨著大數(shù)據(jù)監(jiān)測(cè)、流量分析以及網(wǎng)絡(luò)安全監(jiān)管等核心業(yè)務(wù)需求的日益增長(zhǎng),網(wǎng)絡(luò)環(huán)境對(duì)高性能、高可靠性的流量監(jiān)控和分析提出了更高的要求。流量復(fù)制匯聚平
    的頭像 發(fā)表于 03-10 14:29 ?438次閱讀
    高效<b class='flag-5'>流量</b>復(fù)制匯聚,構(gòu)建自主可控的<b class='flag-5'>網(wǎng)絡(luò)</b>安全環(huán)境

    TECS OpenStack資源池時(shí)間同步失敗的故障分析

    某運(yùn)營(yíng)商TECS OpenStack資源池,在當(dāng)前告警中顯示“時(shí)鐘同步失敗”,以10分鐘整數(shù)倍為間隔上報(bào)“時(shí)間同步失敗”告警,持續(xù)時(shí)間30秒
    的頭像 發(fā)表于 03-03 10:09 ?373次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池時(shí)間同步失敗的故障分析

    TECS OpenStack資源池虛機(jī)殘留導(dǎo)致網(wǎng)元異常的問(wèn)題處理

    的頭像 發(fā)表于 03-03 09:42 ?312次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛機(jī)殘留導(dǎo)致網(wǎng)元<b class='flag-5'>異常</b>的問(wèn)題<b class='flag-5'>處理</b>

    排查并處理共享站點(diǎn)S1用戶面路徑不可用告警

    增多,如圖1所示。 圖 1? 電信4G基站告警 1. 通過(guò)對(duì)基站告警進(jìn)行分析后發(fā)現(xiàn),出現(xiàn)告警的S1用戶面路徑不可用告警,對(duì)端IP地址為10.100.33.X,如圖2所示。 圖2 對(duì)端I
    的頭像 發(fā)表于 01-23 11:08 ?705次閱讀
    排查并<b class='flag-5'>處理</b>共享站點(diǎn)S1用戶面路徑不可用<b class='flag-5'>告警</b>

    交換機(jī)MC-LAG場(chǎng)景下單臂BFD無(wú)法UP問(wèn)題

    作為源IP地址做BFD,VEG上配置靜態(tài)路由打通loopback連通性(注:直連地址在MC-LAG場(chǎng)景只有一邊互通)。 版本:9900X V1.00.20.02P16 ? 圖1?MC-LAG單臂BFD場(chǎng)景組網(wǎng)示意圖 單臂BFD
    的頭像 發(fā)表于 01-17 11:43 ?468次閱讀
    交換機(jī)MC-LAG場(chǎng)景下單臂<b class='flag-5'>BFD</b>無(wú)法UP問(wèn)題

    網(wǎng)絡(luò)流量監(jiān)控與網(wǎng)關(guān)優(yōu)化

    在當(dāng)今數(shù)字化時(shí)代,網(wǎng)絡(luò)流量的監(jiān)控和管理對(duì)于任何組織來(lái)說(shuō)都是至關(guān)重要的。隨著數(shù)據(jù)量的激增和網(wǎng)絡(luò)攻擊的日益復(fù)雜,有效的網(wǎng)絡(luò)流量監(jiān)控和網(wǎng)關(guān)優(yōu)化變得尤為重要。 網(wǎng)絡(luò)流量監(jiān)控的重要性 1. 識(shí)別
    的頭像 發(fā)表于 01-02 16:14 ?582次閱讀

    VLAN 實(shí)施對(duì)網(wǎng)絡(luò)性能的影響

    的廣播域和沖突域。這樣,網(wǎng)絡(luò)中的廣播流量和沖突就被限制在每個(gè)VLAN內(nèi)部,減少了網(wǎng)絡(luò)擁塞,提高了網(wǎng)絡(luò)的整體性能。 優(yōu)化網(wǎng)絡(luò)流量 VLAN允許
    的頭像 發(fā)表于 11-19 09:35 ?1507次閱讀

    IP地址如何進(jìn)行網(wǎng)絡(luò)監(jiān)測(cè)? ? 立即查看

    ?一、異常檢測(cè)的方法和技術(shù)有哪些? 目前常用的異常檢測(cè)方法技術(shù)主要有基于統(tǒng)計(jì)分析的方法、基于機(jī)器學(xué)習(xí)的方法、基于規(guī)則的方法。 1.基于統(tǒng)計(jì)分析的方法也就是通過(guò)對(duì)網(wǎng)絡(luò)流量、設(shè)備性能等數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析
    的頭像 發(fā)表于 09-14 15:15 ?586次閱讀

    IR615配置流量告警方法

    1.登錄路由器,服務(wù)流量管理中設(shè)置流量使用閥值. 2.添加告警設(shè)置,在服務(wù)&gt;告警設(shè)置中勾選告警輸入和
    發(fā)表于 07-25 07:59

    艾體寶干貨 IOTA流量分析秘籍第一招:網(wǎng)絡(luò)基線管理

    網(wǎng)絡(luò)基線管理是一項(xiàng)關(guān)鍵的網(wǎng)絡(luò)安全實(shí)踐,它有助于識(shí)別網(wǎng)絡(luò)中的異常活動(dòng)并及時(shí)采取措施。本文將探討如何利用IOTA這一強(qiáng)大的工具來(lái)捕獲和分析網(wǎng)絡(luò)流量
    的頭像 發(fā)表于 07-02 14:53 ?643次閱讀
    艾體寶干貨  IOTA<b class='flag-5'>流量</b>分析秘籍第一招:<b class='flag-5'>網(wǎng)絡(luò)</b>基線管理

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品