0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA高級流式遙測技術(shù)識別網(wǎng)絡問題

星星科技指導員 ? 來源:NVIDIA ? 作者:David Iles ? 2022-04-18 16:51 ? 次閱讀

讓我們來談談網(wǎng)絡流遙測技術(shù)以及您需要它的原因。您是否曾經(jīng)在嘗試重新創(chuàng)建問題時遇到過問題,或者很難找出數(shù)據(jù)包丟失的原因?可能您是一名網(wǎng)絡管理員,因為應用程序中斷或服務器或存儲性能問題而受到指責。如果這些聽起來很熟悉,那么您需要良好的網(wǎng)絡遙測。因為網(wǎng)絡使應用程序能夠被訪問、共享數(shù)據(jù)并連接到存儲器,所以良好的網(wǎng)絡流遙測也是良好的應用程序遙測。

你們中的一些人可能會問,什么是遙測?

什么是遙測?

pic1.jpg-e1560847857943.png

圖 1 剛剛發(fā)生的事情為您的交換機性能提供了關鍵的可視性

當你駕駛汽車時,遙測是速度表、轉(zhuǎn)速表、煤氣表、機油壓力表、發(fā)動機溫度和儀表板警告燈。這就是你需要的所有數(shù)據(jù),可以讓你安全地到達你想去的地方,并了解汽車在途中的運行情況。無論你是駕駛汽車還是駕駛飛機,你都需要良好的遙測技術(shù),而且你的速度越快,它就越關鍵。

如果您正在運行數(shù)據(jù)中心、部署 VM 和容器或管理存儲部署,則情況也是如此。您需要了解網(wǎng)絡結(jié)構(gòu)內(nèi)部的情況。您的網(wǎng)絡運行越快,或者網(wǎng)絡性能對您的業(yè)務越重要,它就變得越重要。切換流式遙測技術(shù)可以為您提供關鍵的可視性。

從協(xié)議轉(zhuǎn)向流式遙測

網(wǎng)絡管理的傳統(tǒng)立場是越多越好:協(xié)議越多,捕獲的數(shù)據(jù)包越多,在出現(xiàn)問題時,對捕獲的數(shù)據(jù)包進行更深入的挖掘,找出原因,然后進行修復。但在過去幾年中,數(shù)據(jù)中心網(wǎng)絡出現(xiàn)了簡化的趨勢。數(shù)據(jù)中心越大或越先進,他們喜歡運行的協(xié)議就越少。

回到我的技術(shù)支持時代,我們曾經(jīng)有一句諺語,“客戶越聰明,配置文件越短。”總是遇到問題的客戶似乎是那些啟用了所有可能的功能和協(xié)議的客戶。您可以通過配置文件的長度來估計問題的數(shù)量。我已經(jīng)看到了這種趨勢,從 L2 和所有版本的生成樹,以及根保護、循環(huán)保護、 BPDU 保護等創(chuàng)可貼,轉(zhuǎn)向更多的 L3 。

pYYBAGJdJnuAWahWAAL1Qz3G4-E346.png

圖 2 隨著遙測技術(shù)的發(fā)展,通過支持較少的協(xié)議,網(wǎng)絡得到了簡化。

簡化趨勢的主要例外是需要更多的可見性,因為聰明的人希望看到他們的網(wǎng)絡中發(fā)生了什么。隨著網(wǎng)絡越來越大、越來越快,精明的管理員使用的協(xié)議越來越少,但他們的目標是更多的網(wǎng)絡遙測,以實現(xiàn)更好的可視性。

一些網(wǎng)絡管理員希望通過更好的流式遙測來提高他們的“平均無罪時間”。他們希望加快找到問題根本原因的時間,這樣他們就可以排除問題的根源,并證明這是否真的是服務器團隊的錯誤(或者可能是存儲團隊的錯誤)。

其他人則試圖從他們的網(wǎng)絡中獲得更多。大多數(shù)網(wǎng)絡團隊并不知道他們的網(wǎng)絡是被使用不足還是被過度使用,因為他們對實際情況的可見性很差。如果沒有這種理解,就不可能有效地運行網(wǎng)絡或適當?shù)財U展網(wǎng)絡。

WJH 是一種交換機級監(jiān)控解決方案,交換機 ASIC 監(jiān)控以線路速率傳輸?shù)臄?shù)據(jù)流,并在數(shù)據(jù)包丟失、擁塞事件、路由循環(huán)等導致性能問題時向您發(fā)出警報。

poYBAGJdJn2AeXyDAAWl-GdzL8g757.png

圖 3 WJH 以線路速率從交換機 ASIC 監(jiān)控數(shù)據(jù)包丟失、擁塞事件、路由環(huán)路等警報

例如,如果您因為壞電纜或壞光纖而丟棄數(shù)據(jù)包, WJH 會向您顯示這些丟棄的數(shù)據(jù)包,并告訴您它們被丟棄的原因。 WJH 會提醒您出現(xiàn)擁塞、緩沖區(qū)問題,甚至安全問題。例如,如果您遇到一堆 ACL ,而它們正在丟棄數(shù)據(jù)包,您想知道原因,因為可能是服務器或 VM 已損壞?;蛘撸赡苁悄?ACL 配置不好,導致了問題。

在無損環(huán)境中,如在RoCE上運行的 NVMe over Fabrics (NVMe-oF),即使您沒有丟棄數(shù)據(jù)包,也會出現(xiàn)性能問題。性能問題可能是由于擁塞問題、過多的暫停幀、,或延遲問題。通常會發(fā)現(xiàn)根本原因是LAG或ECMP組之間的負載平衡不平衡。無論您的問題是丟包還是沒有丟包的性能不佳,WJH都是為了深入了解這些問題,并為您提供最佳的流式遙測,以實現(xiàn)卓越的網(wǎng)絡可視性。

世界上幾乎每一個網(wǎng)絡都會有一些數(shù)據(jù)包丟失。有時是因為不好的原因,有時是因為好的原因。許多其他交換機遙測解決方案無法提供足夠的數(shù)據(jù)來診斷和解決問題。當一個非 NVIDIA 交換機丟棄一個數(shù)據(jù)包時,該數(shù)據(jù)包被發(fā)送到比特天堂,再也看不到了。數(shù)據(jù)包和所有有用的診斷信息都消失了。

這些開關所做的最多的事情就是增加一個模糊的計數(shù)器。當你檢查計數(shù)器時,交換機會說,“哦,由于一個壞的 VLAN ,你現(xiàn)在丟棄了 504 個數(shù)據(jù)包。”這些交換機不會告訴你關于丟棄的數(shù)據(jù)包的任何信息,也不會告訴你它是什么時候丟棄的,也不會告訴你為什么丟棄的,只是告訴你它是被丟棄的。您不知道數(shù)據(jù)包是否因為交換機配置錯誤、服務器配置錯誤或其他原因而被丟棄。

其他交換機或網(wǎng)絡管理解決方案對每個交換機上每個端口的數(shù)據(jù)包執(zhí)行統(tǒng)計采樣。這會產(chǎn)生驚人的大量數(shù)據(jù)包,但不是所有的問題數(shù)據(jù)包,因此它不會記錄數(shù)據(jù)包丟失的時間、原因或方式。它也沒有正確地解釋擁塞是如何開始的,是什么導致了不可接受的高延遲,或者為什么流量變得不平衡或被錯誤路由。當懷疑出現(xiàn)問題時,您必須對保存的大量數(shù)據(jù)包進行分類,并嘗試推斷(或猜測)到底發(fā)生了什么以及原因。

在這些情況下,您同時擁有過多的數(shù)據(jù)(過多的采樣數(shù)據(jù)包),但卻沒有足夠的信息(關于問題數(shù)據(jù)包的詳細信息不足)。網(wǎng)絡上的一切都變得可疑,確定真正發(fā)生的事情可能需要數(shù)小時。有更好的方法!

WJH 是如何工作的?

pYYBAGJdJn6AHbRPAAE3BLG4upM602.png

圖 4 WJH 回答五個 W ;誰,什么,在哪里,何時,為什么

NVIDIA 剛剛發(fā)生的事情( WJH )是一種硬件加速遙測技術(shù),其中交換機 ASIC 保留丟棄數(shù)據(jù)包的重要部分。交換機不會保留整個數(shù)據(jù)包或所有正常數(shù)據(jù)包,因為這將消耗大量空間,幾乎沒有什么好處。

相反,交換機保留問題數(shù)據(jù)包的重要部分,如源和目標 IP 地址、 MAC 、端口號等,以及關于丟棄原因、時間和地點的詳細描述。因為涉及到交換機,它知道要保存哪些數(shù)據(jù)包,以及為什么這些數(shù)據(jù)包被丟棄、太慢或路由錯誤。通過硬件加速,交換機可以記錄所有相關數(shù)據(jù)包以及重要的細節(jié),即使在驅(qū)動 25 、 40 、 50 或 100 (很快就是 200 )千兆以太網(wǎng)的許多端口時也是如此。

對于小型部署,您可以登錄到交換機并快速查看網(wǎng)絡中出現(xiàn)的問題。對于較大的部署, WJH 可以使用 gRPC 將這些數(shù)據(jù)包流式輸出到一個集中的數(shù)據(jù)庫。這適用于 NVIDIA NEO 等交鑰匙解決方案,因為它位于標準數(shù)據(jù)庫中,所以它適用于 Kabana 和 Grafana 等開源工具。

如果您是一名網(wǎng)絡專家,或者曾經(jīng)去過 Sniffer 大學,并且想要查看實際的數(shù)據(jù)包捕獲,交換機可以生成一個包含所有丟棄數(shù)據(jù)包的p.cap文件,以便您可以使用 Wireshark 查看它。 WJH 通過顯示誰受到影響、哪些應用程序、哪些服務器、問題的原因、問題出現(xiàn)的時間和地點,幫助您找到問題的根源。

網(wǎng)絡遙測的新希望

WJH 是一種新的網(wǎng)絡監(jiān)控方式。傳統(tǒng)的網(wǎng)絡監(jiān)控工具收集大量無辜的數(shù)據(jù)和計數(shù)器。他們甚至可能使用 sFlow 對隨機數(shù)據(jù)包進行采樣,以為您正在收集所有這些信息以猜測網(wǎng)絡中出現(xiàn)了什么問題。

pYYBAGJdJn-Aa6jUAADw3oI1sYg118.png

圖 5 傳統(tǒng)的監(jiān)控工具讓你猜不透?

出于某種原因,最棘手的網(wǎng)絡問題通常發(fā)生在晚上或周末。然后,你必須離開晚餐或你的家人的時間來篩選堆積如山的數(shù)據(jù),并找到根本原因。你試著猜猜是什么引起了所有的麻煩。甚至有預測性分析工具 MIG ht 能給你 60-70% 的信心,讓你相信他們已經(jīng)找到了根本原因。歸根結(jié)底,這仍然只是猜測。問題是您有太多的數(shù)據(jù)(來自數(shù)據(jù)包采樣),但通常不是最重要的數(shù)據(jù)(什么、在哪里、何時以及為什么)。

poYBAGJdJoCAOdqRAAJH7Em5mio957.png

圖 6 WJH 可以精確定位數(shù)據(jù)平面異常,以便快速識別 problems.

WJH 是一種新的監(jiān)控網(wǎng)絡的方法,它關注數(shù)據(jù)平面異常情況,旨在讓您在晚上和周末返回。 WJH 快速向您顯示網(wǎng)絡中的受害者和數(shù)據(jù)包麻煩制造者或帶寬霸主。您可以不斷收集有關無辜設備和事件的大量數(shù)據(jù),并嘗試處理它們,但是 WJH 給出了實際的根本原因,由不得不丟棄數(shù)據(jù)包的交換機直接記錄。

沒有更多的問題/再創(chuàng)作戲劇!

WJH 還打破了問題/重新創(chuàng)建周期:

pYYBAGJdJoGALJ6xAAGrHKk-3UQ918.png

圖 7 WJH 維護一份關于丟棄數(shù)據(jù)包的報告,以幫助您找到根本原因

猜測問題何時會再次出現(xiàn)的舊方法,在測試臺或數(shù)據(jù)包跟蹤上設置一個重新創(chuàng)建的場景,只是為了不讓問題暴露出來,所以您可以在下一周……和下一周……重試…。這就是 WJH 的動力:先進的遙測技術(shù)。因為 WJH 保留著那些被丟棄的數(shù)據(jù)包并報告它們,所以它可以幫助你找到根本原因。 WJH 為您提供網(wǎng)絡可視性,而無需重現(xiàn)問題以解決問題。

如何部署 WJH ?

現(xiàn)在我知道你們中的一些人可能在想,“這聽起來很神奇,但我不能用 NVIDIA 交換機取代我的整個網(wǎng)絡?!?WJH 的優(yōu)點在于它獨立于網(wǎng)絡的其他部分工作。在一個交換機上運行的 WJH 可以報告該層網(wǎng)絡中其他交換機上可能發(fā)生的錯誤,這些交換機具有類似的功能。這與帶內(nèi)遙測不同,后者最適用于同一供應商的所有交換機。

開始使用 WJH 非常簡單。

WJH 部署

poYBAGJdJoOAX634AAEKc3niIN8858.png

圖 8 WJH 通過三個簡單的步驟進行部署。

第一步

大多數(shù)人開始使用 WJH 時都會進行網(wǎng)絡掃描,這是通過在插入生產(chǎn)網(wǎng)絡的交換機上啟用 WJH 來實現(xiàn)的。人們幾乎總是對他們所了解到的錯誤感到驚訝。網(wǎng)絡管理員非常高興了解網(wǎng)絡中正在發(fā)生的事情。第一步就是打開 WJH ,看看你的網(wǎng)絡里到底發(fā)生了什么。

步驟 2

接下來是清理階段,在該階段,人們解決 WJH 發(fā)現(xiàn)的網(wǎng)絡問題以及 WJH 發(fā)現(xiàn)的服務器問題和存儲問題。

步驟 3

在這里,您可以根據(jù)您的網(wǎng)絡和管理需要對 WJH 進行個性化設置:

您或許設置了一些過濾器,因為您不需要報告某些類型的“正常”錯誤,甚至不需要記錄或存儲它

如果同一數(shù)據(jù)包的 1000 秒內(nèi)會出現(xiàn)各種問題,則或許會將 WJH 代理設置為聚合模式。聚合模式只存儲該問題數(shù)據(jù)包的一個副本,而不是 1000 個相同的問題數(shù)據(jù)包。

您或許設置對您來說重要的問題的嚴重性級別。有些可能很關鍵,需要立即通知,而有些則可以稍后檢查,甚至忽略。

您可以設置嚴重性級別的操作。例如,您可能希望在關鍵問題上發(fā)送文本,在重大問題上發(fā)送電子郵件,而在次要問題上不發(fā)送警報。

概括

WJH 對于高級網(wǎng)絡負責人以及網(wǎng)絡新手來說是一個很好的工具,他們只想用一種簡單的方法從服務器和存儲問題中識別網(wǎng)絡問題。有了 WJH ,您不必成為網(wǎng)絡專家就可以快速找到性能問題的根本原因。

先進的流式遙測技術(shù)有利于您的業(yè)務。它可以幫助您從付費的網(wǎng)絡中獲得更高的性能、正常運行時間和生產(chǎn)率。

關于作者

David Iles 是 NVIDIA 的以太網(wǎng)交換高級主管。 Iles 先生曾在 3COM 、 Cisco Systems 、 Nortel Networks 和 IBM 擔任領導職務,在那里他推廣先進的網(wǎng)絡技術(shù),包括高速以太網(wǎng)、 4-7 層交換、支持虛擬機的網(wǎng)絡和軟件定義的網(wǎng)絡。作為一名終身技術(shù)專家, David 發(fā)明了新的方法來測試 4-7 層交換機的性能,并在數(shù)據(jù)中心網(wǎng)絡方面貢獻了多項專利。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 以太網(wǎng)

    關注

    40

    文章

    5453

    瀏覽量

    172223
  • NVIDIA
    +關注

    關注

    14

    文章

    5059

    瀏覽量

    103409
  • 數(shù)據(jù)中心

    關注

    16

    文章

    4835

    瀏覽量

    72261
收藏 人收藏

    評論

    相關推薦

    NVIDIA技術(shù)引領媒體行業(yè)AI革新

    近日,媒體行業(yè)正醞釀一場技術(shù)革命,計劃投入高達3萬億美元,采用NVIDIA的NIM微服務、AI Blueprint等先進技術(shù),旨在簡化AI視頻管線并顯著提升受眾參與度。這一宏大計劃彰顯了NVI
    的頭像 發(fā)表于 01-16 16:28 ?68次閱讀

    NVIDIA Cosmos世界基礎模型平臺發(fā)布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進的生成式世界基礎模型、高級 tokenizer、護欄和加速視頻處理管線組成,將推動自動駕駛汽車(AV)和機器人等物理 AI 系統(tǒng)的發(fā)展。
    的頭像 發(fā)表于 01-08 10:39 ?145次閱讀

    簡單認識NVIDIA網(wǎng)絡平臺

    NVIDIA Spectrum-X800 平臺是業(yè)界第一代 800Gb/s 的以太網(wǎng)網(wǎng)絡平臺,包括了 NVIDIA Spectrum SN5600 800Gb/s 以太網(wǎng)交換機和 NVIDIA
    的頭像 發(fā)表于 09-09 09:22 ?468次閱讀

    NVIDIA 在 Hot Chips 大會展示提升數(shù)據(jù)中心性能和能效的創(chuàng)新技術(shù)

    、在處理器及系統(tǒng)架構(gòu)師領域的深度技術(shù)盛會,Hot Chips 已經(jīng)成為價值萬億美元的數(shù)據(jù)中心計算市場的一個重要論壇。 在本周舉行的 Hot Chips 2024 上,NVIDIA高級工程師們展示了
    的頭像 發(fā)表于 08-28 16:38 ?398次閱讀
    <b class='flag-5'>NVIDIA</b> 在 Hot Chips 大會展示提升數(shù)據(jù)中心性能和能效的創(chuàng)新<b class='flag-5'>技術(shù)</b>

    流式滑動變阻器的選型原則

    流式滑動變阻器,又稱為限流電阻器或限流電位器,是一種用于限制電路中電流大小的電子元件。在電子電路設計中,選擇合適的限流式滑動變阻器對于確保電路的穩(wěn)定運行和提高電路性能至關重要。 一、限流式滑動
    的頭像 發(fā)表于 08-05 14:31 ?982次閱讀

    卷積神經(jīng)網(wǎng)絡在人臉識別中的應用

    人臉識別技術(shù)作為人工智能領域的一個重要分支,近年來取得了顯著的發(fā)展。其核心在于通過計算機對人臉圖像進行特征提取和識別,從而實現(xiàn)自動的人臉身份確認。隨著深度學習技術(shù)的興起,特別是卷積神經(jīng)
    的頭像 發(fā)表于 07-08 10:48 ?819次閱讀

    如何設計人臉識別的神經(jīng)網(wǎng)絡

    人臉識別技術(shù)是一種基于人臉特征信息進行身份識別技術(shù),廣泛應用于安全監(jiān)控、身份認證、智能門禁等領域。神經(jīng)網(wǎng)絡是實現(xiàn)人臉
    的頭像 發(fā)表于 07-04 09:20 ?700次閱讀

    神經(jīng)網(wǎng)絡在圖像識別中的應用

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡在圖像識別領域的應用日益廣泛。神經(jīng)網(wǎng)絡以其強大的特征提取和分類能力,為圖像識別帶來了革命性的進步。本文將
    的頭像 發(fā)表于 07-01 14:19 ?741次閱讀

    NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡平臺已被業(yè)界廣泛使用

    云服務提供商、GPU 云提供商和企業(yè)用戶紛紛采用 Spectrum-X;NVIDIA 網(wǎng)絡通過廣大系統(tǒng)制造商進入各個市場。 ? NVIDIA 于今日宣布 NVIDIA Spectrum
    的頭像 發(fā)表于 06-03 18:20 ?1006次閱讀

    基于毫米波雷達的手勢識別神經(jīng)網(wǎng)絡

    ,本文介紹了一種基于神經(jīng)網(wǎng)絡的手勢識別方法。我們使用毫米波雷達來捕捉手勢運動的原始信號,隨后,通過預處理和神經(jīng)網(wǎng)絡技術(shù),我們可以捕捉時間和空間變化,同時減少噪聲干擾。這導致了手勢識別
    發(fā)表于 05-23 12:12

    Nvidia Jetson Nano + CYW55573/AWXB327MA-PUR M.2無法使用操作系統(tǒng)內(nèi)置的網(wǎng)絡管理器管理Wi-Fi如何解決?

    我們使用的是 Nvidia Jetson Nano + CYW55573/AWXB327MA-PUR M.2 ,請參閱 Nvidia Jetson 與英飛凌 AIROC Wi-Fi 6
    發(fā)表于 05-23 06:47

    水利遙測終端機水文監(jiān)測應用

    水利遙測終端機水文監(jiān)測的應用,遙測終端機依托遙測技術(shù)和無線通信技術(shù),實現(xiàn)對水文數(shù)據(jù)的精確采集、無線遠傳、遠程監(jiān)控。水文監(jiān)測對水利工程管理和水資源保護具有重要意義,在各個領域都得到了廣泛
    的頭像 發(fā)表于 04-25 16:26 ?369次閱讀
    水利<b class='flag-5'>遙測</b>終端機水文監(jiān)測應用

    NVIDIA Omniverse使用Apple Vision Pro拓展世界

    在最新一屆的GTC大會上,NVIDIA宣布了一項革命性的技術(shù)突破——全新Omniverse Cloud API的推出。這一創(chuàng)新性的應用編程接口,使得開發(fā)者能夠?qū)⒔换ナ降墓I(yè)數(shù)字孿生無縫流式傳輸至Apple Vision Pro中
    的頭像 發(fā)表于 03-27 10:36 ?434次閱讀

    人臉識別技術(shù)的原理是什么 人臉識別技術(shù)的特點有哪些

    人臉識別技術(shù)的原理 人臉識別技術(shù)是一種通過計算機以圖像或視頻為輸入,識別、檢測、跟蹤和分析人臉的技術(shù)
    的頭像 發(fā)表于 02-18 13:52 ?2110次閱讀

    水利遙測物聯(lián)網(wǎng)解決方案

    著至關重要的作用。 數(shù)之能推出的水利遙測網(wǎng)關是一種集數(shù)據(jù)采集、傳輸、處理于一體的綜合性設備,廣泛應用于各種水利工程中,例如水庫、水電站、灌溉系統(tǒng)等。它可以實現(xiàn)水資源、水環(huán)境、水災害等物聯(lián)網(wǎng)感知網(wǎng)絡,通過接入
    的頭像 發(fā)表于 01-22 14:02 ?326次閱讀