今天的數(shù)據(jù)中心承載著許多用戶和各種各樣的應(yīng)用程序。它們甚至已經(jīng)成為研究、技術(shù)和全球產(chǎn)業(yè)競爭優(yōu)勢的關(guān)鍵要素。隨著科學(xué)計算復(fù)雜性的增加,數(shù)據(jù)中心的運營成本也在不斷上升。除了安全威脅造成的運營中斷之外,保持?jǐn)?shù)據(jù)中心完好無損并平穩(wěn)運行也至關(guān)重要。
如今的數(shù)據(jù)中心承載著許多用戶和各種應(yīng)用,它們甚至已經(jīng)成為科研、技術(shù)和全球產(chǎn)業(yè)競爭優(yōu)勢的關(guān)鍵因素。隨著科學(xué)計算復(fù)雜性的增加,數(shù)據(jù)中心的運營成本也在不斷上升。除了要防止運營安全隱患的干擾外,保持?jǐn)?shù)據(jù)中心的完整和平滑運行也至關(guān)重要。
更重要的是,惡意用戶可能會利用數(shù)據(jù)中心的訪問權(quán)限,運行被禁止的應(yīng)用,濫用計算資源,進(jìn)而導(dǎo)致意外停機以及更高的運營成本。對于今天的IT經(jīng)理和支持開發(fā)者而言,能夠快速識別問題并提高效率的數(shù)據(jù)中心管理工具比以往任何時候都更加重要。
NVIDIA以驚人圖形處理能力和出色GPU計算性能而聞名,廣泛應(yīng)用于各個研究領(lǐng)域。同時,多年來NVIDIA也一直是安全和可擴展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,提供了各種靈活的庫和工具,來最大程度地優(yōu)化業(yè)界一流的基礎(chǔ)設(shè)施。
NVIDIA認(rèn)識到,要為當(dāng)今研究和商業(yè)領(lǐng)域最關(guān)鍵的組成部分提供全棧式解決方案,其中不僅包括提供一流的服務(wù)器平臺、GPU以及部署在整個數(shù)據(jù)中心的豐富軟件組合,而且還需要關(guān)注到安全和可管理性是建立數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。
此外,惡意用戶可能會利用數(shù)據(jù)中心訪問權(quán)限,通過運行被禁止的應(yīng)用程序來濫用計算資源,從而導(dǎo)致意外的停機時間和更高的操作成本。 數(shù)據(jù)中心管理工具比以往任何時候都更能快速發(fā)現(xiàn)問題,同時提高效率,是當(dāng)今 IT 經(jīng)理和支持它們的開發(fā)人員的首要任務(wù)。
NVIDIA 最著名的可能是驚人的圖形功能和無與倫比的 GPU 計算性能,幾乎應(yīng)用于所有研究領(lǐng)域。然而,多年來,它還是安全和可擴展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,包括靈活的庫和工具,以最大限度地利用世界一流的基礎(chǔ)設(shè)施。
NVIDIA 認(rèn)識到,為 MIG 這一當(dāng)今研究和業(yè)務(wù)中最關(guān)鍵的組成部分提供全套解決方案,不僅包括世界一流的服務(wù)器平臺,而部署在整個數(shù)據(jù)中心的最廣泛的軟件組合。 NVIDIA 也知道,安全性和可管理性是構(gòu)建數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。
NVIDIA UFM 網(wǎng)絡(luò) AI 徹底改變了 InfiniBand 數(shù)據(jù)中心
NVIDIA Unified Fabric Manager ( UFM )網(wǎng)絡(luò) AI 平臺提供增強的實時網(wǎng)絡(luò)遙測,結(jié)合 AI 提供的智能和高級分析。它使 It 經(jīng)理能夠發(fā)現(xiàn)操作異常,甚至預(yù)測網(wǎng)絡(luò)故障。這提高了安全性和數(shù)據(jù)中心正常運行時間,同時降低了總體運營開支。
UFM 網(wǎng)絡(luò)人工智能的獨特優(yōu)勢在于它能夠捕獲豐富的遙測信息,并利用人工智能技術(shù)來識別事件之間隱藏的相關(guān)性。這使它能夠檢測異常的系統(tǒng)和應(yīng)用程序行為,甚至在性能下降導(dǎo)致組件或系統(tǒng)故障之前識別它們。 UFM 網(wǎng)絡(luò) AI 甚至可以實時采取糾正措施。該平臺學(xué)習(xí)數(shù)據(jù)中心的典型操作模式,并基于網(wǎng)絡(luò)遙測數(shù)據(jù)檢測異常使用,包括流量模式、溫度等。
UFM 網(wǎng)絡(luò)人工智能基礎(chǔ)
UFM 網(wǎng)絡(luò) AI 包含三個不同的層,如圖 1 所示。
圖 1 。 UFM 網(wǎng)絡(luò) AI 層
輸入遙測: 通過各種方式收集信息并從網(wǎng)絡(luò)中學(xué)習(xí):
網(wǎng)絡(luò)中所有元件的遙測
網(wǎng)絡(luò)拓?fù)洌ㄗ鈶艋驊?yīng)用程序的連接和資源分配)
網(wǎng)絡(luò)設(shè)備的特點和能力
處理模型: 包含幾個模型,例如用于數(shù)據(jù)準(zhǔn)備的提取、轉(zhuǎn)換和加載( ETL )處理引擎。它還包含聚合、數(shù)據(jù)存儲和用于比較的分析模型。 UFM 網(wǎng)絡(luò)人工智能使用機器學(xué)習(xí)( ML )技術(shù)和人工智能模型進(jìn)行異常檢測和預(yù)測,以學(xué)習(xí)數(shù)據(jù)中心網(wǎng)絡(luò)組件(電纜、交換機、端口、 InfiniBand 適配器)的生命周期模式。
輸出儀表板: 一個可視化層,它為網(wǎng)絡(luò)管理員和云編排器提供一個中央儀表板,以查看有關(guān)提高網(wǎng)絡(luò)利用率和效率以及解決網(wǎng)絡(luò)健康問題的警報和建議。儀表板提供了兩個主要類別: 可疑行為 和 鏈接分析 ,每個類別都包括警報和預(yù)測部分(圖 2 )。
圖 2 。 UFM 網(wǎng)絡(luò)人工智能預(yù)測儀表盤
功能豐富、直觀且可定制的 fabric manager
UFM 網(wǎng)絡(luò)人工智能還支持定制的網(wǎng)絡(luò)警報或查看觸發(fā)的異常隨著時間的推移和在不同的時間維度。通過使用基于小時或星期幾參數(shù)的聚合網(wǎng)絡(luò)統(tǒng)計信息,您可以根據(jù) MIG ht 偏離典型操作用途的測量值設(shè)置閾值和配置通知。例如,可以使用預(yù)定義的閾值來識別有問題的電纜。
內(nèi)置分析將當(dāng)前遙測信息與基于時間的聚合信息進(jìn)行比較,以檢測使用或流量模式中的任何可疑增加或減少,并立即通知系統(tǒng)管理員。 UFM-cyberai 還通過鏈路或端口遙測信息提供數(shù)據(jù)中心租戶或應(yīng)用程序警報,以識別與低級別分區(qū)密鑰( PKEY )相關(guān)的統(tǒng)計信息及其相關(guān)節(jié)點。
只有 UFM 網(wǎng)絡(luò)人工智能提供了鏈接故障預(yù)測等功能,支持預(yù)測性維護。通過在早期階段檢測性能下降情況, UFM 網(wǎng)絡(luò)人工智能可以預(yù)測潛在的鏈路或端口故障。這使管理員能夠執(zhí)行維護并消除數(shù)據(jù)中心停機時間。
NVIDIA Morpheus 的未來增強功能
為 InfiniBand 帶來最強大的結(jié)構(gòu)管理解決方案需要不斷創(chuàng)新,以跟上管理當(dāng)今復(fù)雜數(shù)據(jù)中心的復(fù)雜性。我們計劃將 NVIDIA Morpheus 與 UFM Cyber AI 集成(圖 3 ),從其他數(shù)據(jù)中心元素(如服務(wù)器或基于機架的組件遙測或 DPU 、 GPU 和應(yīng)用程序計數(shù)器)帶來更多遙測信息。
我們甚至可以提供一個額外的層,它可以直接與其他 api 接口,比如 Kafka ,一個用于高性能數(shù)據(jù)管道、流分析和數(shù)據(jù)集成的開源分布式事件流平臺。您可以使用該集成對開發(fā)人員定義的操作系統(tǒng)異常進(jìn)行特定的檢測,例如對生命科學(xué)研究專用系統(tǒng)的加密挖掘檢測。
圖 3 。 UFM 網(wǎng)絡(luò)人工智能與 Morpheus 框架的集成示例
Morpheus 是一個開放的人工智能應(yīng)用框架,為網(wǎng)絡(luò)安全開發(fā)者提供高度優(yōu)化的人工智能管道和預(yù)訓(xùn)練的人工智能能力。這些功能使您能夠通過數(shù)據(jù)中心結(jié)構(gòu)即時檢查所有網(wǎng)絡(luò)流量。 Morpheus 通過提供以下功能為數(shù)據(jù)中心帶來了新的安全級別:
動態(tài)保護
實時遙測
適應(yīng)性策略
用于檢測和修復(fù)網(wǎng)絡(luò)安全威脅的網(wǎng)絡(luò)防御
圖 4 。 UFM 網(wǎng)絡(luò)人工智能作為靈活和可擴展平臺的示例
隨著 Morpheus 集成到 UFM Cyber AI 設(shè)備中,我們可以為關(guān)鍵任務(wù)數(shù)據(jù)中心和支持開發(fā)人員提供最佳和最完整的解決方案,該解決方案也具有靈活性和可擴展性。通過可定制的異常檢測和與其他標(biāo)準(zhǔn)化 API 的接口, UFM Cyber AI 是任何支持多租戶的數(shù)據(jù)中心或云本地基礎(chǔ)設(shè)施的靈活資產(chǎn)。
關(guān)于作者
David Slama 擔(dān)任 NVIDIA 網(wǎng)絡(luò)營銷高級總監(jiān),專注于高性能計算、人工智能、云解決方案和 InfiniBand 技術(shù)。 Slama 于 2005 年加入 Mellanox ,擔(dān)任軟件工程師,并在 Mellanox 擔(dān)任多個軟件管理職位,直到 2020 年。他領(lǐng)導(dǎo)云解決方案、以太網(wǎng)和 InfiniBand 軟件管理、存儲、自動化解決方案以及上游活動,如 Ansible 、 Kubernetes 、 OpenStack 、 puppet 、 chef 等。 Slama 擁有 ML 和 AI 領(lǐng)域的網(wǎng)絡(luò)專利。他擁有政府學(xué)碩士學(xué)位和管理學(xué)和計算機科學(xué)學(xué)士學(xué)位。
Scot Schultz 是 HPC 技術(shù)專家,專注于人工智能和機器學(xué)習(xí)系統(tǒng)。 Scot 在分布式計算、操作系統(tǒng)、人工智能框架、高速互連和處理器技術(shù)方面擁有廣泛的知識。在他的整個職業(yè)生涯中,擁有超過 25 年的高性能計算系統(tǒng)經(jīng)驗,他的職責(zé)包括各種工程和領(lǐng)導(dǎo)角色,包括戰(zhàn)略 HPC 技術(shù)生態(tài)系統(tǒng)支持。 Scot 在眾多行業(yè)標(biāo)準(zhǔn)組織的成長和發(fā)展中發(fā)揮了重要作用。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5068瀏覽量
103463 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4841瀏覽量
72281 -
人工智能
+關(guān)注
關(guān)注
1793文章
47588瀏覽量
239465
發(fā)布評論請先 登錄
相關(guān)推薦
評論