0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA UFM Cyber AI實現(xiàn)數(shù)據(jù)中心的安全性和可管理性

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-15 15:02 ? 次閱讀

今天的數(shù)據(jù)中心承載著許多用戶和各種各樣的應(yīng)用程序。它們甚至已經(jīng)成為研究、技術(shù)和全球產(chǎn)業(yè)競爭優(yōu)勢的關(guān)鍵要素。隨著科學(xué)計算復(fù)雜性的增加,數(shù)據(jù)中心的運營成本也在不斷上升。除了安全威脅造成的運營中斷之外,保持?jǐn)?shù)據(jù)中心完好無損并平穩(wěn)運行也至關(guān)重要。

如今的數(shù)據(jù)中心承載著許多用戶和各種應(yīng)用,它們甚至已經(jīng)成為科研、技術(shù)和全球產(chǎn)業(yè)競爭優(yōu)勢的關(guān)鍵因素。隨著科學(xué)計算復(fù)雜性的增加,數(shù)據(jù)中心的運營成本也在不斷上升。除了要防止運營安全隱患的干擾外,保持?jǐn)?shù)據(jù)中心的完整和平滑運行也至關(guān)重要。

更重要的是,惡意用戶可能會利用數(shù)據(jù)中心的訪問權(quán)限,運行被禁止的應(yīng)用,濫用計算資源,進(jìn)而導(dǎo)致意外停機以及更高的運營成本。對于今天的IT經(jīng)理和支持開發(fā)者而言,能夠快速識別問題并提高效率的數(shù)據(jù)中心管理工具比以往任何時候都更加重要。

NVIDIA以驚人圖形處理能力和出色GPU計算性能而聞名,廣泛應(yīng)用于各個研究領(lǐng)域。同時,多年來NVIDIA也一直是安全和可擴展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,提供了各種靈活的庫和工具,來最大程度地優(yōu)化業(yè)界一流的基礎(chǔ)設(shè)施。

NVIDIA認(rèn)識到,要為當(dāng)今研究和商業(yè)領(lǐng)域最關(guān)鍵的組成部分提供全棧式解決方案,其中不僅包括提供一流的服務(wù)器平臺、GPU以及部署在整個數(shù)據(jù)中心的豐富軟件組合,而且還需要關(guān)注到安全和可管理性是建立數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。

此外,惡意用戶可能會利用數(shù)據(jù)中心訪問權(quán)限,通過運行被禁止的應(yīng)用程序來濫用計算資源,從而導(dǎo)致意外的停機時間和更高的操作成本。 數(shù)據(jù)中心管理工具比以往任何時候都更能快速發(fā)現(xiàn)問題,同時提高效率,是當(dāng)今 IT 經(jīng)理和支持它們的開發(fā)人員的首要任務(wù)。

NVIDIA 最著名的可能是驚人的圖形功能和無與倫比的 GPU 計算性能,幾乎應(yīng)用于所有研究領(lǐng)域。然而,多年來,它還是安全和可擴展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,包括靈活的庫和工具,以最大限度地利用世界一流的基礎(chǔ)設(shè)施。

NVIDIA 認(rèn)識到,為 MIG 這一當(dāng)今研究和業(yè)務(wù)中最關(guān)鍵的組成部分提供全套解決方案,不僅包括世界一流的服務(wù)器平臺,而部署在整個數(shù)據(jù)中心的最廣泛的軟件組合。 NVIDIA 也知道,安全性和可管理性是構(gòu)建數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。

NVIDIA UFM 網(wǎng)絡(luò) AI 徹底改變了 InfiniBand 數(shù)據(jù)中心

NVIDIA Unified Fabric Manager ( UFM )網(wǎng)絡(luò) AI 平臺提供增強的實時網(wǎng)絡(luò)遙測,結(jié)合 AI 提供的智能和高級分析。它使 It 經(jīng)理能夠發(fā)現(xiàn)操作異常,甚至預(yù)測網(wǎng)絡(luò)故障。這提高了安全性和數(shù)據(jù)中心正常運行時間,同時降低了總體運營開支。

UFM 網(wǎng)絡(luò)人工智能的獨特優(yōu)勢在于它能夠捕獲豐富的遙測信息,并利用人工智能技術(shù)來識別事件之間隱藏的相關(guān)性。這使它能夠檢測異常的系統(tǒng)和應(yīng)用程序行為,甚至在性能下降導(dǎo)致組件或系統(tǒng)故障之前識別它們。 UFM 網(wǎng)絡(luò) AI 甚至可以實時采取糾正措施。該平臺學(xué)習(xí)數(shù)據(jù)中心的典型操作模式,并基于網(wǎng)絡(luò)遙測數(shù)據(jù)檢測異常使用,包括流量模式、溫度等。

UFM 網(wǎng)絡(luò)人工智能基礎(chǔ)

UFM 網(wǎng)絡(luò) AI 包含三個不同的層,如圖 1 所示。

pYYBAGJZGMqARYwYAAAs5xkFy4I261.png

圖 1 。 UFM 網(wǎng)絡(luò) AI 層

輸入遙測: 通過各種方式收集信息并從網(wǎng)絡(luò)中學(xué)習(xí):

網(wǎng)絡(luò)中所有元件的遙測

網(wǎng)絡(luò)拓?fù)洌ㄗ鈶艋驊?yīng)用程序的連接和資源分配)

網(wǎng)絡(luò)設(shè)備的特點和能力

處理模型: 包含幾個模型,例如用于數(shù)據(jù)準(zhǔn)備的提取、轉(zhuǎn)換和加載( ETL )處理引擎。它還包含聚合、數(shù)據(jù)存儲和用于比較的分析模型。 UFM 網(wǎng)絡(luò)人工智能使用機器學(xué)習(xí)( ML )技術(shù)和人工智能模型進(jìn)行異常檢測和預(yù)測,以學(xué)習(xí)數(shù)據(jù)中心網(wǎng)絡(luò)組件(電纜、交換機端口、 InfiniBand 適配器)的生命周期模式。

輸出儀表板: 一個可視化層,它為網(wǎng)絡(luò)管理員和云編排器提供一個中央儀表板,以查看有關(guān)提高網(wǎng)絡(luò)利用率和效率以及解決網(wǎng)絡(luò)健康問題的警報和建議。儀表板提供了兩個主要類別: 可疑行為 和 鏈接分析 ,每個類別都包括警報和預(yù)測部分(圖 2 )。

poYBAGJZGM-AGP_sAADwh44qLhA142.png

圖 2 。 UFM 網(wǎng)絡(luò)人工智能預(yù)測儀表盤

功能豐富、直觀且可定制的 fabric manager

UFM 網(wǎng)絡(luò)人工智能還支持定制的網(wǎng)絡(luò)警報或查看觸發(fā)的異常隨著時間的推移和在不同的時間維度。通過使用基于小時或星期幾參數(shù)的聚合網(wǎng)絡(luò)統(tǒng)計信息,您可以根據(jù) MIG ht 偏離典型操作用途的測量值設(shè)置閾值和配置通知。例如,可以使用預(yù)定義的閾值來識別有問題的電纜。

內(nèi)置分析將當(dāng)前遙測信息與基于時間的聚合信息進(jìn)行比較,以檢測使用或流量模式中的任何可疑增加或減少,并立即通知系統(tǒng)管理員。 UFM-cyberai 還通過鏈路或端口遙測信息提供數(shù)據(jù)中心租戶或應(yīng)用程序警報,以識別與低級別分區(qū)密鑰( PKEY )相關(guān)的統(tǒng)計信息及其相關(guān)節(jié)點。

只有 UFM 網(wǎng)絡(luò)人工智能提供了鏈接故障預(yù)測等功能,支持預(yù)測性維護。通過在早期階段檢測性能下降情況, UFM 網(wǎng)絡(luò)人工智能可以預(yù)測潛在的鏈路或端口故障。這使管理員能夠執(zhí)行維護并消除數(shù)據(jù)中心停機時間。

NVIDIA Morpheus 的未來增強功能

為 InfiniBand 帶來最強大的結(jié)構(gòu)管理解決方案需要不斷創(chuàng)新,以跟上管理當(dāng)今復(fù)雜數(shù)據(jù)中心的復(fù)雜性。我們計劃將 NVIDIA Morpheus 與 UFM Cyber AI 集成(圖 3 ),從其他數(shù)據(jù)中心元素(如服務(wù)器或基于機架的組件遙測或 DPU 、 GPU 和應(yīng)用程序計數(shù)器)帶來更多遙測信息。

我們甚至可以提供一個額外的層,它可以直接與其他 api 接口,比如 Kafka ,一個用于高性能數(shù)據(jù)管道、流分析和數(shù)據(jù)集成的開源分布式事件流平臺。您可以使用該集成對開發(fā)人員定義的操作系統(tǒng)異常進(jìn)行特定的檢測,例如對生命科學(xué)研究專用系統(tǒng)的加密挖掘檢測。

pYYBAGJZGNaAJnotAACaVH7q6Cs709.png

圖 3 。 UFM 網(wǎng)絡(luò)人工智能與 Morpheus 框架的集成示例

Morpheus 是一個開放的人工智能應(yīng)用框架,為網(wǎng)絡(luò)安全開發(fā)者提供高度優(yōu)化的人工智能管道和預(yù)訓(xùn)練的人工智能能力。這些功能使您能夠通過數(shù)據(jù)中心結(jié)構(gòu)即時檢查所有網(wǎng)絡(luò)流量。 Morpheus 通過提供以下功能為數(shù)據(jù)中心帶來了新的安全級別:

動態(tài)保護

實時遙測

適應(yīng)性策略

用于檢測和修復(fù)網(wǎng)絡(luò)安全威脅的網(wǎng)絡(luò)防御

poYBAGJZGNyACbDHAACF9cYB950783.png

圖 4 。 UFM 網(wǎng)絡(luò)人工智能作為靈活和可擴展平臺的示例

隨著 Morpheus 集成到 UFM Cyber AI 設(shè)備中,我們可以為關(guān)鍵任務(wù)數(shù)據(jù)中心和支持開發(fā)人員提供最佳和最完整的解決方案,該解決方案也具有靈活性和可擴展性。通過可定制的異常檢測和與其他標(biāo)準(zhǔn)化 API 的接口, UFM Cyber AI 是任何支持多租戶的數(shù)據(jù)中心或云本地基礎(chǔ)設(shè)施的靈活資產(chǎn)。

關(guān)于作者

David Slama 擔(dān)任 NVIDIA 網(wǎng)絡(luò)營銷高級總監(jiān),專注于高性能計算、人工智能、云解決方案和 InfiniBand 技術(shù)。 Slama 于 2005 年加入 Mellanox ,擔(dān)任軟件工程師,并在 Mellanox 擔(dān)任多個軟件管理職位,直到 2020 年。他領(lǐng)導(dǎo)云解決方案、以太網(wǎng)和 InfiniBand 軟件管理、存儲、自動化解決方案以及上游活動,如 Ansible 、 Kubernetes 、 OpenStack 、 puppet 、 chef 等。 Slama 擁有 ML 和 AI 領(lǐng)域的網(wǎng)絡(luò)專利。他擁有政府學(xué)碩士學(xué)位和管理學(xué)和計算機科學(xué)學(xué)士學(xué)位。

Scot Schultz 是 HPC 技術(shù)專家,專注于人工智能和機器學(xué)習(xí)系統(tǒng)。 Scot 在分布式計算、操作系統(tǒng)、人工智能框架、高速互連和處理器技術(shù)方面擁有廣泛的知識。在他的整個職業(yè)生涯中,擁有超過 25 年的高性能計算系統(tǒng)經(jīng)驗,他的職責(zé)包括各種工程和領(lǐng)導(dǎo)角色,包括戰(zhàn)略 HPC 技術(shù)生態(tài)系統(tǒng)支持。 Scot 在眾多行業(yè)標(biāo)準(zhǔn)組織的成長和發(fā)展中發(fā)揮了重要作用。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5068

    瀏覽量

    103463
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4841

    瀏覽量

    72281
  • 人工智能
    +關(guān)注

    關(guān)注

    1793

    文章

    47588

    瀏覽量

    239465
收藏 人收藏

    評論

    相關(guān)推薦

    英特爾酷睿Ultra 200V系列移動處理器亮相CES 2025

    基于英特爾 vPro 平臺的全新英特爾 酷睿 Ultra 200V系列移動處理器,為企業(yè)提供 AI 驅(qū)動的生產(chǎn)力和提升的IT管理能力1。該產(chǎn)品不僅擁有卓越的性能、效率和非凡的商務(wù)計算能力,還有先進(jìn)的安全性
    的頭像 發(fā)表于 01-20 09:21 ?162次閱讀

    NVIDIA 發(fā)布保障代理式 AI 應(yīng)用安全的 NIM 微服務(wù)

    NVIDIA NeMo Guardrails 包含全新 NVIDIA NIM 微服務(wù),能夠為各行業(yè)構(gòu)建 AI 的企業(yè)提高 AI 的準(zhǔn)確
    發(fā)表于 01-17 16:29 ?53次閱讀

    如何實現(xiàn) HTTP 協(xié)議的安全性

    協(xié)議的安全性,可以采取以下幾種方法: 1. 使用HTTPS HTTPS(安全超文本傳輸協(xié)議)是HTTP的安全版本,它在HTTP的基礎(chǔ)上通過SSL/TLS協(xié)議提供了數(shù)據(jù)加密、
    的頭像 發(fā)表于 12-30 09:22 ?288次閱讀

    NVIDIA DOCA 2.9版本的亮點解析

    NVIDIA DOCA通過為開發(fā)者提供全面的軟件框架以利用硬件加速來增強 NVIDIA 網(wǎng)絡(luò)平臺的功能,從而提高性能、安全性和效率。其 API、庫和工具生態(tài)系統(tǒng)簡化了數(shù)據(jù)中心基礎(chǔ)設(shè)施的
    的頭像 發(fā)表于 11-27 11:15 ?369次閱讀
    <b class='flag-5'>NVIDIA</b> DOCA 2.9版本的亮點解析

    使用NVIDIA AI平臺確保醫(yī)療數(shù)據(jù)安全

    三井物產(chǎn)株式會社子公司借助 NVIDIA AI 平臺實現(xiàn)數(shù)據(jù)集的安全共享并使用在這些數(shù)據(jù)集上建立
    的頭像 發(fā)表于 11-20 09:37 ?212次閱讀

    如何選擇數(shù)據(jù)中心服務(wù)

    在選擇數(shù)據(jù)中心服務(wù)時,需要考慮多個關(guān)鍵因素以確保選擇的服務(wù)能夠滿足業(yè)務(wù)需求并確保數(shù)據(jù)安全、可靠和性能。以下是一些關(guān)鍵步驟和考慮因素: 一、明確業(yè)務(wù)需求 首先,需要明確自己的業(yè)務(wù)需求
    的頭像 發(fā)表于 10-24 16:14 ?236次閱讀

    怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心

    數(shù)據(jù)中心配電系統(tǒng)
    安科瑞王金晶
    發(fā)布于 :2024年08月29日 14:51:36

    NVIDIA 在 Hot Chips 大會展示提升數(shù)據(jù)中心性能和能效的創(chuàng)新技術(shù)

    NVIDIA Blackwell 平臺提供動力的最新技術(shù)進(jìn)展,以及新的數(shù)據(jù)中心液冷研究成果和用于芯片設(shè)計的 AI 代理。 他們
    的頭像 發(fā)表于 08-28 16:38 ?404次閱讀
    <b class='flag-5'>NVIDIA</b> 在 Hot Chips 大會展示提升<b class='flag-5'>數(shù)據(jù)中心</b>性能和能效的創(chuàng)新技術(shù)

    半導(dǎo)體存儲器在數(shù)據(jù)中心中的應(yīng)用

    半導(dǎo)體存儲器在數(shù)據(jù)中心中的應(yīng)用是極其重要且廣泛的,它們不僅是數(shù)據(jù)中心存儲系統(tǒng)的核心組件,還直接關(guān)系到數(shù)據(jù)處理的效率、可靠安全性。以下將詳
    的頭像 發(fā)表于 08-20 10:17 ?732次閱讀

    AI時代,我們需要怎樣的數(shù)據(jù)中心AI重新定義數(shù)據(jù)中心

    超過60%的中國企業(yè)計劃在未來12至24個月內(nèi)部署生成式人工智能。AI、模型的構(gòu)建,將顛覆數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)、運維和運營。一個全新的數(shù)據(jù)中心智能化時代已經(jīng)拉開序幕。
    發(fā)表于 07-16 11:33 ?748次閱讀
    <b class='flag-5'>AI</b>時代,我們需要怎樣的<b class='flag-5'>數(shù)據(jù)中心</b>?<b class='flag-5'>AI</b>重新定義<b class='flag-5'>數(shù)據(jù)中心</b>

    NVIDIA為新工業(yè)革命打造 AI 工廠和數(shù)據(jù)中心

    搭載 Grace CPU 以及 NVIDIA 網(wǎng)絡(luò)和基礎(chǔ)設(shè)施,助力于企業(yè)建立 AI 工廠和數(shù)據(jù)中心,推動新一輪生成式 AI 突破。 NVIDIA
    的頭像 發(fā)表于 06-03 18:14 ?1020次閱讀

    訊維分布式KVM坐席管理系統(tǒng)在數(shù)據(jù)中心管理中的應(yīng)用與案例分析

    訊維分布式KVM坐席管理系統(tǒng)在數(shù)據(jù)中心管理中的應(yīng)用,極大地提高了數(shù)據(jù)中心的運維效率和安全性。該系統(tǒng)通過其獨特的分布式架構(gòu)和智能化
    的頭像 發(fā)表于 05-16 16:27 ?547次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    冷卻技術(shù),提高計算密度,減少占地面積,并通過高帶寬、低延遲的GPU通信,有效減少數(shù)據(jù)中心的碳足跡和能源消耗。相較于傳統(tǒng)的NVIDIA H100風(fēng)冷基礎(chǔ)設(shè)施,GB200在相同功耗下實現(xiàn)25倍的性能提升
    發(fā)表于 05-13 17:16

    基于NVIDIA DOCA 2.6實現(xiàn)高性能和安全AI云設(shè)計

    作為專為 NVIDIA? BlueField? 網(wǎng)絡(luò)平臺而設(shè)計的數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件框架,NVIDIA? DOCA? 使廣大開發(fā)者能夠利用其行業(yè)標(biāo)準(zhǔn) API 在 NVIDIA Blue
    的頭像 發(fā)表于 02-23 10:02 ?511次閱讀

    KVM矩陣:打造無縫的數(shù)據(jù)中心管理體驗

    在信息技術(shù)日新月異的時代,數(shù)據(jù)中心管理效率與安全性已成為企業(yè)競爭力的重要組成部分。KVM矩陣,作為一種創(chuàng)新的遠(yuǎn)程管理解決方案,正在逐漸嶄露頭角,它以其獨特的功能和優(yōu)勢,為打造無縫的
    的頭像 發(fā)表于 02-18 14:36 ?468次閱讀
    KVM矩陣:打造無縫的<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>管理</b>體驗