0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用GPU Operator 1.8簡化GPU對部署場景的管理

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-11 16:06 ? 次閱讀

在本文中,我們將介紹 GPU Operator release 1.8 中添加的新功能,進一步簡化 GPU 對各種部署場景的管理,包括:

增加了對 GPU 操作員升級的支持

支持 NVX 交換機系統(tǒng),包括 DGX A100 和 NVIDIA HGX A100 服務器

支持收集 GPU 操作員狀態(tài)指標

GPU 運營商和網(wǎng)絡運營商改進多節(jié)點培訓

支持 Red Hat OpenShift 4.8

NVIDIA 軟件生命周期管理

GPU Operator 的 1.8 版為組織提供了更新機制,以更新其 GPU Operator 版本,而不會中斷運行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用戶在安裝新版本之前卸載以前的版本,這意味著在升級過程中群集中沒有可用的 GPU 。

從 1.8 開始,升級版本不會中斷工作流程。該機制以滾動方式一次更新一個節(jié)點,因此其他節(jié)點可以繼續(xù)使用。只有在安裝完成且上一個節(jié)點重新聯(lián)機時,下一個節(jié)點才會更新。用戶可以確信,在更新 GPU 操作員時,他們的工作流程將得到更好的管理。

現(xiàn)在支持 NVS 交換機系統(tǒng)

對于 1.8 , GPU 操作員自動在 NVIDIA 上部署初始化結構所需的軟件 NVSwitch 系統(tǒng),包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 帶寬下相互通信,以創(chuàng)建一個可擴展的終端計算平臺。

GPU 操作員還經(jīng)過認證,可在 DGX A100 系統(tǒng)上與 Red Hat OpenShift 4 一起使用。

支持收集 GPU 操作員狀態(tài)指標

在 1.8 版本中, GPU 運營商現(xiàn)在報告各種指標,供用戶監(jiān)控 GPU 運營商和 GPU – 運營商資源命名空間下的運營商部署資源的總體運行狀況。 SRE 團隊和集群管理員現(xiàn)在可以配置必要的 Prometheus 用于收集指標以及在某些故障情況下觸發(fā)警報的資源。

對于 OpenShift 容器平臺,這些資源將在此版本中自動創(chuàng)建。監(jiān)控解決方案,如 Grafana 可用于構建儀表板和可視化 GPU 操作員和節(jié)點組件的操作狀態(tài)。

更好地結合: NVIDIA 加速計算和聯(lián)網(wǎng)

最近, NVIDIA 發(fā)布了 NVIDIA Network Operator 。 模擬 NVIDIA GPU Operator ,網(wǎng)絡運營商通過自動化網(wǎng)絡部署和配置的各個方面簡化了 Kubernetes 的擴展網(wǎng)絡設計,否則需要手動操作。它在具有 NVIDIA 網(wǎng)絡接口的任何群集節(jié)點上加載所需的驅(qū)動程序、庫、設備插件和 CNI 。

當它們一起部署時, NVIDIA GPU 和網(wǎng)絡運營商啟用 GPU 直接 RDMA ,即不同節(jié)點上 NVIDIA GPU 之間的快速數(shù)據(jù)路徑。這是數(shù)據(jù)密集型工作負載(如 AI 多節(jié)點培訓)的關鍵技術促成因素。

了解有關最新版本的更多信息 NVIDIA 網(wǎng)絡運營商發(fā)布 。

增加了對 Red Hat OpenShift 的支持

我們繼續(xù)支持紅帽 OpenShift 。

GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7

GPU 運算符 1.6 支持 Red Hat OpenShift 4. 7

GPU 運算符 1. 5 支持 Red Hat OpenShift 4 . 6

GPU Operator 1. 4 和1 .3 分別支持 Red Hat OpenShift 4.5 和 4.4

概括

以下資源可用于使用 NVIDIA GPU 運算符:

GPU 操作員 1.8 發(fā)行說明

入門指南

GPU NGC 上的操作員舵圖

GitHub 上的 GPU 運算符

NVIDIA GPU 運算符是許多應用程序的關鍵組件 邊緣計算 解決。

關于作者

Troy Estes 是 NVIDIA Edge 和企業(yè)計算解決方案的產(chǎn)品營銷經(jīng)理。在加入 Edge & Enterprise 業(yè)務部門之前,特洛伊曾在自主汽車業(yè)務部門和 NVIDIA 電網(wǎng)產(chǎn)品集團從事營銷活動和支持產(chǎn)品 GTM 。

Erik Bohnhorst 是 NVIDIA 的高級產(chǎn)品經(jīng)理,專注于云本地技術,為 edge 和數(shù)據(jù)中心構建一流的解決方案。 Erik 于 2014 年加入 NVIDIA ,以解決方案架構師的身份幫助客戶構建世界一流的虛擬化遠程工作站。埃里克領導技術營銷團隊,直到他加入了 EGX 團隊。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5075

    瀏覽量

    103589
  • 數(shù)據(jù)中心

    關注

    16

    文章

    4855

    瀏覽量

    72339
收藏 人收藏

    評論

    相關推薦

    GPU按需計費的優(yōu)勢

    GPU按需計費,是指用戶根據(jù)實際使用的GPU資源和時間進行費用結算,而非傳統(tǒng)的一次性購買或固定租賃模式。以下,是對GPU按需計費優(yōu)勢的總結,由AI部落小編整理。
    的頭像 發(fā)表于 01-14 10:43 ?84次閱讀

    Triton編譯器與GPU編程的結合應用

    優(yōu)化,以及生成高效的并行執(zhí)行計劃。 GPU編程的挑戰(zhàn) GPU編程面臨的主要挑戰(zhàn)包括: 編程復雜性 :GPU編程需要對硬件架構有深入的理解,包括線程、塊和網(wǎng)格的概念。 內(nèi)存管理
    的頭像 發(fā)表于 12-25 09:13 ?308次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    問題,但會降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU計算需要啟用,可通過命令行工具nvidia
    發(fā)表于 12-16 14:25

    GPU在虛擬現(xiàn)實中的表現(xiàn) 低功耗GPU的優(yōu)缺點

    GPU在虛擬現(xiàn)實中的表現(xiàn) 虛擬現(xiàn)實(VR)技術的發(fā)展離不開高性能的圖形處理單元(GPU)。GPU在VR中扮演著至關重要的角色,它負責渲染復雜的三維場景,提供流暢的圖像輸出,以及處理用戶
    的頭像 發(fā)表于 11-19 10:58 ?457次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU

    本篇閱讀學習第七、八章,了解GPU架構演進及CPGPU存儲體系與線程管理 █從圖形到計算的GPU架構演進 GPU圖像計算發(fā)展 ●從三角形開始的幾何階段 在現(xiàn)代圖形渲染中,三角形是最常用
    發(fā)表于 11-03 12:55

    談談GPU的使用壽命

    上文結合論文談一談,三年壽命的GPU [上]說到,電路腐蝕導致橡樹嶺實驗室的GPU壽命只有3年,更換了11,000塊GPU。
    的頭像 發(fā)表于 11-01 10:27 ?356次閱讀
    談談<b class='flag-5'>GPU</b>的使用壽命

    【一文看懂】大白話解釋“GPUGPU算力”

    隨著大模型的興起,“GPU算力”這個詞正頻繁出現(xiàn)在人工智能、游戲、圖形設計等工作場景中,什么是GPU,它與CPU的區(qū)別是什么?以及到底什么是GPU算力?本篇文章主要從以下5個角度,讓您
    的頭像 發(fā)表于 10-29 08:05 ?939次閱讀
    【一文看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

    常見GPU問題及解決方法

    GPU(圖形處理單元)是計算機硬件的重要組成部分,負責處理圖形和視頻渲染任務。隨著技術的發(fā)展,GPU在深度學習、游戲、視頻編輯等領域扮演著越來越重要的角色。然而,在使用GPU的過程中,我們可能會遇到
    的頭像 發(fā)表于 10-27 14:12 ?1853次閱讀

    GPU超頻設置技巧

    超頻GPU(圖形處理單元)可以提高顯卡的性能,但同時也可能增加熱量和功耗,甚至可能縮短硬件的壽命。在進行GPU超頻之前,確保你了解可能的風險,并且愿意承擔這些風險。以下是一些基本的GPU超頻設置
    的頭像 發(fā)表于 10-27 11:09 ?614次閱讀

    如何選擇適合的GPU

    。因此,選擇一個適合自己需求的GPU是一個需要綜合考慮多個因素的過程。 1. 確定用途 首先,你需要明確你的GPU將用于什么目的。不同的應用場景GPU的需求差異很大。例如,如果你主要
    的頭像 發(fā)表于 10-27 11:07 ?430次閱讀

    GPU算力租用平臺是什么

    GPU算力租用平臺是一種基于云計算的服務模式,它允許用戶通過互聯(lián)網(wǎng)按需租用高性能GPU資源,而無需自行購買、部署和維護這些硬件。
    的頭像 發(fā)表于 10-16 10:15 ?293次閱讀

    暴漲預警!NVIDIA GPU供應大跳水

    gpu
    jf_02331860
    發(fā)布于 :2024年07月26日 09:41:42

    NVLink技術之GPUGPU的通信

    在多 GPU 系統(tǒng)內(nèi)部,GPU 間通信的帶寬通常在數(shù)百GB/s以上,PCIe總線的數(shù)據(jù)傳輸速率容易成為瓶頸,且PCIe鏈路接口的串并轉換會產(chǎn)生較大延時,影響GPU并行計算的效率和性能。
    發(fā)表于 03-27 09:40 ?4196次閱讀
    NVLink技術之<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>的通信

    FPGA在深度學習應用中或?qū)⑷〈?b class='flag-5'>GPU

    通常是在一個確定的環(huán)境中進行的,運行神經(jīng)網(wǎng)絡的系統(tǒng)會在部署中遇到各種限制——這可能會對 GPU 的實際使用造成壓力?!?GPU 需要大量的電力,會產(chǎn)生大量的熱量,并需要使用風扇冷卻。當你在臺式工作站
    發(fā)表于 03-21 15:19

    gpu是什么和cpu的區(qū)別

    GPU和CPU是兩種常見的計算機處理器,它們在結構和功能上有很大的區(qū)別。在這篇文章中,我們將探討GPU和CPU的區(qū)別,并詳細介紹它們的原理、應用領域和性能特點。 一、概述 1.1 GPU(圖形處理器
    的頭像 發(fā)表于 02-20 11:24 ?1.9w次閱讀