在 Kubernetes 中使用 GPU 可靠地配置服務(wù)器可能很快變得復(fù)雜,因為必須安裝和管理多個組件才能使用 GPU。 GPU 運營商基于運營商框架,簡化了 GPU 服務(wù)器的初始部署和管理。 NVIDIA , Red Hat 和社區(qū)中的其他人合作創(chuàng)建了 GPU 運營商。
要在 Kubernetes 群集中配置 GPU 工作節(jié)點,需要以下 NVIDIA 軟件組件:
NVIDIA driver
NVIDIA 容器工具包
Kubernetes 設(shè)備插件
Monitoring
這些組件應(yīng)該在 GPU 資源可用于集群之前進行配置,并在集群操作期間進行管理。
GPU 操作員通過將所有組件封裝起來,簡化了組件的初始部署和管理。它使用標準的 kubernetes api 來自動化和管理這些組件,包括版本控制和升級。 GPU 操作符是完全開源的。它在 NGC 上提供,并且是 NVIDIA EGX Stack和 Red Hat OpenShift 的一部分。
最新的 GPU 操作員版本 1 . 6 和 1 . 7 包括幾個新功能:
支持使用 NVIDIA 安培體系結(jié)構(gòu)產(chǎn)品自動配置 MIG 幾何圖形
支持預(yù)安裝的 NVIDIA 驅(qū)動程序和 NVIDIA 容器工具包
更新了對 Red Hat OpenShift 4 . 7 的支持
更新了 GPU 驅(qū)動程序版本,包括對 NVIDIA A40 、 A30 和 A10 的支持
多實例 GPU 支持
多實例 GPU ( MIG )擴展了每個 NVIDIA A100 TensorCoreGPU 的性能和價值。 MIG 可以將 A100 或 A30 GPU 劃分為多達七個實例( A100 )或四個實例( A30 ),每個實例都用自己的高帶寬內(nèi)存、緩存和計算核心完全隔離。
如果沒有 MIG ,在同一 GPU 上運行的不同作業(yè)(如不同的 AI 推斷請求)將爭奪相同的資源(如內(nèi)存帶寬)。使用 MIG ,作業(yè)在不同的實例上同時運行,每個實例都有專用的計算、內(nèi)存和內(nèi)存帶寬資源。這將產(chǎn)生可預(yù)測的性能、服務(wù)質(zhì)量和最大 GPU 利用率。因為同時作業(yè)可以操作, MIG 是邊緣計算用例的理想選擇。
GPU Operator 1 . 7 添加了一個名為 NVIDIA MIG Kubernetes Manager, 的新組件,它作為守護程序運行,管理每個節(jié)點上的 MIG 模式和 MIG 配置更改。您可以在節(jié)點上應(yīng)用 MIG 配置,方法是添加一個指示要應(yīng)用的預(yù)定義配置名稱的標簽。應(yīng)用 MIG 配置后, GPU 運算符自動驗證是否按預(yù)期應(yīng)用了 MIG 更改。
預(yù)裝驅(qū)動程序和容器工具包
GPU Operator 1 . 7 現(xiàn)在支持有選擇地安裝 NVIDIA 驅(qū)動程序和容器工具包(容器配置)組件。這個新特性為預(yù)安裝驅(qū)動程序或 nvidia-docker2 包的環(huán)境提供了極大的靈活性。這些環(huán)境現(xiàn)在可以使用 GPU 操作符簡化對其他軟件組件的管理,如設(shè)備插件、 GPU 功能發(fā)現(xiàn)插件、用于監(jiān)視的 DCGM 導(dǎo)出器或用于 Kubernetes 的 MIG 管理器。
只預(yù)裝驅(qū)動程序的 Install 命令:
helm install --wait --generate-name \
nvidia/gpu-operator \
--set driver.enabled=false
預(yù)裝驅(qū)動程序和nvidia-docker2
的 Install 命令:
helm install --wait --generate-name \
nvidia/gpu-operator \
--set driver.enabled=false
--set toolkit.enabled=false
增加了對 Red Hat OpenShift 的支持
我們繼續(xù)支持 Red Hat OpenShift ,
GPU Operator 1 . 6 和 1 . 7 支持最新的 Red Hat OpenShift 4 . 7 版本。
GPU 運算符 1 . 5 支持 Red Hat OpenShift 4 . 6 。
GPU 操作符 1 . 4 和 1 . 3 分別支持 Red Hat OpenShift 4 . 5 和 4 . 4 。
GPU 操作員是經(jīng)過 OpenShift 認證的操作員。通過 OpenShift web 控制臺,只需單擊幾下鼠標即可安裝并開始使用 GPU 操作符。作為一名經(jīng)過認證的操作員,使用 NVIDIA GPU s 和 Red Hat OpenShift 非常容易。
GPU 對 NVIDIA A40 、 A30 和 A10 的驅(qū)動程序支持
我們更新了 GPU 驅(qū)動程序版本,包括對 NVIDIA A40 、 A30 和 A10 的支持。
NVIDIA A40
NVIDIA A40 提供了設(shè)計師、工程師、藝術(shù)家和科學家所需的基于數(shù)據(jù)中心的解決方案,以應(yīng)對當今的挑戰(zhàn)。 A40 基于 NVIDIA 安培架構(gòu),結(jié)合了最新一代 RT 核、張量核和 CUDA 核。它有 48 GB 的圖形內(nèi)存,用于前所未有的圖形、渲染、計算和人工智能性能。從功能強大的虛擬工作站到專用的渲染和計算節(jié)點, A40 旨在處理來自數(shù)據(jù)中心的最苛刻的可視化計算工作負載。
NVIDIA A30
NVIDIA A30 張量核 GPU 是用于人工智能推理和企業(yè)工作負載的最通用的主流計算機 GPU 。具有 MIG 的 Tensor 內(nèi)核與 165W 低功耗外殼中的快速內(nèi)存帶寬結(jié)合在一起,所有這些都采用 PCIe 外形,是主流服務(wù)器的理想選擇。
A30 是為大規(guī)模人工智能推理而構(gòu)建的,它還可以使用 TF32 快速重新訓(xùn)練人工智能模型,并使用 FP64 張量核加速高性能計算的應(yīng)用。 NVIDIA 安培體系結(jié)構(gòu)張量內(nèi)核和 MIG 的結(jié)合在不同的工作負載上提供了安全的加速,所有這些都由一個多功能的 GPU 提供動力,實現(xiàn)了彈性數(shù)據(jù)中心。多功能 A30 計算能力為主流企業(yè)提供最大價值。
NVIDIA A10
NVIDIA A10 張量核 GPU 是具有人工智能的主流媒體和圖形的理想 GPU 。第二代 RT 核和第三代 Tensor 核通過強大的 AI 豐富了圖形和視頻應(yīng)用程序。 NVIDIA A10 為密集服務(wù)器提供了一個寬、全高、全長 PCIe 外形尺寸和 150W 電源外殼。
NVIDIA A10 Tensor Core GPU 專為具有強大 AI 功能的圖形、媒體和云游戲應(yīng)用程序而設(shè)計,可提供豐富的媒體體驗。與 NVIDIA T4 張量內(nèi)核 GPU 相比,它提供了高達 4k 的云游戲,圖形性能是 NVIDIA T4 張量內(nèi)核的 2 . 5 倍,推理性能是 GPU 的 3 倍以上。
對 Containerd 的 RuntimeClass 支持
RuntimeClass 為您提供了選擇每個 Pod 的容器運行時配置,然后為每個節(jié)點上的所有 Pod 應(yīng)用默認運行時配置的靈活性。通過這種支持,您可以為運行 GPU – 加速工作負載的 pod 指定特定的運行時配置,并為通用工作負載選擇其他運行時。
GPU Operator v1 . 7 . 0 現(xiàn)在支持在安裝過程中將默認運行時選擇為 containerd 時自動創(chuàng)建 nvidia RuntimeClass 。 運行使用 GPU 的應(yīng)用程序時,可以顯式指定此 RuntimeClass 名稱。
apiVersion: node.k8s.io/v1beta1 handler: nvidia kind: RuntimeClass metadata: labels: app.kubernetes.io/component: gpu-operator
name: nvidia 關(guān)于作者
Troy Estes 是 NVIDIA Edge 和企業(yè)計算解決方案的產(chǎn)品營銷經(jīng)理。在加入 Edge & Enterprise 業(yè)務(wù)部門之前,特洛伊曾在自主汽車業(yè)務(wù)部門和 NVIDIA 電網(wǎng)產(chǎn)品集團從事營銷活動和支持產(chǎn)品 GTM 。
Erik Bohnhorst 是 NVIDIA 的高級產(chǎn)品經(jīng)理,專注于云本地技術(shù),為 edge 和數(shù)據(jù)中心構(gòu)建一流的解決方案。 Erik 于 2014 年加入 NVIDIA ,以解決方案架構(gòu)師的身份幫助客戶構(gòu)建世界一流的虛擬化遠程工作站。埃里克領(lǐng)導(dǎo)技術(shù)營銷團隊,直到他加入了 EGX 團隊。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5059瀏覽量
103381 -
gpu
+關(guān)注
關(guān)注
28文章
4762瀏覽量
129146 -
人工智能
+關(guān)注
關(guān)注
1792文章
47532瀏覽量
239278
發(fā)布評論請先 登錄
相關(guān)推薦
評論