NVIDIA AI Enterprise 是一款端到端的安全云原生 AI 軟件套件。最近發(fā)布的 NVIDIA AI Enterprise 3.0 加入了幫助優(yōu)化生產(chǎn)級 AI 性能與效率的新功能。本文將詳細(xì)介紹以下新功能及其工作原理。
· VMware vSphere 8.0的 GPU 虛擬化功能
· Red Hat Enterprise Linux(RHEL)KVM 8 和 9
· 對 NVIDIA AI 的擴(kuò)展支持
生產(chǎn)級 AI 功能
NVIDIA AI Enterprise 3.0 版本中的新 AI 工作流有助于縮短生產(chǎn)級 AI 的開發(fā)時(shí)間。這些工作流是常見 AI 用例的參考應(yīng)用,包括聯(lián)絡(luò)中心智能虛擬助理、音頻轉(zhuǎn)錄、數(shù)字指紋等。
未加密的預(yù)訓(xùn)練模型也首次包括在內(nèi),這確保了 AI 的可解釋性并使開發(fā)者能夠查看模型的權(quán)重和偏差,并了解模型的偏差。
NVIDIA AI Enterprise 現(xiàn)在支持 NGC 目錄中發(fā)布的所有 NVIDIA AI 軟件。已經(jīng)使用過 NGC 的開發(fā)者現(xiàn)在可以無縫過渡到 NVIDIA AI Enterprise 并使用支持 50 多個(gè) AI 框架、預(yù)訓(xùn)練模型和 SDK 的 NVIDIA Enterprise Support。
基礎(chǔ)設(shè)施性能功能
NVIDIA AI Enterprise 3.0 包含許多有助于優(yōu)化基礎(chǔ)設(shè)施性能的新功能,因此用戶可以從他們的 AI 投資中獲得最大收益并最大程度地節(jié)約成本和時(shí)間。下面將對這些功能進(jìn)行詳細(xì)說明。
Magnum IO GPUDirect Storage
企業(yè)現(xiàn)在可以在部署 NVIDIA AI Enterprise 3.0 的情況下,利用 Magnum IO GPUDirect Storage 的性能優(yōu)勢來加速和擴(kuò)展他們的 AI 工作負(fù)載。GPUDirect Storage 1.4 打通了本地或遠(yuǎn)程存儲(chǔ)與 GPU 內(nèi)存之間的直接數(shù)據(jù)路徑,為復(fù)雜的工作負(fù)載提供無與倫比的性能。
GPUDirect Storage 簡化并提高了存儲(chǔ)和 GPU 緩沖區(qū)之間的數(shù)據(jù)流的效率,適用于在 GPU 上消耗或產(chǎn)生數(shù)據(jù)而不需要 CPU 處理的應(yīng)用。該功能通過遠(yuǎn)程直接內(nèi)存訪問(RDMA),在從存儲(chǔ)到 GPU 內(nèi)存的直接路徑上快速移動(dòng)數(shù)據(jù),減少延遲并通過消除回彈緩沖區(qū)產(chǎn)生的多余復(fù)制來減輕 CPU 的負(fù)擔(dān)。
GPUDirect Storage 帶來了明顯的性能提升。與 NumPy 相比,使用 NVIDIA DALI 進(jìn)行深度學(xué)習(xí)推理時(shí),性能提高了 7.2 倍。
美國國家航空航天局(NASA)的火星探測器演示項(xiàng)目使用 NVIDIA IndeX 和 GPUDirect Storage 以及 27000 多個(gè) NVIDIA GPU 來模擬逆向推進(jìn),在使用 PCIe 交換機(jī)和 NVLinks 以及 GPUDirect Storage 時(shí),帶寬提高了 5 倍。
圖 1. GPUDirect Storage 提供了一條從存儲(chǔ)出發(fā)、完全跳過 CPU 的直接路徑,消除了綁定在 CPU 上的回彈緩沖。
VMware vSphere 8.0 的 GPU 虛擬化功能
NVIDIA AI Enterprise 3.0 引入了對 VMware vSphere 8 的支持,包括多項(xiàng)可加速性能和提高運(yùn)行效率的功能。VMware 環(huán)境現(xiàn)在可以在一個(gè)虛擬機(jī)上添加多達(dá) 8 個(gè)虛擬 GPU,vGPU 數(shù)量比之前的版本多了一倍。這提高了大型 ML 模型的性能,為復(fù)雜的 AI 和 ML 工作負(fù)載提供了更高的可擴(kuò)展性。
隨著設(shè)備組的引入,IT 管理員現(xiàn)在可以更好的控制虛擬機(jī)的放置。vSphere 附帶的管理工具分布式資源調(diào)度(DRS)可確定虛擬機(jī)的最佳放置位置。
新的設(shè)備組功能提供了對 PCIe 設(shè)備的洞察,這些設(shè)備在硬件層面上(通過 NVLink 或 PCIe 開關(guān))相互配對,IT 管理員可以從中選擇一個(gè)子集,提交給虛擬機(jī)作出 DRS 調(diào)度決策。
通過設(shè)備組,IT 管理員可以確保設(shè)備子集被一起分配給虛擬機(jī)。例如,如果用戶想要通過擴(kuò)展 GPU 來加速大型模型,IT 管理員可以創(chuàng)建一個(gè)包含 GPU 的設(shè)備組并通過 NVLink 連接這些設(shè)備,比如圖 2 中的設(shè)備組 1。
如果用戶想要向外擴(kuò)展到多臺(tái)服務(wù)器以進(jìn)行分布式訓(xùn)練,可以使用共享同一 PCIe 交換機(jī)的 GPU 和 NIC 組成設(shè)備組,比如圖 2 中的設(shè)備組 2。
圖 2. 有兩個(gè) GPU 的設(shè)備組(左)和服務(wù)器上有一個(gè) GPU 與網(wǎng)卡的設(shè)備組(右)
Red Hat Enterprise Linux KVM
NVIDIA AI Enterprise 3.0 將虛擬化支持?jǐn)U展至 Red Hat Enterprise Linux 8.4、8.6、8.7、9.0 和 9.1,使企業(yè)能夠?qū)?KVM 功能擴(kuò)展到他們的 AI 工作負(fù)載。通過 RHEL KVM,管理員可以在一個(gè)虛擬機(jī)上添加多達(dá) 16 個(gè)虛擬 GPU,將計(jì)算密集型工作負(fù)載的處理速度提高數(shù)倍。
Fractional multi-vGPU 支持
管理員現(xiàn)在可以通過 NVIDIA AI Enterprise 3.0,為一臺(tái)虛擬機(jī)配置多個(gè) Fractional vGPU,從而更加靈活地根據(jù)工作負(fù)載優(yōu)化虛擬機(jī)的配置。在該版本發(fā)布之前,每臺(tái)虛擬機(jī)只能通過一個(gè)或多個(gè)整數(shù)份 GPU 加速。
管理員現(xiàn)在能夠更加靈活地根據(jù)工作負(fù)載的計(jì)算需求,為一個(gè)虛擬機(jī)分配多個(gè)部分 vGPU 配置文件。例如,當(dāng)運(yùn)行具有不同計(jì)算需求的多個(gè)推理工作負(fù)載時(shí),管理員可以根據(jù)工作負(fù)載的內(nèi)存需求,為一個(gè)虛擬機(jī)分配不同數(shù)量幀緩沖器的 NVIDIA A100 Tensor Core GPU 的部分配置文件。
需要注意的是,所有部分配置文件必須是相同的板卡類型和系列。可以將一個(gè)或多個(gè)物理 GPU 分成這些份額的 vGPU 配置文件。該功能在 VMware vSphere 8 和 RHEL KVM 8 和 9 上均可以使用。
圖 3. 將一個(gè)配置文件分成多個(gè) vGPU 分配給一個(gè)虛擬機(jī)
對 NVIDIA AI 的擴(kuò)展支持
NVIDIA AI Enterprise 為 NGC 目錄中發(fā)布的所有 NVIDIA AI 軟件提供支持,該目錄目前包含 50 多個(gè)框架和模型。所有受支持的模型都標(biāo)有“NVIDIA AI Enterprise Supported”以幫助用戶輕松識別支持的軟件。
圖 4. 所有 NVIDIA AI Enterprise 支持的模型在 NGC 目錄中都有標(biāo)注
總結(jié)
通過最新 3.0 版本的 NVIDIA AI Enterprise,企業(yè)可以使用最新的性能和效率優(yōu)化功能縮短生產(chǎn)級 AI 的開發(fā)時(shí)間。NVIDIA LaunchPad 使用戶可以在私有加速計(jì)算環(huán)境中即時(shí)、短期訪問 NVIDIA AI Enterprise 軟件套件,包括各種動(dòng)手實(shí)操實(shí)驗(yàn)室。
即刻點(diǎn)擊“閱讀原文”或掃描下方海報(bào)二維碼,在 NVIDIA On-Demand 上觀看 GTC 精選回放,包括主題演講相關(guān)精選、中國本地精選內(nèi)容、生成式 AI 專題以及全球各行業(yè)及領(lǐng)域最新成果!
原文標(biāo)題:使用 NVIDIA AI Enterprise 3.0 優(yōu)化生產(chǎn)級 AI 的性能和效率
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91103
原文標(biāo)題:使用 NVIDIA AI Enterprise 3.0 優(yōu)化生產(chǎn)級 AI 的性能和效率
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論