0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Grace Hoppper所帶來的性能突破

jf_pJlTbmA9 ? 來源:NVIDIA ? 作者:NVIDIA ? 2023-07-05 16:30 ? 次閱讀

NVIDIA Grace Hopper 超級芯片架構(gòu) 是 高性能計算( HPC )和 AI 工作負載的第一個真正的異構(gòu)加速平臺。它利用 GPUCPU 的優(yōu)勢加速應(yīng)用程序,同時提供迄今為止最簡單和最高效的分布式異構(gòu)編程模型??茖W家和工程師可以專注于解決世界上最重要的問題。

在這篇文章中,您將了解 Grace Hopper 超級芯片的所有信息,并重點介紹 NVIDIA Grace Hoppper 所帶來的性能突破。有關(guān) Grace Hopper 使用 NVIDIA Hopper H100 GPU 在最強大的基于 PCIe 的加速平臺上實現(xiàn)的加速的更多信息,請參閱 NVIDIA Grace Hopper Superchip Architecture 白皮書。

高性能計算和巨大人工智能工作負載的性能和生產(chǎn)力

NVIDIA Grace Hopper 超級芯片架構(gòu)將 NVIDIA Hopper GPU 的開創(chuàng)性性能與 NVIDIA Grace CPU 的多功能性結(jié)合在一起,在單個超級芯片中連接了高帶寬和內(nèi)存相關(guān) NVIDIA NVLink Chip-2-Chip (C2C) 互連,并支持新的 NVIDIA NVLink Switch System 。

NVIDIA NVLink-C2C 是一種 NVIDIA 內(nèi)存連貫、高帶寬和低延遲超級芯片互連。它是 Grace Hopper 超級芯片的核心,提供敢達 900 GB / s 的總帶寬。這比通常用于加速系統(tǒng)的 x16 PCIe Gen5 通道高 7 倍的帶寬。

NVLink-C2C 內(nèi)存一致性提高了開發(fā)人員的生產(chǎn)力和性能,并使 GPU 能夠訪問大量內(nèi)存。 CPU 和 GPU 線程現(xiàn)在可以同時透明地訪問 CPU 和 GPU 駐留內(nèi)存,使您能夠?qū)W⒂?a target="_blank">算法而不是顯式內(nèi)存管理。

內(nèi)存一致性使您能夠只傳輸所需的數(shù)據(jù),而不會將整個頁面遷移到 GPU 或從 GPU 遷移。它還通過啟用 CPU 和 GPU 的本機原子操作,實現(xiàn) GPU 和 CPU 線程之間的輕量級同步原語。帶地址轉(zhuǎn)換服務(wù)( ATS )的 NVLink-C2C 利用 NVIDIA Hopper 直接內(nèi)存訪問( DMA )復(fù)制引擎,加快主機和設(shè)備間可分頁內(nèi)存的批量傳輸。

NVLink-C2C 使應(yīng)用程序能夠超額訂閱 GPU 的內(nèi)存,并以高帶寬直接利用 NVIDIA Grace CPU 的內(nèi)存。每個 Grace Hopper 超級芯片最多 512 GB LPDDR5X CPU 內(nèi)存, GPU 可直接高帶寬訪問比 HBM 多 4 倍的內(nèi)存。結(jié)合 NVIDIA NVLink 交換機系統(tǒng),在多達 256 個 NVLink 連接的 GPU 上運行的所有 GPU 線程現(xiàn)在可以以高帶寬訪問多達 150 TB 的內(nèi)存。第四代 NVLink 支持使用直接加載、存儲和原子操作訪問對等內(nèi)存,使加速應(yīng)用程序比以往任何時候都更容易解決更大的問題。

與 NVIDIA 網(wǎng)絡(luò)技術(shù)一起, Grace Hopper Superchips 為下一代 HPC 超級計算機和 AI 工廠提供了配方??蛻艨梢越邮芨蟮臄?shù)據(jù)集、更復(fù)雜的模型和新的工作負載,從而比以前更快地解決這些問題。

NVIDIA Grace Hopper 超級芯片的主要創(chuàng)新如下:

NVIDIA Grace CPU :

多達 72x Arm Neoverse V2 內(nèi)核,每個內(nèi)核配備 Armv9.0-A ISA 和 4 × 128 位 SIMD 單元。

高達 117 MB 的三級緩存。

高達 512 GB 的 LPDDR5X 內(nèi)存,提供高達 546 GB / s 的內(nèi)存帶寬。

最多 64x PCIe Gen5 通道。

NVIDIA 可擴展一致性結(jié)構(gòu)( SCF )網(wǎng)格和分布式緩存,內(nèi)存帶寬高達 3.2 TB / s 。

具有單個 CPU NUMA 節(jié)點的高開發(fā)人員生產(chǎn)率。

NVIDIA Hopper GPU :

與 NVIDIA A100 GPU 相比,多達 144 個 SM ,具有第四代 Tensor 核心、 transformer 引擎、 DPX 和高 3 倍的 FP32 和 FP64 。

高達 96 GB 的 HBM3 內(nèi)存,傳輸速度高達 3000 GB / s 。

60 MB 二級緩存。

NVLink 4 和 PCIe 5 。

NVIDIA NVLink-C2C :

Grace CPU 和 Hopper GPU 之間的硬件相干互連。

總帶寬高達 900 GB / s , 450 GB / s / dir 。

擴展 GPU 內(nèi)存功能使料斗 GPU 可將所有 CPU 內(nèi)存尋址為 GPU 內(nèi)存。每個 Hopper GPU 可以在超級芯片內(nèi)尋址多達 608 GB 的內(nèi)存。

NVIDIA NVLink 交換機系統(tǒng):

使用 NVLink 4 連接多達 256 倍 NVIDIA Grace Hopper 超級芯片。

每個 NVLink 連接的 Hopper GPU 可以尋址網(wǎng)絡(luò)中所有超級芯片的所有 HBM3 和 LPDDR5X 內(nèi)存,最多可尋址 150 TB 的 GPU 內(nèi)存。

針對性能、可移植性和生產(chǎn)力的編程模型

具有 PCIe 連接加速器的傳統(tǒng)異構(gòu)平臺要求用戶遵循復(fù)雜的編程模型,該模型涉及手動管理設(shè)備內(nèi)存分配以及與主機之間的數(shù)據(jù)傳輸。

NVIDIA Grace Hopper Superchip 平臺是異構(gòu)的,易于編程, NVIDIA 致力于讓所有開發(fā)人員和應(yīng)用程序都可以使用它,而不依賴于選擇的編程語言。

Grace Hopper Superchip 和平臺的構(gòu)建都使您能夠為手頭的任務(wù)選擇合適的語言, NVIDIA CUDA LLVM Compiler API 使您能夠?qū)⑹走x的編程語言帶到 CUDA 平臺,其代碼生成質(zhì)量和優(yōu)化水平與 NVIDIA 編譯器和工具相同。

NVIDIA 為 CUDA 平臺提供的語言包括 ISO C ++、 ISO Fortran 和 Python 等加速標準語言。該平臺還支持基于指令的編程模型,如 OpenACC 、 OpenMP 、 CUDA C ++和 CUDA Fortran 。 NVIDIA HPC SDK 支持所有這些方法,以及一組用于評測和調(diào)試的加速庫和工具。

NVIDIA 是 ISO C ++和 ISO Fortran 編程語言社區(qū)的成員,這些社區(qū)使符合 ISO C ++和 ISOFortran 標準的應(yīng)用程序能夠在 NVIDIA CPU 和 NVIDIA GPU 上運行,無需任何語言擴展。有關(guān)在 GPU 上運行符合 ISO 的應(yīng)用程序的更多信息,請參閱 Multi-GPU Programming with Standard Parallel C++ 和 Using Fortran Standard Parallel Programming For GPU Acceleration 。

該技術(shù)嚴重依賴于 NVIDIA NVLink-C2C 和 NVIDIA 統(tǒng)一虛擬內(nèi)存提供的硬件加速內(nèi)存一致性。如圖 4 所示,在沒有 ATS 的傳統(tǒng) PCIe 連接 x86 + Hopper 系統(tǒng)中, CPU 和 GPU 具有獨立的每個進程頁表,系統(tǒng)分配的內(nèi)存不能直接從 GPU 訪問。當程序使用系統(tǒng)分配器分配內(nèi)存,但 GPU 頁面表中的頁面條目不可用時,從 GPU 線程訪問內(nèi)存失敗。

在基于 NVIDIA Grace Hopper Superchip 的系統(tǒng)中, ATS 使 CPU 和 GPU 能夠共享單個進程頁表,使所有 CPU 和 GPU 線程能夠訪問所有系統(tǒng)分配的內(nèi)存,這些內(nèi)存可以駐留在物理 CPU 或 GPU 內(nèi)存上。所有 CPU 和 GPU 線程都可以訪問 CPU heap 、 CPU 線程堆棧、全局變量、內(nèi)存映射文件和進程間內(nèi)存。

NVIDIA NVLink-C2C 硬件一致性使 Grace CPU 能夠以緩存線粒度緩存 GPU 內(nèi)存,并使 GPU CPU 能夠訪問彼此的內(nèi)存而無需頁面遷移。

NVLink-C2C 還加速了系統(tǒng)分配內(nèi)存上 CPU 和 GPU 支持的所有原子操作。 Scoped atomic operations 完全受支持,并支持系統(tǒng)中所有線程之間的細粒度和可擴展同步。

根據(jù) CPU 或 GPU 線程是否首先訪問系統(tǒng)分配的內(nèi)存,運行時在 LPDDR5X 或 HBM3 上第一次接觸時使用物理內(nèi)存?zhèn)浞菹到y(tǒng)分配的存儲器。從操作系統(tǒng)的角度來看, Grace CPU 和 Hopper GPU 只是兩個獨立的 NUMA 節(jié)點。系統(tǒng)分配的內(nèi)存是可遷移的,因此運行時可以更改其物理內(nèi)存支持,以提高應(yīng)用程序性能或處理內(nèi)存壓力。

對于基于 PCIe 的平臺(如 x86 或 Arm ),您可以使用與 NVIDIA Grace Hopper 模型相同的統(tǒng)一內(nèi)存編程模型。這最終將通過 Heterogeneous Memory Management (HMM) feature 實現(xiàn),它是 Linux 內(nèi)核功能和 NVIDIA 驅(qū)動程序功能的組合,使用軟件模擬 CPU 和 GPU 之間的內(nèi)存一致性。

在 NVIDIA Grace Hopper 上,這些應(yīng)用程序可以從 NVLink-C2C 提供的更高帶寬、更低延遲、更高原子吞吐量和硬件加速(無需任何軟件更改)中獲益。

超級芯片架構(gòu)特征

以下是 NVIDIA Grace Hopper 架構(gòu)的主要創(chuàng)新:

NVIDIA Grace CPU

NVIDIA Hopper GPU

NVLink-C2C

NVLink 交換機系統(tǒng)

擴展 GPU 存儲器

NVIDIA Grace CPU

隨著 GPU 的并行計算能力在每一代中持續(xù)增長三倍,快速高效的 CPU 對于防止現(xiàn)代工作負載中的串行和僅 CPU 部分主宰性能至關(guān)重要。

NVIDIA Grace CPU 是 first NVIDIA data center CPU ,它是 built from the ground up to create HPC and AI superchips 。 Grace 提供多達 72 個 Arm Neoverse V2 CPU 內(nèi)核和 Armv9.0-A ISA ,每個內(nèi)核提供 4 × 128 位寬的 SIMD 單元,支持 Arm 的 Scalable Vector Extensions 2 (SVE2) SIMD 指令集。

NVIDIA Grace 提供領(lǐng)先的每線程性能,同時提供比傳統(tǒng) CPU 更高的能效。 72 個 CPU 內(nèi)核在 SPECrate 2017_int_base 上的得分高達 370 (估計),確保高性能以滿足 HPC 和 AI 異構(gòu)工作負載的需求。

機器學習和數(shù)據(jù)科學中的現(xiàn)代 GPU 工作負載需要訪問大量內(nèi)存。通常,這些工作負載必須使用多個 GPU 將數(shù)據(jù)集存儲在 HBM 內(nèi)存中。

NVIDIA Grace CPU 提供高達 512 GB 的 LPDDR5X 內(nèi)存,可在內(nèi)存容量、能效和性能之間實現(xiàn)最佳平衡。它提供高達 546 GB / s 的 LPDDR5X 內(nèi)存帶寬, NVLink-C2C 使 GPU 能夠以 900 GB / s 的總帶寬訪問該內(nèi)存。

單個 NVIDIA Grace Hopper 超級芯片為 Hopper GPU 提供了總計 608 GB 的快速可訪問內(nèi)存,幾乎是 DGX-A100-80 中可用的慢速內(nèi)存總量;上一代的 8- GPU 系統(tǒng)。

這是通過NVIDIA SCF 實現(xiàn)的,這是一種網(wǎng)狀結(jié)構(gòu)和分布式緩存,提供高達 3.2 TB / s 的總二等分帶寬,以實現(xiàn) CPU 內(nèi)核、內(nèi)存、系統(tǒng) I / O 和 NVLink-C2C 的全部性能。 CPU 核心和 SCF 緩存分區(qū)( SCC )分布在整個網(wǎng)格中,而緩存交換節(jié)點( CSN )通過結(jié)構(gòu)路由數(shù)據(jù),并充當 CPU 核心、緩存存儲器和系統(tǒng)其余部分之間的接口。

NVIDIA Hopper GPU

NVIDIA Hopper GPU 是第九代 NVIDIA 數(shù)據(jù)中心 GPU 。與前幾代 NVIDIA Ampere GPU 相比,它旨在為大規(guī)模 AI 和 HPC 應(yīng)用提供數(shù)量級的改進。料斗 GPU 還具有多項創(chuàng)新:

新的第四代 Tensor 核心在更廣泛的 AI 和 HPC 任務(wù)上執(zhí)行比以往更快的矩陣計算。

與上一代 NVIDIA A100 GPU 相比,新的 transformer 引擎使 H100 在大型語言模型上提供高達 9 倍的 AI 訓練和高達 30 倍的 AI 推理加速。

改進的空間和時間數(shù)據(jù)位置和異步執(zhí)行功能使應(yīng)用程序能夠始終保持所有單元忙碌,并最大限度地提高能效。

安全 Multi-Instance GPU (MIG ) 將 GPU 劃分為獨立的、適當大小的實例,以最大限度地提高服務(wù)質(zhì)量( QoS ),以適應(yīng)較小的工作負載。

NVIDIA Hopper 是第一款真正的異步 GPU 。它的 Tensor Memory Accelerator ( TMA )和異步事務(wù)屏障使線程能夠重疊和流水線無關(guān)的數(shù)據(jù)移動和數(shù)據(jù)處理,使應(yīng)用程序能夠充分利用所有單元。

新的空間和時間局部特性,如線程塊集群、分布式共享內(nèi)存和線程塊重新配置,為應(yīng)用程序提供了對更大量共享內(nèi)存和工具的快速訪問。這使應(yīng)用程序能夠在數(shù)據(jù)在芯片上時更好地重用數(shù)據(jù),從而進一步提高應(yīng)用程序性能。

有關(guān)詳細信息,請參見 NVIDIA H100 Tensor Core Architecture Overview 和 深入NVIDIA Hopper 架構(gòu)。

NVLink-C2C :用于超級芯片的高帶寬芯片到芯片互連

NVIDIA Grace Hopper 通過 NVIDIA NVLink-C2C 將 NVIDIA 格雷斯 CPU 和 NVIDIA Hopper GPU 融合到一個超級芯片中, NVIDIA NVLink-C2C 是一個 900 GB / s 芯片到芯片的連貫互連,可以使用統(tǒng)一的編程模型對格雷斯 Hopper 超級芯片進行編程。

NVLink 芯片 2 芯片( C2C )互連在 Grace CPU 和 Hopper GPU 之間提供了高帶寬的直接連接,以創(chuàng)建 Grace Hopper 超級芯片,該芯片專為 AI 和 HPC 應(yīng)用的降速加速而設(shè)計。

憑借 900 GB / s 的雙向帶寬, NVLink-C2C 以較低的延遲提供了 x16 PCIe Gen 鏈路的 7 倍帶寬。 NVLink-C2C 也僅使用 1.3 微微焦/比特傳輸,這比 PCIe Gen 5 能效高 5 倍以上。

此外, NVLink-C2C 是一種相干存儲器互連,具有對系統(tǒng)范圍原子操作的本地硬件支持。這提高了對非本地存儲器的內(nèi)存訪問的性能,例如 CPU 和 GPU 線程訪問駐留在其他設(shè)備中的內(nèi)存。硬件一致性還提高了同步原語的性能,減少了 GPU 或 CPU 彼此等待的時間,提高了系統(tǒng)的總利用率。

最后,硬件一致性還簡化了使用流行編程語言和框架開發(fā)異構(gòu)計算應(yīng)用程序。有關(guān)更多信息,請參閱 NVIDIA Grace Hopper 編程模型部分。

NVLink 交換機系統(tǒng)

NVIDIA NVLink 交換機系統(tǒng)將第四代 NVIDIA NVLink 技術(shù)與新的第三代 NVIDIA NVSwitch 結(jié)合在一起。 NVSwitch 的一級可連接多達八個 Grace Hopper 超級芯片,而另一級采用胖樹拓撲結(jié)構(gòu),可通過 NVLink 連接多達 256 個 Grace Hopper 超級芯片。 Grace Hopper 超級芯片對以高達 900 GB / s 的速度交換數(shù)據(jù)。

憑借多達 256 個 Grace Hopper 超級芯片,該網(wǎng)絡(luò)可提供高達 115.2 TB / s 的全天候帶寬。這是 NVIDIA InfiniBand NDR400 全對全帶寬的 9 倍。

第四代 NVIDIA NVLink 技術(shù)使 GPU 線程能夠使用正常內(nèi)存操作、原子操作和批量傳輸來尋址 NVLink 網(wǎng)絡(luò)中所有超級芯片提供的高達 150 TB 的內(nèi)存。 MPI 、 NCCL 或 NVSHMEM 等通信庫在可用時透明地利用 NVLink 交換機系統(tǒng)。

擴展 GPU 存儲器

NVIDIA Grace Hopper 超級芯片設(shè)計用于加速應(yīng)用程序,其內(nèi)存占用量非常大,大于單個超級芯片的 HBM3 和 LPDDR5X 內(nèi)存容量。有關(guān)更多信息,請參閱 NVIDIA Grace Hopper 加速應(yīng)用程序部分。

高帶寬 NVLink-C2C 上的擴展 GPU 內(nèi)存( EGM )功能使 GPU 能夠高效地訪問所有系統(tǒng)內(nèi)存。 EGM 在多節(jié)點 NVSwitch 連接的系統(tǒng)中提供高達 150 TB 的系統(tǒng)內(nèi)存。使用 EGM ,可以分配物理內(nèi)存,以便從多節(jié)點系統(tǒng)中的任何 GPU 線程訪問。所有 GPU 都可以以 GPU- GPU NVLink 或 NVLink-C2C 的最低速度訪問 EGM 。

Grace Hopper 超級芯片配置中的內(nèi)存訪問通過本地高帶寬 NVLink-C2C ,總速度為 900 GB / s 。遠程內(nèi)存訪問通過 GPU NVLink 執(zhí)行,根據(jù)訪問的內(nèi)存,還通過 NVLink-C2C 執(zhí)行。使用 EGM , GPU 線程現(xiàn)在可以以 450 GB / s 的速度訪問 NVSwitch 結(jié)構(gòu)上的所有可用內(nèi)存資源,包括 LPDDR5X 和 HBM3 。

NVIDIA HGX Grace Hopper

NVIDIA HGX Grace Hopper 每個節(jié)點都有一個 Grace Hoppper 超級芯片,與 BlueField-3 NIC 或 OEM 定義的 I / O 和可選的 NVLink 交換機系統(tǒng)配對。它可以是空氣冷卻或液體冷卻, TDP 高達 1000W 。

NVIDIA HGX Grace Hopper 與 InfiniBand

具有 Infiniband 的 NVIDIA HGX Grace Hopper 非常適合擴展傳統(tǒng)機器學習( ML )和 HPC 工作負載,這些工作負載不受 Infiniband 網(wǎng)絡(luò)通信開銷的限制, Infiniband 是可用的最快互連之一。

每個節(jié)點包含一個 Grace Hopper 超級芯片和一個或多個 PCIe 設(shè)備,如 NVMe 固態(tài)驅(qū)動器和 BlueField-3 DPU 、 NVIDIA ConnectX-7 NIC 或 OEM 定義的 I / O 。 NDR400 InfiniBand NIC 具有 16x PCIe Gen 5 通道,可在超級芯片上提供高達 100 GB / s 的總帶寬。結(jié)合 NVIDIA BlueField-3 DPU ,該平臺易于管理和部署,并使用傳統(tǒng)的 HPC 和 AI 集群網(wǎng)絡(luò)架構(gòu)。

帶 NVLink 開關(guān)的 NVIDIA HGX Grace Hopper

配備 NVLink Switch 的 NVIDIA HGX Grace Hopper 非常適合大規(guī)模機器學習和 HPC 工作負載。它使 NVLink 連接域中的所有 GPU 線程能夠在 256- GPU NVLink 連接系統(tǒng)中以每個超級芯片高達 900 GB / s 的總帶寬尋址高達 150 TB 的內(nèi)存。簡單的編程模型使用指針加載、存儲和原子操作。它的 450 GB / s 全部減少了帶寬,最高可達 115.2 TB / s 的二等分帶寬,使該平臺成為強大擴展世界上最大、最具挑戰(zhàn)性的 AI 訓練和 HPC 工作負載的理想平臺。

NVLink 連接的域通過 NVIDIA InfiniBand 網(wǎng)絡(luò)進行網(wǎng)絡(luò)連接,例如, NVIDIA ConnectX-7 NIC 或 NVIDIA BlueField-3 數(shù)據(jù)處理器( DPU )與 NVIDIA Quantum 2 NDR 交換機或 OEM 定義的 I / O 解決方案配對。

實現(xiàn)性能突破

NVIDIA Grace Hopper Superchip Architecture 白皮書詳細介紹了本文中的內(nèi)容。它將帶您了解 Grace Hopper 是如何實性能突破的,而目前最強大的基于 PCIe 的加速平臺是由 NVIDIA Hopper H100 PCIe GPU 提供支持的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    455

    文章

    50816

    瀏覽量

    423613
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4986

    瀏覽量

    103055
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30894

    瀏覽量

    269085
收藏 人收藏

    評論

    相關(guān)推薦

    多家領(lǐng)先廠商采用全球首批基于NVIDIA Grace CPU的系統(tǒng)設(shè)計

    ? 加利福尼亞州圣克拉拉 —— COMPUTEX?——?太平洋時間2022年5月23日 —— NVIDIA于今日宣布,多家領(lǐng)先的計算機制造商將發(fā)布首批基于 NVIDIA Grace? CPU超級芯片
    的頭像 發(fā)表于 05-24 16:05 ?2273次閱讀
    多家領(lǐng)先廠商采用全球首批基于<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b> CPU的系統(tǒng)設(shè)計

    全球領(lǐng)先系統(tǒng)制造商加速采用NVIDIA GraceGrace Hopper

    源訊、戴爾科技,技嘉科技、慧與、浪潮、聯(lián)想和超微成為首批將基于NVIDIA Grace的HGX系統(tǒng)用于HPC和AI的制造商 ? ? ? NVIDIA于今日宣布,多家全球領(lǐng)先的計算機制造商正在采用全新
    的頭像 發(fā)表于 05-31 14:46 ?1211次閱讀
    全球領(lǐng)先系統(tǒng)制造商加速采用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b>和<b class='flag-5'>Grace</b> Hopper

    Arm Neoverse NVIDIA Grace CPU 超級芯片:為人工智能的未來設(shè)定步伐

    供高達 10 倍的性能飛躍,例如訓練具有超過一萬億個參數(shù)的 NLP 模型,同時顯著提高每瓦性能NVIDIA Grace CPU Superchip 將包含兩個
    發(fā)表于 03-29 14:40

    NVIDIA 推出 Grace CPU 超級芯片

    NVIDIA Grace? CPU 超級芯片由兩個 CPU 芯片組成,它們之間通過NVLink?-C2C互連在一起。NVLink?-C2C 是一種新型的高速、低延遲、芯片到芯片的互連技術(shù)。
    發(fā)表于 03-23 11:25 ?1996次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Grace</b> CPU 超級芯片

    NVIDIA發(fā)布最新Hopper架構(gòu)的H100系列GPU和Grace CPU超級芯片

    今日凌晨,NVIDIA(英偉達)發(fā)布了基于最新Hopper架構(gòu)的H100系列GPU和Grace CPU超級芯片!
    的頭像 發(fā)表于 03-26 09:07 ?2891次閱讀

    英偉達推出NVIDIA Grace CPU

    NVIDIA Grace CPU是首款面向AI基礎(chǔ)設(shè)施和高性能計算的基于Arm Neoverse的數(shù)據(jù)中心專屬CPU,是當今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的兩倍。
    的頭像 發(fā)表于 03-30 14:11 ?1722次閱讀

    工業(yè)富聯(lián)采用基于英偉達的超級芯片NVIDIA Grace CPU

    5月24日,工業(yè)富聯(lián)宣布采用基于英偉達NVIDIA HGX、OVX和CGX系統(tǒng)設(shè)計的超級芯片NVIDIA Grace CPU和NVIDIA Grac
    的頭像 發(fā)表于 05-26 15:17 ?3709次閱讀

    NVIDIA Grace超級芯片為HPC及AI工作負載提速

    NVIDIA于今日宣布,多家全球領(lǐng)先的計算機制造商正在采用全新NVIDIA Grace?超級芯片打造新一代服務(wù)器,為超大規(guī)模時代的AI和HPC工作負載提速。
    的頭像 發(fā)表于 05-31 19:28 ?2480次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b>超級芯片為HPC及AI工作負載提速

    深入解讀NVIDIA Grace Hopper Superchip架構(gòu)

    NVIDIA NVLink-C2C 是一種 NVIDIA 內(nèi)存一致性、高帶寬和低延遲的超級芯片互連。它是 Grace Hopper Superchip 的核心,提供高達 900 GB/s 的總帶寬。這比加速系統(tǒng)中常用的 x16
    發(fā)表于 11-18 10:15 ?844次閱讀

    深入解讀Grace CPU芯片架構(gòu)

    NVIDIA Grace CPU 超級芯片是使用兩個通過 NVLink-C2C 連接的 Grace CPU 構(gòu)建的。該超級芯片建立在現(xiàn)有 Arm 生態(tài)系統(tǒng)的基礎(chǔ)上,為 HPC、要求苛刻的云工作負載以及高
    的頭像 發(fā)表于 02-02 11:47 ?1276次閱讀

    COMPUTEX2023 | 為加速生成式 AI 而設(shè)計的 NVIDIA Grace Hopper 超級芯片全面投產(chǎn)

    由 GH200 驅(qū)動的系統(tǒng)將加入到全球系統(tǒng)制造商基于 NVIDIA Grace、Hopper、Ada Lovelace 架構(gòu)的 400 多種系統(tǒng)配置中 COMPUTEX — 2023 年 5 月
    的頭像 發(fā)表于 05-30 01:40 ?803次閱讀
    COMPUTEX2023 | 為加速生成式 AI 而設(shè)計的 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b> Hopper 超級芯片全面投產(chǎn)

    NVIDIA最強CPU芯片架構(gòu)——NVIDIA Grace CPU

    NVIDIA Grace Hopper Superchip將節(jié)能、高帶寬的 NVIDIA Grace CPU 與功能強大的 NVIDIA H
    發(fā)表于 08-30 10:45 ?1424次閱讀
    <b class='flag-5'>NVIDIA</b>最強CPU芯片架構(gòu)——<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b> CPU

    NVIDIA Grace Hopper 超級芯片橫掃 MLPerf 推理基準測試

    從云端到網(wǎng)絡(luò)邊緣,NVIDIA GH200、H100 和 L4 GPU 以及 Jetson Orin 模組在運行生產(chǎn)級 AI 時均展現(xiàn)出卓越性能NVIDIA GH200 Grace
    的頭像 發(fā)表于 09-12 20:40 ?431次閱讀

    NVIDIA Grace Hopper超級芯片橫掃MLPerf推理基準測試

    從云端到網(wǎng)絡(luò)邊緣,NVIDIA GH200、H100和L4 GPU以及Jetson Orin模組在運行生產(chǎn)級 AI 時均展現(xiàn)出卓越性能。 ? ? ? NVIDIA GH200 Grace
    發(fā)表于 09-13 09:45 ?752次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b> Hopper超級芯片橫掃MLPerf推理基準測試

    NVIDIA推出搭載GB200 Grace Blackwell超級芯片的NVIDIA DGX SuperPOD?

    NVIDIA 于太平洋時間 3 月 18 日發(fā)布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX Sup
    的頭像 發(fā)表于 03-21 09:49 ?703次閱讀