NVIDIA 于太平洋時間 3 月 18 日發(fā)布新一代 AI 超級計(jì)算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX SuperPOD。這臺 AI 超級計(jì)算機(jī)可以用于處理萬億參數(shù)模型,能夠保證超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載的持續(xù)運(yùn)行。
全新 DGX SuperPOD 采用新型高效液冷機(jī)架級擴(kuò)展架構(gòu),基于 NVIDIA DGX GB200 系統(tǒng)構(gòu)建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計(jì)算性能和 240 TB 的快速顯存,且可通過增加機(jī)架來擴(kuò)展性能。
每個 DGX GB200 系統(tǒng)搭載 36 個 NVIDIA GB200 超級芯片,共包含 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU。這些超級芯片通過第五代 NVIDIA NVLink 連接成一臺超級計(jì)算機(jī)。與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級芯片在大語言模型推理工作負(fù)載方面的性能提升了高達(dá) 30 倍。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“NVIDIA DGX AI 超級計(jì)算機(jī)是推進(jìn) AI 產(chǎn)業(yè)變革的工廠。新一代 DGX SuperPOD 集 NVIDIA 加速計(jì)算、網(wǎng)絡(luò)和軟件方面的最新進(jìn)展于一體,能夠幫助每一個企業(yè)、行業(yè)和國家完善并生成自己的 AI?!?/strong>
Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統(tǒng)構(gòu)建而成,這些系統(tǒng)通過 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)連接,可擴(kuò)展到數(shù)萬個 GB200 超級芯片。用戶可通過 NVLink 連接 8 個 DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。
面向生成式 AI 時代的全新機(jī)架級擴(kuò)展的DGX SuperPOD 架構(gòu)
采用 DGX GB200 系統(tǒng)構(gòu)建而成的全新 DGX SuperPOD 采用了統(tǒng)一的計(jì)算網(wǎng)絡(luò)。除第五代 NVIDIA NVLink 網(wǎng)絡(luò)外,還包括 NVIDIA BlueField-3 DPU,并將支持同為今日發(fā)布的 NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)。這個架構(gòu)可為計(jì)算平臺中的每塊 GPU 提供高達(dá)每秒 1800 GB 的帶寬。
另外,第四代 NVIDIA 可擴(kuò)展分層聚合和規(guī)約協(xié)議(SHARP)技術(shù)可提供 14.4 teraflops 的網(wǎng)絡(luò)計(jì)算能力,與上一代產(chǎn)品相比,新一代 DGX SuperPOD 架構(gòu)的網(wǎng)絡(luò)計(jì)算能力提高了 4 倍。
統(tǒng)包式架構(gòu)搭配先進(jìn)的軟件,實(shí)現(xiàn)前所未有的正常運(yùn)行時間
全新 DGX SuperPOD 是一臺完整的數(shù)據(jù)中心級 AI 超級計(jì)算機(jī),在與 NVIDIA 認(rèn)證合作伙伴提供的高性能存儲集成后,能夠滿足生成式 AI 工作負(fù)載的需求。每臺超級計(jì)算機(jī)都在出廠前完成了搭建、布線和測試,從而大大加快了在用戶數(shù)據(jù)中心的部署速度。
Grace Blackwell 架構(gòu)的 DGX SuperPOD 具有智能預(yù)測管理功能,能夠持續(xù)監(jiān)控軟硬件中的數(shù)千個數(shù)據(jù)點(diǎn),通過預(yù)測并攔截導(dǎo)致停機(jī)和低效的根源以節(jié)省時間、能耗和計(jì)算成本。
即使沒有系統(tǒng)管理員在場,該軟件也能識別需要重點(diǎn)關(guān)注的領(lǐng)域并制定維護(hù)計(jì)劃,靈活調(diào)整計(jì)算資源,通過自動保存和恢復(fù)作業(yè)來防止停機(jī)。
如果軟件檢測到需要更換組件,該集群將激活備用容量以確保工作能夠及時完成。為任何必要的硬件更換做好安排,以免出現(xiàn)計(jì)劃之外的停機(jī)。
NVIDIA DGX B200 系統(tǒng)推動各行各業(yè) AI 超級計(jì)算發(fā)展
NVIDIA 還發(fā)布了一款統(tǒng)一用于 AI 模型訓(xùn)練、微調(diào)和推理的通用 AI 超級計(jì)算平臺 NVIDIA DGX B200 系統(tǒng)。
采用風(fēng)冷傳統(tǒng)機(jī)架式設(shè)計(jì)的 DGX 已被全球各行各業(yè)數(shù)千家企業(yè)廣泛采用,DGX B200 是 DGX 系列的第六代產(chǎn)品。采用 Blackwell 架構(gòu)的全新 DGX B200 系統(tǒng)包含 8 個 NVIDIA B200 Tensor Core GPU 和 2 個第五代英特爾至強(qiáng)處理器。用戶還可以使用 DGX B200 系統(tǒng)構(gòu)建 DGX SuperPOD,打造能夠幫助大型開發(fā)團(tuán)隊(duì)運(yùn)行多種不同作業(yè)的 AI 卓越中心。
DGX B200 系統(tǒng)憑借全新 Blackwell 架構(gòu)中的 FP4 精度特性,可提供高達(dá) 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 顯存和 64TB/s 的顯存帶寬,從而使得該系統(tǒng)的萬億參數(shù)模型實(shí)時推理速度比上一代產(chǎn)品提升了 15 倍。
DGX B200 系統(tǒng)包含帶有 8 個 NVIDIA ConnectX-7 網(wǎng)卡和 2 個 BlueField-3 DPU 的高性能網(wǎng)絡(luò),每個連接的帶寬高達(dá) 400 Gb/s,可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺支持更高的 AI 性能。
軟件和專家為擴(kuò)大生產(chǎn)級 AI的規(guī)模提供支持
所有 NVIDIA DGX 平臺均包含用于企業(yè)級開發(fā)和部署的 NVIDIA AI Enterprise 軟件。DGX 用戶可以通過使用該軟件平臺中的預(yù)訓(xùn)練的 NVIDIA 基礎(chǔ)模型、框架、工具套件和全新 NVIDIA NIM 微服務(wù)來加速他們的工作。
NVIDIA DGX 專家與部分獲得 NVIDIA DGX 平臺支持認(rèn)證的合作伙伴將在每個部署環(huán)節(jié)為用戶提供幫助,以便其迅速實(shí)現(xiàn) AI 投產(chǎn)。在系統(tǒng)投入運(yùn)行后,DGX 專家還將繼續(xù)協(xié)助用戶優(yōu)化其 AI 管線和基礎(chǔ)設(shè)施。
供應(yīng)情況
NVIDIA 全球合作伙伴預(yù)計(jì)將在今年晚些時候提供基于 DGX GB200 和 DGX B200 系統(tǒng)構(gòu)建而成的 NVIDIA DGX SuperPOD。
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5160瀏覽量
104844 -
超級計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
465瀏覽量
42182 -
超級芯片
+關(guān)注
關(guān)注
0文章
37瀏覽量
8971 -
生成式AI
+關(guān)注
關(guān)注
0文章
522瀏覽量
629
發(fā)布評論請先 登錄
相關(guān)推薦
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個人AI計(jì)算機(jī)

NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析
NVIDIA 宣布推出 DGX Spark 個人 AI 計(jì)算機(jī)

MediaTek與NVIDIA攜手設(shè)計(jì)GB10 Grace Blackwell超級芯片
MediaTek與NVIDIA攜手打造超級芯片
MediaTek與NVIDIA攜手打造GB10 Grace Blackwell超級芯片
NVIDIA推出個人AI超級計(jì)算機(jī)Project DIGITS
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個人AI超級計(jì)算機(jī)設(shè)計(jì)NVIDIA GB10超級芯片
Supermicro推出直接液冷優(yōu)化的NVIDIA Blackwell解決方案

評論