又大又肥硕的奶头小说,强制侵犯系列中文字幕av,欧美毛片又粗又长又大电影

眾所周知，在大型模型訓(xùn)練中，通常采用每臺(tái)服務(wù)器配備多個(gè)GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)（上篇）》中，我們對(duì)GPU網(wǎng)絡(luò)中的核心術(shù)語(yǔ)與概念進(jìn)行了詳盡介紹。本文將進(jìn)一步深入探討常見的GPU系統(tǒng)架構(gòu)。

8臺(tái)配備NVIDIA A100 GPU的節(jié)點(diǎn)/8臺(tái)配備NVIDIA A800 GPU的節(jié)點(diǎn)

如上圖所示的A100 GPU拓?fù)浣Y(jié)構(gòu)中，8塊A100 GPU所組成的拓?fù)浒韵陆M件：

兩顆CPU芯片（及其兩側(cè)相關(guān)的內(nèi)存，NUMA架構(gòu)）：中央處理器負(fù)責(zé)執(zhí)行通用計(jì)算任務(wù)。

兩塊存儲(chǔ)網(wǎng)絡(luò)適配卡（用于訪問分布式存儲(chǔ)，具備帶內(nèi)管理等功能）：這些網(wǎng)卡用于訪問分布式存儲(chǔ)資源。

四顆PCIe Gen4交換芯片：PCIe Gen4是PCIe接口的第四代，提供了更高的數(shù)據(jù)傳輸速率。

六顆NVSwitch芯片：NVSwitch使得GPU與GPU之間能夠以極高的速度直接通信，這對(duì)于大規(guī)模深度學(xué)習(xí)節(jié)點(diǎn)和并行計(jì)算任務(wù)的有效運(yùn)行至關(guān)重要。

八塊GPU：A100 GPU作為主要處理單元，負(fù)責(zé)執(zhí)行并行計(jì)算，尤其適合人工智能和深度學(xué)習(xí)工作負(fù)載。

八塊GPU專用網(wǎng)絡(luò)適配卡：每塊GPU配備一塊專用的網(wǎng)絡(luò)適配卡，旨在優(yōu)化GPU之間的通信，并提升并行處理任務(wù)的整體性能。

接下來的部分我們將對(duì)這些組件進(jìn)行詳細(xì)解讀。下一張圖片將提供更詳盡的拓?fù)浣Y(jié)構(gòu)信息供參考。

存儲(chǔ)網(wǎng)絡(luò)卡

在GPU架構(gòu)中，存儲(chǔ)網(wǎng)絡(luò)卡的定位主要涉及其通過PCIe總線與中央處理器（CPU）的連接，以及負(fù)責(zé)促進(jìn)與分布式存儲(chǔ)系統(tǒng)的通信。以下是存儲(chǔ)網(wǎng)絡(luò)卡在GPU架構(gòu)中的主要作用：

讀寫分布式存儲(chǔ)數(shù)據(jù)：存儲(chǔ)網(wǎng)絡(luò)卡的主要功能之一是高效地從分布式存儲(chǔ)系統(tǒng)讀取和寫入數(shù)據(jù)。這對(duì)于深度學(xué)習(xí)模型訓(xùn)練過程至關(guān)重要，在此過程中頻繁訪問分布在各處的訓(xùn)練數(shù)據(jù)以及將訓(xùn)練結(jié)果寫入檢查點(diǎn)文件極為重要。

節(jié)點(diǎn)管理任務(wù)：存儲(chǔ)網(wǎng)絡(luò)卡的功能不僅限于數(shù)據(jù)傳輸，還包括節(jié)點(diǎn)管理任務(wù)。這包括但不限于通過SSH（安全外殼協(xié)議）進(jìn)行遠(yuǎn)程登錄、監(jiān)控系統(tǒng)性能以及收集相關(guān)數(shù)據(jù)等任務(wù)。這些任務(wù)有助于對(duì)GPU集群的運(yùn)行狀態(tài)進(jìn)行監(jiān)控和維護(hù)。

雖然官方推薦使用BF3 DPU，但在實(shí)踐中，只要滿足帶寬需求，可以選用其他替代解決方案。例如，為了成本效益考慮，可以考慮使用RoCE；而為了最大限度提升性能，則優(yōu)先選擇InfiniBand。

NVSwitch 網(wǎng)絡(luò)結(jié)構(gòu)

在完全互聯(lián)網(wǎng)絡(luò)拓?fù)渲校總€(gè)節(jié)點(diǎn)都直接與所有其他節(jié)點(diǎn)相連。通常情況下，8塊GPU通過六個(gè)NVSwitch芯片以全互聯(lián)配置相連接，這一整體也被稱為NVSwitch架構(gòu)。

在全互聯(lián)結(jié)構(gòu)中，每條線路的帶寬取決于單個(gè)NVLink通道的帶寬，表示為n * bw-per-nvlink-lane。對(duì)于采用NVLink3技術(shù)、每條通道帶寬為50GB/s的A100 GPU，在全互聯(lián)結(jié)構(gòu)中，每條線路的總帶寬為12 * 50GB/s = 600GB/s。需要注意的是，此帶寬是雙向的，既支持?jǐn)?shù)據(jù)發(fā)送也支持接收，因此單向帶寬為300GB/s。

相比之下，A800 GPU將NVLink通道的數(shù)量從12減少到了8。因此，在全互聯(lián)結(jié)構(gòu)中，每條線路的總帶寬變?yōu)? * 50GB/s = 400GB/s，單向帶寬為200GB/s。

以下是一個(gè)由8*A800組成的設(shè)備的nvidia-smi拓?fù)浣Y(jié)構(gòu)圖示。

GPU與GPU之間的連接（左上區(qū)域）：所有連接均標(biāo)記為NV8，表示有8條NVLink連接。

網(wǎng)絡(luò)接口卡（NIC）連接：在同一CPU芯片內(nèi)：標(biāo)記為NODE，表示無需跨越NUMA結(jié)構(gòu)，但需要穿越PCIe交換芯片。在不同CPU芯片之間：標(biāo)記為SYS，表示必須跨越NUMA結(jié)構(gòu)。

GPU至NIC的連接：在同一CPU芯片內(nèi)且處于同一PCIe交換芯片下：標(biāo)識(shí)為NODE，表示僅需穿越PCIe交換芯片。

在同一CPU芯片內(nèi)但不在同一PCIe交換芯片下：指定為NNODE，表示需要同時(shí)穿越PCIe交換芯片和PCIe主機(jī)橋接芯片。

在不同CPU芯片之間：標(biāo)記為SYS，表示需要跨越NUMA結(jié)構(gòu)、PCIe交換芯片，并覆蓋最長(zhǎng)距離。

GPU節(jié)點(diǎn)互聯(lián)架構(gòu)

以下圖表展示了GPU節(jié)點(diǎn)間的互聯(lián)架構(gòu)：

計(jì)算網(wǎng)絡(luò)

計(jì)算網(wǎng)絡(luò)主要用于連接GPU節(jié)點(diǎn)，支持并行計(jì)算任務(wù)之間的協(xié)同工作。這包括在多塊GPU之間傳輸數(shù)據(jù)、共享計(jì)算結(jié)果以及協(xié)調(diào)大規(guī)模并行計(jì)算任務(wù)的執(zhí)行。

存儲(chǔ)網(wǎng)絡(luò)

存儲(chǔ)網(wǎng)絡(luò)用于連接GPU節(jié)點(diǎn)和存儲(chǔ)系統(tǒng)，支持大規(guī)模數(shù)據(jù)的讀寫操作。這包括將數(shù)據(jù)從存儲(chǔ)系統(tǒng)加載到GPU內(nèi)存中，以及將計(jì)算結(jié)果寫回存儲(chǔ)系統(tǒng)。

為了滿足AI應(yīng)用對(duì)高性能的需求，在計(jì)算網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)上，RDMA（遠(yuǎn)程直接內(nèi)存訪問）技術(shù)至關(guān)重要。在兩種RDMA技術(shù)——RoCEv2和InfiniBand之間進(jìn)行選擇時(shí)，需要權(quán)衡成本效益與卓越性能，每種選項(xiàng)都針對(duì)特定應(yīng)用場(chǎng)景和預(yù)算考慮進(jìn)行了優(yōu)化。

公共云服務(wù)提供商通常在其配置中采用RoCEv2網(wǎng)絡(luò)，例如CX配置，其中包含8個(gè)GPU實(shí)例，每個(gè)實(shí)例配備8 * 100Gbps。與其他選項(xiàng)相比，只要能滿足性能要求，RoCEv2相對(duì)較為經(jīng)濟(jì)實(shí)惠。

數(shù)據(jù)鏈路連接中的帶寬瓶頸

該圖表突出了關(guān)鍵連接的帶寬規(guī)格：

同一主機(jī)內(nèi)GPU之間的通信：通過NVLink技術(shù)，雙向帶寬達(dá)到600GB/s，單向帶寬達(dá)到300GB/s。

同一主機(jī)內(nèi)GPU與其各自網(wǎng)絡(luò)接口卡（NIC）之間的通信：采用PCIe Gen4交換芯片，雙向帶寬為64GB/s，單向帶寬為32GB/s。

不同主機(jī)間GPU之間的通信：數(shù)據(jù)傳輸依賴于NIC，帶寬取決于所使用的具體NIC。當(dāng)前在中國(guó)，對(duì)于A100/A800型號(hào)常用的NIC提供主流的單向帶寬為100Gbps（12.5GB/s）。因此，相較于同一主機(jī)內(nèi)的通信，不同主機(jī)間的GPU通信性能顯著下降。

200Gbps（25GB/s）接近PCIe Gen4的單向帶寬。400Gbps（50GB/s）超越了PCIe Gen4的單向帶寬。

因此，在此類配置中使用400Gbps的網(wǎng)卡并不能帶來顯著優(yōu)勢(shì)，因?yàn)橐浞掷?00Gbps帶寬需要PCIe Gen5級(jí)別的性能支持。

8x NVIDIA H100/8x NVIDIA H800 主機(jī)

H100主機(jī)內(nèi)部的硬件拓?fù)浣Y(jié)構(gòu)

H100主機(jī)的整體硬件架構(gòu)與A100八卡系統(tǒng)的架構(gòu)非常相似，但也存在一些差異，主要體現(xiàn)在NVSwitch芯片的數(shù)量和帶寬升級(jí)上。

在每個(gè)H100主機(jī)內(nèi)部，配置了4顆芯片，比A100配置減少了兩顆。

H100芯片采用4納米工藝制造，底部一行配備了18條Gen4 NVLink連接，從而提供了900GB/s的雙向總帶寬。

H100 GPU 芯片

該芯片采用尖端的4納米工藝制造，表明其采用了先進(jìn)的制造技術(shù)。

芯片底部一排包含18個(gè)Gen4 NVLink連接，提供雙向總帶寬為18條通道 * 每通道25GB/s = 900GB/s。

芯片中央藍(lán)色區(qū)域代表L2高速緩存，用于存儲(chǔ)臨時(shí)數(shù)據(jù)的高速緩沖區(qū)。

芯片左右兩側(cè)則集成了HBM（高帶寬內(nèi)存）芯片，這些芯片作為圖形內(nèi)存使用，存儲(chǔ)圖形處理所需的數(shù)據(jù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4937

瀏覽量
131174
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
13

文章
9784

瀏覽量
87864
AI

AI

+關(guān)注

關(guān)注
88

文章
35041

瀏覽量
279075
模型

模型

+關(guān)注

關(guān)注
1

文章
3516

瀏覽量
50361

原文標(biāo)題：GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)（下）

文章出處：【微信號(hào)：架構(gòu)師技術(shù)聯(lián)盟，微信公眾號(hào)：架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

評(píng)論

電子發(fā)燒友