0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:架構(gòu)師技術(shù)聯(lián)盟 ? 2024-11-05 16:20 ? 次閱讀

眾所周知,在大型模型訓(xùn)練中,通常采用每臺服務(wù)器配備多個(gè)GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對GPU網(wǎng)絡(luò)中的核心術(shù)語與概念進(jìn)行了詳盡介紹。本文將進(jìn)一步深入探討常見的GPU系統(tǒng)架構(gòu)。

8臺配備NVIDIA A100 GPU的節(jié)點(diǎn)/8臺配備NVIDIA A800 GPU的節(jié)點(diǎn)

04a241da-90b6-11ef-a511-92fbcf53809c.png

如上圖所示的A100 GPU拓?fù)浣Y(jié)構(gòu)中,8塊A100 GPU所組成的拓?fù)浒韵陆M件:

兩顆CPU芯片(及其兩側(cè)相關(guān)的內(nèi)存,NUMA架構(gòu)):中央處理器負(fù)責(zé)執(zhí)行通用計(jì)算任務(wù)。

兩塊存儲網(wǎng)絡(luò)適配卡(用于訪問分布式存儲,具備帶內(nèi)管理等功能):這些網(wǎng)卡用于訪問分布式存儲資源。

四顆PCIe Gen4交換芯片:PCIe Gen4是PCIe接口的第四代,提供了更高的數(shù)據(jù)傳輸速率。

六顆NVSwitch芯片:NVSwitch使得GPU與GPU之間能夠以極高的速度直接通信,這對于大規(guī)模深度學(xué)習(xí)節(jié)點(diǎn)和并行計(jì)算任務(wù)的有效運(yùn)行至關(guān)重要。

八塊GPU:A100 GPU作為主要處理單元,負(fù)責(zé)執(zhí)行并行計(jì)算,尤其適合人工智能深度學(xué)習(xí)工作負(fù)載。

八塊GPU專用網(wǎng)絡(luò)適配卡:每塊GPU配備一塊專用的網(wǎng)絡(luò)適配卡,旨在優(yōu)化GPU之間的通信,并提升并行處理任務(wù)的整體性能。

接下來的部分我們將對這些組件進(jìn)行詳細(xì)解讀。下一張圖片將提供更詳盡的拓?fù)浣Y(jié)構(gòu)信息供參考。

04c8d052-90b6-11ef-a511-92fbcf53809c.jpg

存儲網(wǎng)絡(luò)卡

在GPU架構(gòu)中,存儲網(wǎng)絡(luò)卡的定位主要涉及其通過PCIe總線與中央處理器(CPU)的連接,以及負(fù)責(zé)促進(jìn)與分布式存儲系統(tǒng)的通信。以下是存儲網(wǎng)絡(luò)卡在GPU架構(gòu)中的主要作用:

讀寫分布式存儲數(shù)據(jù):存儲網(wǎng)絡(luò)卡的主要功能之一是高效地從分布式存儲系統(tǒng)讀取和寫入數(shù)據(jù)。這對于深度學(xué)習(xí)模型訓(xùn)練過程至關(guān)重要,在此過程中頻繁訪問分布在各處的訓(xùn)練數(shù)據(jù)以及將訓(xùn)練結(jié)果寫入檢查點(diǎn)文件極為重要。

節(jié)點(diǎn)管理任務(wù):存儲網(wǎng)絡(luò)卡的功能不僅限于數(shù)據(jù)傳輸,還包括節(jié)點(diǎn)管理任務(wù)。這包括但不限于通過SSH(安全外殼協(xié)議)進(jìn)行遠(yuǎn)程登錄、監(jiān)控系統(tǒng)性能以及收集相關(guān)數(shù)據(jù)等任務(wù)。這些任務(wù)有助于對GPU集群的運(yùn)行狀態(tài)進(jìn)行監(jiān)控和維護(hù)。

雖然官方推薦使用BF3 DPU,但在實(shí)踐中,只要滿足帶寬需求,可以選用其他替代解決方案。例如,為了成本效益考慮,可以考慮使用RoCE;而為了最大限度提升性能,則優(yōu)先選擇InfiniBand。

NVSwitch 網(wǎng)絡(luò)結(jié)構(gòu)

在完全互聯(lián)網(wǎng)絡(luò)拓?fù)渲校總€(gè)節(jié)點(diǎn)都直接與所有其他節(jié)點(diǎn)相連。通常情況下,8塊GPU通過六個(gè)NVSwitch芯片以全互聯(lián)配置相連接,這一整體也被稱為NVSwitch架構(gòu)。

在全互聯(lián)結(jié)構(gòu)中,每條線路的帶寬取決于單個(gè)NVLink通道的帶寬,表示為n * bw-per-nvlink-lane。對于采用NVLink3技術(shù)、每條通道帶寬為50GB/s的A100 GPU,在全互聯(lián)結(jié)構(gòu)中,每條線路的總帶寬為12 * 50GB/s = 600GB/s。需要注意的是,此帶寬是雙向的,既支持?jǐn)?shù)據(jù)發(fā)送也支持接收,因此單向帶寬為300GB/s。

相比之下,A800 GPU將NVLink通道的數(shù)量從12減少到了8。因此,在全互聯(lián)結(jié)構(gòu)中,每條線路的總帶寬變?yōu)? * 50GB/s = 400GB/s,單向帶寬為200GB/s。

以下是一個(gè)由8*A800組成的設(shè)備的nvidia-smi拓?fù)浣Y(jié)構(gòu)圖示。

06122f8a-90b6-11ef-a511-92fbcf53809c.png

GPU與GPU之間的連接(左上區(qū)域):所有連接均標(biāo)記為NV8,表示有8條NVLink連接。

網(wǎng)絡(luò)接口卡(NIC)連接:在同一CPU芯片內(nèi):標(biāo)記為NODE,表示無需跨越NUMA結(jié)構(gòu),但需要穿越PCIe交換芯片。在不同CPU芯片之間:標(biāo)記為SYS,表示必須跨越NUMA結(jié)構(gòu)。

GPU至NIC的連接:在同一CPU芯片內(nèi)且處于同一PCIe交換芯片下:標(biāo)識為NODE,表示僅需穿越PCIe交換芯片。

在同一CPU芯片內(nèi)但不在同一PCIe交換芯片下:指定為NNODE,表示需要同時(shí)穿越PCIe交換芯片和PCIe主機(jī)橋接芯片。

在不同CPU芯片之間:標(biāo)記為SYS,表示需要跨越NUMA結(jié)構(gòu)、PCIe交換芯片,并覆蓋最長距離。

GPU節(jié)點(diǎn)互聯(lián)架構(gòu)

以下圖表展示了GPU節(jié)點(diǎn)間的互聯(lián)架構(gòu):

0649952e-90b6-11ef-a511-92fbcf53809c.png

計(jì)算網(wǎng)絡(luò)

計(jì)算網(wǎng)絡(luò)主要用于連接GPU節(jié)點(diǎn),支持并行計(jì)算任務(wù)之間的協(xié)同工作。這包括在多塊GPU之間傳輸數(shù)據(jù)、共享計(jì)算結(jié)果以及協(xié)調(diào)大規(guī)模并行計(jì)算任務(wù)的執(zhí)行。

存儲網(wǎng)絡(luò)

存儲網(wǎng)絡(luò)用于連接GPU節(jié)點(diǎn)和存儲系統(tǒng),支持大規(guī)模數(shù)據(jù)的讀寫操作。這包括將數(shù)據(jù)從存儲系統(tǒng)加載到GPU內(nèi)存中,以及將計(jì)算結(jié)果寫回存儲系統(tǒng)。

為了滿足AI應(yīng)用對高性能的需求,在計(jì)算網(wǎng)絡(luò)和存儲網(wǎng)絡(luò)上,RDMA(遠(yuǎn)程直接內(nèi)存訪問)技術(shù)至關(guān)重要。在兩種RDMA技術(shù)——RoCEv2和InfiniBand之間進(jìn)行選擇時(shí),需要權(quán)衡成本效益與卓越性能,每種選項(xiàng)都針對特定應(yīng)用場景和預(yù)算考慮進(jìn)行了優(yōu)化。

公共云服務(wù)提供商通常在其配置中采用RoCEv2網(wǎng)絡(luò),例如CX配置,其中包含8個(gè)GPU實(shí)例,每個(gè)實(shí)例配備8 * 100Gbps。與其他選項(xiàng)相比,只要能滿足性能要求,RoCEv2相對較為經(jīng)濟(jì)實(shí)惠。

數(shù)據(jù)鏈路連接中的帶寬瓶頸

06741e02-90b6-11ef-a511-92fbcf53809c.png

該圖表突出了關(guān)鍵連接的帶寬規(guī)格

同一主機(jī)內(nèi)GPU之間的通信:通過NVLink技術(shù),雙向帶寬達(dá)到600GB/s,單向帶寬達(dá)到300GB/s。

同一主機(jī)內(nèi)GPU與其各自網(wǎng)絡(luò)接口卡(NIC)之間的通信:采用PCIe Gen4交換芯片,雙向帶寬為64GB/s,單向帶寬為32GB/s。

不同主機(jī)間GPU之間的通信:數(shù)據(jù)傳輸依賴于NIC,帶寬取決于所使用的具體NIC。當(dāng)前在中國,對于A100/A800型號常用的NIC提供主流的單向帶寬為100Gbps(12.5GB/s)。因此,相較于同一主機(jī)內(nèi)的通信,不同主機(jī)間的GPU通信性能顯著下降。

200Gbps(25GB/s)接近PCIe Gen4的單向帶寬。400Gbps(50GB/s)超越了PCIe Gen4的單向帶寬。

因此,在此類配置中使用400Gbps的網(wǎng)卡并不能帶來顯著優(yōu)勢,因?yàn)橐浞掷?00Gbps帶寬需要PCIe Gen5級別的性能支持。

8x NVIDIA H100/8x NVIDIA H800 主機(jī)

H100主機(jī)內(nèi)部的硬件拓?fù)浣Y(jié)構(gòu)

H100主機(jī)的整體硬件架構(gòu)與A100八卡系統(tǒng)的架構(gòu)非常相似,但也存在一些差異,主要體現(xiàn)在NVSwitch芯片的數(shù)量和帶寬升級上。

在每個(gè)H100主機(jī)內(nèi)部,配置了4顆芯片,比A100配置減少了兩顆。

H100芯片采用4納米工藝制造,底部一行配備了18條Gen4 NVLink連接,從而提供了900GB/s的雙向總帶寬。

H100 GPU 芯片

06ad8c3c-90b6-11ef-a511-92fbcf53809c.png

該芯片采用尖端的4納米工藝制造,表明其采用了先進(jìn)的制造技術(shù)。

芯片底部一排包含18個(gè)Gen4 NVLink連接,提供雙向總帶寬為18條通道 * 每通道25GB/s = 900GB/s。

芯片中央藍(lán)色區(qū)域代表L2高速緩存,用于存儲臨時(shí)數(shù)據(jù)的高速緩沖區(qū)。

芯片左右兩側(cè)則集成了HBM(高帶寬內(nèi)存)芯片,這些芯片作為圖形內(nèi)存使用,存儲圖形處理所需的數(shù)據(jù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4739

    瀏覽量

    128941
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9160

    瀏覽量

    85415
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30887

    瀏覽量

    269062
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48836

原文標(biāo)題:GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)(下)

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【產(chǎn)品活動】阿里云GPU服務(wù)器年付5折!阿里云異構(gòu)計(jì)算助推行業(yè)發(fā)展!

    上云?;顒右?guī)則:地域:國內(nèi)所有地域規(guī)則:實(shí)例部分5折,不受臺數(shù)限制活動購買年限:1年 / 2年 (實(shí)例5折,其他磁盤+網(wǎng)絡(luò)折扣同目前線上)阿里云GPU服務(wù)器全力支持AI生態(tài)發(fā)展,進(jìn)一
    發(fā)表于 12-26 11:22

    gpu服務(wù)器是干什么的_gpu服務(wù)器和普通服務(wù)器有什么區(qū)別

    從字面上里面,GPU服務(wù)器服務(wù)器當(dāng)中的一種,GPU服務(wù)器跟其他服務(wù)器有什么區(qū)別ne?
    發(fā)表于 01-06 09:58 ?4.3w次閱讀

    GPU服務(wù)器到底是什么?GPU服務(wù)器與普通服務(wù)器到底有什么區(qū)別

    服務(wù)器具備很強(qiáng)的現(xiàn)實(shí)意義,我們每天都在無形中跟服務(wù)器打交道。針對用途不同,服務(wù)器可分為諸多類型。為增加大家對服務(wù)器的了解程度,本文將對GPU
    的頭像 發(fā)表于 11-14 10:04 ?7639次閱讀

    GPU服務(wù)器是什么

    其實(shí)現(xiàn)在很多人都聽說或者接觸過服務(wù)器,眾所周知,服務(wù)器網(wǎng)絡(luò)中的重要設(shè)備,要接受少至幾十人、多至成千上萬人的訪問,因此對服務(wù)器具有大數(shù)據(jù)量的快速吞吐、超強(qiáng)的穩(wěn)定性、長時(shí)間運(yùn)行等嚴(yán)格要求
    的頭像 發(fā)表于 02-25 09:31 ?5691次閱讀

    AI服務(wù)器與傳統(tǒng)服務(wù)器的區(qū)別是什么?

    AI 服務(wù)器確實(shí)是整個(gè)服務(wù)器市場的一部分,但它們是專門為基于云的 AI 模型訓(xùn)練或推理而設(shè)計(jì)的。在規(guī)格方面,廣義的AI
    發(fā)表于 06-21 12:40 ?1908次閱讀

    GPU服務(wù)器是什么?

    從字面上來看GPU服務(wù)器服務(wù)器當(dāng)中的一種,簡單的介紹,GPU服務(wù)器就是基于CGP的應(yīng)用在視頻編解碼,深度學(xué)習(xí),科學(xué)計(jì)算等多場景穩(wěn)定快速,穩(wěn)
    的頭像 發(fā)表于 08-01 18:03 ?1063次閱讀

    gpu服務(wù)器是干什么的 gpu服務(wù)器與cpu服務(wù)器的區(qū)別

     相比于傳統(tǒng)的CPU服務(wù)器,GPU服務(wù)器支持同時(shí)計(jì)算大量相似的計(jì)算操作,可以實(shí)現(xiàn)更強(qiáng)的并行計(jì)算性能。GPU服務(wù)器通常配備多個(gè)高性能的
    的頭像 發(fā)表于 12-02 17:20 ?1923次閱讀

    物理服務(wù)器ai發(fā)展的應(yīng)用

    物理服務(wù)器AI發(fā)展中扮演著重要的角色。傳統(tǒng)的以CPU為計(jì)算部件的服務(wù)器架構(gòu)已難以滿足人工智能的新需求,因此,"CPU+ GPU/FPGA/
    的頭像 發(fā)表于 12-22 09:19 ?445次閱讀

    gpu服務(wù)器是干什么的 gpu服務(wù)器與cpu服務(wù)器的區(qū)別有哪些

    gpu服務(wù)器是干什么的 gpu服務(wù)器與cpu服務(wù)器的區(qū)別 GPU
    的頭像 發(fā)表于 01-30 15:31 ?868次閱讀

    ai服務(wù)器是什么架構(gòu)類型

    架構(gòu)AI服務(wù)器通常具有較高的通用性,可以運(yùn)行各種人工智能算法。但是,CPU架構(gòu)AI服務(wù)器在處
    的頭像 發(fā)表于 07-02 09:51 ?1068次閱讀

    gpu服務(wù)器與cpu服務(wù)器的區(qū)別對比,終于知道怎么選了!

    gpu服務(wù)器與cpu服務(wù)器的區(qū)別主要體現(xiàn)在架構(gòu)設(shè)計(jì)、性能特點(diǎn)、能耗效率、應(yīng)用場景、市場定位等方面,在以上幾個(gè)方面均存在顯著差異。CPU服務(wù)器
    的頭像 發(fā)表于 08-01 11:41 ?494次閱讀

    GPU服務(wù)器架構(gòu)解析及應(yīng)用優(yōu)勢

    GPU服務(wù)器作為一種高性能計(jì)算資源,近年來在人工智能、大數(shù)據(jù)分析、圖形渲染等領(lǐng)域得到了廣泛應(yīng)用。它結(jié)合了云計(jì)算的靈活性與GPU的強(qiáng)大計(jì)算能力,為企業(yè)和個(gè)人用戶提供了一種高效、便捷的計(jì)算解決方案。下面我們將從
    的頭像 發(fā)表于 08-14 09:43 ?389次閱讀

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢是什么?

    AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片
    的頭像 發(fā)表于 09-21 11:43 ?852次閱讀

    GPU服務(wù)器租用多少錢

    GPU服務(wù)器的租用價(jià)格受多種因素影響,包括服務(wù)提供商、GPU型號和性能、實(shí)例規(guī)格、計(jì)費(fèi)模式、促銷活動以及地域差異等。下面,AI部落小編為您
    的頭像 發(fā)表于 12-09 10:50 ?132次閱讀

    GPU加速云服務(wù)器怎么用的

    GPU加速云服務(wù)器是將GPU硬件與云計(jì)算服務(wù)相結(jié)合,通過云服務(wù)提供商的平臺,用戶可以根據(jù)需求靈活租用帶有
    的頭像 發(fā)表于 12-26 11:58 ?36次閱讀