0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文梳理:如何構(gòu)建并優(yōu)化GPU云算力中心?

星融元 ? 來源:jf_55437772 ? 作者:jf_55437772 ? 2024-11-15 11:59 ? 次閱讀

?【更多詳細(xì)內(nèi)容,請(qǐng)?jiān)L問星融元官網(wǎng)https://asterfusion.com/】

目前最常見的AI算力中心部署的GPU集群大小為 2048、1024、512 和 256,且部署成本隨 GPU 數(shù)量線性增長(zhǎng)。本文將以相對(duì)折中的1024 GPU卡(H100)的規(guī)模為例展開分析。

01 計(jì)算節(jié)點(diǎn)的選型

計(jì)算節(jié)點(diǎn)是AI算力中心的建設(shè)報(bào)價(jià)中最昂貴的部分,一開始拿到的 HGX H100 默認(rèn)物料清單(BoM)往往使用的是頂級(jí)配置。不同于 DGX 是 NVIDIA 的系統(tǒng)品牌,HGX 作為 NVIDIA 授權(quán)平臺(tái)允許合作伙伴構(gòu)建定制的GPU系統(tǒng)。那么,根據(jù)業(yè)務(wù)實(shí)際所需,我們可從以下幾個(gè)方面嘗試優(yōu)化成本。

默認(rèn) HGX H100 機(jī)箱 物料報(bào)價(jià)清單
組件和服務(wù) 數(shù)量
接近頂級(jí)性能的英特爾 Emerald Rapids 處理器 2
8 H100 +4 NVSwitch HGX Baseboard + 8 SXM5 Heatsinks 1
CPU RAM (per Gbyte) 2048
Storage (per TByte) 30
后端 ConnectX-7 NIC 80
Bluefield-3 DPU 2
主板 1
機(jī)箱(機(jī)箱、布線等) 1
冷卻(CPU 散熱器 + 風(fēng)扇) 1
電源 8
組裝&測(cè)試 1
OEM 增值/附加費(fèi)用 1
合計(jì)($):270000+

1、選擇中端CPU

LLM 訓(xùn)練是一項(xiàng) GPU 高度密集型工作負(fù)載,對(duì) CPU 工作負(fù)載要求低。CPU 運(yùn)行是一些簡(jiǎn)單任務(wù),例如 PyTorch ,控制 GPU 的其他進(jìn)程、初始化網(wǎng)絡(luò)和存儲(chǔ)調(diào)用,或者運(yùn)行虛擬機(jī)管理程序等。Intel CPU 相對(duì)更容易實(shí)現(xiàn)正確的 NCCL 性能和虛擬化,而且整體錯(cuò)誤更少。如果是采用AMD CPU ,則要用 NCCL_IB_PCI_RELAXED_ORDERING 并嘗試不同的 NUMA NPS 設(shè)置來調(diào)優(yōu)。

2、 RAM 降級(jí)到 1 TB

RAM 同樣是計(jì)算節(jié)點(diǎn)中相對(duì)昂貴的部分。許多標(biāo)準(zhǔn)產(chǎn)品都具有 2TB 的 CPU DDR 5 RAM,但常規(guī)的AI工作負(fù)載根本不受 CPU RAM 限制,可以考慮減配。

3、刪除 Bluefield-3 或選擇平替

Bluefield-3 DPU最初是為傳統(tǒng) CPU 云開發(fā)的,賣點(diǎn)在于卸載CPU負(fù)載,讓CPU用于業(yè)務(wù)出租,而不是運(yùn)行網(wǎng)絡(luò)虛擬化。結(jié)合實(shí)際,奔著GPU算力而來的客戶無論如何都不會(huì)需要太多 CPU 算力,使用部分 CPU 核心進(jìn)行網(wǎng)絡(luò)虛擬化是可以接受的。此外Bluefield-3 DPU 相當(dāng)昂貴,使用標(biāo)準(zhǔn) ConnectX 作為前端或采用平替的DPU智能網(wǎng)卡完全可滿足所需。

綜合考慮前述幾項(xiàng)成本優(yōu)化,我們已經(jīng)可為單個(gè)服務(wù)器降低約5%的成本。在擁有 128 個(gè)計(jì)算節(jié)點(diǎn)的 1024 H100 集群中,這個(gè)比率背后的金額已經(jīng)相當(dāng)可觀。

4、減少單節(jié)點(diǎn)網(wǎng)卡數(shù)量(謹(jǐn)慎選擇)

標(biāo)準(zhǔn)物料清單中,每臺(tái) H100 計(jì)算服務(wù)器配備八個(gè) 400G CX-7() NIC,單服務(wù)器的總帶寬達(dá)到 3,200Gb/s。如果只使用四塊網(wǎng)卡,后端計(jì)算網(wǎng)的帶寬將會(huì)減少 50%。 這種調(diào)整顯而易見可以節(jié)約資金,但多少會(huì)也對(duì)部分AI工作負(fù)載性能造成不利影響。

02 集群網(wǎng)絡(luò)的選型

集群網(wǎng)絡(luò)是繼計(jì)算節(jié)點(diǎn)之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網(wǎng)絡(luò):

后端網(wǎng)絡(luò)(計(jì)算網(wǎng),InfiniBand 或 RoCEv2) 用于將 GPU 之間的通信從數(shù)十個(gè)機(jī)架擴(kuò)展到數(shù)千個(gè)機(jī)架。該網(wǎng)絡(luò)可以使 InfiniBand() 或 Spectrum-X 以太網(wǎng),也可以使用其他供應(yīng)商的以太網(wǎng)。

前端網(wǎng)絡(luò)(業(yè)務(wù)管理和存儲(chǔ)網(wǎng)絡(luò)) 用于連接互聯(lián)網(wǎng)、SLURM/Kubernetes() 和網(wǎng)絡(luò)存儲(chǔ)以加載訓(xùn)練數(shù)據(jù)和Checkpoint。該網(wǎng)絡(luò)通常以每 GPU 25-50Gb/s 的速度運(yùn)行,滿配八卡的情況每臺(tái)GPU服務(wù)器的帶寬將達(dá)到 200-400Gb/s。

帶外管理網(wǎng)絡(luò) 用于重新映像操作系統(tǒng)、監(jiān)控節(jié)點(diǎn)健康狀況(如風(fēng)扇速度、溫度、功耗等)。服務(wù)器上的BMC、機(jī)柜電源、交換機(jī)、液冷裝置等通常連接到此網(wǎng)絡(luò)以監(jiān)控和控制服務(wù)器和各種其他 IT 設(shè)備。

默認(rèn) HGX H100 集群網(wǎng)絡(luò) 物料報(bào)價(jià)清單
組件和服務(wù) 數(shù)量
InfiniBand 計(jì)算網(wǎng)
Quantum-2 IB 交換機(jī)(MQM9700) 48
Nvidia LinkX IB 400G 單端口 SR4 收發(fā)器 (MMA4Z00-NS4400) 1024
Nvidia LinkX 800G 雙端口 SR8 收發(fā)器 (MMA4Z00-NS) 1536
Nvidia LinkX 400G 多模光纖 3072
前端光纖架構(gòu)成本
Spectrum Ethernet Switch (SN4600) 6
Nvidia LinkX 200G QSFP56 AOC 收發(fā)器 384
Nvidia LinkX 200G 收發(fā)器 256
Nvidia LinkX 100G 多模光纖 512
帶外管理網(wǎng)
1GbE Spectrum Ethernet Switch (SN2201) 4
RJ45 Cables 232
合計(jì)($):490000+

1、計(jì)算網(wǎng)絡(luò):RoCEv2替代IB

與量大管飽的以太網(wǎng)解決方案相比,NVIDIA 提供的InfiniBand無疑更昂貴,但一些客戶依舊篤定認(rèn)為以太網(wǎng)性能要低得多,這主要是因?yàn)橐蕴W(wǎng)需要進(jìn)行必要的無損網(wǎng)絡(luò)參數(shù)配置并且針對(duì)性調(diào)優(yōu)才能發(fā)揮集合通信庫(kù)的性能。

不過從對(duì)業(yè)務(wù)性能的影響角度看,目前技術(shù)背景下使用IB或是RoCEv2作為后端計(jì)算網(wǎng)沒有并太多差異。畢竟 RoCE 實(shí)際上只是將成熟的IB傳輸層和RDMA移植到了同樣成熟的以太網(wǎng)和IP網(wǎng)絡(luò)上,這一點(diǎn)我們將在往后的另一篇文章來分析闡述。

wKgZoWc2xh6AV3VeAAAzrstk9pU046.png

大規(guī)模算力場(chǎng)景中用以太網(wǎng)替代IB組成高性能無損網(wǎng)絡(luò)已形成業(yè)內(nèi)共識(shí),行業(yè)熱點(diǎn)早已轉(zhuǎn)向了如何更好地薅“以太網(wǎng)羊毛”:例如從以太網(wǎng)標(biāo)準(zhǔn)入手,推出下一代面向AI場(chǎng)景的新協(xié)議,以及一些廠商立足于現(xiàn)有協(xié)議標(biāo)準(zhǔn)在簡(jiǎn)化RoCE網(wǎng)絡(luò)配置和提高可視化能力上做的創(chuàng)新嘗試。

參閱: Easy RoCE:在SONiC交換機(jī)上一鍵啟用無損以太網(wǎng)

無論是在AI訓(xùn)推的測(cè)試場(chǎng)景,還是頭部云廠商已有的工程實(shí)踐里,AI以太網(wǎng)都有了大量案例可供參考。

據(jù)統(tǒng)計(jì),在全球 TOP500 的超級(jí)計(jì)算機(jī)中,RoCE和IB的占比相當(dāng)。以計(jì)算機(jī)數(shù)量計(jì)算,IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計(jì)算,IB占比為 39.2%,RoCE 為 48.5%。與IB相比,我們相信有著開放生態(tài)的以太網(wǎng)將會(huì)得到加速發(fā)展。

目前市場(chǎng)上提供適用于AI場(chǎng)景的高性能以太網(wǎng)交換芯片平臺(tái)主要有Broadcom Tomahawk、Marvell Teralynx和Cisco Silicon One 等,NVIDIA Spectrum 芯片僅用于Spectrum-X平臺(tái),不單獨(dú)銷售。以上平臺(tái)都推出了51.2T,800GbE/s的尖端型號(hào),綜合來看部署數(shù)量上 Tomahawk 明顯占優(yōu),轉(zhuǎn)發(fā)時(shí)延性能表現(xiàn) Teralynx 更勝一籌。

2、前端網(wǎng)絡(luò):合理降低帶寬速率

NVIDIA 和一些OEM/系統(tǒng)集成商通常會(huì)在服務(wù)器提供 2x200GbE 前端網(wǎng)絡(luò)連接,并使用 Spectrum Ethernet SN4600 交換機(jī)部署網(wǎng)絡(luò)。

我們知道,這張網(wǎng)絡(luò)僅用于進(jìn)行存儲(chǔ)和互聯(lián)網(wǎng)調(diào)用以及傳輸基于 SLURM,Kubernetes 等管理調(diào)度平臺(tái)的帶內(nèi)管理流量,并不會(huì)用于時(shí)延敏感和帶寬密集型的梯度同步。每臺(tái)服務(wù)器 400G 的網(wǎng)絡(luò)連接在常規(guī)情況下將遠(yuǎn)超實(shí)際所需,其中存在一些成本壓縮空間。

3、帶外管理網(wǎng)絡(luò):選用通用的以太網(wǎng)交換機(jī)

NVIDIA 默認(rèn)物料清單一般包括 Spectrum 1GbE 交換機(jī),價(jià)格昂貴。帶外管理網(wǎng)絡(luò)用到的技術(shù)比較通用,選擇市場(chǎng)上成本更優(yōu)的 1G 以太網(wǎng)交換機(jī)完全夠用。

03 計(jì)算網(wǎng)絡(luò)的架構(gòu)優(yōu)化

GPU集群計(jì)算網(wǎng)將承載并行計(jì)算過程中產(chǎn)生的各類集合通信(all-reduce,all-gather 等),流量規(guī)模和性能要求與傳統(tǒng)云網(wǎng)絡(luò)完全不同。

參閱:揭秘AI智算中心網(wǎng)絡(luò)流量 - 大模型訓(xùn)練篇

NVIDIA 推薦的網(wǎng)絡(luò)拓?fù)涫且粋€(gè)具有無阻塞連接的兩層胖樹網(wǎng)絡(luò),理論上任意節(jié)點(diǎn)對(duì)都應(yīng)該能同時(shí)進(jìn)行線速通信。但由于存在鏈路擁塞、不完善的自適應(yīng)路由和額外跳數(shù)的帶來的通信延遲,真實(shí)場(chǎng)景中無法達(dá)到理論最優(yōu)狀態(tài),需要對(duì)其進(jìn)行性能優(yōu)化。

軌道優(yōu)化(Rail-optimized)架構(gòu)

軌道優(yōu)化架構(gòu)下,4臺(tái)服務(wù)器的32張 GPU 卡不再是連接到 TOR 交換機(jī),而是來自32臺(tái)服務(wù)器的同卡號(hào) GPU 連接各自的軌道交換機(jī)——即32臺(tái)服務(wù)器的所有 GPU#0 都連接到 Leaf 交換機(jī)#0,所有 GPU#1 都連接到 Leaf 交換機(jī)#1,依此類推。

wKgaoWc2xkWAdTlDAAHS17ogCUQ092.png

軌道優(yōu)化網(wǎng)絡(luò)的主要優(yōu)勢(shì)是減少網(wǎng)絡(luò)擁塞。因?yàn)橛糜?AI 訓(xùn)練的 GPU 會(huì)定期并行底發(fā)送數(shù)據(jù),通過集合通信來在不同GPU之間交換梯度并更新參數(shù)。如果來自同一服務(wù)器的所有 GPU 都連接到同一個(gè) ToR 交換機(jī),當(dāng)它們將并行流量發(fā)送到網(wǎng)絡(luò),使用相同鏈路造成擁塞的可能性會(huì)非常高。

星融元(Asterfusion)給出的1024卡,128計(jì)算節(jié)點(diǎn) Scale-out 網(wǎng)絡(luò)方案正是基于軌道優(yōu)化后的架構(gòu),其中采用了24臺(tái) CX864E-N(51.2T的單芯片盒式交換機(jī),8臺(tái)作為Spine,16臺(tái)作為L(zhǎng)eaf),產(chǎn)生跨節(jié)點(diǎn)通信的同卡號(hào)GPU之間只會(huì)相距一跳。

參閱:星融元發(fā)布 51.2T 800G 以太網(wǎng)交換機(jī),賦能AI開放生態(tài)

wKgZomc2xxOAYxqAAASxDegltlk599.pngpoYBAGDYdXCAWkKMAAAAK8RNs4s030.pngwKgaomc2xmeAHheoAARtJWtqtrs377.png

?編輯

來源:星融元(Asterfusion)CX864E-N交換機(jī)

wKgaomc2xxSATLgEAAVUHob7UiE636.pngwKgZomc2xnWAP5YzAAS87Ecd8pw086.png

wKgaomc2xoCAQnAzAAILnAHgKfc860.png

來源:星融元(Asterfusion)星智AI網(wǎng)絡(luò)解決方案

如果追求極致的成本優(yōu)化,對(duì)于一個(gè)32到128個(gè)節(jié)點(diǎn)的計(jì)算集群甚至可以設(shè)計(jì)只有單層軌道交換機(jī)的Rail-only網(wǎng)絡(luò),理論上建網(wǎng)成本可以節(jié)約高達(dá)75%。

確定合適的超額訂閱率

軌道優(yōu)化拓?fù)涞牧硪粋€(gè)好處可以超額訂閱(Oversubscription)。在網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的語境下,超額訂閱指的是提供更多的下行容量;超額訂閱率即下行容量(到服務(wù)器/存儲(chǔ))和上行帶寬(到上層Spine交換機(jī))的比值,在 Meta 的 24k H100 集群里這個(gè)比率甚至已經(jīng)來到夸張的7:1。

通過設(shè)計(jì)超額訂閱,我們可以通過突破無阻塞網(wǎng)絡(luò)的限制進(jìn)一步優(yōu)化成本。這點(diǎn)之所以可行是因?yàn)?8 軌的軌道優(yōu)化拓?fù)淅铮蠖鄶?shù)流量傳輸發(fā)生在 pod 內(nèi)部,跨 pod 流量的帶寬要求相對(duì)較低。結(jié)合足夠好的自適應(yīng)路由能力和具備較大緩沖空間的交換機(jī),我們可以規(guī)劃一個(gè)合適的超額訂閱率以減少上層Spine交換機(jī)的數(shù)量。

但值得注意的是,無論是IB還是RoCEv2,當(dāng)前還沒有一個(gè)完美的方案規(guī)避擁塞風(fēng)險(xiǎn),兩者應(yīng)對(duì)大規(guī)模集合通信流量時(shí)均有所不足,故超額訂閱不宜過于激進(jìn)。(而且最好給Leaf交換機(jī)留有足夠端口,以便未來 pod 間流量較大時(shí)增加spine交換機(jī))

現(xiàn)階段如果是選用基于以太網(wǎng)的AI網(wǎng)絡(luò)方案我們?nèi)酝扑]1:1的無阻塞網(wǎng)絡(luò)設(shè)計(jì)。

04 NVMe 存儲(chǔ)

物理服務(wù)器數(shù)量

為了實(shí)現(xiàn)高可用性,大多數(shù)存儲(chǔ)廠商都會(huì)建議部署至少 8 臺(tái)存儲(chǔ)服務(wù)器。8 臺(tái)存儲(chǔ)服務(wù)器每臺(tái)可提供 250GB/s 到 400GB/s 的存儲(chǔ)帶寬,足以滿足在 1024 臺(tái) H100 上運(yùn)行的 AI 工作負(fù)載。我們可以從最小可用數(shù)量開始,但需要注意在存儲(chǔ)系統(tǒng)上留出足夠的端口、NVMe 驅(qū)動(dòng)器托架、電源和機(jī)架空間,以便后續(xù)按需擴(kuò)展。

存儲(chǔ)網(wǎng)絡(luò)

常見的方案是構(gòu)建專門的200G無損以太網(wǎng)作為存儲(chǔ)網(wǎng)絡(luò)以確保性能,存儲(chǔ)前后端網(wǎng)絡(luò)在物理上合一。

wKgZomc2xq2AVAteAAMxlZiPFvM750.png

來源:星融元(Asterfusion)

存儲(chǔ)服務(wù)器也可以在后端計(jì)算網(wǎng)上運(yùn)行——通常是將IB網(wǎng)卡綁定到 GPU 0來充當(dāng)存儲(chǔ)網(wǎng)卡。雖然存儲(chǔ)基準(zhǔn)測(cè)試的延遲和帶寬表現(xiàn)很好,但在實(shí)際AI工作負(fù)載中將影響 GPU 0 的性能(IB網(wǎng)卡同時(shí)作為存儲(chǔ)網(wǎng)卡會(huì)有流量沖突)。當(dāng)存儲(chǔ)集群中的磁盤發(fā)生故障將觸發(fā)重建,會(huì)在計(jì)算網(wǎng)上造成大量的流量,形成更嚴(yán)重的擁塞。

05 帶內(nèi)管理

為了運(yùn)行高可用的 UFM 和 CPU 管理節(jié)點(diǎn),我們建議部署至少兩個(gè)通用 x86 服務(wù)器,使用25GE/10GE以太網(wǎng)鏈路連接所有計(jì)算節(jié)點(diǎn)和管理節(jié)點(diǎn),并接入外部網(wǎng)絡(luò)。

wKgZomc2xsGAKQ3jAAOU-yHo1aM490.png

來源:星融元(Asterfusion)

默認(rèn)的NVIDIA Superpod 架構(gòu)中包含了“NVIDIA AI Enterprise”或“Base Command Manager (BCM)”,其建議零售價(jià)為4,500 美元/GPU。BCM 是一個(gè)提供 AI 工作流和集群管理的軟件包,這一部分軟件費(fèi)用可以考慮剔除后選擇其他平替方案,或交由用戶自定義。

此外帶內(nèi)管理系統(tǒng)還涉及到其他 IT 設(shè)備,例如防火墻、機(jī)架、PDU 等,這部分價(jià)格不會(huì)顯著增加集群建設(shè)支出。

06 帶外管理

帶外管理系統(tǒng)主要是通過智慧平臺(tái)管理接口(IPMI)去監(jiān)視、控制和自動(dòng)回報(bào)大量服務(wù)器的運(yùn)作狀況。IPMI可獨(dú)立于操作系統(tǒng)外自行運(yùn)作,并允許管理者在受監(jiān)控的系統(tǒng)未開機(jī)但有接電源的情況下進(jìn)行遠(yuǎn)程管理,但這種監(jiān)控功能主要集中在硬件級(jí)別。

不同于帶內(nèi)管理,帶外管理構(gòu)建了單獨(dú)的網(wǎng)絡(luò)承載物理設(shè)備管理流量,不會(huì)承載業(yè)務(wù)流量。我們一般是每GPU計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)配置1條1 GE 鏈路連接IPMI和后端管理平臺(tái)。

wKgaomc2xsyAFe-tAAQJ0pjhqnQ784.png

07 驅(qū)動(dòng)和業(yè)務(wù)調(diào)度程序

GPU驅(qū)動(dòng)程序

必要的 GPU 驅(qū)動(dòng)程序有 cuda-drivers-5xx 和 fabricmanager-5xx 以及 cuda-toolkit-12-x。

Cuda-drivers-5xx 是 ubuntu/Linux 與 GPU 交互所需的內(nèi)核空間驅(qū)動(dòng)程序

fabricmanager-5xx 是一個(gè)負(fù)責(zé)配置節(jié)點(diǎn)內(nèi) NV 鏈路結(jié)構(gòu)

Cuda-toolkit-12-x 包含所有用戶空間工具和 API

網(wǎng)絡(luò)驅(qū)動(dòng)程序

MLNX_OFED

每個(gè) GPU 服務(wù)器上都需要安裝 Mellanox OpenFabrics Enterprise Distribution (MLNX_OFED) 驅(qū)動(dòng)程序。此軟件包是 ConnectX-7 InfiniBand NIC 的驅(qū)動(dòng)程序,用于執(zhí)行 RDMA(遠(yuǎn)程直接內(nèi)存訪問)和 OS 內(nèi)核旁路。

GPU Direct RDMA

這是一個(gè)包含在 cuda-drivers-5xx 中的附加內(nèi)核驅(qū)動(dòng)程序,默認(rèn)情況下未啟用。如果沒有此驅(qū)動(dòng)程序,GPU 將需要先在 CPU RAM 中緩沖消息后才能發(fā)送到 NIC。

啟用 GPUDirect RDMA 的命令是 sudo modprobe nvidia-peermem。

NVIDIA HPC-X

主要用于進(jìn)一步優(yōu)化 GPU 與 NIC 的通信。

如果沒有上述軟件包,GPU 只能以 80Gbit/s 的速度收發(fā)流量,啟用這些軟件包后點(diǎn)對(duì)點(diǎn)收發(fā)速率應(yīng)可達(dá)到 391Gb/s左右。

業(yè)務(wù)調(diào)度和啟動(dòng)程序

絕大部分的最終用戶會(huì)希望擁有一個(gè)開箱即用的調(diào)度程序,可以基于SLURM 、K8s 或者其他供應(yīng)商的軟件平臺(tái)。從0到1手動(dòng)安裝并調(diào)試以上平臺(tái),對(duì)于不是專精于此的工程師至少需要花費(fèi)1-2天時(shí)間,因此閑置的 GPU 資源對(duì)于客戶都是實(shí)打?qū)嵉闹С觥?/p>

08 多租戶隔離

參考傳統(tǒng)CPU云的經(jīng)驗(yàn),除非客戶長(zhǎng)期租用整個(gè)GPU集群,否則每個(gè)物理集群可能都會(huì)有多個(gè)并發(fā)用戶,所以GPU云算力中心同樣需要隔離前端以太網(wǎng)和計(jì)算網(wǎng)絡(luò),并在客戶之間隔離存儲(chǔ)。

基于以太網(wǎng)實(shí)現(xiàn)的多租戶隔離和借助云管平臺(tái)的自動(dòng)化部署已經(jīng)有大量成熟的方案。如采用InfiniBand方案,多租戶網(wǎng)絡(luò)隔離是使用分區(qū)密鑰 (pKeys) 實(shí)現(xiàn)的:客戶通過 pKeys 來獲得獨(dú)立的網(wǎng)絡(luò),相同 pKeys 的節(jié)點(diǎn)才能相互通信。

09 GPU的虛擬化

與傳統(tǒng)CPU云不同的是,AI用途的GPU云租戶通常會(huì)將每個(gè) GPU 計(jì)算節(jié)點(diǎn)作為一個(gè)整體來租用,深入到節(jié)點(diǎn)內(nèi)部的更細(xì)粒度的虛擬化并無絕對(duì)必要。但為了進(jìn)一步提高GPU資源利用率,很多人還是會(huì)選擇GPU虛擬化,目前,GPU虛擬化技術(shù)一般分為三種:軟件模擬、直通獨(dú)占(pGPU)、直通共享(如vGPU、MIG)。

AI算力租賃場(chǎng)景的虛擬化程度一般是到單卡層次,即直通獨(dú)占(pGPU)——利用 PCIe 直通技?

術(shù),將物理主機(jī)上的整塊GPU顯卡直通掛載到虛擬機(jī)上使用,原理與網(wǎng)卡直通類似,但這種方式需要主機(jī)支持IOMMU()。(一種內(nèi)存管理單元,它將具有直接存儲(chǔ)器訪問能力的I/O總線連接至主內(nèi)存。如傳統(tǒng)的MMU一樣,IOMMU將設(shè)備可見的虛擬地址映射到物理地址)

pGPU直通方式相當(dāng)于虛擬機(jī)獨(dú)享GPU,硬件驅(qū)動(dòng)無需修改。因?yàn)闆]有對(duì)可支持的GPU數(shù)量做限制,也沒有閹割GPU功能性,大多數(shù)功能可以在該直通模式下無修改支持。

wKgZomc2xxWAIFdMAAacFMRcPKo370.pngpoYBAGDYdXCAWkKMAAAAK8RNs4s030.png

?編輯

值得一提的是,NCCL 和 NVIDIA 驅(qū)動(dòng)程序在 GPU 虛擬機(jī)內(nèi)運(yùn)行時(shí)無法自動(dòng)檢測(cè) NUMA 區(qū)域和 PCIe 拓?fù)?,需要通過 NCCL_TOPO_FILE 變量手動(dòng)傳遞 /etc/nccl.conf中的 NUMA 區(qū)域和 PCIe 拓?fù)湮募?,否則 NCCL 性能將僅以應(yīng)有帶寬的 50% 運(yùn)行。

10 監(jiān)控方案

監(jiān)控面板

在監(jiān)控方面,我們至少建議通過 Prometheus + Grafana 構(gòu)建一個(gè)集中的監(jiān)控面板,以便用戶跟蹤 GPU 溫度、電源使用情況等BMC指標(biāo),XID錯(cuò)誤,甚至將業(yè)務(wù)和網(wǎng)絡(luò)統(tǒng)一監(jiān)測(cè)。

計(jì)算節(jié)點(diǎn)的監(jiān)控包括在每個(gè) GPU 節(jié)點(diǎn)上安裝一個(gè) IPMI 和 DCGM Exporter,然后在管理節(jié)點(diǎn)上部署 Prometheus 與 GPU 上的 Exporter 通信,并將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。Grafana 連接到 Prometheus 對(duì)收集來的數(shù)據(jù)進(jìn)行可視化呈現(xiàn)。

網(wǎng)絡(luò)側(cè)的監(jiān)控類似,在這種場(chǎng)景下采用SONiC交換機(jī)的優(yōu)勢(shì)明顯,因其軟件環(huán)境本身就是開放的容器化架構(gòu),我們能以 docker 形式在交換機(jī)運(yùn)行 exporter 取得所需設(shè)備狀態(tài)數(shù)據(jù),還可借助RESTful API調(diào)用網(wǎng)絡(luò)能力集成進(jìn)上層管理平臺(tái)。

wKgZomc2xtiAXxMYAAEGK8JgeEY200.png

另外,結(jié)合帶內(nèi)網(wǎng)絡(luò)遙測(cè)(INT)能力還可對(duì)RoCE網(wǎng)絡(luò)實(shí)現(xiàn)亞秒級(jí)的精細(xì)監(jiān)控,用以輔助網(wǎng)絡(luò)擁塞控制。

來源:星融元提供的Prometheus + Grafana 毫秒級(jí) RoCE 監(jiān)控方案

常見錯(cuò)誤

診斷消息(dmesg)兩個(gè)常見 dmesg 消息是電纜被拔出以及 NIC 或者光收發(fā)器過熱。

靜默數(shù)據(jù)損壞 (SDC)沒有收到診斷消息等錯(cuò)誤報(bào)告,但卻輸出錯(cuò)誤的矩陣乘法結(jié)果。這些錯(cuò)誤稱為靜默數(shù)據(jù)損壞 (SDC)。確定 GPU 上是否有該問題的最簡(jiǎn)單方法是使用 Nvidia DCGMI 診斷級(jí)別 4 工具 sudo dcgmi diag -r 4。該工具將捕獲 95% 的最常見靜默數(shù)據(jù)損壞問題。

NCCL故障 常見NCCL故障包括死鎖和停滯,可能會(huì)導(dǎo)致訓(xùn)練作業(yè)暫停 30-35 分鐘, 而后 PyTorch 的 NCCL watchdog 會(huì)終止整個(gè)訓(xùn)練作業(yè)。對(duì)此可以考慮添加電力消耗監(jiān)控來檢查AI作業(yè)是否正常運(yùn)行。更多NCCL排障請(qǐng)參考:https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html

Infiniband UFM 的錯(cuò)誤代碼 常見如 110(符號(hào)錯(cuò)誤)、112(鏈接中斷)、329(鏈接中斷)、702(端口被視為不健康)和 918(符號(hào)位錯(cuò)誤警告)。遇到上述任何錯(cuò)誤代碼,應(yīng)立即聯(lián)系網(wǎng)絡(luò)技術(shù)工程師進(jìn)一步調(diào)查。

11 部署驗(yàn)收和日常維護(hù)

集群規(guī)模的驗(yàn)收測(cè)試應(yīng)持續(xù)至少 3-4 周,盡可能排除早期失效期出現(xiàn)的節(jié)點(diǎn)組件故障。AI訓(xùn)練非常依賴網(wǎng)絡(luò)、HBM() 和 BF16/FP16/FP8 張量核心,而目前常用的高性能計(jì)算測(cè)試工具,例如LINPACK(國(guó)際上使用最廣泛的測(cè)試浮點(diǎn)性能的基準(zhǔn)測(cè)試)不會(huì)大量使用網(wǎng)絡(luò),也不會(huì)占用太多 GPU 的 HBM 內(nèi)存,而是僅使用和測(cè)試 GPU 的 FP64 核心。穩(wěn)妥起見,我們建議驗(yàn)收測(cè)試盡量以模擬真實(shí)業(yè)務(wù)的方式展開。

NCCL-TEST

nccl-test 工具是 NVIDIA 開源的一項(xiàng)用于測(cè)試 NCCL 集合通信的工具,我們建議在正式運(yùn)行業(yè)務(wù)之前先使用nccl-test來檢測(cè)集合通信是否正常、壓測(cè)集合通信速率等,看看否存在任何性能不足或下降。關(guān)于nccl-test日志的分析我們將在接下來的主題中展開。

日常維護(hù)

集群中最常見的問題包括收發(fā)器抖動(dòng)、GPU掉線、GPU HBM 錯(cuò)誤和 SDC等。大多數(shù)情況下,這些問題只需簡(jiǎn)單地啟動(dòng)物理服務(wù)器的硬重啟,或者斷電后重啟即可解決。重新插拔收發(fā)器或清除光纖電纜上的灰塵也可以解決一些意外故障。更復(fù)雜的情況請(qǐng)交給廠商技術(shù)服務(wù)團(tuán)隊(duì)處理。

?

?審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4832

    瀏覽量

    129797
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    32494

    瀏覽量

    271701
  • AI算力
    +關(guān)注

    關(guān)注

    0

    文章

    80

    瀏覽量

    8948
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    1044

    瀏覽量

    15109
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    看懂】什么是端側(cè)?

    隨著物聯(lián)網(wǎng)(IoT)、人工智能和5G技術(shù)的快速發(fā)展,端側(cè)正逐漸成為智能設(shè)備性能提升和智能化應(yīng)用實(shí)現(xiàn)的關(guān)鍵技術(shù)。什么是端側(cè),它的應(yīng)用價(jià)值是什么,與
    的頭像 發(fā)表于 02-24 12:02 ?458次閱讀
    【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】什么是端側(cè)<b class='flag-5'>算</b><b class='flag-5'>力</b>?

    GPU 加速計(jì)算:突破傳統(tǒng)瓶頸的利刃

    在數(shù)字化時(shí)代,數(shù)據(jù)呈爆炸式增長(zhǎng),傳統(tǒng)的已難以滿足復(fù)雜計(jì)算任務(wù)的需求。無論是人工智能的深度學(xué)習(xí)、大數(shù)據(jù)的分析處理,還是科學(xué)研究中的模擬計(jì)算,都對(duì)提出了極高的要求。而
    的頭像 發(fā)表于 02-17 10:36 ?116次閱讀

    GPU租用平臺(tái)有什么好處

    當(dāng)今,GPU租用平臺(tái)為科研機(jī)構(gòu)、企業(yè)乃至個(gè)人開發(fā)者提供了靈活高效的解決方案。下面,AI部落小編帶您深入探討
    的頭像 發(fā)表于 02-07 10:39 ?235次閱讀

    中心如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對(duì)智中心衡量的詳細(xì)闡述:
    的頭像 發(fā)表于 01-16 14:03 ?946次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    中心會(huì)取代通用中心嗎?

    所取代呢??jī)烧叩奶攸c(diǎn)及其適用場(chǎng)景有什么不同呢?、什么是智中心中心是專門為處理AI相關(guān)任務(wù)而設(shè)計(jì)的數(shù)據(jù)
    的頭像 發(fā)表于 01-06 14:45 ?279次閱讀
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>會(huì)取代通用<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>嗎?

    如何構(gòu)建優(yōu)化GPU網(wǎng)絡(luò)

    并從計(jì)算節(jié)點(diǎn)成本優(yōu)化、集群網(wǎng)絡(luò)與拓?fù)涞倪x擇等方面論述如何構(gòu)建優(yōu)化GPU網(wǎng)絡(luò)。
    的頭像 發(fā)表于 11-06 16:03 ?588次閱讀
    如何<b class='flag-5'>構(gòu)建</b>及<b class='flag-5'>優(yōu)化</b><b class='flag-5'>GPU</b><b class='flag-5'>云</b>網(wǎng)絡(luò)

    看懂】大白話解釋“GPUGPU

    隨著大模型的興起,“GPU”這個(gè)詞正頻繁出現(xiàn)在人工智能、游戲、圖形設(shè)計(jì)等工作場(chǎng)景中,什么是GPU,它與CPU的區(qū)別是什么?以及到底什么是GPU
    的頭像 發(fā)表于 10-29 08:05 ?1436次閱讀
    【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>”

    讀懂中心四大類型,深度解讀應(yīng)用與趨勢(shì)

    強(qiáng)大計(jì)算能力的核心設(shè)施,在推動(dòng)科技創(chuàng)新、產(chǎn)業(yè)升級(jí)和社會(huì)發(fā)展中扮演著不可或缺的角色。本文將詳細(xì)解析中心的四大類型,探討它們的最新發(fā)展與應(yīng)用。
    的頭像 發(fā)表于 10-17 08:05 ?1851次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>讀懂<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>四大類型,深度解讀應(yīng)用與趨勢(shì)

    GPU租用平臺(tái)是什么

    GPU租用平臺(tái)是種基于計(jì)算的服務(wù)模式,它允許用戶通過互聯(lián)網(wǎng)按需租用高性能GPU資源,而無
    的頭像 發(fā)表于 10-16 10:15 ?396次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

    、GPU、NPU,給我們剖析了芯片的微架構(gòu)。書中有對(duì)芯片方案商處理器的講解,理論聯(lián)系實(shí)際,使讀者能更好理解芯片。 全書共11章,
    發(fā)表于 10-15 22:08

    【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

    ”,好奇于這種大模型中心到底是如何建設(shè)的,用什么設(shè)備、什么架構(gòu)建設(shè)的?對(duì)這些問題真是無所知,甚至都沒有想過,帶著這份好奇開始閱讀。 先
    發(fā)表于 10-08 10:40

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu):大模型中心建設(shè)指南

    工作日內(nèi)未聯(lián)系,視為放棄本次試用評(píng)測(cè)資格! 書籍介紹 大模型是近年來引人注目的熱點(diǎn)之。大模型蓬勃發(fā)展的基礎(chǔ),是針對(duì)其需求設(shè)計(jì)的及基礎(chǔ)架構(gòu)。本書針對(duì)如何為大模型構(gòu)建基礎(chǔ)架構(gòu)進(jìn)行深入
    發(fā)表于 08-16 18:33

    服務(wù)器為什么選擇GPU

    隨著人工智能技術(shù)的快速普及,需求日益增長(zhǎng)。智中心的服務(wù)器作為支撐大規(guī)模數(shù)據(jù)處理和計(jì)算的核心設(shè)備,其性能優(yōu)化顯得尤為關(guān)鍵。而
    的頭像 發(fā)表于 07-25 08:28 ?982次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)器為什么選擇<b class='flag-5'>GPU</b>

    IaaS+on+DPU(IoD)+下代高性能底座技術(shù)白皮書

    DPU 是當(dāng)下基礎(chǔ)設(shè)施的核心創(chuàng)新之。如果把 CPU 比做大腦,那么 GPU 就好比是肌肉,而 DPU 就是神經(jīng)中樞。CPU 承載了應(yīng)用生態(tài),提供了通用型
    發(fā)表于 07-24 15:32

    中心:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎

    隨著數(shù)字經(jīng)濟(jì)的快速發(fā)展,中心正逐漸成為推動(dòng)經(jīng)濟(jì)發(fā)展的重要力量。中心是指能夠提供大規(guī)模、高
    的頭像 發(fā)表于 04-13 08:27 ?2127次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎