0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

路科驗(yàn)證 ? 來源:路科驗(yàn)證 ? 2024-11-18 09:39 ? 次閱讀

在進(jìn)入大模型時(shí)代后,大模型發(fā)展已是人工智能的核心,但訓(xùn)練大模型實(shí)際上是一項(xiàng)比較復(fù)雜的工作,因?yàn)樗枰罅康?GPU 資源和較長(zhǎng)的訓(xùn)練時(shí)間。

此外,由于單個(gè) GPU 工作線程的內(nèi)存有限,并且許多大型模型的大小已經(jīng)超出了單個(gè) GPU 的范圍。所以就需要實(shí)現(xiàn)跨多個(gè) GPU 的模型訓(xùn)練,這種訓(xùn)練方式就涉及到了分布式通信和 NVLink。

當(dāng)談及分布式通信和 NVLink 時(shí),我們進(jìn)入了一個(gè)引人入勝且不斷演進(jìn)的技術(shù)領(lǐng)域,下面我們將簡(jiǎn)單介紹分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù) NVLink 的演進(jìn)。

分布式通信是指將計(jì)算機(jī)系統(tǒng)中的多個(gè)節(jié)點(diǎn)連接起來,使它們能夠相互通信和協(xié)作,以完成共同的任務(wù)。而 NVLink 則是一種高速、低延遲的通信技術(shù),通常用于連接 GPU 之間或連接 GPU 與其他設(shè)備之間,以實(shí)現(xiàn)高性能計(jì)算和數(shù)據(jù)傳輸。

分布式并行

當(dāng)前深度學(xué)習(xí)進(jìn)入了大模型時(shí)代,即 Foundation Models。大模型,顧名思義主打的就是“大”。主要包括以下幾個(gè)方面:

數(shù)據(jù)規(guī)模大,大模型通常采用自監(jiān)督學(xué)習(xí)方法,減少了數(shù)據(jù)標(biāo)注,降低訓(xùn)練研發(fā)成本,而大量的數(shù)據(jù)又可以提高模型的泛化能力和性能。

參數(shù)規(guī)模大,隨著模型參數(shù)規(guī)模的不斷增大,模型可以更好地捕捉數(shù)據(jù)中的復(fù)雜關(guān)系和模式,有望進(jìn) 一步突破現(xiàn)有模型結(jié)構(gòu)的精度局限。

算力需求大,大規(guī)模的數(shù)據(jù)和參數(shù),使得模型無法在單機(jī)上運(yùn)行和計(jì)算,這一方面要求計(jì)算硬件的不斷進(jìn)步,另一方面也要求 AI 框架具有分布式并行訓(xùn)練的能力。

所以說,為了解決上述問題我們需要引入分布式并行策略。

數(shù)據(jù)并行

數(shù)據(jù)并行(Data Parallel, DP)是一種常用的深度學(xué)習(xí)訓(xùn)練策略,它通過在多個(gè) GPU 上分布數(shù)據(jù)來實(shí)現(xiàn)并行處理。在數(shù)據(jù)并行的框架下,每個(gè) GPU(或稱作工作單元)都會(huì)存儲(chǔ)模型的完整副本,這樣每個(gè) GPU 都能獨(dú)立地對(duì)其分配的數(shù)據(jù)子集進(jìn)行前向和反向傳播計(jì)算。

數(shù)據(jù)并行的工作流程:

參數(shù)同步:在開始訓(xùn)練之前,所有的工作單元同步模型參數(shù),確保每個(gè) GPU 的模型副本是相同的。

分配數(shù)據(jù):訓(xùn)練數(shù)據(jù)被劃分為多個(gè)批次,每個(gè)批次進(jìn)一步被分割成多個(gè)子集,每個(gè) GPU 負(fù)責(zé)處理一個(gè)數(shù)據(jù)子集。

獨(dú)立計(jì)算梯度:每個(gè) GPU 獨(dú)立地對(duì)其數(shù)據(jù)子集進(jìn)行前向傳播和反向傳播,計(jì)算出相應(yīng)的梯度。

梯度聚合:計(jì)算完成后,所有工作單元的梯度需要被聚合起來。這通常通過網(wǎng)絡(luò)通信來實(shí)現(xiàn),比如使用 All-Reduce 算法,它允許在不同的 GPU 間高效地計(jì)算梯度的平均值。

更新參數(shù):一旦梯度被平均,每個(gè) GPU 使用這個(gè)平均梯度來更新其模型副本的參數(shù)。

重復(fù)過程:這個(gè)過程在每個(gè)數(shù)據(jù)批次上重復(fù)進(jìn)行,直到模型在整個(gè)數(shù)據(jù)集上訓(xùn)練完成。

數(shù)據(jù)并行的優(yōu)勢(shì)和挑戰(zhàn):

數(shù)據(jù)并行可以允許訓(xùn)練過程水平擴(kuò)展到更多的 GPU 上,從而加速訓(xùn)練。其優(yōu)勢(shì)是實(shí)現(xiàn)簡(jiǎn)單,而且可以靈活的調(diào)整工作單元的數(shù)量來適應(yīng)可用的硬件資源,當(dāng)前多種深度學(xué)習(xí)框架提供了內(nèi)置支持。

不過數(shù)據(jù)并行隨著并行的 GPU 數(shù)量增加,需要存儲(chǔ)更多的參數(shù)副本,這會(huì)導(dǎo)致顯著的內(nèi)存開銷。此外,梯度聚合步驟需要在 GPU 之間同步大量數(shù)據(jù),這可能成為系統(tǒng)的瓶頸,特別是當(dāng)工作單元的數(shù)量增多時(shí)。

異步同步方案在數(shù)據(jù)并行中的應(yīng)用:

為了解決數(shù)據(jù)并行中的通信瓶頸問題,研究者們提出了各種異步同步方案。在這些方案中,每個(gè) GPU 工作線程可以獨(dú)立于其他線程處理數(shù)據(jù),無需等待其他工作線程完成其梯度計(jì)算和同步。這種方法可以顯著降低因通信導(dǎo)致的停滯時(shí)間,從而提高系統(tǒng)的吞吐量。

其實(shí)現(xiàn)原理為,在梯度計(jì)算階段,每個(gè) GPU 在完成自己的前向和反向傳播后,不等待其他 GPU,立即進(jìn)行梯度更新。其次,每個(gè) GPU 在需要時(shí)讀取最新可用的全局權(quán)重,而不必等待所有 GPU 達(dá)到同步點(diǎn)。

然而,這種方法也有其缺點(diǎn)。由于不同 GPU 上的模型權(quán)重可能不同步,工作線程可能會(huì)使用過時(shí)的權(quán)重進(jìn)行梯度計(jì)算,這可能導(dǎo)致統(tǒng)計(jì)效率的降低,即精度上無法嚴(yán)格保證。

模型并行

模型并行(Model Parallel, MP)通常是指在多個(gè)計(jì)算節(jié)點(diǎn)上分布式地訓(xùn)練一個(gè)大型的深度學(xué)習(xí)模型,其中每個(gè)節(jié)點(diǎn)負(fù)責(zé)模型的一部分。這種方法主要用于解決單個(gè)計(jì)算節(jié)點(diǎn)無法容納整個(gè)模型的情況。模型并行可以進(jìn)一步細(xì)分為幾種策略,包括但不限于流水并行(Pipeline Parallel, PP)和張量并行(Tensor Parallel, TP)。

模型并行是一種解決單個(gè)計(jì)算節(jié)點(diǎn)無法容納模型所有參數(shù)的方法。不同于數(shù)據(jù)并行,其中每個(gè)節(jié)點(diǎn)處理完整模型的不同數(shù)據(jù)子集,模型并行將模型的不同部分分布到多個(gè)節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)只負(fù)責(zé)模型的一部分參數(shù)。這樣可以有效降低單個(gè)節(jié)點(diǎn)的內(nèi)存需求和計(jì)算負(fù)載。

在模型并行中,深度神經(jīng)網(wǎng)絡(luò)的多個(gè)層可以被分割并分配給不同的節(jié)點(diǎn)。例如,我們可以將連續(xù)的幾層分為一組,然后將這組層分配給一個(gè)節(jié)點(diǎn)。這種分層策略使得每個(gè)節(jié)點(diǎn)只處理分配給它的一部分模型參數(shù),減少了內(nèi)存和計(jì)算資源的使用。

然而,簡(jiǎn)單的模型并行實(shí)現(xiàn)可能會(huì)導(dǎo)致顯著的等待時(shí)間和計(jì)算資源的低效利用,因?yàn)榫哂许樞蛞蕾嚨膶有枰却耙粚拥挠?jì)算完成。

為了減少這種效率損失,流水并行(Pipeline Parallel, PP)被提出。在流水并行中,一個(gè)大的數(shù)據(jù)批次被分成多個(gè)小的微批次(micro-batches),每個(gè)微批次的處理速度應(yīng)該成比例地更快,并且每個(gè) Worker 一旦可用就開始處理下一個(gè)微批次,從而加快流水的執(zhí)行速度。如果有足夠的微批次,則可以充分利用 Worker(GPU 卡),并在步驟開始和結(jié)束時(shí)將空閑時(shí)間“氣泡”降至最低。

在流水并行中,每個(gè)節(jié)點(diǎn)按順序處理不同的模型層,微批次在節(jié)點(diǎn)間流動(dòng),就像在流水線上一樣。梯度在所有微批次處理完畢后被平均,然后更新模型參數(shù)。

流水并行性按層“垂直”分割模型。我們還可以“水平”分割層內(nèi)的某些操作,這通常稱為張量并行訓(xùn)練(Tensor Parallel, TP)來進(jìn)一步提高效率。

在張量并行中,模型中的大型矩陣乘法操作被分割成更小的部分,這些部分可以在多個(gè)計(jì)算節(jié)點(diǎn)上并行執(zhí)行。例如,在 Transformer 模型中,矩陣乘法是一個(gè)主要的計(jì)算瓶頸,通過張量并行,我們可以將權(quán)重矩陣分割成更小的塊,每個(gè)塊在不同的節(jié)點(diǎn)上并行處理。

在實(shí)踐中,模型并行可以包括流水并行和張量并行的組合。一個(gè)節(jié)點(diǎn)可以負(fù)責(zé)模型的一部分(模型并行),同時(shí)處理不同的微批次(流水并行),并且在這個(gè)節(jié)點(diǎn)內(nèi)部,大型的矩陣運(yùn)算可以進(jìn)一步在多個(gè)處理器間分割(張量并行)。這樣的組合可以充分利用分布式計(jì)算資源,提高大規(guī)模模型訓(xùn)練的效率。

AI 框架分布式

對(duì)于模型訓(xùn)練來說,不管是哪一種并行策略其本質(zhì)上包括將模型進(jìn)行“縱向”或“橫向”的切分,然后將單獨(dú)切分出來的放在不同的機(jī)器上進(jìn)行計(jì)算,來充分的利用計(jì)算資源。

在現(xiàn)在的 AI 框架中,通常都是采取的多種策略的混合并行來加速模型訓(xùn)練的。而要支持這種多種并行策略的訓(xùn)練模型,就需要涉及不同“切分”的模型部分如何通信。

5ae4f6f0-907f-11ef-a511-92fbcf53809c.png

AI 訓(xùn)練圖切分

如上圖所示,在 AI 計(jì)算框架中,我們需要將原來的一個(gè)網(wǎng)絡(luò)模型進(jìn)行切分,將其分布在不同的機(jī)器上進(jìn)行計(jì)算,這里通過在模型中插入 Send 和 Recv 節(jié)點(diǎn)來進(jìn)行通信。

除此以外,在分布式的模型訓(xùn)練中,由于模型的切分我們也需要將模型參數(shù)放在不同模型部分所在的機(jī)器上,在訓(xùn)練過程中我們會(huì)涉及到不同模型節(jié)點(diǎn)參數(shù)的交互和同步,那也需要跨節(jié)點(diǎn)的同步數(shù)據(jù)和參數(shù),這種就是分布式訓(xùn)練。

以上我們介紹的都是軟件層面的分布式策略和算法,接下來我們來看下通訊的硬件上是如何實(shí)現(xiàn)的。

通訊硬件

在 AI 訓(xùn)練中,分布式通信是至關(guān)重要的,特別是在處理大型模型和海量數(shù)據(jù)時(shí)。分布式通信涉及不同設(shè)備或節(jié)點(diǎn)之間的數(shù)據(jù)傳輸和協(xié)調(diào),以實(shí)現(xiàn)并行計(jì)算和模型參數(shù)同步,如下圖所示。

5af21ae2-907f-11ef-a511-92fbcf53809c.png

GPU 服務(wù)結(jié)構(gòu)

在機(jī)器內(nèi)通信方面,有幾種常見的硬件:

共享內(nèi)存:多個(gè)處理器或線程可以訪問相同的物理內(nèi)存,這樣它們可以通過讀寫內(nèi)存中的數(shù)據(jù)來進(jìn)行通信。共享內(nèi)存適用于在同一臺(tái)機(jī)器上進(jìn)行并行計(jì)算的情況。

PCIe(Peripheral Component Interconnect Express):PCIe 總線是連接計(jì)算設(shè)備的一種標(biāo)準(zhǔn)接口,通常用于連接 GPU、加速器卡或其他外部設(shè)備。通過 PCIe 總線,數(shù)據(jù)可以在不同的計(jì)算設(shè)備之間傳輸,以實(shí)現(xiàn)分布式計(jì)算。

NVLink:NVLink 是一種由 NVIDIA 開發(fā)的高速互連技術(shù),可實(shí)現(xiàn) GPU 之間的直接通信。NVLink 可以提供比 PCIe 更高的帶寬和更低的延遲,適用于要求更高通信性能的任務(wù)。

在機(jī)器間通信方面,常見的硬件包括:

TCP/IP 網(wǎng)絡(luò):TCP/IP 協(xié)議是互聯(lián)網(wǎng)通信的基礎(chǔ),它允許不同機(jī)器之間通過網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。在分布式計(jì)算中,可以使用 TCP/IP 網(wǎng)絡(luò)進(jìn)行機(jī)器間的通信和數(shù)據(jù)傳輸。

RDMA(Remote Direct Memory Access)網(wǎng)絡(luò):RDMA 是一種高性能網(wǎng)絡(luò)通信技術(shù),它允許在不涉及 CPU 的情況下直接從一個(gè)內(nèi)存區(qū)域傳輸數(shù)據(jù)到另一個(gè)內(nèi)存區(qū)域。RDMA 網(wǎng)絡(luò)通常用于構(gòu)建高性能計(jì)算集群,提供低延遲和高吞吐量的數(shù)據(jù)傳輸。

在了解在硬件之后,實(shí)現(xiàn)通信不可或缺的是提供集合通信功能的庫。其中,最常用的集合通信庫之一是 MPI(Message Passing Interface),在 CPU 上被廣泛應(yīng)用。而在 NVIDIA GPU 上,最常用的集合通信庫則是 NCCL(NVIDIA Collective Communications Library)。

5b1c6c0c-907f-11ef-a511-92fbcf53809c.png

NVLink&NVSwitch

如上圖所示,通過 NCCL 庫,我們可以利用 NVLink 或 NVSwitch 將不同的 GPU 相互連接起來。NCCL 在算法層面提供了外部 API,通過這些 API,我們可以方便地進(jìn)行跨多個(gè) GPU 的集合通信操作。NCCL 的 API 覆蓋了常見的集合通信操作,如廣播、歸約、全局歸約、全局同步等,為開發(fā)者提供了豐富而高效的并行計(jì)算工具。

集合通信

集合通信(Collective Communications)是一種涉及進(jìn)程組中所有進(jìn)程的全局通信操作。它包括一系列基本操作,如發(fā)送(send)、接收(receive)、復(fù)制(copy)、組內(nèi)進(jìn)程?hào)艡谕剑˙arrier),以及節(jié)點(diǎn)間進(jìn)程同步(signal + wait)。這些基本操作經(jīng)過組合可以構(gòu)成一組通信模板,也稱為通信原語。例如,1 對(duì)多的廣播(broadcast)、多對(duì) 1 的收集(gather)、多對(duì)多的收集(all-gather)、1 對(duì)多的發(fā)散(scatter)、多對(duì) 1 的規(guī)約(reduce)、多對(duì)多的規(guī)約(all-reduce)、組合的規(guī)約與發(fā)散(reduce-scatter)、多對(duì)多的全互連(all-to-all)等。下面我們簡(jiǎn)單介紹幾個(gè)。

5b346d84-907f-11ef-a511-92fbcf53809c.png

集合通信

Gather 操作屬于多對(duì) 1 的通信原語,具有多個(gè)數(shù)據(jù)發(fā)送者,一個(gè)數(shù)據(jù)接收者,可以在集群內(nèi)把多個(gè)節(jié)點(diǎn)的數(shù)據(jù)收集到一個(gè)節(jié)點(diǎn)上,他的反向操作對(duì)應(yīng) Scatter。

Broadcast 屬于 1 對(duì)多的通信原語,一個(gè)數(shù)據(jù)發(fā)送者,多個(gè)數(shù)據(jù)接收者,可以在集群內(nèi)把一個(gè)節(jié)點(diǎn)自身的數(shù)據(jù)廣播到其他節(jié)點(diǎn)上。如上圖所示,當(dāng)主節(jié)點(diǎn) 0 執(zhí)行 Broadcast 時(shí),數(shù)據(jù)即從主節(jié)點(diǎn) 0 被廣播至其他節(jié)點(diǎn)。

Scatter 是數(shù)據(jù)的 1 對(duì)多的分發(fā),它將一張 GPU 卡上的數(shù)據(jù)進(jìn)行分片再分發(fā)到其他所有的 GPU 卡上。

AllReduce 屬于多對(duì)多的通信原語,具有多個(gè)數(shù)據(jù)發(fā)送者,多個(gè)數(shù)據(jù)接收者,其在集群內(nèi)的所有節(jié)點(diǎn)上都執(zhí)行相同的 Reduce 操作,可以將集群內(nèi)所有節(jié)點(diǎn)的數(shù)據(jù)規(guī)約運(yùn)算得到的結(jié)果發(fā)送到所有的節(jié)點(diǎn)上。簡(jiǎn)單來說,AllReduce 是數(shù)據(jù)的多對(duì)多的規(guī)約運(yùn)算,它將所有的 GPU 卡上的數(shù)據(jù)規(guī)約(比如 SUM 求和)到集群內(nèi)每張 GPU 卡上。

AllGather 屬于多對(duì)多的通信原語,具有多個(gè)數(shù)據(jù)發(fā)送者,多個(gè)數(shù)據(jù)接收者,可以在集群內(nèi)把多個(gè)節(jié)點(diǎn)的數(shù)據(jù)收集到一個(gè)主節(jié)點(diǎn)上(Gather),再把這個(gè)收集到的數(shù)據(jù)分發(fā)到其他節(jié)點(diǎn)上。

AllToAll 操作每一個(gè)節(jié)點(diǎn)的數(shù)據(jù)會(huì) Scatter 到集群內(nèi)所有節(jié)點(diǎn)上,同時(shí)每一個(gè)節(jié)點(diǎn)也會(huì) Gather 集群內(nèi)所有節(jié)點(diǎn)的數(shù)據(jù)。AllToAll 是對(duì) AllGather 的擴(kuò)展,區(qū)別是 AllGather 操作中,不同節(jié)點(diǎn)向某一節(jié)點(diǎn)收集到的數(shù)據(jù)是相同的,而在 AllToAll 中,不同的節(jié)點(diǎn)向某一節(jié)點(diǎn)收集到的數(shù)據(jù)是不同的。

NVLlink 與 NVSwitch 發(fā)展

NVLink 和 NVSwitch 是英偉達(dá)推出的兩項(xiàng)革命性技術(shù),它們正在重新定義 CPU 與 GPU 以及 GPU 與 GPU 之間的協(xié)同工作和高效通信的方式。

NVLink 是一種先進(jìn)的總線及其通信協(xié)議。NVLink 采用點(diǎn)對(duì)點(diǎn)結(jié)構(gòu)、串列傳輸,用于中央處理器(CPU)與圖形處理器(GPU)之間的連接,也可用于多個(gè)圖形處理器(GPU)之間的相互連接。

NVSwitch:是一種高速互連技術(shù),同時(shí)作為一塊獨(dú)立的 NVLink 芯片,其提供了高達(dá) 18 路 NVLink 的接口,可以在多個(gè) GPU 之間實(shí)現(xiàn)高速數(shù)據(jù)傳輸。

這兩項(xiàng)技術(shù)的引入,為 GPU 集群和深度學(xué)習(xí)系統(tǒng)等應(yīng)用場(chǎng)景帶來了更高的通信帶寬和更低的延遲,從而提升了系統(tǒng)的整體性能和效率。

NVLink 發(fā)展

5b3e30d0-907f-11ef-a511-92fbcf53809c.png

NVLink 發(fā)展

如上圖所示,從 Pascal 架構(gòu)到 Hoppe 架構(gòu),NVLink 已經(jīng)經(jīng)過了四代的發(fā)展演進(jìn)。在 2024 年的 GTC 大會(huì)上,NVIDIA 發(fā)布了 Blackwell 架構(gòu),其中 NVLink 再次更新,發(fā)布了第五代 NVLink,其中互聯(lián)帶寬達(dá)到了 1800GB/s。

如上圖所示,每一層 NVLink 的更新,其每個(gè) GPU 的互聯(lián)帶寬都是在不斷的提升,其中 NVLink 之間能夠互聯(lián)的 GPU 數(shù),也從第一代的 4 路到第四代的 18 路。最新的 Blackwell 架構(gòu)其最大互聯(lián) GPU 數(shù),并未增加。

5b421d94-907f-11ef-a511-92fbcf53809c.png

NVLink 發(fā)展

從上圖可以看出,在 P100 中每一個(gè) NVLink 只有 40GB/s,而從第二代 V100 到 H100 每一個(gè) NVLink 鏈路都有 50GB/s,通過增加了鏈路的數(shù)量使得整體帶寬增加。

NVSwitch 發(fā)展

5b5b688a-907f-11ef-a511-92fbcf53809c.png

NVSwitch 發(fā)展

如上圖所示,NVSwitch 技術(shù)從 Volta 架構(gòu)到 Hopper 架構(gòu),經(jīng)歷了三代的演進(jìn)與發(fā)展。在每一代中,每個(gè) GPU 互聯(lián)的芯片模組數(shù)量保持不變,都為 8 個(gè),這意味著互聯(lián)的基本結(jié)構(gòu)保持了穩(wěn)定性和一致性。隨著 NVLink 架構(gòu)的升級(jí),GPU 到 GPU 之間的帶寬卻實(shí)現(xiàn)了顯著的增長(zhǎng),因?yàn)?NVSwitch 就是 NVLink 具體承載的芯片模組,從 Volta 架構(gòu)的 300GB/s 增加到了 Hopper 架構(gòu)的 900GB/s。

下面我們來看下 NVLink 與 NVSwitch 在服務(wù)器中的關(guān)系。

5b7f9890-907f-11ef-a511-92fbcf53809c.png

NVSwitch 發(fā)展

如上圖所示,在 P100 中是只有 NVLink 的,GPU 間通過 CubeMesh 進(jìn)行互聯(lián)。在 P100 中,每一個(gè) GPU 有 4 路進(jìn)行互聯(lián),每 4 個(gè)組成一個(gè) CubeMesh。

而到了 V100 中,每一個(gè) GPU 可以通過 NVSwitch 合另外一個(gè) GPU 進(jìn)行互聯(lián)。到了 A100 中,NVSwitch 再次升級(jí),節(jié)省了很多的鏈路,每一個(gè) GPU 可以通過 NVSwitch 和任何一個(gè) GPU 進(jìn)行互聯(lián)。

到了 H100 中,又有了新的技術(shù)突破,單機(jī)內(nèi)有 8 塊 H100 GPU 卡,任意兩個(gè) H100 卡之間都有 900 GB/s 的雙向互聯(lián)帶寬。值得注意的是,在 DGX H100 系統(tǒng)里,四個(gè) NVSwitch 留出了 72 個(gè) NVLink4 連接,用于通過 NVLink-Network Switch 連接到其他 DGX H100 系統(tǒng),從而方便組成 DGX H100 SuperPod 系統(tǒng)。其中,72 個(gè) NVLink4 連接的總雙向帶寬是~3.6TB/s。

總結(jié)

在大模型時(shí)代,人工智能的發(fā)展越來越依賴于強(qiáng)大的計(jì)算資源,尤其是 GPU 資源。為了訓(xùn)練這些龐大的模型,我們需要采用分布式并行策略,將模型訓(xùn)練任務(wù)分散到多個(gè) GPU 或計(jì)算節(jié)點(diǎn)上。這不僅涉及到數(shù)據(jù)并行和模型并行等策略,還需要高效的分布式通信技術(shù),如 NVLink 和 NVSwitch,來保證數(shù)據(jù)在不同計(jì)算單元間的快速傳輸和同步。

大模型時(shí)代的 AI 框架不僅需要支持不同的分布式并行策略,還需要涉及和考慮到分布式通信技術(shù),例如 NVLink 和 NVSwitch 來支持高效的跨節(jié)點(diǎn)通信。

未來隨著模型的規(guī)模將繼續(xù)增長(zhǎng),對(duì)計(jì)算資源的需求也將不斷上升。我們需要不斷優(yōu)化分布式并行策略,并發(fā)展更高效的分布式通信技術(shù)。這不僅僅是軟件上的策略優(yōu)化更新,也涉及到硬件層面的優(yōu)化更新。

NVLink 和 NVSwitch 不斷的更新,進(jìn)一步提升深度學(xué)習(xí)模型訓(xùn)練的速度和效率。通過了解這些通信技術(shù)創(chuàng)新和進(jìn)步,可以幫助我們更好的訓(xùn)練更大的模型,推動(dòng)人工智能向更深層次的方向發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 通信
    +關(guān)注

    關(guān)注

    18

    文章

    6045

    瀏覽量

    136198
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4759

    瀏覽量

    129111
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31222

    瀏覽量

    269579

原文標(biāo)題:淺析GPU分布式通信技術(shù)-PCle、NVLink、NVSwitch

文章出處:【微信號(hào):Rocker-IC,微信公眾號(hào):路科驗(yàn)證】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    分布式軟件系統(tǒng)

    分布式軟件系統(tǒng)分布式軟件系統(tǒng)(Distributed Software Systems)是支持分布式處理的軟件系統(tǒng),是在由通信網(wǎng)絡(luò)互聯(lián)的多處理機(jī)體系結(jié)構(gòu)上執(zhí)行任務(wù)的系統(tǒng)。它包括
    發(fā)表于 07-22 14:53

    分布式發(fā)電技術(shù)與微型電網(wǎng)

    幾種分布式發(fā)電簡(jiǎn)介2.分布式發(fā)電與配電網(wǎng)互聯(lián)問題3.微型電網(wǎng)技術(shù)4.分布式發(fā)電(電源)技術(shù)應(yīng)用的障礙和瓶頸5.
    發(fā)表于 03-11 13:37

    《無線通信FPGA設(shè)計(jì)》分布式FIR的并行改寫

    《無線通信FPGA設(shè)計(jì)》分布式FIR的并行改寫,結(jié)果與matlab仿真結(jié)果基本吻合
    發(fā)表于 02-26 09:09

    關(guān)于光載無線分布式天線的全面介紹

    系統(tǒng)中使用的光收發(fā)模塊。為了降低系統(tǒng)成本,我們基于商用的千兆以太網(wǎng)光組件,經(jīng)過電路設(shè)計(jì)和改進(jìn)實(shí)現(xiàn)了低成本、寬帶的模擬光收發(fā)模塊,為光載無線分布式天線網(wǎng)絡(luò)的推廣應(yīng)用打下了基礎(chǔ)。此外,光載無線(ROF)鏈路
    發(fā)表于 06-11 07:45

    如何設(shè)計(jì)分布式干擾系統(tǒng)?

    啟動(dòng),自主組網(wǎng),并根據(jù)控制對(duì)敵方雷達(dá)網(wǎng)、通信網(wǎng)、制導(dǎo)網(wǎng)和預(yù)警機(jī)等電子信息系統(tǒng)實(shí)施接近偵察和干擾,這將在未來的電子對(duì)抗中發(fā)揮重要作用。分布式干擾系統(tǒng)采用逼近的分布式網(wǎng)絡(luò)化結(jié)構(gòu),形成一種
    發(fā)表于 08-08 06:57

    分布式系統(tǒng)的優(yōu)勢(shì)是什么?

    當(dāng)討論分布式系統(tǒng)時(shí),我們面臨許多以下這些形容詞所描述的 同類型: 分布式的、刪絡(luò)的、并行的、并發(fā)的和分散的。分布式處理是一個(gè)相對(duì)較新的領(lǐng)域,所以還沒有‘致的定義。與順序計(jì)算相比、并行的、并發(fā)的和
    發(fā)表于 03-31 09:01

    HarmonyOS應(yīng)用開發(fā)-分布式設(shè)計(jì)

    設(shè)計(jì)理念HarmonyOS 是面向未來全場(chǎng)景智慧生活方式的分布式操作系統(tǒng)。對(duì)消費(fèi)者而言,HarmonyOS 將生活場(chǎng)景中的各類終端進(jìn)行能力整合,形成“One Super Device”,以實(shí)現(xiàn)
    發(fā)表于 09-22 17:11

    如何基于分布式軟總線進(jìn)行“三步走”極簡(jiǎn)開發(fā)

    近場(chǎng)通信方式(藍(lán)牙,WiFi,UWB等)必須感知才能實(shí)現(xiàn)連接3.無線環(huán)境必須建立標(biāo)準(zhǔn)的用于服務(wù)器的協(xié)議棧4.不同物理層無法實(shí)現(xiàn)統(tǒng)一的開發(fā)體驗(yàn)針對(duì)這些開發(fā)者的開發(fā)之痛,技術(shù)專家鄭凱帶來的
    發(fā)表于 12-24 10:43

    HDC2021技術(shù)分論壇:跨端分布式計(jì)算技術(shù)初探

    外部無關(guān)業(yè)務(wù)干擾,使得分布式計(jì)算穩(wěn)定性較低。三、如何應(yīng)對(duì)跨端分布式計(jì)算技術(shù)面臨的挑戰(zhàn)你肯定會(huì)好奇,HarmonyOS如何應(yīng)對(duì)挑戰(zhàn)、解決問題?在無線不可靠的網(wǎng)絡(luò)環(huán)境下,為實(shí)現(xiàn)靈活、
    發(fā)表于 11-15 14:54

    HDC2021技術(shù)分論壇:跨端分布式計(jì)算技術(shù)初探

    作者:zhengkai,分布式通信首席技術(shù)專家當(dāng)今的移動(dòng)應(yīng)用都向著智能化和多樣化方向發(fā)展,例如AI輔助,VR/AR應(yīng)用,沉浸游戲等。然而現(xiàn)實(shí)中的移動(dòng)設(shè)備,因?yàn)楸銛y性要求受限于尺寸、電
    發(fā)表于 11-23 17:06

    如何高效完成HarmonyOS分布式應(yīng)用測(cè)試?

    分布式應(yīng)用涉及多臺(tái)設(shè)備協(xié)同時(shí),由于缺乏全面且高效的隱私合規(guī)檢測(cè)方案,安全隱私問題攔截難度較大。鑒于以上HarmonyOS分布式應(yīng)用測(cè)試面臨的挑戰(zhàn),華為DevEco Testing提供了一套
    發(fā)表于 12-13 18:07

    分布式軟總線實(shí)現(xiàn)近場(chǎng)設(shè)備間統(tǒng)一的分布式通信管理能力如何?

    現(xiàn)實(shí)中多設(shè)備間通信方式多種多樣(WIFI、藍(lán)牙等),不同的通信方式使用差異大,導(dǎo)致通信問題多;同時(shí)還面臨設(shè)備間通信鏈路的融合共享和沖突無法處理等挑戰(zhàn)。那么
    發(fā)表于 03-16 11:03

    常見的分布式供電技術(shù)有哪些?

    燃料電池將氫氣轉(zhuǎn)化為電能,具有高效率、清潔環(huán)保等優(yōu)勢(shì),能夠提供高品質(zhì)、高可靠性的電力供應(yīng)?! ?.燃?xì)獍l(fā)電技術(shù):利用燃?xì)鈾C(jī)等設(shè)備將燃?xì)廪D(zhuǎn)化為電能,接入分布式電網(wǎng)進(jìn)行供電,其優(yōu)點(diǎn)是反應(yīng)速度快,且燃料相對(duì)便宜,但同時(shí)還需要考慮燃?xì)夤?/div>
    發(fā)表于 04-10 16:28

    分布式軟總線實(shí)現(xiàn)設(shè)備無感發(fā)現(xiàn)和高效傳輸

    分布式軟總線是OpenHarmony社區(qū)開源的分布式設(shè)備通信基座,為設(shè)備之間的互通互聯(lián)提供統(tǒng)一的分布式協(xié)同能力,實(shí)現(xiàn)設(shè)備無感發(fā)現(xiàn)和
    發(fā)表于 07-23 16:04 ?4119次閱讀

    分布式通信是什么 分布式網(wǎng)絡(luò)搭建

    智能機(jī)器人的功能繁多,全都放在一個(gè)計(jì)算機(jī)里,經(jīng)常會(huì)遇到計(jì)算能力不夠、處理出現(xiàn)卡頓等情況,如果可以將這些任務(wù)拆解,分配到多個(gè)計(jì)算機(jī)中運(yùn)行豈不是可以減輕壓力? 這就是分布式系統(tǒng),可以實(shí)現(xiàn)多計(jì)算平臺(tái)
    的頭像 發(fā)表于 11-27 15:49 ?823次閱讀
    <b class='flag-5'>分布式</b><b class='flag-5'>通信</b>是什么 <b class='flag-5'>分布式</b>網(wǎng)絡(luò)搭建