InfiniBand在高性能計算(HPC)和人工智能(AI)應(yīng)用中發(fā)揮著關(guān)鍵作用,體現(xiàn)在它提供了高速、低延遲的網(wǎng)絡(luò)通信能力,以支持大規(guī)模數(shù)據(jù)傳輸和復(fù)雜計算任務(wù)。而InfiniBand的重要性還延伸至網(wǎng)絡(luò)內(nèi)計算領(lǐng)域,其在此領(lǐng)域的應(yīng)用正在逐步擴(kuò)大。通過在網(wǎng)絡(luò)內(nèi)部執(zhí)行計算任務(wù),InfiniBand進(jìn)一步降低了延遲并提升了整體系統(tǒng)效率,有力推動了HPC和AI領(lǐng)域向更高性能和更強(qiáng)智能邁進(jìn)。
InfiniBand網(wǎng)絡(luò)內(nèi)計算:它是什么?
InfiniBand網(wǎng)絡(luò)內(nèi)計算(INC)是InfiniBand技術(shù)的一種延伸設(shè)計,旨在通過將計算能力引入網(wǎng)絡(luò)來提升系統(tǒng)性能。在網(wǎng)絡(luò)計算領(lǐng)域中,它有效地解決了AI和HPC應(yīng)用中的集體通信問題以及點(diǎn)對點(diǎn)瓶頸問題,為數(shù)據(jù)中心的可擴(kuò)展性提供了新穎的視角和解決方案。。
In-Network Computing的理念在于將計算功能集成到InfiniBand網(wǎng)絡(luò)中的交換機(jī)和InfiniBand適配器中。這樣一來,可以在數(shù)據(jù)傳輸?shù)耐瑫r執(zhí)行簡單的計算任務(wù),無需將數(shù)據(jù)傳輸至服務(wù)器等終端節(jié)點(diǎn)進(jìn)行處理,從而消除了這一環(huán)節(jié)的需求
數(shù)據(jù)中心中的InfiniBand網(wǎng)絡(luò)內(nèi)計算
近年來,現(xiàn)代數(shù)據(jù)中心的發(fā)展體現(xiàn)為一種新型的分布式并行處理架構(gòu),這一趨勢由云計算、大數(shù)據(jù)、高性能計算和人工智能驅(qū)動。CPU、內(nèi)存和存儲等資源在整個數(shù)據(jù)中心中分散,并通過諸如InfiniBand、以太網(wǎng)、光纖通道以及Omni-Path等高速網(wǎng)絡(luò)技術(shù)相互連接。協(xié)同設(shè)計與分工合作共同實(shí)現(xiàn)了數(shù)據(jù)處理任務(wù)的集體完成,構(gòu)建了一個圍繞業(yè)務(wù)數(shù)據(jù)為核心、平衡的系統(tǒng)架構(gòu)。
InfiniBand網(wǎng)絡(luò)內(nèi)計算通過在網(wǎng)絡(luò)內(nèi)部執(zhí)行計算任務(wù),將數(shù)據(jù)處理職責(zé)從CPU轉(zhuǎn)移到網(wǎng)絡(luò),從而實(shí)現(xiàn)集成化的網(wǎng)絡(luò)內(nèi)計算,減少延遲并提升系統(tǒng)性能。借助網(wǎng)絡(luò)協(xié)議卸載、遠(yuǎn)程直接內(nèi)存訪問(RDMA)、GPUDirect等關(guān)鍵技術(shù),InfiniBand實(shí)現(xiàn)了在線計算、通信延遲降低及數(shù)據(jù)傳輸效率優(yōu)化等功能。這種深度集成的網(wǎng)絡(luò)內(nèi)計算為高性能計算和人工智能應(yīng)用提供了有力的支持。
InfiniBand網(wǎng)絡(luò)內(nèi)計算的關(guān)鍵技術(shù)
網(wǎng)絡(luò)協(xié)議卸載
網(wǎng)絡(luò)協(xié)議卸載是指通過將與網(wǎng)絡(luò)相關(guān)的協(xié)議處理任務(wù)轉(zhuǎn)移到專用硬件上,從而減輕CPU的處理負(fù)擔(dān)。
InfiniBand網(wǎng)絡(luò)適配器和InfiniBand交換機(jī)負(fù)責(zé)處理整個網(wǎng)絡(luò)通信協(xié)議棧的處理工作,涵蓋物理層、鏈路層、網(wǎng)絡(luò)層以及傳輸層。這種卸載技術(shù)在數(shù)據(jù)傳輸過程中消除了對額外軟件和CPU處理資源的需求,顯著提升了通信性能。
RDMA
遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)是為了解決網(wǎng)絡(luò)傳輸中服務(wù)器端數(shù)據(jù)處理延遲的問題而開發(fā)的。RDMA允許從一臺計算機(jī)的內(nèi)存直接將數(shù)據(jù)傳輸?shù)搅硪慌_計算機(jī)的內(nèi)存,無需CPU介入,從而降低數(shù)據(jù)處理延遲并提升網(wǎng)絡(luò)傳輸效率。
RDMA使得用戶應(yīng)用程序可以直接將數(shù)據(jù)傳輸至服務(wù)器存儲區(qū)域,這些數(shù)據(jù)隨后能夠通過網(wǎng)絡(luò)快速傳送到遠(yuǎn)程系統(tǒng)的存儲區(qū)域。這一過程消除了傳輸過程中多次數(shù)據(jù)復(fù)制和文本交換操作的需求,從而顯著降低了CPU負(fù)載。
GPUDirect RDMA
GPUDirect RDMA是一項(xiàng)利用RDMA能力促進(jìn)GPU節(jié)點(diǎn)之間直接通信的技術(shù),從而提升GPU集群的通信效率。
在集群內(nèi)部不同節(jié)點(diǎn)上的兩個GPU進(jìn)程需要進(jìn)行通信的情況下,GPUDirect RDMA技術(shù)允許RDMA網(wǎng)絡(luò)適配器直接在兩個節(jié)點(diǎn)的GPU內(nèi)存之間傳輸數(shù)據(jù)。這消除了CPU參與數(shù)據(jù)復(fù)制的需求,減少了對PCIe總線的訪問次數(shù),最大限度地減少了不必要的數(shù)據(jù)復(fù)制操作,并顯著提高了通信性能。
SHARP
可擴(kuò)展層級聚合與減少協(xié)議(SHARP)是一種針對涉及集體通信的高性能計算和人工智能應(yīng)用而設(shè)計的集體通信網(wǎng)絡(luò)卸載技術(shù),旨在優(yōu)化效率。
SHARP將計算引擎單元集成到InfiniBand交換機(jī)芯片中,支持各種定點(diǎn)或浮點(diǎn)計算。在包含多個交換機(jī)的集群環(huán)境中,SHARP在物理拓?fù)浣Y(jié)構(gòu)上建立一個邏輯樹形結(jié)構(gòu),使得多個交換機(jī)能夠并行且分布式地處理集體通信操作。這種SHARP樹狀結(jié)構(gòu)的并行和分布式處理極大地減少了集體通信的延遲,減輕了網(wǎng)絡(luò)擁塞,并提高了集群系統(tǒng)的可擴(kuò)展性。該協(xié)議支持諸如屏障(Barrier)、Reduce、All-Reduce等操作,從而提升了大規(guī)模計算環(huán)境中的集體通信效率。
InfiniBand網(wǎng)絡(luò)內(nèi)計算應(yīng)用:HPC與AI
由于其能夠提升整體系統(tǒng)性能和效率,InfiniBand網(wǎng)絡(luò)內(nèi)計算在HPC和AI領(lǐng)域得到了顯著的應(yīng)用。
InfiniBand在網(wǎng)絡(luò)內(nèi)計算在高性能計算中的應(yīng)用
在以計算密集型任務(wù)為主的高性能計算(HPC)領(lǐng)域中,InfiniBand對于緩解CPU/GPU資源競爭至關(guān)重要。高性能計算任務(wù)的通信密集特性,包括點(diǎn)對點(diǎn)通信和集體通信,需要有效的通信協(xié)議支持。在此背景下,卸載技術(shù)、RDMA、GPUDirect以及SHARP等技術(shù)被廣泛采用,以優(yōu)化計算性能。
InfiniBand網(wǎng)絡(luò)內(nèi)計算在人工智能中的應(yīng)用
作為前沿技術(shù)的人工智能,極大程度上依賴于InfiniBand網(wǎng)絡(luò)內(nèi)計算來加快訓(xùn)練過程并獲得高精度模型。在當(dāng)前環(huán)境下,GPU或?qū)S肁I芯片是AI訓(xùn)練平臺的計算核心。這些平臺利用InfiniBand加速訓(xùn)練過程,眾所周知這是一個計算密集型的過程。卸載應(yīng)用程序通信協(xié)議對于減少AI訓(xùn)練期間的延遲至關(guān)重要。GPUDirect RDMA技術(shù)被用于提升GPU集群之間的通信帶寬,有效減少了通信延遲。
結(jié)論
InfiniBand網(wǎng)絡(luò)內(nèi)計算作為一種創(chuàng)新的網(wǎng)絡(luò)計算技術(shù),為HPC和AI領(lǐng)域提供了高效且可靠的計算支持。作為信息技術(shù)領(lǐng)域的重要創(chuàng)新之一,InfiniBand網(wǎng)絡(luò)內(nèi)計算將持續(xù)引領(lǐng)網(wǎng)絡(luò)計算技術(shù)的進(jìn)步和發(fā)展。
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7565瀏覽量
88775 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4778瀏覽量
72123 -
InfiniBand
+關(guān)注
關(guān)注
1文章
29瀏覽量
9197 -
HPC
+關(guān)注
關(guān)注
0文章
316瀏覽量
23771
原文標(biāo)題:InfiniBand網(wǎng)絡(luò)內(nèi)計算知多少?
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論