網(wǎng)絡(luò)協(xié)議為計算機網(wǎng)絡(luò)中進行數(shù)據(jù)交換而建立的規(guī)則、標(biāo)準(zhǔn)或約定的集合。法律層面上,OSI 七層協(xié)議為國際協(xié)議。
由于HPC/AI對于網(wǎng)絡(luò)高吞吐、低時延的要求,在數(shù)據(jù)中心中 TCP/IP 逐步過渡到RDMA。RDMA中 包 含 不同 的 分 支 , 其中,Infiniband 專為 RDMA 設(shè)計,從硬件級別保證可靠傳輸 ,技術(shù)先進,但是成本高昂。而 RoCE 和 iWARP 都是基于以太網(wǎng)的 RDMA技術(shù)。
Q:什么是協(xié)議?
網(wǎng)絡(luò)協(xié)議為計算機網(wǎng)絡(luò)中進行數(shù)據(jù)交換而建立的規(guī)則、標(biāo)準(zhǔn)或約定的集合。法律層面上,OSI七層協(xié)議為國際協(xié)議。20世紀(jì)80年代,為了規(guī)范化計算機之間的通信方式,從而滿足開放式網(wǎng)絡(luò)的需求,OSI(Open System Interconnection)協(xié)議被提出,其采用了一種七層網(wǎng)絡(luò)。
物理層:解決了硬件之間如何通信,主要功能為定義物理設(shè)備標(biāo)準(zhǔn)(如接口類型、傳輸速率等),從而實現(xiàn)比特流(一種以 0、1 表示的數(shù)據(jù)流)的傳輸。
數(shù)據(jù)鏈路層:主要功能為幀編碼和誤差糾正控制。具體工作為接受來自物理層的數(shù)據(jù),并封裝為幀,然后傳輸?shù)缴弦粚?。同樣也可以將來自網(wǎng)絡(luò)層的數(shù)據(jù)拆為比特流傳輸給物理層。之所以能實現(xiàn)糾錯的功能,是因為每幀除了要傳輸?shù)臄?shù)據(jù)外,還包括校驗信息。
網(wǎng)絡(luò)層:在節(jié)點之間創(chuàng)建邏輯電路,通過 IP 尋找地址(在網(wǎng)絡(luò)中每個節(jié)點都有一個IP)。這一層傳輸?shù)臄?shù)據(jù)以包為單位。
傳輸層:負(fù)責(zé)監(jiān)督數(shù)據(jù)傳輸?shù)馁|(zhì)量,若發(fā)生丟包,則應(yīng)該重新發(fā)送。
會話層:主要功能為管理網(wǎng)絡(luò)設(shè)備的會話連接。
表示層:主要負(fù)責(zé)數(shù)據(jù)格式轉(zhuǎn)換、加密等。
應(yīng)用層:提供應(yīng)用接口,可以為用戶直接提供各種網(wǎng)絡(luò)服務(wù),完成各種網(wǎng)絡(luò)工作。
TCP/IP 是包含各種協(xié)議的協(xié)議簇,這些協(xié)議可以大致分為四層,即應(yīng)用層、傳輸層、網(wǎng)絡(luò)層、數(shù)據(jù)鏈路層,實際上,TCP/IP協(xié)議可以理解做 OSI 七層協(xié)議的優(yōu)化版。
由于 HPC 對于網(wǎng)絡(luò)高吞吐、低時延的要求,TCP/IP 逐步過渡到 RDMA。TCP/IP 有幾個主要的缺點:
其一,存在數(shù)十微秒的時延。由于 TCP/IP 協(xié)議棧在傳輸時,需要多次上下文切換,并依賴 CPU 進行封裝,因此時延較長。
其二,CPU 負(fù)載嚴(yán)重。TCP/IP 網(wǎng)絡(luò)需要主機 CPU 多次參與協(xié)議棧內(nèi)存拷貝,CPU負(fù)載與網(wǎng)絡(luò)帶寬相關(guān)系數(shù)過大。
RDMA(遠(yuǎn)程內(nèi)存直接訪問技術(shù),RemoteDirect Memory Access):能直接通過網(wǎng)絡(luò)接口訪問內(nèi)存數(shù)據(jù),無需操作系統(tǒng)內(nèi)核的介入。這允許高吞吐、低延遲的網(wǎng)絡(luò)通信,尤其適合在大規(guī)模并行計算機集群中使用。
RDMA 未規(guī)定全部協(xié)議棧,但是對具體的傳輸提出了較高的要求:例如不輕易丟、吞吐量大、延時低等等。RDMA 中包含不同的分支,其中, Infiniband 專為 RDMA 設(shè)計,從硬件級別保證可靠傳輸 ,技術(shù)先進,但是成本高昂。而 RoCE 和 iWARP 都是基于以太網(wǎng)的RDMA 技術(shù)。
Q:數(shù)據(jù)中心架構(gòu)中,交換機有什么用?
交換機和路由器工作的層次不同。交換機(Switch)工作在數(shù)據(jù)鏈路層,基于 MAC(網(wǎng)卡的硬件地址)識別,能完成封裝轉(zhuǎn)發(fā)數(shù)據(jù)包功能,允許不同的設(shè)備間相互通信。路由器(Router)亦稱選徑器,工作在網(wǎng)絡(luò)層,實現(xiàn)相互連接,基于 IP 實現(xiàn)尋址,將不同的子網(wǎng)絡(luò)相連接。
傳統(tǒng)的數(shù)據(jù)中心往往使用三層架構(gòu),即接入層、匯聚層、核心層,而在小型的數(shù)據(jù)中心中,可以忽略匯聚層的存在。其中,接入層通常直接與服務(wù)器相連,常用的接入交換機常為TOR(Top of Rack)交換機。匯聚層是網(wǎng)絡(luò)接入層和核心層的 “中介(中間層)”。核心交換機為進出數(shù)據(jù)中心的包提供轉(zhuǎn)發(fā),并為匯聚層提供連接性。
傳統(tǒng)的三層網(wǎng)絡(luò)有較為顯著的缺點,并且隨著云計算的發(fā)展,這些缺點愈發(fā)突出:
帶寬浪費:每組匯聚交換機管理一個 POD(Point Of Delivery),每個 POD 內(nèi)都是獨立的 VLAN 網(wǎng)絡(luò)。匯聚交換機和接入交換機之間通常使用 STP(Spanning Tree Protocol,生成樹協(xié)議)。STP 使得對于一個 VLAN 網(wǎng)絡(luò)只有一個匯聚層交換機可用,其他的匯聚層是被阻塞的,同時這也導(dǎo)致匯聚層無法水平拓展。
故障域大:由于 STP 的算法,網(wǎng)絡(luò)拓?fù)渥兏鼤r需要重新收斂,容易發(fā)生故障。
時延較長:隨著數(shù)據(jù)中心的發(fā)展,東西向流量大幅增加,而三層架構(gòu)間服務(wù)器之間的通信需要層層經(jīng)過交換機,造成了較大的時延,且核心交換機和匯聚交換機的工作壓力不斷擴大,性能升級也造成成本的上浮。
葉脊架構(gòu)優(yōu)勢明顯,具有扁平化設(shè)計、低延遲、具有帶寬高等特點。葉脊網(wǎng)絡(luò)(leaf-spine)使得網(wǎng)絡(luò)扁平化,其中葉交換機相當(dāng)于傳統(tǒng)的接入層交換機,脊交換機類似核心交換機。
葉和脊交換機之間通過 ECMP(Equal Cost Multi Path)動態(tài)選擇多條路徑。當(dāng) Leaf 層的接入端口和上行鏈路都沒有瓶頸時,這個架構(gòu)就實現(xiàn)了無阻塞(Non blocking)。因為Fabric 中的每個 Leaf 都會連接到每個 Spine,所以,如果一個 Spine 出現(xiàn)問題,數(shù)據(jù)中心的吞吐性能只會有輕微的下降(SlightlyDegrade)。
Q:英偉達交換機=IB 交換機?
不是。英偉達 Spectrum 和 Quantum 平臺,同時布局了以太網(wǎng)和 IB 交換機。
英偉達 Spectrum 和 Quantum 平臺,同時布局了以太網(wǎng)和 IB 交換機。IB 交換機主要由廠商 mellanox 運營,英偉達于 2020 年成功將其收購。此外,英偉達 Spectrum 平臺的交換機主要基于以太網(wǎng),旗下產(chǎn)品不斷迭代,2022 年發(fā)布的 Spectrum-4 是 400G 交換機產(chǎn)品。
Spectrum-X 針對生成式 AI 所設(shè)計,優(yōu)化了傳統(tǒng)以太網(wǎng)交換機的限制。NVIDIA Spectrum X 平臺的兩個關(guān)鍵元素是 NVIDIA Spectrum-4 以太網(wǎng)交換機和 NVIDIA BlueField-3 DPU。
Spectrum-X 的主要優(yōu)勢包括: 將 RoCE 擴展用于 AI 和自適應(yīng)路由(AR),以實現(xiàn) NVIDIA 集合通信庫(NCCL)的最大性能。NVIDIA Spectrum-X 能夠在超大規(guī)模系統(tǒng)的負(fù)載和規(guī)模下實現(xiàn)高達 95% 的有效帶寬。
利用性能隔離來確保在多租戶和多作業(yè)環(huán)境中,一個作業(yè)不會影響另一個作業(yè)。
確保在出現(xiàn)網(wǎng)絡(luò)組件故障時,網(wǎng)絡(luò)架構(gòu)能夠繼續(xù)提供最高性能。
與 BlueField-3 DPU 同步,實現(xiàn)最佳 NCCL 和 AI 性能。
在各種人工智能工作負(fù)載下保持一致和穩(wěn)定的性能,這對實現(xiàn) SLA 至關(guān)重要。
在組網(wǎng)方式中,IB 還是以太網(wǎng)是個重要的問題。目前的市場中,以太網(wǎng)占據(jù)了絕大部分的市場份額,但是在一些大規(guī)模的運算場景中,IB 又一枝獨秀。ISC 2021 超級計算大會上,在 TOP10 的系統(tǒng)中 IB 占據(jù)了 70%的份額,在 TOP100 中 IB 占據(jù) 65%的份額。隨著考慮范圍越來越大,IB 的市場份額越來越低。
Spectrum 和 Quantum 平臺針對不同的應(yīng)用場景。在英偉達的設(shè)想中,AI 應(yīng)用場景可大致分為 AI 云和 AI 工廠,在 AI 云中可以使用傳統(tǒng)以太網(wǎng)交換機和 Spectrum-X 以太網(wǎng),而在 AI 工廠中則需要使用 NVLink+InfiniBand 的方案。
Q:英偉達 SuperPOD 如何理解?
SuperPOD 是服務(wù)器集群,通過將多個計算節(jié)點相連,以提供較大的吞吐性能。
以英偉達 DGX A100 SuperPOD 為例,英偉達官方推薦的配置中使用的交換機為 QM9700,能提供 40 個 200G 端口。由于其采用的架構(gòu)為胖樹(不收斂)架構(gòu)。在第一層中, DGX A100 服務(wù)器共有 8 個接口,分別接入 8 個葉交換機,20 臺服務(wù)器組成一個 SU,因此共需8*SU 臺服務(wù)器,第二層架構(gòu)中,由于網(wǎng)絡(luò)不收斂,且端口速率一致,因此脊交換機提供的上行端口要大于等于葉交換機的下行端口。因此,1 個 SU 對應(yīng) 8 臺葉交換機和 5 臺脊交換機,2 個 SU 對應(yīng) 16 臺葉交換機和 10 臺脊交換機,依此類推。此外,當(dāng) SU 數(shù)量增至 6 個以上時,官方推薦加入一層核心層交換機。
在 DGX A100 SuperPOD 中,計算網(wǎng)絡(luò)的連接中服務(wù)器:交換機~1:1.17(以 7 個 SU 為例);但是在 DGX A100 SuperPOD 中,這一比例為 1:0.38。若考慮到存儲器及網(wǎng)絡(luò)管理的需求,則 DGX A100 SuperPOD 和 DGX H100 SuperPOD 中服務(wù)器:交換機分別為 1:1.34 和 1:0.50。
從端口方面看,在 DGX H100 的推薦配置中,每個 SU 由 31 臺服務(wù)器組成。一方面,DGX H100 只有 4 個用于計算的接口,另一方面,在 DGX H100 SuperPOD 中交換機為 QM9700,提供 64 個 400G 端口。
從交換機性能看,DGX H100 SuperPOD 推薦配置中的 QM9700 性能大幅提升。Infiniband 交換機引入了 Sharp 技術(shù)。通過聚合管理器在物理拓?fù)渲袠?gòu)造流聚合樹(SAT,Streaming Aggregation Trees),然后由樹中的多臺交換機執(zhí)行并行運算,可以大幅降低延遲,提高網(wǎng)絡(luò)性能。QM8700/8790+CX6 僅最多支持 2 個 SAT,但QM9700/9790+CX7 最多支持 64 個。疊加端口數(shù)量增多,因此交換機用量下降。
從交換機價格看,QM9700 價格約為 QM8700/8790 的兩倍。據(jù) SHI 官網(wǎng)數(shù)據(jù),Quantum-2 QM9700 單價 3.8 萬美金,Quantum QM8700/8790 分別為 2.3 萬/1.7 萬美金。
交換機市場現(xiàn)狀?
交換機市場短期景氣較好,隨著 AI 發(fā)展,市場需求有望進一步擴大,且呈現(xiàn)向高端迭代趨勢。
從格局上看,交換機市場尚為藍海,思科份額較大,Arista 成長迅速。
市場規(guī)模方面:2023Q1 全球以太網(wǎng)交換機收入 100.21 億美元,同比+31.5%。其中,200G/400G 交換機收入同比增加 41.3%,100G 交換機收入同比+18.0%。
端口出貨數(shù)量方面:2023Q1 出貨 2.29 億個同比+14.8%。其中,200G/400G、100G 端口分別增加 224.2%、17.0%。
競爭格局優(yōu)于服務(wù)器市場,思科一家獨大,Arista成長迅速。
據(jù)theNextPlatform 測算,2023Q1 思科占據(jù) 46%的市場份額,約 46.1 億美元,同比+33.7%。Arista 憑借在數(shù)據(jù)中心的出色表現(xiàn),2023Q1 收入11.5 億美元,同比+61.6%。
盈利能力方面,思科和 Arista 毛利率均接近 60%。較優(yōu)的格局鑄就了產(chǎn)業(yè)鏈廠商良好的盈利能力,思科和Arista 的毛利率雖然由略微下降的趨勢,但總體仍保持 60%左右的毛利率。
展望后市,我們認(rèn)為隨著 AI 發(fā)展,交換機市場有望持續(xù)受益。
審核編輯:劉清
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5427瀏覽量
171790 -
交換機
+關(guān)注
關(guān)注
21文章
2641瀏覽量
99681 -
路由器
+關(guān)注
關(guān)注
22文章
3732瀏覽量
113847 -
RDMA
+關(guān)注
關(guān)注
0文章
77瀏覽量
8952 -
TCP通信
+關(guān)注
關(guān)注
0文章
146瀏覽量
4224
原文標(biāo)題:干貨:聊聊交換機和AI有什么關(guān)系?
文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論