芝能科技出品
隨著全球?qū)?a target="_blank">人工智能(AI)的需求不斷增長(zhǎng),數(shù)據(jù)中心作為AI計(jì)算的重要基礎(chǔ)設(shè)施,其網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。
本文將簡(jiǎn)述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變及其在AI應(yīng)用中的重要性,并探討兩種主流網(wǎng)絡(luò)架構(gòu)——InfiniBand和RoCEv2。
AI生成內(nèi)容(AIGC)市場(chǎng)在2024年迎來了爆發(fā)式增長(zhǎng)。OpenAI發(fā)布的Sora和國(guó)內(nèi)的Kimi大模型引領(lǐng)了這一潮流。
預(yù)計(jì)到2024年,全球?qū)IGC解決方案的投資將達(dá)到200億美元,并在2027年超過1400億美元。這種增長(zhǎng)對(duì)AI網(wǎng)絡(luò)架構(gòu)提出了更高的要求,因其需要支撐大規(guī)模AI模型的訓(xùn)練和推理。
01 傳統(tǒng)云計(jì)算與AI智算中心網(wǎng)絡(luò)架構(gòu)對(duì)比
●傳統(tǒng)云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)
傳統(tǒng)云計(jì)算數(shù)據(jù)中心主要基于南北向流量模型設(shè)計(jì),即對(duì)外提供服務(wù)的流量較大,而內(nèi)部東西向流量較小。
這種架構(gòu)存在一些不足,例如高帶寬收斂比、較高的互訪時(shí)延和網(wǎng)卡帶寬低。這些問題導(dǎo)致傳統(tǒng)架構(gòu)無(wú)法滿足AI計(jì)算對(duì)高帶寬和低時(shí)延的要求。
●AI智算中心網(wǎng)絡(luò)架構(gòu)
AI智算中心通常采用Fat-Tree(胖樹)架構(gòu),通過1:1的無(wú)收斂配置,確保了高性能和無(wú)阻塞傳輸。此架構(gòu)能夠有效降低時(shí)延,并支持大規(guī)模GPU集群。
此外,AI網(wǎng)絡(luò)架構(gòu)中常用的RDMA技術(shù),允許主機(jī)之間直接內(nèi)存訪問,顯著降低了同集群內(nèi)部的時(shí)延,提高了網(wǎng)絡(luò)性能。
02 AI智算網(wǎng)絡(luò)的兩大主流架構(gòu)
●InfiniBand網(wǎng)絡(luò)架構(gòu)
InfiniBand網(wǎng)絡(luò)通過子網(wǎng)管理器(SM)進(jìn)行集中管理,使用信用令牌機(jī)制確保數(shù)據(jù)在有足夠緩沖區(qū)時(shí)才發(fā)送,從而避免數(shù)據(jù)丟包。其自適應(yīng)路由技術(shù)能夠根據(jù)數(shù)據(jù)包情況動(dòng)態(tài)選擇路徑,實(shí)現(xiàn)最佳負(fù)載均衡。
●RoCEv2網(wǎng)絡(luò)架構(gòu)
RoCEv2(RDMA over Converged Ethernet)采用以太網(wǎng)和UDP傳輸層,具有更好的可擴(kuò)展性和部署靈活性。其流控機(jī)制包括優(yōu)先流控制(PFC)和顯式擁塞通知(ECN),結(jié)合數(shù)據(jù)中心量化擁塞通知(DCQCN),能夠在保持網(wǎng)絡(luò)高效運(yùn)行的同時(shí)避免數(shù)據(jù)丟失。
隨著AI計(jì)算需求的增加,800G和1.6T的主流傳輸方案逐漸成為市場(chǎng)熱點(diǎn)。
這些方案在實(shí)際應(yīng)用中,尤其是單模傳輸和預(yù)端接技術(shù)方面,提供了創(chuàng)新的解決方案。
同時(shí),為應(yīng)對(duì)高能耗高熱量問題,液冷解決方案也在AI數(shù)據(jù)中心得到廣泛應(yīng)用。
隨著光模塊技術(shù)向 400G 及更高速率邁進(jìn),挑戰(zhàn)不單是提升數(shù)據(jù)傳輸速度,還包括功耗和成本。
從 2007 年的 10G 光模塊僅需 1W 功率,到如今 400G 及 800G光模塊功耗接近 30W,隨著速率的每一次迭代,功耗也相應(yīng)攀升。
在滿載狀態(tài)下,一個(gè)交換機(jī)可能搭載多達(dá)數(shù)十個(gè)光模塊,48 個(gè)光模塊的總功耗可達(dá) 1440W,而光模塊通常占整機(jī)功耗的 40%以上,導(dǎo)致整個(gè)智算中心的能耗可能超過 3000W。
液冷技術(shù)因其高導(dǎo)熱性能和高效散熱能力,已成為降低網(wǎng)絡(luò)系統(tǒng)能源功耗的廣泛認(rèn)可解決方案,特別適用于高功率密度數(shù)據(jù)中心,但需解決冷卻液腐蝕性和壓強(qiáng)差等挑戰(zhàn)以確保系統(tǒng)安全。
小結(jié)
AI智算數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和連接技術(shù)正朝著更高效、更低時(shí)延和更高帶寬的方向發(fā)展。無(wú)論是InfiniBand還是RoCEv2,這些技術(shù)的進(jìn)步都在為AI的發(fā)展提供堅(jiān)實(shí)的基礎(chǔ)。
在未來,隨著技術(shù)的不斷創(chuàng)新,AI智算網(wǎng)絡(luò)架構(gòu)將進(jìn)一步優(yōu)化,推動(dòng)AI應(yīng)用的廣泛普及和深入發(fā)展。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4826瀏覽量
72238 -
AI
+關(guān)注
關(guān)注
87文章
31225瀏覽量
269579 -
網(wǎng)絡(luò)架構(gòu)
+關(guān)注
關(guān)注
1文章
94瀏覽量
12602
原文標(biāo)題:數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)及連接技術(shù)
文章出處:【微信號(hào):QCDZSJ,微信公眾號(hào):汽車電子設(shè)計(jì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論