作者簡介:陳起,江蘇有線技術研究院高級工程師,碩士,主要從事IPv6、新型城域網(wǎng)方面的研究,曾參與過TVOS、HINOC等重大項目。
01人工智能主流應用場景及算力需求
人工智能領域包括8大重要應用場景,包括:識別檢測、語音交互、AI芯片、自動駕駛、機器人、視頻解析、人機協(xié)同、機器翻譯、精準推薦等。每類場景對算力的要求不同。以人工智能最常應用的三大類場景為例,在應用于安防、醫(yī)療診斷和自動駕駛等領域的圖像檢測和視頻檢索場景中,以卷積網(wǎng)絡為主要算力需求;在博弈決策類應用場景中,以強化學習為主要算力需求;在新基建大型計算機場景中,以自然語音處理為主要算力需求。人工智能領域涉及較多的矩陣、向量的乘法和加法,專用性高,對算力消耗大,不適合用通用CPU進行計算。智算中心需要支持不同種類的計算核心,如CPU、GPU、ARM、FPGA等,通過專用處理器高效完成特定計算。此外,以大數(shù)據(jù)分析為代表的數(shù)據(jù)密集型應用需要高效且大量的數(shù)據(jù)存儲空間來存儲數(shù)據(jù)集。
人工智能正朝著更大型的模型發(fā)展,模型規(guī)模與其對應的參數(shù)不斷增加。2019年GPT-2參數(shù)規(guī)模達15億,2020年GPT-3參數(shù)規(guī)模達1700億參數(shù),目前已經(jīng)達到了1萬億的參數(shù)規(guī)模。
02智能算力概況
智能計算中心指基于GPU、FPGA等芯片構(gòu)建智能計算服務器集群,提供智能算力的基礎設施。主要應用于多模態(tài)數(shù)據(jù)挖掘,智能化業(yè)務高性能計算、海量數(shù)據(jù)分布式存儲調(diào)度、人工智能模型開發(fā)、模型訓練和推理服務等場景。
自2020年4月,人工智能正式被納入新基建的范疇,我國已經(jīng)在20多個城市陸續(xù)啟動了人工智能計算中心建設。2022年2月,“東數(shù)西算”工程正式全面啟動,8個國家算力樞紐節(jié)點全面開工。根據(jù)中國信息通信研究院2023年發(fā)布的《中國綜合算力評價白皮書》,截至2022年底,我國算力總規(guī)模達到180EFLOPS,智能算力規(guī)模占比約22.8%,相比2021年增加41.4%,智能算力增長迅速。根據(jù)ICPA智算聯(lián)盟統(tǒng)計,截至2022年3月,我國人工智能計算中心已投運的近20個,在建設的超過20個。預計到2025年,我國的AI算力總量將超過1800EFLOPS,占總算力的比重將超過85%。
表:長三角人工智能計算中心情況
數(shù)據(jù)來源:2023人工智能發(fā)展白皮書
03AI數(shù)據(jù)中心網(wǎng)絡流量特征及技術要求
根據(jù)權威定義,智能計算中心是基于最新人工智能理論,采用領先的人工智能計算架構(gòu),提供人工智能應用所需算力服務、數(shù)據(jù)服務和算法服務的公共算力新型基礎設施,通過算力的生產(chǎn)、聚合、調(diào)度和釋放,高效支撐數(shù)據(jù)開放共享、智能生態(tài)建設、產(chǎn)業(yè)創(chuàng)新聚集,有力促進AI產(chǎn)業(yè)化、產(chǎn)業(yè)AI化及政府治理智能化。
AI模型從生產(chǎn)到應用,一般要經(jīng)歷離線訓練和推理部署兩個階段。離線訓練是產(chǎn)生模型的過程,通過訓練模型的數(shù)據(jù)集及算法,經(jīng)過多輪迭代,最終生成訓練后的模型。這一過程核心是數(shù)據(jù)計算。通常為了提升計算效率,通過GPU等異構(gòu)芯片實現(xiàn)加速。人工智能模型訓練和推理過程需要強大的算力。人工智能的深度學習計算包含大量的矩陣乘加運算。AI加速芯片如GPU、FPGA、ASIC等能夠提供相較于CPU10~100倍的加速。AI服務器通常以CPU+AI加速芯片為主體,構(gòu)成智算中心的基本單元。其中:
# CPU
通用處理器,用于人機交互和復雜條件分支處理,以及任務之間的同步協(xié)調(diào)。
# GPU
應用于深度學習等對并行計算、浮點計算要求高的領域。開發(fā)周期短,技術體系成熟。
# FPGA
在推演階段算法性能高、功耗和延遲低。適用于壓縮/解壓縮、圖片加速、網(wǎng)絡加速、金融加速等場景。
ASIC,專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。
# ASIC
專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。
由于AI模型計算對算力的消耗大,單個AI計算單元難以滿足算力需求。同時,為了縮短訓練時間,通常采用分布式技術對模型和數(shù)據(jù)進行切分,將訓練任務分解為多個子任務,在多個計算節(jié)點上同時進行。每個計算節(jié)點完成計算任務后,需要進行結(jié)果的聚合,完成每一輪次的學習。在這一過程中,多個AI芯片之間需要高速互聯(lián),AI服務器之間需要高速通信。因而,需要智算中心網(wǎng)絡提供低時延、大帶寬、穩(wěn)定運行的保障,并能夠支持大規(guī)模計算節(jié)點,能夠提供方便運維的手段。
低時延
人工智能模型參數(shù)規(guī)模巨大。預計2025年將達到百萬億級。借助NVMe等接口協(xié)議,存儲介質(zhì)訪問速率大幅提升,網(wǎng)絡時延占比上升到65%,需要采用先進網(wǎng)絡設計,降低網(wǎng)絡時延。數(shù)據(jù)中心網(wǎng)絡的時延主要包括:靜態(tài)時延、網(wǎng)絡跳數(shù)、動態(tài)時延以及入網(wǎng)次數(shù)。其中,靜態(tài)時延由查表與轉(zhuǎn)發(fā)時延組成,約600ns-1us。網(wǎng)絡跳數(shù)指網(wǎng)絡包經(jīng)過的設備節(jié)點數(shù),不同節(jié)點處理時延。該時延與網(wǎng)絡架構(gòu)有關系。動態(tài)時延由消息隊列產(chǎn)生,該時延與網(wǎng)絡擁塞情況相關。當網(wǎng)絡擁塞時,數(shù)據(jù)包在網(wǎng)絡設備中排隊,或者被丟棄,從而產(chǎn)生時延。入網(wǎng)次數(shù)指數(shù)據(jù)進入網(wǎng)絡的次數(shù)。分布式訓練系統(tǒng)的時延包括單卡的計算時間和卡間通信時間。智算中心網(wǎng)絡需要降低卡間通信時間,以提升加速比。降低卡間通信時間通常采用RDMA技術,通過繞過操作系統(tǒng)內(nèi)核的方式,提升數(shù)據(jù)訪問效率。
大帶寬
單節(jié)點計算任務的分配以及計算結(jié)果的搜集需要大帶寬支撐,以快速進行模型參數(shù)的迭代計算。以智算中心典型的服務節(jié)點為例,單個服務節(jié)點可以配置8張GPU卡,8張PCIe網(wǎng)卡。兩個GPU跨機互通的突發(fā)帶寬可能達到50Gbps。一般每個GPU關聯(lián)一個100Gbps網(wǎng)絡端口,單機對外帶寬達到800Gbps。
穩(wěn)定運行
大模型的計算量大、訓練時間長,訓練期間涉及節(jié)點間的頻繁交互,對網(wǎng)絡穩(wěn)定性要求高。如果訓練期間網(wǎng)絡出現(xiàn)不穩(wěn)定,輕則將回退到上一個分布式訓練的斷點,重則可能要從0開始,會影響整個訓練任務進度。智算中心支撐自動駕駛、智能工廠、遠程醫(yī)療等行業(yè)應用,這些行業(yè)應用對網(wǎng)絡可靠性要求極高,業(yè)務中斷會給客戶帶來重大損失。
智算中心網(wǎng)絡要求彈性和可擴展性,支持大規(guī)模計算集群,在提供高速連接能力的同時,提供軟件定義的加速能力,實現(xiàn)網(wǎng)絡的控制和轉(zhuǎn)發(fā)分離,減少多維分布式任務帶來的性能損耗,提高網(wǎng)絡的利用率,支持彈性裸金屬服務器、自定義業(yè)務功能等特性。
大規(guī)模
分布式訓練中涉及萬級別以GPU為代表的計算節(jié)點,智算中心網(wǎng)絡需要具備支持大規(guī)模節(jié)點的能力,且能夠方便擴展,為持續(xù)增長的算力要求提供接入能力。在智算中心中,多種處理架構(gòu)并存,NPU(Neural-Network Processing Unit)嵌入式神經(jīng)網(wǎng)絡處理器、VPU(Vector Processing Unit)矢量處理器、GPU等智算中心節(jié)點數(shù)量將達到百萬級。智算中心需要支持算力調(diào)度,通過對應用分析和監(jiān)管,優(yōu)化算力設備布局規(guī)劃,提升業(yè)務部署效能,提高算力設備的利用率,降低設備閑置率,提升智算中心的生產(chǎn)效率。算力調(diào)度涉及配額策略、共享超分、負載均衡等策略。
可運維、可運營
智算中心節(jié)點眾多,需要具備可運維性、可管理性,能夠?qū)崟r查看智算中心網(wǎng)絡運行狀態(tài),快速發(fā)現(xiàn)和定位網(wǎng)絡問題。智算中心中,傳統(tǒng)的人機接口變?yōu)闄C器與機器之間的接口,網(wǎng)絡、存儲、計算邊界模糊,故障定位困難,需要引入智能引擎,對應用流量與網(wǎng)絡狀態(tài)進行關聯(lián)分析,為業(yè)務網(wǎng)絡提供自愈能力,打造自動駕駛網(wǎng)絡。智算中心以云服務模式提供算力服務,不同租戶算力需求不同。智算中心需要實現(xiàn)租戶間的數(shù)據(jù)和算力的隔離。
高效智算中心間互聯(lián)
隨著東數(shù)西算戰(zhàn)略推進及分布式算力協(xié)同場景,AI算力突破了單一的智算中心,新型應用依賴多個智算中心之間的協(xié)同。智算中心之間的連接要求更高,需要具備更高的帶寬(百G甚至上T),更低的丟包率。算力之間的聯(lián)網(wǎng)和統(tǒng)一調(diào)度成為趨勢。
此外,在AI訓練以及使用過程中,還需要處理好存儲問題:解決好處理器內(nèi)部、處理器和內(nèi)存、內(nèi)存和外存以及服務器之間等不同層級數(shù)據(jù)存取的效率問題。
04AI數(shù)據(jù)中心網(wǎng)絡實現(xiàn)方式
《智能計算中心規(guī)劃建設指南》中介紹了智能計算中心提供4類算力:
# 生產(chǎn)算力
由AI服務器組成,形成高性能、高吞吐的計算系統(tǒng),為AI順聯(lián)和推理提供基礎計算力。
# 聚合算力
由智能網(wǎng)絡和智能存儲組成,構(gòu)建高帶寬、低延遲的通信系統(tǒng)和數(shù)據(jù)平臺。智能網(wǎng)絡、智能存儲采用軟件定義方式,實現(xiàn)文件、對象、塊、大數(shù)據(jù)存儲服務一體化設計。
# 調(diào)度算力
將聚合的CPU、GPU、FPGA、ASIC等算力資源進行標準化和粒度切分,滿足智能應用的算力需求。
# 釋放算力
是指高質(zhì)量AI模型或AI服務的輸出,促進算力高效釋放轉(zhuǎn)化為生產(chǎn)力。
這四類算力是智算中心建設的出發(fā)點和落腳點。在智算中心網(wǎng)絡在具體實現(xiàn)上,從資源管理角度,主要包括三個路線:
# 以CPU為中心
所有存算資源的管理都運行在CPU上,通過遠端資源的方式使用其他資源。
# 以內(nèi)存為中心
內(nèi)存管理分離出來,實現(xiàn)內(nèi)存的獨立拓展和共享訪問,從而實現(xiàn)高效的數(shù)據(jù)處理和計算。減少了內(nèi)存管理開銷,但其他資源依然由CPU管理和調(diào)度。
# 以網(wǎng)絡IO為中心
《未來網(wǎng)絡白皮書(2023)以網(wǎng)絡IO為中心的無服務器數(shù)據(jù)中心》提出了以網(wǎng)絡IO為中心的無服務器數(shù)據(jù)中心架構(gòu),資源去中心化。計算、存儲和網(wǎng)絡等資源都被視為獨立的服務,不同資源的拓展和使用相互獨立。資源之間通過消息傳遞的方式進行通信和協(xié)作。網(wǎng)絡通信與安全紫金山實驗室圍繞該理念設計了以網(wǎng)絡IO為中心的無服務器數(shù)據(jù)中心。通過I/O process Unit解耦存算單元使用和協(xié)作的樞紐,其對內(nèi)負責各存算資源的全接入、驅(qū)動等,對外負責資源彼此之間的信息交互;通過分布式內(nèi)核,實現(xiàn)存算資源按需拓展和彈性使用的軟件架構(gòu)。
在網(wǎng)絡拓撲架構(gòu)方面,通常有3種主流設計模式,F(xiàn)at-Tree架構(gòu)實現(xiàn)無阻塞轉(zhuǎn)發(fā),Dragonfly架構(gòu)網(wǎng)絡直徑小,Torus 具有高擴展性和性價比。
Fat-Tree架構(gòu)采用1:1無收斂設計。Fat-Tree架構(gòu)中交換機上聯(lián)端口與下聯(lián)端口帶寬、數(shù)量保持一致,同時交換機要采用無阻塞轉(zhuǎn)發(fā)的數(shù)據(jù)中心級交換機。Fat-Tree架構(gòu)可以通過擴展網(wǎng)絡層次提升接入的GPU節(jié)點數(shù)量。兩層Fat-Tree架構(gòu)能夠接入PP/2張GPU卡,P為交換機的端口數(shù)量。三層Fat-Tree架構(gòu)能夠接入 P(P/2)*(P/2)張GPU卡。以40端口的InfiniBand交換機為例,能夠接入的GPU數(shù)量最多可達16000個。以百度智能云為例,按照服務節(jié)點的網(wǎng)卡數(shù)量組成AI-Pool,將不同節(jié)點相同編號的網(wǎng)口連接到同一臺交換機,通過NCCL通信庫的Rail Local技術以及主機內(nèi)GPU間的NVSwitch的帶寬,將多機間的跨卡互通轉(zhuǎn)化為跨機間的同GPU卡號的互通,從而實現(xiàn)同2層Fat-Tree架構(gòu)下,AI-Pool一跳可達,不同AI-Pool 三跳可達。三層Fat-Tree架構(gòu)下智算節(jié)點間同GPU卡號轉(zhuǎn)發(fā)3跳可達,不同GPU卡號轉(zhuǎn)發(fā)5跳可達。
圖1:Fat-Tree拓撲圖
Dragonfly架構(gòu)分為三層:Switch層,包含1個交換機及與其相連的計算節(jié)點;Group層:包含a個Switch層,a個交換機之間全互聯(lián)(每個交換機都有a-1條鏈路連接至其他a-1臺交換機);System層:包含g個Group層,g個Group層全連接。對于單個Switch交換機,有P個端口連接計算節(jié)點,a-1個端口連接Group內(nèi)的其他交換機,h個端口連接到其他Group交換機。每個交換機的端口數(shù)為k=p+(a-1)+h??梢越尤氲挠嬎愎?jié)點總數(shù)為N=ap(ah+1),通常按照a=2p=2h配置。采用直連模式,縮短網(wǎng)絡路徑,減少中間節(jié)點數(shù)量。64端口交換機支持組網(wǎng)規(guī)模27萬節(jié)點,端到端交換機轉(zhuǎn)發(fā)跳數(shù)減至3跳。
圖2:Dragonfly拓撲圖
Torus架構(gòu),將計算節(jié)點按照網(wǎng)格的方式排列,連接同行和同列的相鄰節(jié)點,同時同行和同列最遠端的兩個節(jié)點之間構(gòu)建直連線路。有兩種構(gòu)建方法,一種是直接網(wǎng)絡,計算節(jié)點在環(huán)面“晶格”中,計算節(jié)點適配器負責轉(zhuǎn)發(fā)網(wǎng)絡包。對于2D Torus架構(gòu),計算節(jié)點適配器需要具備4個端口,對于3D Torus架構(gòu),需要6個端口,6個線纜連接到計算節(jié)點,將影響計算機節(jié)點的散熱。另一種是將交換機放在環(huán)面“晶格”中,計算節(jié)點只需要具備常規(guī)端口數(shù)量的網(wǎng)絡適配器,網(wǎng)絡包轉(zhuǎn)發(fā)主要由交換機完成。Torus架構(gòu)提供的并非是無阻塞的網(wǎng)絡,同時節(jié)點之間的距離并非一致,通常通過提升維度來降低時延以及抖動的影響。但是構(gòu)造成本較低。
圖3:Torus拓撲圖
在互聯(lián)協(xié)議選擇方面,具體的實現(xiàn)方式包括iWARP、RoCEv1、RoCEv2、InfiniBand四種,后兩種是目前的主流方案,應用層端到端的時間能從50us(TCP/IP),降低到5us(RoCE)或2us(InfiniBand)。此外,可通過可編程網(wǎng)絡設備,在網(wǎng)計算,減少傳輸?shù)臄?shù)據(jù)量,進一步提升傳輸效率。
RoCEv2 采用分布式網(wǎng)絡架構(gòu),包括支持RoCEv2的網(wǎng)卡和交換機,借助傳統(tǒng)以太網(wǎng)的光纖和光模塊實現(xiàn)端到端的RDMA通信。交換機轉(zhuǎn)發(fā)芯片以博通Tomahawk系列芯片為主,單端口從100Gbps->200Gbps->400Gbps不斷演進。RoCEv2 中的Go Back N重傳機制采用PFC(優(yōu)先級流控)實現(xiàn)逐跳流控策略,保證在以太網(wǎng)中實現(xiàn)無丟包。標準RoCEv2協(xié)議中每個RC(可靠連接)都映射到唯一的五元組,整網(wǎng)負載均衡性差,容易產(chǎn)生擁塞。RoCEv2通常卸載到網(wǎng)卡中,受限于網(wǎng)卡芯片內(nèi)的表項空間,芯片內(nèi)的連接數(shù)有限,當網(wǎng)絡節(jié)點超過一定規(guī)模,會發(fā)生網(wǎng)卡芯片與主機內(nèi)存的連接表交換,影響網(wǎng)絡傳輸性能。
InfiniBand網(wǎng)絡中關鍵組成包括Subnet Manager、InfiniBand網(wǎng)卡、InfiniBand交換機和連接線纜。Subnet Manager即為InfiniBand網(wǎng)絡的控制器,進行InfiniBand子網(wǎng)劃分及QoS管理,向每個交換芯片下發(fā)轉(zhuǎn)發(fā)表,通過帶內(nèi)方式控制子網(wǎng)內(nèi)所有交換機和網(wǎng)卡。InfiniBand網(wǎng)卡通過SMA(Subnet Manager Agent)接受Subnet Manager的統(tǒng)一管理。InfiniBand交換機不運行路由協(xié)議,網(wǎng)絡轉(zhuǎn)發(fā)表通過Subnet Manager統(tǒng)一下發(fā)?;贑redit信令機制避免緩沖區(qū)溢出丟包,網(wǎng)絡中每條鏈路都有預置緩沖區(qū),發(fā)送端一次性發(fā)送數(shù)據(jù)不會超過接收端可用的緩沖區(qū)大小。
05小 結(jié)
智算中心與普通的數(shù)據(jù)中心相比 存在大量的異構(gòu)計算核心,東西向之間的通信流量更大,對時延、抖動、可用性的要求更高,對算力的需求更大,需要從安全性、可靠性、能源使用效率綜合考慮網(wǎng)絡架構(gòu)設計,最大程度發(fā)揮智算中心資源價值。
審核編輯:湯梓紅
-
服務器
+關注
關注
12文章
9160瀏覽量
85420 -
網(wǎng)絡
+關注
關注
14文章
7565瀏覽量
88788 -
AI
+關注
關注
87文章
30894瀏覽量
269085 -
人工智能
+關注
關注
1791文章
47279瀏覽量
238486 -
智算中心
+關注
關注
0文章
68瀏覽量
1712
原文標題:一文讀懂智算中心網(wǎng)絡
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論