0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

盤點(diǎn):AI大模型背后不同玩家的網(wǎng)絡(luò)支撐

SDNLAB ? 來源:SDNLAB ? 2023-09-05 16:56 ? 次閱讀

“沒有好網(wǎng)絡(luò),別玩大模型?!?/p>

隨著AI大模型“百花齊放”,底層的算力需求與日俱增。目前,AI大模型的訓(xùn)練參數(shù)已飆升至萬億級別,如此龐大的訓(xùn)練任務(wù)無法由單個服務(wù)器完成,需要大量服務(wù)器作為節(jié)點(diǎn),通過高速網(wǎng)絡(luò)組成算力集群,相互協(xié)作完成任務(wù)。這些服務(wù)器通過網(wǎng)絡(luò)相連接,不斷交換數(shù)據(jù)。

AI大模型需要一個超大規(guī)模、超高帶寬、超強(qiáng)可靠的網(wǎng)絡(luò),為訓(xùn)練提供強(qiáng)有力的支持。因此,高性能與高可用的網(wǎng)絡(luò)對 AI 大模型的構(gòu)建尤為重要。

高性能網(wǎng)絡(luò)并非一蹴而就,其背后需要有從架構(gòu)設(shè)計(jì)到芯片方案等諸多細(xì)節(jié)的配合。本文盤點(diǎn)了部分互聯(lián)網(wǎng)廠商、設(shè)備廠商、芯片廠商以及運(yùn)營商在AI大模型底層網(wǎng)絡(luò)支撐方面所做的工作與進(jìn)展。

*以下公司排名不分先后

互聯(lián)網(wǎng)公司

騰訊云

4月,騰訊云發(fā)布了新一代HCC高性能計(jì)算集群,為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智算能力支撐。6月,騰訊云進(jìn)一步披露了HCC高性能計(jì)算集群背后的網(wǎng)絡(luò)底座——星脈。

星脈是騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的第三次進(jìn)化,具備3.2T 通信帶寬,能提升 40% 的 GPU 利用率,節(jié)省 30%~60% 的模型訓(xùn)練成本,進(jìn)而為 AI 大模型帶來 10 倍通信性能提升?;隍v訊云HCC,可支持 10 萬卡的超大計(jì)算規(guī)模。

據(jù)介紹,騰訊對大模型集群網(wǎng)絡(luò)做了以下幾大優(yōu)化:

1. 采用高性能 RDMA 網(wǎng)絡(luò)。騰訊自研的星脈 RDMA 網(wǎng)絡(luò),可以讓 GPU 之間直接進(jìn)行數(shù)據(jù)通信,CPU 資源得以節(jié)省,從而提高計(jì)算節(jié)點(diǎn)的整體性能和效率。

2. 自研網(wǎng)絡(luò)協(xié)議TiTa。騰訊云通過自研端網(wǎng)協(xié)同協(xié)議 TiTa ,使星脈網(wǎng)絡(luò)可以實(shí)現(xiàn) 90% 負(fù)載 0 丟包。TiTa 協(xié)議內(nèi)嵌擁塞控制算法,以實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)狀態(tài)并進(jìn)行通信優(yōu)化,使得數(shù)據(jù)傳輸更加流暢且延遲降低。

00036e94-4bc3-11ee-a25d-92fbcf53809c.png

3. 定制化高性能集合通信庫 TCCL。騰訊云為星脈定制了高性能集合通信庫 TCCL,相對業(yè)界開源集合通信庫,可以提升 40% 左右的通信性能。

4. 多軌道網(wǎng)絡(luò)架構(gòu)。星脈網(wǎng)絡(luò)對通信流量做了基于多軌道的流量親和性規(guī)劃,使得集群通信效率達(dá) 80% 以上。

5. 異構(gòu)網(wǎng)絡(luò)自適應(yīng)通信。星脈網(wǎng)絡(luò)將機(jī)間(網(wǎng)卡 + 交換機(jī))、機(jī)內(nèi)(NVLink/NVSwitch 網(wǎng)絡(luò)、PCIe 總線網(wǎng)絡(luò))兩種網(wǎng)絡(luò)同時(shí)利用起來,達(dá)成異構(gòu)網(wǎng)絡(luò)之間的聯(lián)合通信優(yōu)化,使大規(guī)模 All-to-All 通信在業(yè)務(wù)典型 message size 下的傳輸性能提升達(dá) 30%。

005befba-4bc3-11ee-a25d-92fbcf53809c.png

6. 自研全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng)。騰訊云自研了端到端全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng),實(shí)現(xiàn)了端網(wǎng)部署一體化以及一鍵故障定位,提升高性能網(wǎng)絡(luò)的易用性,進(jìn)而通過精細(xì)化監(jiān)控與自愈手段,提升可用性,為極致性能的星脈網(wǎng)絡(luò)提供全方位運(yùn)營保障。

阿里云

面對日益爆發(fā)的算力需求,簡單粗暴的硬件堆砌已不可持續(xù)。為此,阿里云基礎(chǔ)設(shè)施推出低延時(shí)、高帶寬、可線性擴(kuò)展的“磐久高性能網(wǎng)絡(luò)PredFabric”。

磐久PredFabric采用自研的Solar-RDMA高速網(wǎng)絡(luò)協(xié)議,使處理器可以通過load/store指令訪問其他任意服務(wù)器的內(nèi)存,非常適合深度學(xué)習(xí)模型內(nèi)神經(jīng)網(wǎng)絡(luò)的交互形態(tài),相比傳統(tǒng)模式故障自愈時(shí)間和長尾時(shí)延均可降低90%。同時(shí),結(jié)合網(wǎng)絡(luò)協(xié)議硬件化、芯片化,使整體性能得到極大提升,延時(shí)最低可至2微秒,并實(shí)現(xiàn)高算力下網(wǎng)絡(luò)規(guī)模的線性擴(kuò)展。

基于這套超高性能網(wǎng)絡(luò)技術(shù)及軟硬一體化能力,同年阿里云推出了新一代高性能AI訓(xùn)練計(jì)算平臺——靈駿。據(jù)悉靈駿可最小化所有非計(jì)算開銷,實(shí)現(xiàn)5倍的通信性能提升,千卡并行計(jì)算效率高達(dá)90%。

此外,靈駿還具有以下特點(diǎn):

一云多芯:支持國產(chǎn)化CPU/GPU芯片,通過自研“共中心架構(gòu)”,解決多芯融合及跨代兼容問題。

融合算力池:基于云原生技術(shù)體系,實(shí)現(xiàn)異構(gòu)算力資源池化(eGPU),使資源利用率提升3倍,最小化數(shù)據(jù)搬遷成本,加速AI研發(fā)過程;多元化算力支持混合負(fù)載,滿足人工智能等多領(lǐng)域應(yīng)用混合部署。

深度性能優(yōu)化:建立萬卡級計(jì)算系統(tǒng)的通信與調(diào)度能力。自研RDMA高速網(wǎng)絡(luò)架構(gòu),將時(shí)延顯著降低90%;自研通信庫(C4),結(jié)合自研硬件,對超大規(guī)模AI計(jì)算系統(tǒng)提供無擁塞、高性能的通信環(huán)境;針對數(shù)據(jù)密集型場景,通過自研系統(tǒng)軟件KSpeed,最高可將系統(tǒng)IO性能提升10倍。

綠色低碳:支持自研單相浸沒液冷技術(shù),PUE最低可至1.09,能耗最高可降低50%。

據(jù)悉,阿里云在張北和烏蘭察布分別建設(shè)有兩座超級智算中心,規(guī)模超過了谷歌和特斯拉。不僅如此,阿里還擁有自研的芯片含光800和倚天710,能夠?yàn)锳I大模型提供算力支撐。

百度云

早在 2021 年 6 月,為了滿足未來的大模型訓(xùn)練任務(wù),百度智能云開始規(guī)劃全新的高性能 GPU 集群的建設(shè),聯(lián)合英偉達(dá)共同完成了可以容納萬卡以上規(guī)模的 IB 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),集群中節(jié)點(diǎn)間的每張 GPU 卡都通過 IB 網(wǎng)絡(luò)連接, 并在 2022 年 4 月將集群建設(shè)完成,提供單集群 EFLOPS 級別的算力。

2023 年 3 月,文心一言大模型在這個高性能集群上誕生,并不斷迭代出新的能力。目前,這個集群的規(guī)模還在不斷擴(kuò)大。與此同時(shí),大模型訓(xùn)練對網(wǎng)絡(luò)也提出了要求。百度 AI 高性能網(wǎng)絡(luò)的三大目標(biāo):超大規(guī)模、超高帶寬以及超長穩(wěn)定。

00c96bee-4bc3-11ee-a25d-92fbcf53809c.png

百度AI 高性能網(wǎng)絡(luò) AIPod有約 400 臺交換機(jī)、3000 張網(wǎng)卡、10000 根線纜和 20000 個光模塊。其中僅線纜的總長度就相當(dāng)于北京到青島的距離。AIPod 網(wǎng)絡(luò)采用 3 層無收斂的 CLOS 組網(wǎng)結(jié)構(gòu)。

AIPod 網(wǎng)絡(luò)采用了 8 通道的架構(gòu),每個服務(wù)器上的 8 個網(wǎng)口對應(yīng) 8 個 GPU,分別連接 8 個不同的 Leaf 交換機(jī),每個通道內(nèi) Spine 交換機(jī)和 Leaf 交換機(jī)之間做 fullmesh 全互聯(lián),一個集群最大可以支持超過 16K GPU??缤ǖ赖耐ㄐ磐ㄟ^ SuperSpine 把不同的通道的 Spine 交換機(jī)連接起來,打通各個通道。

00e78c96-4bc3-11ee-a25d-92fbcf53809c.png

在帶寬方面,為了減少跨交換機(jī)的通信,AIPod采用了網(wǎng)絡(luò)架構(gòu)感知的方法,允許上層感知到當(dāng)前 GPU 在網(wǎng)絡(luò)架構(gòu)的什么位置,歸屬于哪一個匯聚,讓訓(xùn)練任務(wù)調(diào)度的時(shí)候把同一個任務(wù)盡可能調(diào)度在同一個匯聚組下。當(dāng)通信不在一個匯聚組內(nèi)時(shí),通過匯聚組信息對全局 GPU 做有序化處理,讓通信庫在構(gòu)建 Allreduce 拓?fù)鋱D時(shí),減少跨交換機(jī)的互通流量。

在穩(wěn)定性方面,AIPod 網(wǎng)絡(luò)著重構(gòu)建快速從硬件故障中恢復(fù)的能力。其基于百度自研交換機(jī)設(shè)計(jì)了 AIPod 網(wǎng)絡(luò)的黑盒探測機(jī)制,保障各種網(wǎng)絡(luò)問題被第一時(shí)間感知。此外還通過基于百度自研交換機(jī)的 Telemetry 遙測技術(shù),搭建了無損網(wǎng)絡(luò)的性能透視平臺,確保網(wǎng)絡(luò)內(nèi)的任一丟包信息和 PFC、緩存的異常變化都能被迅速感知到。

谷歌

谷歌從2016年推出TPU v1開始布局AI模型算力,TPU v4的算力水平全球領(lǐng)先。與傳統(tǒng)處理器不同,TPU v4 沒有專用的指令緩存,它采用類似于 Cell 處理器的直接內(nèi)存訪問 (DMA) 機(jī)制。

TPU v4利用了OCS 來快速實(shí)現(xiàn)不同的芯片互聯(lián)拓?fù)?。OCS 能夠動態(tài)重新配置其互連拓?fù)?,以提高?guī)模、可用性、利用率和性能。與 Infiniband 相比,OCS 的成本更低、功耗更低、速度更快。TPU v4主要與Pod相連發(fā)揮作用,每一個TPU v4 Pod中有4096個TPU v4單芯片,得益于OCS獨(dú)特的互連技術(shù),能夠?qū)?shù)百個獨(dú)立的處理器轉(zhuǎn)變?yōu)橐粋€系統(tǒng)。

8月29日,谷歌宣布推出新一代TPU v5e ,與 TPU v4 相比,TPU v5e 可為LLM和新一代 AI 模型提供高達(dá) 2 倍的訓(xùn)練性能和高達(dá) 2.5 倍的推理性能,并且成本還不到 TPU v4 的一半。

在NSDI2022會議上,谷歌發(fā)布了數(shù)據(jù)中心分布式交換架構(gòu)Aquila。Aquila將超低延遲作為核心設(shè)計(jì)目標(biāo),同時(shí)也支持傳統(tǒng)的數(shù)據(jù)中心業(yè)務(wù)。Aquila使用了一種新的二層基于單元的協(xié)議、GNet、一個集成交換機(jī)和一個定制的ASIC,ASIC和GNet一同設(shè)計(jì),并具有低延遲遠(yuǎn)程存儲訪問(RMA)。

0105f636-4bc3-11ee-a25d-92fbcf53809c.png

此前,谷歌還提出了下一代人工智能架構(gòu) “Pathways” 。Pathways旨在提高異構(gòu)AI加速芯片集群上的數(shù)據(jù)處理效率。隨著大模型語料規(guī)模、算力規(guī)模、參數(shù)規(guī)模的不斷上升,簡單的數(shù)據(jù)并行(將數(shù)據(jù)分成不同份,每份在一個計(jì)算集群上進(jìn)行訓(xùn)練)已難以滿足大模型訓(xùn)練的需求,例如PaLM即采用了數(shù)據(jù)并行與模型并行(將模型按層分成不同份,每份在一個計(jì)算集群上進(jìn)行訓(xùn)練)相結(jié)合的方式提升訓(xùn)練效率。

0181df08-4bc3-11ee-a25d-92fbcf53809c.gif

Meta

近日,MIT和Meta團(tuán)隊(duì)發(fā)布了名為“Rail-Only”的全新大語言模型架構(gòu)設(shè)計(jì),對專門用于訓(xùn)練大型語言模型的 GPU 集群的傳統(tǒng)any-to-any網(wǎng)絡(luò)架構(gòu)提出了挑戰(zhàn)。

Rail-Only架構(gòu)通過將GPU分組,組成一個高帶寬互聯(lián)域(HB域),然后再將這些HB域內(nèi)的特定的GPU跨接到特定的Rail交換機(jī),雖然增加了跨域通信的路由調(diào)度復(fù)雜度,但是通過合理的HB域和Rail交換機(jī)設(shè)計(jì),整體架構(gòu)可以大量減少交換機(jī)的使用,最多可以降低75%的網(wǎng)絡(luò)通信耗費(fèi)。

02defaa2-4bc3-11ee-a25d-92fbcf53809c.png

與傳統(tǒng)的Rail-Optimized GPU集群相比,Rail-Only保留了HB域,并僅在同一Rail上提供連接。實(shí)現(xiàn)Rail-Only架構(gòu)的一個簡單方法是,刪除傳統(tǒng)基于Rail-Optimized的any-to-any網(wǎng)絡(luò)架構(gòu)中的Spine交換機(jī),并將連接Rail交換機(jī)到Spine的所有上行鏈路重新用作到GPU的下行鏈路。因此,每個Rail都由專用且獨(dú)立的Clos網(wǎng)絡(luò)連接。Rail-Only網(wǎng)絡(luò)架構(gòu)消除了不同Rail中具有不同等級GPU之間的網(wǎng)絡(luò)連接。

未來,Meta還將針對人工智能工作負(fù)載開發(fā)新的數(shù)據(jù)中心架構(gòu),以及開發(fā)用于運(yùn)行人工智能模型的自研定制芯片。新數(shù)據(jù)中心將采用人工智能優(yōu)化設(shè)計(jì),支持液冷人工智能硬件和高性能人工智能網(wǎng)絡(luò),將數(shù)千個人工智能芯片連接在一起,形成數(shù)據(jù)中心規(guī)模的人工智能訓(xùn)練集群。

此外,Meta表示正在開發(fā)人工智能超級計(jì)算機(jī),以支持下一代人工智能模型的訓(xùn)練、增強(qiáng)現(xiàn)實(shí)工具并支持實(shí)時(shí)翻譯技術(shù)。

設(shè)備廠商

華為

華為CloudFabric智能無損網(wǎng)絡(luò)通過AI Ready的硬件架構(gòu)及AI智能無損算法,為AI人工智能、存儲、HPC高性能計(jì)算等應(yīng)用場景提供提供“無丟包、低時(shí)延、高吞吐”的網(wǎng)絡(luò)環(huán)境,加速計(jì)算和存儲的效率。

邊緣網(wǎng)絡(luò)級智能采用獨(dú)創(chuàng)擁塞調(diào)度算法:動態(tài)擁塞水線、虛擬輸入隊(duì)列和快速擁塞反饋,實(shí)現(xiàn)定時(shí)獲取流量特征、網(wǎng)絡(luò)狀態(tài)實(shí)時(shí)監(jiān)測和動態(tài)基線智能調(diào)整。

核心計(jì)算級智能采用華為獨(dú)創(chuàng)iLossless智能無損算法,該算法采用逐流業(yè)務(wù)感知,不僅可以感知網(wǎng)絡(luò)的PFC幀數(shù)、隊(duì)列出口利用率等,還可以感知業(yè)務(wù)的AI訓(xùn)練、高性能數(shù)據(jù)庫等。

0303350c-4bc3-11ee-a25d-92fbcf53809c.png

iLosslessTM 智能無損交換算法

此外,華為還面向AI智算場景推出了星河AI網(wǎng)絡(luò)。星河AI網(wǎng)絡(luò)通過獨(dú)創(chuàng)的網(wǎng)絡(luò)級負(fù)載均衡(NSLB)、網(wǎng)絡(luò)智能調(diào)優(yōu)AI ECN以及數(shù)據(jù)面故障快速收斂等創(chuàng)新技術(shù),為客戶打造高吞吐、低時(shí)延、高可靠的AI智算網(wǎng)絡(luò)。

星河AI網(wǎng)絡(luò)融合運(yùn)得多、運(yùn)得快、運(yùn)得穩(wěn)三大優(yōu)勢,為客戶提供了大規(guī)模、高吞吐、高可靠的網(wǎng)絡(luò)建設(shè)。目前,華為星河AI網(wǎng)絡(luò)解決方案已在全球100+個人工智能計(jì)算中心成功商用部署。

運(yùn)得多:大帶寬,大組網(wǎng)。AI大模型中適配萬卡集群是網(wǎng)絡(luò)最基本的要求,華為打造端到端200GE/400GE設(shè)備構(gòu)建大帶寬AI無損網(wǎng)絡(luò),4倍于業(yè)界規(guī)模,完美匹配AI場景訴求,支撐網(wǎng)絡(luò)運(yùn)得多。

運(yùn)得快:高吞吐,性能加速。華為采用算網(wǎng)一體化的方式部署,效率可以提升10倍以上,整個過程自動校驗(yàn)0配置差錯。獨(dú)創(chuàng)AI網(wǎng)絡(luò)加速器,大大提高網(wǎng)絡(luò)吞吐,保障網(wǎng)絡(luò)運(yùn)得快。

運(yùn)得穩(wěn):月級訓(xùn)練不中斷。大規(guī)模高性能網(wǎng)絡(luò)的運(yùn)維是一大難題,華為采用智能化運(yùn)維保證訓(xùn)練全程實(shí)時(shí)可視,分鐘級識別慢主機(jī)(丟包、超時(shí)延),保障集群持續(xù)穩(wěn)定運(yùn)行,月級訓(xùn)練無中斷,護(hù)航網(wǎng)絡(luò)運(yùn)得穩(wěn)。

華為在各單點(diǎn)創(chuàng)新的基礎(chǔ)上,充分發(fā)揮云、計(jì)算、存儲、網(wǎng)絡(luò)、能源的綜合優(yōu)勢,進(jìn)行架構(gòu)創(chuàng)新,以“DC as a Computer”的理念推出昇騰AI集群。目前,昇騰AI集群已支撐全國25個城市的人工智能計(jì)算中心建設(shè),其中7個城市公共算力平臺入選首批國家“新一代人工智能公共算力開放創(chuàng)新平臺”。

近期,華為宣布昇騰AI集群全面升級,集群規(guī)模從最初的4000卡集群擴(kuò)展至16000卡,是業(yè)界首個萬卡AI集群,擁有更快的訓(xùn)練速度和30天以上的穩(wěn)定訓(xùn)練周期。

思科

AI大模型的爆發(fā)開辟了構(gòu)建AI算力的新戰(zhàn)場,這對網(wǎng)絡(luò)也提出了全新的要求。思科正在通過 Silicon One 芯片和網(wǎng)絡(luò)架構(gòu)的創(chuàng)新,幫助客戶構(gòu)建面向未來的高性能、可擴(kuò)展且高效率的新一代 AI 數(shù)據(jù)中心網(wǎng)絡(luò)。思科 Silicon One 的統(tǒng)一芯片架構(gòu)優(yōu)點(diǎn)使得客戶可以通過軟件定義的方式將 AI 數(shù)據(jù)中心網(wǎng)絡(luò)配置成為三種模式:1)基于 ECMP 的標(biāo)準(zhǔn)以太網(wǎng);2)增強(qiáng)以太網(wǎng);3)全調(diào)度分布交換(Distributed Switch Fabric, DSF)以太網(wǎng)(VOQ+逐包負(fù)載分擔(dān))

034d62b2-4bc3-11ee-a25d-92fbcf53809c.png

Silicon One 可以靈活支持多種架構(gòu),客戶不需要在網(wǎng)絡(luò)建設(shè)的第一天就固化技術(shù)演進(jìn)路線圖,可以根據(jù)業(yè)務(wù)的不斷發(fā)展采集網(wǎng)絡(luò)傳輸?shù)膶?shí)際數(shù)據(jù),并做出數(shù)據(jù)驅(qū)動的技術(shù)決策。而 Silicon One 的 P4 可編性程架構(gòu)通過軟件迭代持續(xù)支持未來不同 AI 模型業(yè)務(wù)的需求與發(fā)展。

為了分析不同網(wǎng)絡(luò)架構(gòu)對 AI 任務(wù)的執(zhí)行效能的影響,思科創(chuàng)建了一個小型訓(xùn)練集群模型,其中包含 256 個 GPU、八個架頂 (TOR) 交換機(jī)和四個主干(SPINE)交換機(jī)。通過使用一個 all-to-all 集約通訊來傳輸 64MB 的集約數(shù)據(jù),通過改變網(wǎng)絡(luò)上同時(shí)運(yùn)行的 AI 任務(wù)數(shù)量,以及 TOR 到 SPINE 設(shè)備互聯(lián)鏈路帶寬的加速比來測量最終 AI 作業(yè)完成時(shí)間(JCT)以考察不同網(wǎng)絡(luò)架構(gòu)的性能差異。

另一方面,DSF 網(wǎng)絡(luò)架構(gòu)提供了完全無阻塞的通訊性能,并且網(wǎng)絡(luò)不會暫停 GPU 發(fā)送流量。這意味著對于相同的物理網(wǎng)絡(luò),采用 DSF 架構(gòu)可連接的 GPU 數(shù)量是 ECMP 以太網(wǎng)架構(gòu)的兩倍。這大大地提高了網(wǎng)絡(luò)的效率、降低了成本。

此外,思科 Silicon One 同樣可以支持遙測(INT)增強(qiáng)的 AI 以太網(wǎng)架構(gòu), 這種架構(gòu)的目標(biāo)是通過在數(shù)據(jù)包內(nèi)部插入沿途網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)擁塞位置與程度的信息,向收發(fā)側(cè)的服務(wù)器或采集器節(jié)點(diǎn)發(fā)出業(yè)務(wù)路徑、擁塞信號,從而可以快速、主動改進(jìn)負(fù)載均衡決策來提高標(biāo)準(zhǔn)以太網(wǎng) ECMP 的吞吐性能,并降低時(shí)延,避免丟包。上述三種網(wǎng)絡(luò)架構(gòu)采用的各種技術(shù)的相對優(yōu)點(diǎn)因客戶而異,并且可能會隨著時(shí)間和不同業(yè)務(wù)需求的變化發(fā)生改變。

中興

2022 年,中興通訊推出星云 1.0 解決方案,基于數(shù)字星云的架構(gòu),可以替代已有的“煙囪”數(shù)據(jù),形成數(shù)據(jù)共享。2023 年,中興通訊進(jìn)一步發(fā)布數(shù)字星云 2.0,提供更強(qiáng)大的接入集成、計(jì)算存儲、數(shù)據(jù)治理和共享交易能力服務(wù),可以在數(shù)據(jù)處理、AI 訓(xùn)練、AI 推理部署三大環(huán)節(jié),幫助企業(yè)節(jié)省算力資源、 提升算力使用效率。數(shù)字星云 2.0 將在數(shù)智時(shí)代高價(jià)值場景發(fā)揮更為明顯的優(yōu)勢。同時(shí),在生成式 AI 方面的能力提升將成為數(shù)字星云未來發(fā)展的長期規(guī)劃。

此外,在網(wǎng)絡(luò)方面,中興通訊采用了高速“無損”網(wǎng)絡(luò),實(shí)現(xiàn)了AI算力的“無損”。以DPU為中心,基于無損交換機(jī)的高性能RDMA網(wǎng)絡(luò),構(gòu)建了超大規(guī)模算力集群。引入NEO智能云卡,服務(wù)器可實(shí)現(xiàn)單節(jié)點(diǎn)800Gbps轉(zhuǎn)發(fā)性能、微秒級時(shí)延,從而突破了節(jié)點(diǎn)間網(wǎng)絡(luò)瓶頸,可以將 GPU集群算力發(fā)揮到極致。

在服務(wù)器方面,中興通訊全系列服務(wù)器支持GPU和液冷,可以以極致低耗構(gòu)建大模型計(jì)算資源池,使數(shù)據(jù)中心的PUE降到1.13以下。中興通訊已經(jīng)推出R6500G5 GPU服務(wù)器,最大支持20個GPU; 今年底,還將推出更高性能的R6900G5 GPU訓(xùn)練服務(wù)器。

在存儲方面,中興通訊提供高帶寬多元融合存儲,以滿足AI訓(xùn)練多態(tài)數(shù)據(jù)存儲需求。中興通訊提供分布式磁陣和高端全閃磁陣組合方案,兼顧了大容量和高性能需求,同時(shí)提供文件、對象和塊等多元存儲。此外,通過NEO智能云卡卸載高性能存儲傳輸協(xié)議NVMe,實(shí)現(xiàn)了3M IOPS的存儲性能。

中興表示未來將重點(diǎn)投入三個產(chǎn)品方向:

1. 公司新一代智算中心基礎(chǔ)設(shè)施產(chǎn)品,全面支持大模型訓(xùn)練和推理,包括高性能 AI 服務(wù)器、高性能交換機(jī)、DPU 等;

2. 下一代數(shù)字星云解決方案,利用生成式 AI 技術(shù),在代碼生成、辦公和運(yùn)營智能化等領(lǐng)域展開研究,全面提升企業(yè)效率;

3. 新一代 AI 加速芯片、模型輕量化技術(shù),大幅降低大模型推理成本。

新華三

新華三集團(tuán)憑借在企業(yè)網(wǎng)絡(luò)領(lǐng)域20多年的深厚積累,針對AI大模型和AIGC熱潮,有著自己的體系化思考,也布局了很多技術(shù)。6月,新華三集團(tuán)發(fā)布了全新的智算解決方案,全面助推AI業(yè)務(wù)加速前行。

03749f12-4bc3-11ee-a25d-92fbcf53809c.png

異構(gòu)算力:提供異構(gòu)的多元AI算力,主要有商業(yè)英偉達(dá)GPU(主)、國產(chǎn)AI計(jì)算加速卡,在大規(guī)模分布式訓(xùn)練為主的場景(如NLP),主推R5500G5機(jī)型服務(wù)器,該機(jī)型內(nèi)部AI計(jì)算加速卡為OAM模組形態(tài),訓(xùn)練時(shí)服務(wù)器內(nèi)部以高速互聯(lián)協(xié)議傳輸數(shù)據(jù),節(jié)點(diǎn)之間可支持8張100G RoCE網(wǎng)卡與其他節(jié)點(diǎn)互聯(lián),形成AI集群;在小規(guī)模訓(xùn)練為主的場景(如小型CV),可以選用R5300G5,此機(jī)型主要支持PCIE款型AI加速卡,內(nèi)部通過PCIESwich互聯(lián),成本較低,可適配的AI加速卡款型較多。

海量存儲:分為冷熱數(shù)據(jù),冷數(shù)據(jù)以存檔為主,通過OneStor的對象存儲提供,對象存儲有讀取方便(HTTP協(xié)議)、不可在線編輯、集群大的優(yōu)勢,可為用戶提供數(shù)據(jù)集、鏡像、算法、模型的廉價(jià)歸檔空間;熱數(shù)據(jù)以分布式并行文件存儲為主,通過CX8028/CX5036提供,分布式文件存儲具有IOPS高、延遲低的特性,可為大規(guī)模訓(xùn)練提供高性能的數(shù)據(jù)集、訓(xùn)練臨時(shí)數(shù)據(jù)的讀寫空間。

無損網(wǎng)絡(luò):支持RoCEv2協(xié)議,主要設(shè)備為S9820-8C,可提供100G/400G速率的端口。單臺設(shè)備提供128個100G端口的能力,支持16臺R5500G5服務(wù)器接入,算力規(guī)??蛇_(dá)80P 峰值算力。

銳捷

銳捷針對AIGC算力、GPU利用率與網(wǎng)絡(luò)的關(guān)系,以及主流HPC組網(wǎng)面臨的挑戰(zhàn),推出了“智速”DDC(Distributed Disaggregated Chassis,分布式分散式機(jī)箱)高性能網(wǎng)絡(luò)方案,并計(jì)劃于今年推出兩款可交付產(chǎn)品,分別是400G NCP交換機(jī)和200G NCF交換機(jī)。

DDC是一種分布式解耦機(jī)框設(shè)備的解決方案,它將傳統(tǒng)軟硬一體的框式設(shè)備的組件進(jìn)行拆解,以NCP替代傳統(tǒng)框式設(shè)備的線卡板,以NCF替代交換網(wǎng)板,并通過光纖互聯(lián)替代原先兩者之間的連接器組件;傳統(tǒng)框式設(shè)備的控制管理引擎也獨(dú)立出來,可以以軟件化的方式靈活部署于任何一臺標(biāo)準(zhǔn)服務(wù)器或多臺服務(wù)器,能有效節(jié)省部署成本,提升系統(tǒng)冗余性和可靠性。

DDC方案突破了傳統(tǒng)框式設(shè)備的資源限制,讓大規(guī)模組網(wǎng)化繁為簡,不僅具有擴(kuò)展彈性、擴(kuò)容升級快、單機(jī)功耗低、運(yùn)維管理效率高等特點(diǎn),可靈活支持AI集群大規(guī)模部署,而且具有集群路由設(shè)計(jì)簡單、數(shù)據(jù)轉(zhuǎn)發(fā)方式更優(yōu)化等優(yōu)勢,能有效提升網(wǎng)絡(luò)通信性能。

在支持AI集群超大規(guī)模部署方面,在單POD組網(wǎng)中,采用96臺NCP作為接入,其中NCP下行共18個400G接口,負(fù)責(zé)連接AI計(jì)算集群的網(wǎng)卡。上行共40個200G接口最大可以連接40臺NCF,NCF提供96個200G接口,該規(guī)模上下行帶寬為超速比1.1:1。整個POD可支撐1728個400G網(wǎng)絡(luò)接口,按照一臺服務(wù)器配8塊GPU來計(jì)算,可支撐216臺AI計(jì)算服務(wù)器。

03d844b8-4bc3-11ee-a25d-92fbcf53809c.png

在多級POD組網(wǎng)中,可以實(shí)現(xiàn)基于POD的按需建設(shè)??紤]該場景POD中NCF設(shè)備要犧牲一半的SerDes用于連接第二級的NCF,單POD采用48臺NCP作為接入,下行共18個400G接口,單POD內(nèi)可以支撐864個400G接口。通過橫向增加POD實(shí)現(xiàn)規(guī)模擴(kuò)容,整體最大可支撐6912個400G網(wǎng)絡(luò)端口。

03f8302a-4bc3-11ee-a25d-92fbcf53809c.png

浪潮

浪潮認(rèn)為要解決超大規(guī)模、超高帶寬、超強(qiáng)可靠的“三超”網(wǎng)絡(luò)的挑戰(zhàn),就需要著重思考如何建設(shè)符合大規(guī)模訓(xùn)練的組網(wǎng)方案。從組網(wǎng)架構(gòu)上看,當(dāng)前AIGC組網(wǎng)一般多采用胖樹架構(gòu),具有高帶寬、低延遲的特性,以及較好的可拓展性。而在組網(wǎng)協(xié)議上,當(dāng)前業(yè)界主流的是基于IB及RoCE兩種無損網(wǎng)絡(luò)技術(shù),兩種技術(shù)都可以很好的滿足大規(guī)模訓(xùn)練高帶寬、低延遲的要求。IB的延遲足夠低,而RoCE在開放性、性價(jià)比及易維護(hù)性等方面更勝一籌。

浪潮推出了基于RoCE的智能無損網(wǎng)絡(luò)解決方案,助力AIGC“三超”網(wǎng)絡(luò)的打造,其具備如下優(yōu)勢:

一是多協(xié)議、多場景的融合。在大規(guī)模集群中,往往存在通用計(jì)算集群、AI/HPC集群、存儲等多種場景,傳統(tǒng)方案是部署以太網(wǎng)、IB、FC等多套網(wǎng)絡(luò)及多種協(xié)議,各協(xié)議之間互不兼容,大大增加了管理和維護(hù)的難度。

浪潮基于RoCE的智能無損網(wǎng)絡(luò)解決方案,可以適配通用計(jì)算、AI/HPC、存儲等多種場景,并實(shí)現(xiàn)以太/IB/FC三網(wǎng)融合。這樣從維護(hù)多張網(wǎng)絡(luò)到維護(hù)一張網(wǎng)絡(luò),大大降低了整體建設(shè)和維護(hù)成本。

二是智能彈性、動態(tài)調(diào)整。在大規(guī)模集群訓(xùn)練中,要求整個集群可以快速部署與交付,在節(jié)約訓(xùn)練時(shí)間的同時(shí),盡可能減少宕機(jī)等故障的發(fā)生。

浪潮基于RoCE的智能無損網(wǎng)絡(luò)解決方案中,通過數(shù)字化網(wǎng)絡(luò)引擎IDE可以實(shí)現(xiàn)集群網(wǎng)絡(luò)的自動化部署,加速業(yè)務(wù)上線。并實(shí)時(shí)監(jiān)控設(shè)備與鏈路的負(fù)載和健康狀態(tài),如CRC錯包,端口帶寬百分比、隊(duì)列緩存,CNP及Pause反壓幀等,完成故障的快速定位及智能分析,實(shí)現(xiàn)基于業(yè)務(wù)的網(wǎng)絡(luò)跟蹤。此外,還可以提供北向標(biāo)準(zhǔn)API接口,能夠與上層計(jì)算平臺進(jìn)行對接,實(shí)現(xiàn)算網(wǎng)聯(lián)動,更好的釋放集群算力。

芯片廠商

英特爾

伴隨AI、大數(shù)據(jù)等新興技術(shù)的崛起,傳統(tǒng)通用計(jì)算性能愈發(fā)捉襟見肘,異構(gòu)計(jì)算成為了整個半導(dǎo)體行業(yè)的前行方向。英特爾正考慮如何在異構(gòu)平臺上合理分配負(fù)載,以進(jìn)行AI處理工作。在底層方面,英特爾采用了OneAPI(一種統(tǒng)一編程模型和應(yīng)用程序接口)思路,利用OneAPI提供的優(yōu)化庫,希望以打包的平臺方案整合自家龐雜的產(chǎn)品路線,降低客戶對底層硬件差異的敏感度。

英特爾還計(jì)劃提高網(wǎng)絡(luò)傳輸?shù)目煽啃裕ㄟ^更新和創(chuàng)新更高層網(wǎng)絡(luò)協(xié)議來提高以太網(wǎng)傳輸RDMA協(xié)議的可靠性,這個功能將包含在即將發(fā)布的下一代IPU中。

針對AI在不同場景、不同環(huán)節(jié)的異構(gòu)計(jì)算需求,英特爾將其產(chǎn)品線分為通用計(jì)算與加速計(jì)算。其中,英特爾的CPU產(chǎn)品,第四代至強(qiáng)處理器解決通用計(jì)算,可滿足客戶在大部分模型較小場景的AI推理需求;Gaudi2解決加速計(jì)算,可解決大模型的訓(xùn)練及推理需求。

英特爾用來實(shí)現(xiàn)AI能力的是一個CPU上首次出現(xiàn)的全新計(jì)算模式——VPU,VPU是專門為AI設(shè)計(jì)的一套架構(gòu),能夠非常高效地完成一些矩陣運(yùn)算,而且對稀疏化的處理非常擅長。VPU最大的優(yōu)勢就是在消費(fèi)端PC上用最快速、最便宜、最低成本的方式實(shí)現(xiàn)AI功能。

0493e22c-4bc3-11ee-a25d-92fbcf53809c.png

下半年即將面市的Meteor Lake集成了Movidius視覺處理器,與以往的通過CPU和GPU的人工智能加速指令集去實(shí)現(xiàn)人工智能服務(wù)不同,這是一個獨(dú)立的處理單元,在針對人工智能進(jìn)行加速處理模式中,采用的是“CPU+GPU+VPU“的混合處理方式,通過各個計(jì)算單元的特點(diǎn),將AI處理效率最大力。

博通

在暴漲的AI需求下,博通發(fā)布了Tomahawk 5系列網(wǎng)絡(luò)芯片。由于做到了更高的端口密度,Tomahawk 5可以實(shí)現(xiàn)256高性能AI/ML加速器之間的單跳連接,且每個都能做到200Gbps的網(wǎng)絡(luò)帶寬。這對于數(shù)據(jù)中心的AI訓(xùn)練和推理的負(fù)載來說,無疑提高了吞吐效率,尤其是針對日益流行且愈發(fā)復(fù)雜的生成式AI模型。

04a8892a-4bc3-11ee-a25d-92fbcf53809c.png

4月,博通發(fā)布了Jericho3-AI芯片,用于將超級計(jì)算機(jī)連接在一起,利用已廣泛使用的網(wǎng)絡(luò)技術(shù)進(jìn)行人工智能工作。Jericho3-AI針對AI訓(xùn)練負(fù)載做了特殊的優(yōu)化,更高的端口密度使得Jericho3-AI可以在單個集群中連接32000個GPU,并做到800Gbps的連接帶寬表現(xiàn)。

Jericho3-AI芯片結(jié)構(gòu)設(shè)計(jì)是為了降低在網(wǎng)絡(luò)間進(jìn)行人工智能訓(xùn)練時(shí)間。Jericho3-AI 擁有一系列的先進(jìn)特性,如改進(jìn)的負(fù)載平衡,可以確保在最高網(wǎng)絡(luò)負(fù)載下實(shí)現(xiàn)最大的網(wǎng)絡(luò)利用率,無擁塞操作,無流量沖突和抖動,以及零影響故障轉(zhuǎn)移——確保低于10ns 的自動路徑收斂。所有這些特性都將減少AI工作負(fù)載的完成時(shí)間。

04eab73c-4bc3-11ee-a25d-92fbcf53809c.png

據(jù)介紹,Jericho3-AI 的最高吞吐量為 28.8Tb/s。它有 144 個以 106Gbps PAM4 運(yùn)行的 SerDes 通道,支持多達(dá) 18 個 800GbE/36 個 400GbE/72 個 200GbE 網(wǎng)絡(luò)端口。

博通將其與英偉達(dá)自己的InfiniBand方案對比,Jericho3-AI在完成時(shí)間上有著10%左右的優(yōu)勢。這也是Jericho系列獨(dú)有的優(yōu)勢,實(shí)現(xiàn)標(biāo)準(zhǔn)以太網(wǎng)芯片無法實(shí)現(xiàn)卻在AI或HPC應(yīng)用上被看重的靈活功能。

英偉達(dá)

在AI驅(qū)動下,英偉達(dá)在大規(guī)模、大算力、高性能的場景下創(chuàng)造了一個新的網(wǎng)絡(luò)應(yīng)用場景,即AI工廠。英偉達(dá)首創(chuàng)了NVLink + NVSwitch技術(shù),為多GPU系統(tǒng)提供更加快速的互聯(lián)解決方案。借助NVLINK技術(shù),能最大化提升系統(tǒng)吞吐量,很好的解決了GPU互聯(lián)瓶頸。最新的英偉達(dá)Hopper架構(gòu)采用NVLINK4.0技術(shù),總帶寬最高可達(dá)900GB/s。

0567ca74-4bc3-11ee-a25d-92fbcf53809c.png

今年5月英偉達(dá)推出了面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺——Spectrum-X,其擁有無損網(wǎng)絡(luò)、動態(tài)路由、流量擁塞控制、多業(yè)務(wù)性能隔離等主要特性,能夠滿足云上部署AI或生成式AI工作負(fù)載對網(wǎng)絡(luò)性能的要求,有助于節(jié)約訓(xùn)練成本、縮短訓(xùn)練時(shí)間,加速大模型走向面市。

05846224-4bc3-11ee-a25d-92fbcf53809c.png

Spectrum-X網(wǎng)絡(luò)平臺采用了國際上先進(jìn)的Co-Design的技術(shù),將英偉達(dá)Spectrum-4以太網(wǎng)交換機(jī)與BlueField-3 DPU緊密耦合,實(shí)現(xiàn)了相比傳統(tǒng)以太網(wǎng)架構(gòu)1.7倍的整體AI性能和能效提升,并通過性能隔離技術(shù)增強(qiáng)了多租戶功能運(yùn)行多任務(wù)的性能,在多租戶環(huán)境中保持與Bare Metal一致、可預(yù)測的性能。

基于最新發(fā)布的Spectrum-X平臺,英偉達(dá)構(gòu)建了生成式AI云超級計(jì)算機(jī)——Israel-1,實(shí)現(xiàn)基于Spectrum-X網(wǎng)絡(luò)平臺的生成式AI云。在其中投入了256 臺基于NVIDIA HGX平臺的Dell服務(wù)器,共包括2048個GPU,并且,配備了2560個BlueField-3 DPU、80 多臺 Spectrum-4 以太網(wǎng)交換機(jī)。

英偉達(dá)的兩個網(wǎng)絡(luò)架構(gòu),可以用到不同AI場景,滿足不同客戶對網(wǎng)絡(luò)通信的需求:追求超大規(guī)模、高性能可以采用NVLink+InfiniBand網(wǎng)絡(luò);多租戶、工作負(fù)載多樣性,需融入生成式AI,則用高性能Spectrum-X以太網(wǎng)架構(gòu)。如果對性能和低延時(shí)要求更高,AI云體系架構(gòu)也可以使用InfiniBand。

Marvell

今年3月,Marvell推出了用于 800 Gb/秒交換機(jī)的 51.Teralynx 10交換機(jī)芯片。這是一款支持1.6T以太網(wǎng)和800G以太網(wǎng)的交換機(jī)芯片。該芯片采用了PAM-4技術(shù)和Nova DSP芯片,可以實(shí)現(xiàn)更高的速度和更高的可靠性。此外,該芯片還支持多種不同速率的端口,從而實(shí)現(xiàn)更高的靈活性和可擴(kuò)展性。

除了用到業(yè)界頂級的112G SerDes IP和先進(jìn)的工藝實(shí)現(xiàn)低功耗的系統(tǒng)設(shè)計(jì)以外,Marvell宣稱Teralynx 10可以提供1.7倍的延遲優(yōu)勢,這對于生成式AI這種看重完成時(shí)間和網(wǎng)絡(luò)傳輸時(shí)間的應(yīng)用來說至關(guān)重要。

05b28b9a-4bc3-11ee-a25d-92fbcf53809c.png

據(jù)Marvell介紹,Teralynx 10 旨在解決運(yùn)營商帶寬爆炸的問題,同時(shí)滿足嚴(yán)格的功耗和成本要求。它可適用于下一代數(shù)據(jù)中心網(wǎng)絡(luò)中的 leaf 和 spine 應(yīng)用,以及 AI / ML 和高性能計(jì)算 (HPC) 結(jié)構(gòu)。

據(jù)介紹,一個 Teralynx 10 相當(dāng)于 12 個 12.8 Tbps 一代芯片,由此可以在同等容量下減少 80% 的功耗。Teralynx 10 具有 512 個長距離 (LR) 112G SerDes,有了它,交換機(jī)系統(tǒng)可以開發(fā)出更全面的交換機(jī)配置,例如 32 x 1.6T、 64 x 800G 和 128 x 400G 鏈路。

運(yùn)營商

中國移動

中國移動把握算力時(shí)代發(fā)展脈搏,以網(wǎng)強(qiáng)算提出發(fā)展算力網(wǎng)絡(luò)的全新理念,持續(xù)開拓創(chuàng)新,不斷提升算力網(wǎng)絡(luò)發(fā)展的高度、廣度、深度。今年5月,中國移動聯(lián)合騰訊等率先發(fā)布了《全調(diào)度以太網(wǎng)技術(shù)(GSE)架構(gòu)白皮書》,其中詳細(xì)描述了容器化Packet分發(fā)(PKTC)+全局動態(tài)調(diào)度隊(duì)列(DGSQ)的技術(shù)機(jī)制。

容器化Packet分發(fā)機(jī)制引入分組容器(PKTC)的邏輯概念,而不是單純的Per Packet分發(fā),在Packet級均衡的基礎(chǔ)上能兼顧不同鏈路Byte級的均衡效果。DGSQ也不同于傳統(tǒng)基于VoQ的流量調(diào)度,沒有采用傳統(tǒng)基于端口靜態(tài)分配,而是基于數(shù)據(jù)流目標(biāo)設(shè)備端口按需、動態(tài)創(chuàng)建,實(shí)現(xiàn)全網(wǎng)優(yōu)化調(diào)度。

此外,中國移動加快發(fā)展智能算力,以新型智算中心為發(fā)力點(diǎn),打造算力高峰,推動算力網(wǎng)絡(luò)實(shí)現(xiàn)智能躍遷。

新型智算中心(NICC)是以GPU、AI加速卡等智能集群算力為核心集約化建設(shè)的E級超大規(guī)模新型算力基礎(chǔ)設(shè)施,具備軟硬件全棧環(huán)境,是支撐AI大模型的高效訓(xùn)練,推動行業(yè)數(shù)智化轉(zhuǎn)型升級的基石。相較于傳統(tǒng)云數(shù)據(jù)中心,新型智算中心在算、存、網(wǎng)、管、效五大方面升級,躍遷到更高水平,具備GPU集群算力、多元融合存儲、高速無損網(wǎng)絡(luò)、異構(gòu)算力池化、高效節(jié)能控制五大特征。

面向新型智算中遠(yuǎn)期發(fā)展,中國移動加大算存網(wǎng)管效五大方面技術(shù)的融合創(chuàng)新突破,體系化布局攻關(guān)“打破異構(gòu)生態(tài)豎井”的算力原生、“突破經(jīng)典馮氏架構(gòu)”的存算一體、“突破無損以太性能瓶頸”的全調(diào)度以太網(wǎng)、“改變互聯(lián)網(wǎng)基礎(chǔ)架構(gòu)”的算力路由、“匯聚多樣算力”的算力并網(wǎng)等創(chuàng)新技術(shù),打造原創(chuàng)技術(shù)策源地。

中國聯(lián)通

在AI加速行業(yè)發(fā)展的當(dāng)下,中國聯(lián)通在AI領(lǐng)域不斷創(chuàng)新,致力于建設(shè)云算網(wǎng)一體的信息基礎(chǔ)設(shè)施,從算力供給、輸送、調(diào)度和服務(wù)四個方面規(guī)劃算力網(wǎng)絡(luò),構(gòu)建中國聯(lián)通智算網(wǎng)絡(luò)。

2023 年 4 月,中國聯(lián)通研究院、廣東聯(lián)通攜手華為建成全棧自主創(chuàng)新AI智算中心,并完成全國首個OSU(光業(yè)務(wù)單元,Optical Service Unit)靈活入多云的現(xiàn)網(wǎng)驗(yàn)證,實(shí)現(xiàn)算網(wǎng)融合發(fā)展新突破。

廣東聯(lián)通攜手華為打造運(yùn)營商首個全棧自主創(chuàng)新智算平臺,創(chuàng)建算法商城和一體化算力門戶交易平臺,提供多樣性算力服務(wù),并具備全棧自主創(chuàng)新、極簡開發(fā)、全場景端邊云協(xié)同和豐富的生態(tài)體系四大能力優(yōu)勢:

自主創(chuàng)新的基礎(chǔ)軟硬件:基于昇騰硬件、歐拉開源操作系統(tǒng)、昇思MindSpore全場景AI框架,CANN異構(gòu)計(jì)算架構(gòu)等全棧自主創(chuàng)新的基礎(chǔ)軟硬件支撐原生創(chuàng)新。

極簡易用的訓(xùn)推一體平臺:提供從訓(xùn)練到推理的一站式AI開發(fā)平臺,通過昇思AI框架和全流程開發(fā)工具包,加速行業(yè)算法和應(yīng)用開發(fā),快速實(shí)現(xiàn)AI使能業(yè)務(wù)能力。

全場景的端邊云協(xié)同能力:硬件層面均采用統(tǒng)一的達(dá)芬奇架構(gòu),軟件層面支持主流操作系統(tǒng)、多種AI框架,實(shí)現(xiàn)增量訓(xùn)練模型迭代,全場景自適應(yīng)感知與協(xié)同。

不斷豐富的生態(tài)體系:依托智算平臺,聯(lián)合高校、算法廠商等合作伙伴聯(lián)合創(chuàng)新,孵化AI行業(yè)應(yīng)用,實(shí)現(xiàn)產(chǎn)學(xué)研用深度融合,構(gòu)筑成熟AI生態(tài)體系。

廣東聯(lián)通在社會算力并網(wǎng)方面也積極實(shí)踐,實(shí)現(xiàn)省內(nèi)算力協(xié)同和生態(tài)體系共享;以智算平臺為載體,逐步構(gòu)建區(qū)域AI應(yīng)用創(chuàng)新體系,滿足多樣性AI應(yīng)用需求使能千行百業(yè)。

中國電信

中國電信正在上海試點(diǎn)新一代智云網(wǎng)絡(luò),以高質(zhì)量、廣覆蓋大帶寬、低時(shí)延、云-邊-端協(xié)同的算力網(wǎng)絡(luò)為人工智能的大規(guī)模應(yīng)用提供堅(jiān)實(shí)的基礎(chǔ)。

2022年,中國電信自研天翼云4.0算力分發(fā)網(wǎng)絡(luò)平臺——“息壤”入選國資委央企十大超級工程。目前,“息壤”已全面接入天翼云的多級資源,并與多個合作伙伴實(shí)現(xiàn)算力并網(wǎng),實(shí)現(xiàn)基于云原生和跨域大規(guī)模調(diào)度技術(shù)的智能算網(wǎng)調(diào)度,為“東數(shù)西算”、云渲染、跨云調(diào)度、性能壓測、混合云AI計(jì)算等應(yīng)用場景,提供多樣化、差異化的算力產(chǎn)品形態(tài),滿足不同業(yè)務(wù)需求。

今年來,AI大模型呈井噴式爆發(fā),面對節(jié)奏越來越快的技術(shù)迭代、創(chuàng)新和升級,堅(jiān)實(shí)的網(wǎng)絡(luò)基礎(chǔ)的重要性愈發(fā)凸顯。早在去年中國電信就順應(yīng)時(shí)代趨勢和產(chǎn)業(yè)發(fā)展需求,在AI助力管理應(yīng)用創(chuàng)新方面,推出全球首款以云網(wǎng)融合為核心架構(gòu)的“星河AI賦能平臺”,這也是業(yè)界首個百億參數(shù)級別的城市治理大模型。

中國電信星河AI賦能平臺在全球率先以云網(wǎng)融合為核心架構(gòu),搭載“全網(wǎng)、區(qū)域、邊、端”四級算力,擁有31個省級算力集群的人工智能產(chǎn)品和能力平臺,可以實(shí)現(xiàn)AI能力一鍵下發(fā)、快速部署、全場景應(yīng)用。

得益于構(gòu)架層的創(chuàng)新,星河AI實(shí)現(xiàn)了算力動態(tài)調(diào)度、資源高可用、標(biāo)準(zhǔn)開放的API(應(yīng)用編程接口),能夠極速部署安裝,集成千余種AI算法能力納管和封裝,滿足多樣協(xié)議視頻流智能接入,實(shí)現(xiàn)AI能力平臺可視化編排。

寫在最后

數(shù)據(jù)中心和算力集群是AI的核心,網(wǎng)絡(luò)則是它的命脈,它們共同構(gòu)筑了AI大模型底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施,實(shí)現(xiàn)了數(shù)據(jù)和智能的無縫傳遞。正如身體需要心臟泵血來保持生命,AI也需要這些要素來持續(xù)演進(jìn),我們應(yīng)致力于構(gòu)建更加安全、高效和可靠的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以確保AI的無限潛力能夠得以實(shí)現(xiàn)。網(wǎng)絡(luò)不僅是連接,更是創(chuàng)新與合作的橋梁。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31315

    瀏覽量

    269659
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    1007

    瀏覽量

    14883
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2516

    瀏覽量

    2935
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    319

    瀏覽量

    332

原文標(biāo)題:盤點(diǎn):AI 大模型背后不同玩家的網(wǎng)絡(luò)支撐

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【「大模型啟示錄」閱讀體驗(yàn)】對大模型更深入的認(rèn)知

    閱讀《大模型啟示錄》這本書,我得說,它徹底顛覆了我對大模型的理解。作為一個經(jīng)常用KIMI和豆包這類AI工具來完成作業(yè)、整理資料的大學(xué)生,我原以為大模型就是這些工具
    發(fā)表于 12-20 15:46

    巨人網(wǎng)絡(luò)發(fā)布“千影”大模型,加速“游戲+AI”布局

    近日,巨人網(wǎng)絡(luò)在2024年度中國游戲產(chǎn)業(yè)年會上,正式推出了名為“千影?QianYing”的有聲游戲生成大模型。這一創(chuàng)新舉措標(biāo)志著巨人網(wǎng)絡(luò)在“游戲+AI”賽道上的又一重要布局。 “千影
    的頭像 發(fā)表于 12-16 09:45 ?308次閱讀

    OpenAI世界最貴大模型:昂貴背后的技術(shù)突破

    2023年“雙十二”的第一天,OpenAI推出了其最強(qiáng)推理模型o1的滿血版及其Pro版本。同時(shí),ChatGPT也推出了每月200美元的Pro訂閱計(jì)劃,這一價(jià)格使其一躍成為“世界最貴的大模型”。下面,AI部落小編帶您深入了解Ope
    的頭像 發(fā)表于 12-06 14:46 ?491次閱讀

    AI模型與深度學(xué)習(xí)的關(guān)系

    AI模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI模型的基礎(chǔ) 技術(shù)支撐
    的頭像 發(fā)表于 10-23 15:25 ?1034次閱讀

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    for Science的技術(shù)支撐”的學(xué)習(xí)心得,可以從以下幾個方面進(jìn)行歸納和總結(jié): 1. 技術(shù)基礎(chǔ)的深入理解 在閱讀第二章的過程中,我對于AI for Science所需的技術(shù)基礎(chǔ)有了更加深入的理解。這一章詳細(xì)闡述了
    發(fā)表于 10-14 09:16

    ai模型ai框架的關(guān)系是什么

    AI模型AI框架是人工智能領(lǐng)域中兩個重要的概念,它們之間的關(guān)系密切且復(fù)雜。 AI模型的定義和特點(diǎn)
    的頭像 發(fā)表于 07-16 10:07 ?4.2w次閱讀

    AI模型與小模型的優(yōu)缺點(diǎn)

    在人工智能(AI)的廣闊領(lǐng)域中,模型作為算法與數(shù)據(jù)之間的橋梁,扮演著至關(guān)重要的角色。根據(jù)模型的大小和復(fù)雜度,我們可以將其大致分為AI模型
    的頭像 發(fā)表于 07-10 10:39 ?3085次閱讀

    生成式AI與神經(jīng)網(wǎng)絡(luò)模型的區(qū)別和聯(lián)系

    生成式AI與神經(jīng)網(wǎng)絡(luò)模型是現(xiàn)代人工智能領(lǐng)域的兩個核心概念,它們在推動技術(shù)進(jìn)步和應(yīng)用拓展方面發(fā)揮著至關(guān)重要的作用。本文將詳細(xì)探討生成式AI與神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-02 15:03 ?865次閱讀

    STM CUBE AI錯誤導(dǎo)入onnx模型報(bào)錯的原因?

    使用cube-AI分析模型時(shí)報(bào)錯,該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    發(fā)表于 05-27 07:15

    解鎖應(yīng)用密碼,網(wǎng)絡(luò)基礎(chǔ)設(shè)施賦能AI模型

    近日,OpenAI在官方賬號發(fā)布了一支由Sora精心打造的MV——《Worldweight》,又掀起一波行業(yè)熱議。從ChatGTP到Sora,支撐AI模型發(fā)展的底層核心仍舊是我們IT業(yè)津津樂道
    的頭像 發(fā)表于 04-18 10:09 ?331次閱讀

    防止AI模型被黑客病毒入侵控制(原創(chuàng))聆思大模型AI開發(fā)套件評測4

    在訓(xùn)練一只聰明的AI小動物解決實(shí)際問題,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行推理,讓電腦也能像人一樣根據(jù)輸入信息做出決策。 在上述示例中,我創(chuàng)建了一個簡單的深度學(xué)習(xí)模型,該
    發(fā)表于 03-19 11:18

    cubemx ai導(dǎo)入onnx模型后壓縮失敗了怎么解決?

    cubemx ai導(dǎo)入onnx模型后壓縮失敗。請問我怎么解決
    發(fā)表于 03-19 07:58

    AI模型遠(yuǎn)程控制啟動車輛(原創(chuàng))

    AI模型
    還沒吃飯
    發(fā)布于 :2024年03月18日 15:18:29

    使用cube-AI分析模型時(shí)報(bào)錯的原因有哪些?

    使用cube-AI分析模型時(shí)報(bào)錯,該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    發(fā)表于 03-14 07:09

    巨人網(wǎng)絡(luò)模型GiantGPT完成備案

    今日,巨人網(wǎng)絡(luò)正式宣布,已完成游戲AI模型GiantGPT的備案工作,即日起,該AI模型的相關(guān)服務(wù)可以正式開展業(yè)務(wù)。
    的頭像 發(fā)表于 02-03 11:28 ?818次閱讀