0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全調度以太網(wǎng)(GSE),中國智算網(wǎng)絡新標準

發(fā)燒科技 ? 來源:jf_63404383 ? 作者:jf_63404383 ? 2024-08-13 15:20 ? 次閱讀

伴隨著智算技術的發(fā)展,越來越多的研究表明在 AI 訓練達到一定規(guī)模下能力才會涌現(xiàn),在AI大模型的擴展定律和涌現(xiàn)能力的驅動下,AI大模型的參數(shù)規(guī)模越來越大。國內外業(yè)界已出現(xiàn)多個萬億參數(shù)模型,十萬億參數(shù)模型在不遠的將來也有望問世。公開資料表明,GPT-4 的參數(shù)體量比 GPT-3 增長了 10 倍,達到 1.8 萬億參數(shù)。國內的盤古、悟道大模型,其參數(shù)規(guī)模同樣超過了萬億。

wKgZoma7CVaAIVC3AAEeRKdJUl464.jpeg

注:數(shù)據(jù)截至23年3月,資料來源:北京智源人工智能研究院,中金公司研究院

美國當?shù)貢r間7月22日,特斯拉CEO埃隆·馬斯克在旗下社交平臺X上表示,xAI團隊、X團隊、英偉達及其他支持公司已經(jīng)于當?shù)貢r間凌晨4時20分開始在“孟菲斯超級集群(Memphis Supercluster)”上進行訓練。“孟菲斯超級集群”由10萬個液冷H100 GPU組成,在單個RDMA結構上運行,是“世界上最強大的人工智能訓練集群”,該集群將被用于訓練xAI旗下第三代大語言模型Grok-3。大規(guī)模AI計算從萬卡進入到十萬卡時代。

大規(guī)模智算集群需要高性能的網(wǎng)絡連接,以保證各智算節(jié)點間的通信效率、數(shù)據(jù)吞吐和整個智算集群的算力性能。這對智算網(wǎng)絡提出了新的挑戰(zhàn)。

在基礎訓練模型中,一方面多任務混合部署,傳統(tǒng)以太網(wǎng)源端發(fā)流直接采用網(wǎng)絡“Push”流量模式,不考慮網(wǎng)絡及接收端的接受能力,導致網(wǎng)絡擁塞,使得 GPU 處于等待狀態(tài),造成梯度和參數(shù)同步過程中算力資源浪費較大,傳統(tǒng)的 RoCE 網(wǎng)絡有效吞吐僅為 50%;另一方面,智算集群網(wǎng)絡流量呈現(xiàn)出數(shù)據(jù)流數(shù)目少、單流流量大的特點,在傳統(tǒng)網(wǎng)絡均衡算法下容易引發(fā)HASH 沖突,造成鏈路丟包,導致訓練異常中斷,極大影響訓練效率。時代呼喚 “零丟包”、“高吞吐”、“低時延” 為核心特征的無損智算網(wǎng)絡設備,來解決超大規(guī)模 AI 計算通信效率低的問題。

wKgaoma7CVeAfaW-AAJEewYiYXo978.png

當前全球已商用的智算網(wǎng)絡技術,主要有2大流派:

流派1:IB(InfiniBand)網(wǎng)絡,是目前市場占有率最高的智算網(wǎng)絡解決方案,IB 技術較為封閉,市場基本被英偉達壟斷,不符合全球開放生態(tài)的產(chǎn)業(yè)共識。

流派2:RoCE(RDMA over Converged Ethernet)網(wǎng)絡,RoCE廣泛應用于需要高帶寬和低延遲的網(wǎng)絡,在傳統(tǒng)的通算領域有很高的占有率,但是RoCE在智算網(wǎng)絡中存在流量HASH極化的問題,需要輔助以各種均衡調參進行智算網(wǎng)絡的適配。

為了更好的提升智算網(wǎng)絡性能,更好的服務于大規(guī)模 AI 計算,出現(xiàn)了更多的新型技術流派:

新技術流派1:UEC(Ultra Ethernet Consortium)網(wǎng)絡,2023 年 7 月Linux 基金會與全球頭部科技企業(yè)聯(lián)合成立 UEC 以太網(wǎng)創(chuàng)新聯(lián)盟,其創(chuàng)始成員包括AMD、Arista、博通、思科、HPE、Intel、Meta、微軟、Oracle和Eviden,致力于從物理層、鏈路層、傳輸層、軟件層改進以太網(wǎng)技術的革新,來滿足 AI 計算網(wǎng)絡的需求。

新技術流派2:GSE(Global Scheduling Ethernet)網(wǎng)絡,中國智算中心的建設熱潮始于 2020 年,目前已有 40 多個城市在建設或在建智算中心。智算中心建設步伐加快,但國內的網(wǎng)絡技術發(fā)展卻滯后于 AI 大模型的演進。 AI 網(wǎng)絡技術上的競爭已經(jīng)成為中美技術博弈的新戰(zhàn)場。在這樣嚴峻的形勢下,2023 年 5 月,中國移動聯(lián)合產(chǎn)業(yè)界發(fā)布了全調度以太網(wǎng)(GSE)白皮書,同年8 月全調度以太網(wǎng)推進計劃正式開啟,標志著具有中國自主技術的 GSE 流派正式誕生。

wKgZoma7CVeAG4PmAAJANAjSJF4499.png

GSE 是一個開放的生態(tài)組織,2023 年 9 月,中國移動發(fā)布推GSE 交換機原型系統(tǒng)樣機。2024 年 1 月在移動實驗室完成了GSE 交換機多廠商設備的互聯(lián)互通測試。

wKgZoma7CViAO2LYAAE5Ur1imNI014.png

GSE 網(wǎng)絡,專為大規(guī)模 AI 訓練集群打造:

? 按需調度,性能無損

GSE 網(wǎng)絡基于 PKTC 容器技術,實現(xiàn)了高精度的網(wǎng)絡負載均衡,從根本上改善了傳統(tǒng) AI 算力網(wǎng)絡鏈路的帶寬利用率;采用基于 DQSQ 的信令申請調度技術,數(shù)據(jù)流以“Pull”的方式進行轉發(fā),突破了傳統(tǒng)以太網(wǎng)的性能瓶頸,網(wǎng)絡性能提升至 95%以上。

wKgZoma7CViAcWKbAAHjxpsX8XI640.png

在多業(yè)務部署場景下,相較于傳統(tǒng) RoCE 網(wǎng)絡性能大幅下降,GSE 交換機能保持與單業(yè)務場景持平的網(wǎng)絡轉發(fā)性能,極大提升網(wǎng)絡效率。

?場景靈活,快速部署

GSE 純網(wǎng)側方案即可滿足智算無損需求,可搭配國產(chǎn) GPU 集成網(wǎng)卡,降低端側網(wǎng)卡要求。GSE技術原生解決了適配不同大模型訓練的網(wǎng)絡調參問題,避免了傳統(tǒng)RoCE達數(shù)天甚至數(shù)周的網(wǎng)絡參數(shù)調優(yōu),在算力昂貴、AI大模型競爭激烈的市場中,為客戶帶來靈活的算力網(wǎng)絡建設方案,縮短了訓練調優(yōu)周期,幫助客戶快速搶占市場先機。

wKgaoma7CVmANzieAAF6ulTPiO8163.png

? 全局解耦,開放生態(tài)

GSE 技術體系支持標準以太網(wǎng)標準,新增標準協(xié)議頭,完成基于以太報文的轉發(fā),實現(xiàn)端到端的多廠家設備互聯(lián)互通,構建了多廠家充分參與的開放生態(tài),全面激活國內 AI 產(chǎn)業(yè)鏈,促進智算產(chǎn)業(yè)創(chuàng)新發(fā)展。

wKgZoma7CVmAfoW0AAElji_N_IU253.png

GSE標準協(xié)議頭

【總結】

銳捷網(wǎng)絡致力于與 GSE 生態(tài)一起打造中國的AIGC智算網(wǎng)絡新標準。GSE 網(wǎng)絡設備基于標準以太網(wǎng)在轉發(fā)架構方面進行技術創(chuàng)新,突破傳統(tǒng)以太網(wǎng)的性能瓶頸,拓展智算網(wǎng)絡的應用場景,充分滿足國產(chǎn)化智算集群網(wǎng)絡的需求,為客戶帶來了三大核心價值:提高智算效率,增強運維體驗,開放生態(tài)解耦。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 以太網(wǎng)

    關注

    40

    文章

    5448

    瀏覽量

    172159
  • 網(wǎng)絡
    +關注

    關注

    14

    文章

    7586

    瀏覽量

    89003
  • AI
    AI
    +關注

    關注

    87

    文章

    31246

    瀏覽量

    269610
  • 大模型
    +關注

    關注

    2

    文章

    2499

    瀏覽量

    2914
收藏 人收藏

    評論

    相關推薦

    全球首顆!中國移動聯(lián)合產(chǎn)業(yè)伙伴發(fā)布調度以太網(wǎng)GSE)DPU芯片

    采用高速交換網(wǎng)絡實現(xiàn)上萬顆GPU力互聯(lián),互聯(lián)網(wǎng)絡技術成為提升集群有效力的關鍵,也是全球產(chǎn)業(yè)科技創(chuàng)新焦點。中國移動把握技術升級換代契機,提
    的頭像 發(fā)表于 11-22 01:09 ?225次閱讀
    全球首顆!<b class='flag-5'>中國</b>移動聯(lián)合產(chǎn)業(yè)伙伴發(fā)布<b class='flag-5'>全</b><b class='flag-5'>調度</b><b class='flag-5'>以太網(wǎng)</b>(<b class='flag-5'>GSE</b>)DPU芯片

    以太網(wǎng)與光纖網(wǎng)絡的優(yōu)劣比較

    隨著信息技術的飛速發(fā)展,網(wǎng)絡技術已經(jīng)成為現(xiàn)代社會不可或缺的一部分。以太網(wǎng)和光纖網(wǎng)絡作為兩種主流的網(wǎng)絡技術,它們在不同的應用場景中展現(xiàn)出各自的優(yōu)勢和局限性。
    的頭像 發(fā)表于 11-08 09:19 ?723次閱讀

    以太網(wǎng)速率對網(wǎng)絡性能的影響

    速率的歷史發(fā)展 10Mbps以太網(wǎng) :最早的以太網(wǎng)標準,適用于小型網(wǎng)絡。 100Mbps快速以太網(wǎng) :提高了數(shù)據(jù)傳輸速率,適用于更大的
    的頭像 發(fā)表于 11-08 09:11 ?422次閱讀

    以太網(wǎng)協(xié)議的種類和特點

    以太網(wǎng)是一種局域網(wǎng)(Local Area Network, LAN)技術,它定義了一組用于在局域網(wǎng)中傳輸數(shù)據(jù)的規(guī)則和標準以太網(wǎng)協(xié)議的種類和
    的頭像 發(fā)表于 11-08 09:10 ?1437次閱讀

    以太網(wǎng)端口的類型和特性

    以太網(wǎng)端口,即以太網(wǎng)接口,是網(wǎng)絡中用于連接設備并進行數(shù)據(jù)交換的端口。它基于IEEE 802.3標準,并使用以太網(wǎng)協(xié)議進行數(shù)據(jù)傳輸。
    的頭像 發(fā)表于 08-07 15:27 ?1682次閱讀

    車載以太網(wǎng)與傳統(tǒng)以太網(wǎng)的區(qū)別

    車載以太網(wǎng)與傳統(tǒng)以太網(wǎng)在多個方面存在顯著的差異,這些差異主要體現(xiàn)在傳輸速率、實時性、可靠性、物理層標準、應用場景以及技術發(fā)展等方面。
    的頭像 發(fā)表于 07-25 11:12 ?2070次閱讀

    以太網(wǎng)要怎么連接

    以太網(wǎng)連接是現(xiàn)代計算機網(wǎng)絡通信中最為基礎和重要的環(huán)節(jié)之一。它利用以太網(wǎng)電纜和網(wǎng)卡等硬件設備,將計算機或其他設備連接到網(wǎng)絡交換機或路由器上,從而實現(xiàn)與其他設備或互聯(lián)網(wǎng)的通信。以下將詳細介
    的頭像 發(fā)表于 07-09 10:28 ?1191次閱讀

    解讀工業(yè)以太網(wǎng)標準:Profinet與EtherNet/IP

    隨著工業(yè)自動化技術的飛速發(fā)展,工業(yè)以太網(wǎng)標準作為連接各種自動化設備、控制系統(tǒng)和信息系統(tǒng)的重要橋梁,其重要性日益凸顯。在眾多工業(yè)以太網(wǎng)標準中,Profinet和EtherNet/IP憑借
    的頭像 發(fā)表于 06-28 16:34 ?2131次閱讀

    工業(yè)以太網(wǎng)和普通以太網(wǎng)區(qū)別在哪

    的應用環(huán)境和需求不同。普通以太網(wǎng)主要應用于辦公和家庭網(wǎng)絡環(huán)境,而工業(yè)以太網(wǎng)則是為滿足工業(yè)自動化和控制系統(tǒng)的需求而設計的。 1.1 環(huán)境適應性 工業(yè)以太網(wǎng)在設計時需要考慮惡劣的工業(yè)環(huán)境,
    的頭像 發(fā)表于 06-11 10:30 ?2851次閱讀

    什么是以太網(wǎng)交換機中的網(wǎng)絡延遲

    網(wǎng)絡延遲一詞表示網(wǎng)絡上數(shù)據(jù)通信的延遲。以太網(wǎng)交換機中的網(wǎng)絡延遲或以太網(wǎng)交換機延遲表示以太網(wǎng)數(shù)據(jù)包
    的頭像 發(fā)表于 05-28 10:13 ?551次閱讀

    中心出現(xiàn)帶寬缺口,1.6T以太網(wǎng)力大磚飛

    ,為數(shù)據(jù)中心提供了通用高速的網(wǎng)絡連接。 據(jù)IDC預測,到2025年全球數(shù)據(jù)中心和云端的流量將突破至175ZB。正因如此,我們開始打造更為復雜的多機架系統(tǒng),以及復雜的網(wǎng)絡架構。與此同時,隨著新標準的開發(fā)和發(fā)布,每一代
    的頭像 發(fā)表于 04-22 16:22 ?1109次閱讀

    工業(yè)以太網(wǎng)的基本原理及優(yōu)勢

    的應用前景。 一、工業(yè)以太網(wǎng)的基本原理 工業(yè)以太網(wǎng)基于標準以太網(wǎng)技術,通過物理層、數(shù)據(jù)鏈路層和網(wǎng)絡層的協(xié)議規(guī)范,實現(xiàn)設備間的數(shù)據(jù)傳輸和通信
    的頭像 發(fā)表于 03-25 14:40 ?755次閱讀

    工業(yè)以太網(wǎng)的基本原理及優(yōu)勢

    主要的工業(yè)以太網(wǎng)標準以太網(wǎng)/IP、PROFINET、EtherCAT、Modbus/TCP等,這些標準實現(xiàn)了互操作性,應用于不同的工業(yè)控制領域。
    的頭像 發(fā)表于 03-06 16:31 ?1296次閱讀
    工業(yè)<b class='flag-5'>以太網(wǎng)</b>的基本原理及優(yōu)勢

    和共享式以太網(wǎng)相比,交換式以太網(wǎng)有什么不同的特點?

    和共享式以太網(wǎng)相比,交換式以太網(wǎng)有什么不同的特點? 交換式以太網(wǎng)是一種通過交換機連接多臺計算機的網(wǎng)絡技術,相對于共享式以太網(wǎng),它具有許多不同
    的頭像 發(fā)表于 02-21 11:25 ?4217次閱讀

    工業(yè)以太網(wǎng)的特點 工業(yè)以太網(wǎng)的關鍵技術包含哪些?

    工業(yè)以太網(wǎng)(Industrial Ethernet)是一種用于工業(yè)自動化領域的網(wǎng)絡通信技術,它結合了以太網(wǎng)的高速、低成本和廣泛應用的優(yōu)勢,滿足了工業(yè)環(huán)境對可靠性、實時性和安全性的要求。本文將詳細介紹
    的頭像 發(fā)表于 01-22 15:41 ?2024次閱讀