0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Rail-Only拓?fù)渑cPCI Switch:GPU集群間高效通信的核心邏輯

星融元 ? 來源:jf_55437772 ? 作者:jf_55437772 ? 2025-03-26 10:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)前AI推理面臨兩大核心矛盾

算力需求激增:大模型應(yīng)用爆發(fā)(如實(shí)時(shí)交互、多模態(tài)生成),企業(yè)亟需更低延遲、更高吞吐的推理能力;

資源浪費(fèi)嚴(yán)重:傳統(tǒng)架構(gòu)下,GPU算力閑置率超30%,長文本處理場(chǎng)景首Token延遲飆升至秒級(jí),用戶體驗(yàn)流失率增加40%。

DeepSeek-V3/R1的給我們的啟示:混合專家模型(MoE)雖需320卡起步,卻為超大規(guī)模云計(jì)算廠商提供了差異化競(jìng)爭(zhēng)力——吞吐效率提升50%,單用戶推理成本降低20%。而對(duì)中小客戶,“高性價(jià)比”仍是剛需,Dense模型憑借靈活部署穩(wěn)占80%市場(chǎng)份額。

組網(wǎng)架構(gòu)的“黃金分割”

行業(yè)需求驅(qū)動(dòng)架構(gòu)革新

分離架構(gòu):適合頭部云廠商(如AWS、阿里云),通過獨(dú)立優(yōu)化Prefill(算力密集型)和Decode(帶寬密集型)集群,實(shí)現(xiàn)超大規(guī)模并發(fā)下的極致性能,客戶可溢價(jià)30%提供“高端推理服務(wù)”。

統(tǒng)一架構(gòu):中小廠商的“降本利器”——單網(wǎng)絡(luò)支持智能流量調(diào)度,硬件投資減少25%,運(yùn)維成本降低40%,兼容80%現(xiàn)有基礎(chǔ)設(shè)施,快速搶占中端市場(chǎng)。

采用星融元CX-N系列交換機(jī)+RoCEv2技術(shù),單設(shè)備支持400G/800G帶寬,滿足“既要大吞吐又要低延遲”的矛盾需求。

從實(shí)驗(yàn)室到生產(chǎn)線:組網(wǎng)設(shè)計(jì)的成本與效益平衡

Rail-Only拓?fù)洌? GPU/組共享PCIe鏈路,服務(wù)器內(nèi)直連減少跳數(shù),適合百卡以下集群,硬件成本降低30%。

wKgZPGfjZk-AVUCAAANHgMm5JfI655.png

GPU服務(wù)器內(nèi)部:每四個(gè)GPU作為一組,共享一個(gè)并行推理網(wǎng)卡,連接到同一個(gè)PCI Switch,兩組GPU之間的通信通過兩個(gè)PCI Switch之間的直連通道完成;

GPU服務(wù)器之間:同一組號(hào)的GPU之間的通信通過交換機(jī)直接完成;不同組號(hào)的GPU之間的通信,先通過PCI Swtitch將流量路由到另一組的網(wǎng)卡,然后通過交換機(jī)完成;

小規(guī)模場(chǎng)景:低成本敏捷部署

wKgZO2fjZn6AdNiDAAY3TFpXC4I846.png

每臺(tái)推理服務(wù)器有8張GPU,2張400G網(wǎng)卡,雙歸連接到兩臺(tái)CX732Q-N

16個(gè)推理服務(wù)器(128張GPU)和2個(gè)CX732Q-N組成一個(gè)PoD。Prefill和Decode服務(wù)器可能屬于不同PoD

可橫向擴(kuò)展至64個(gè)PoD

中大規(guī)模場(chǎng)景:性能與擴(kuò)展性優(yōu)先

模塊化PoD設(shè)計(jì):以512 GPU為單元構(gòu)建獨(dú)立集群,Prefill與Decode服務(wù)器同PoD內(nèi)一跳互聯(lián),時(shí)延控制在10μs以內(nèi)。

橫向擴(kuò)展能力:可橫向擴(kuò)展至64個(gè)PoD,支持萬卡級(jí)集群無縫擴(kuò)容,滿足云計(jì)算平臺(tái)彈性需求。

wKgZO2fjZq6ADWM0AAbvJN4vMng448.png

未來展望:開放生態(tài)與硬件迭代的雙重助力

盡管DeepSeek尚未開源,但其PD分離架構(gòu)為行業(yè)提供了關(guān)鍵思路。未來趨勢(shì)將圍繞兩大方向:

軟硬件協(xié)同優(yōu)化:如DPU卸載KV緩存?zhèn)鬏斎蝿?wù),進(jìn)一步釋放GPU算力;

邊緣AI輕量化:通過模型剪枝與專用推理芯片,在10卡以下環(huán)境中實(shí)現(xiàn)MoE模型部署。

【參考文獻(xiàn)】

https://asterfusion.com/a20250306-scale-out/


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4937

    瀏覽量

    131171
  • PCI
    PCI
    +關(guān)注

    關(guān)注

    5

    文章

    679

    瀏覽量

    131891
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35041

    瀏覽量

    279038
  • 組網(wǎng)
    +關(guān)注

    關(guān)注

    1

    文章

    392

    瀏覽量

    22848
收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    熱插拔算力集群

    熱插拔算力集群指在無需停機(jī)的情況下,動(dòng)態(tài)增減計(jì)算節(jié)點(diǎn)或硬件的算力基礎(chǔ)設(shè)施,其核心價(jià)值在于實(shí)現(xiàn)資源的彈性伸縮和業(yè)務(wù)連續(xù)性。以下從關(guān)鍵技術(shù)、應(yīng)用場(chǎng)景及優(yōu)勢(shì)三個(gè)維度分析: 一、關(guān)鍵技術(shù)支撐? 硬件熱插拔
    的頭像 發(fā)表于 06-26 09:20 ?174次閱讀

    如何破解GPU集群集合通信路徑的“黑盒”難題?

    集合通信庫(如NCCL、HCCL)的運(yùn)行細(xì)節(jié)用戶完全無感知,形成“黑盒”狀態(tài)。EPS通過實(shí)時(shí)解析集合通信庫的底層運(yùn)行狀態(tài),將隱蔽的通信路徑、GPU與網(wǎng)卡狀態(tài)等信息可視化,并提供智能路由
    的頭像 發(fā)表于 05-22 10:13 ?341次閱讀
    如何破解<b class='flag-5'>GPU</b><b class='flag-5'>集群集合通信</b>路徑的“黑盒”難題?

    iTOP-3588S開發(fā)板四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    ,8GB內(nèi)存,32GBEMMC。 四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。 內(nèi)置NPU RK3588S內(nèi)置NPU,支持INT4/INT8/INT16/FP16混合運(yùn)算
    發(fā)表于 05-15 10:36

    如何通過Docker和K8S集群實(shí)現(xiàn)高效調(diào)用GPU

    在有GPU資源的主機(jī)安裝,改主機(jī)作為K8S集群的Node。
    的頭像 發(fā)表于 03-18 16:50 ?453次閱讀
    如何通過Docker和K8S<b class='flag-5'>集群</b>實(shí)現(xiàn)<b class='flag-5'>高效</b>調(diào)用<b class='flag-5'>GPU</b>

    ADA4511-2: Precision, 40 V, Rail-to-Rail Input and Output Op Amp with DigiTrim Data Sheet adi

    電子發(fā)燒友網(wǎng)為你提供ADI(ADI)ADA4511-2: Precision, 40 V, Rail-to-Rail Input and Output Op Amp with DigiTrim
    發(fā)表于 01-15 18:47
    ADA4511-2: Precision, 40 V, <b class='flag-5'>Rail-to-Rail</b> Input and Output Op Amp with DigiTrim Data Sheet adi

    小米加速布局AI大模型,搭建GPU萬卡集群

    近日,有消息稱小米正在緊鑼密鼓地搭建自己的GPU萬卡集群,旨在加大對(duì)AI大模型的投入力度。據(jù)悉,小米的大模型團(tuán)隊(duì)在成立之初就已經(jīng)擁有了6500張GPU資源,而現(xiàn)在他們正在進(jìn)一步擴(kuò)大這一規(guī)模。 針對(duì)
    的頭像 發(fā)表于 12-28 14:25 ?514次閱讀

    分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

    在進(jìn)入大模型時(shí)代后,大模型發(fā)展已是人工智能的核心,但訓(xùn)練大模型實(shí)際上是一項(xiàng)比較復(fù)雜的工作,因?yàn)樗枰罅康?GPU 資源和較長的訓(xùn)練時(shí)間。 此外,由于單個(gè) GPU 工作線程的內(nèi)存有限,并且許多
    的頭像 發(fā)表于 11-18 09:39 ?1268次閱讀
    分布式<b class='flag-5'>通信</b>的原理和實(shí)現(xiàn)<b class='flag-5'>高效</b>分布式<b class='flag-5'>通信</b>背后的技術(shù)NVLink的演進(jìn)

    華迅光通AI計(jì)算加速800G光模塊部署

    ,服務(wù)器之間的數(shù)據(jù)交換需要經(jīng)過接入交換機(jī)、匯聚交換機(jī)和核心交換機(jī)。這給匯聚交換機(jī)和核心交換機(jī)帶來了巨大的工作壓力。 三層拓?fù)?/b>:如果采用傳統(tǒng)的三層拓?fù)?/b>,進(jìn)一步擴(kuò)大服務(wù)器
    發(fā)表于 11-13 10:16

    如何構(gòu)建及優(yōu)化GPU云網(wǎng)絡(luò)

    并從計(jì)算節(jié)點(diǎn)成本優(yōu)化、集群網(wǎng)絡(luò)與拓?fù)?/b>的選擇等方面論述如何構(gòu)建及優(yōu)化GPU云網(wǎng)絡(luò)。
    的頭像 發(fā)表于 11-06 16:03 ?999次閱讀
    如何構(gòu)建及優(yōu)化<b class='flag-5'>GPU</b>云網(wǎng)絡(luò)

    GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

    眾所周知,在大型模型訓(xùn)練中,通常采用每臺(tái)服務(wù)器配備多個(gè)GPU集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對(duì)GPU網(wǎng)絡(luò)中的
    的頭像 發(fā)表于 11-05 16:20 ?1211次閱讀
    <b class='flag-5'>GPU</b>服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

    不同的線程束以執(zhí)行不同的指令。指令調(diào)度單元負(fù)責(zé)從指令緩存中取出著色器程序中的操作指令,并將其分配給每個(gè)CUDA核心執(zhí)行。 線程塊的設(shè)計(jì)為 GPU編程提供了一種高效、靈活和易用的方式來組織和管理并行線程
    發(fā)表于 11-03 12:55

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片CPU

    認(rèn)為是一種類似交叉開關(guān)(Crossbar)的拓?fù)?/b>結(jié)構(gòu),片內(nèi)多個(gè)物理 CPU核心的互連和片外多個(gè)CPU的互連都使用了該總線(每個(gè)物理CPU核心內(nèi)部都可能使用了其他拓?fù)?/b>結(jié)構(gòu),如環(huán)形總線),
    發(fā)表于 10-20 12:03

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

    ARMSVE指令集 第5章 邏輯拓?fù)?/b>結(jié)構(gòu) 5.1 環(huán)形拓?fù)?/b>方式 5.2 Infnity Fabric 拓?fù)?/b>方式 5.3 網(wǎng)格拓?fù)?/b>方式 5
    發(fā)表于 10-15 22:08

    邏輯電路芯片-組合邏輯電路芯片-時(shí)序邏輯電路芯片

    、GPU、內(nèi)存控制器等核心部件均大量使用邏輯電路芯片實(shí)現(xiàn)復(fù)雜的運(yùn)算和控制功能。 通信設(shè)備:路由器、交換機(jī)、基站等通信設(shè)備中的信號(hào)處理、數(shù)據(jù)轉(zhuǎn)
    發(fā)表于 09-30 10:47

    服務(wù)器集群中 IP 地址管理混亂

    ,共同工作以提供更高的性能、可用性和可擴(kuò)展性。IP 地址則是服務(wù)器在網(wǎng)絡(luò)中的標(biāo)識(shí)符,用于數(shù)據(jù)的傳輸和通信。 在服務(wù)器集群中,合理的 IP 地址規(guī)劃和管理對(duì)于確保服務(wù)器之間的高效通信、服
    的頭像 發(fā)表于 08-01 14:45 ?520次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品