0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)Quantum-2 Infiniband平臺(tái)技術(shù)

智能計(jì)算芯世界 ? 來(lái)源:智能計(jì)算芯世界 ? 2023-07-18 16:02 ? 次閱讀

隨著大數(shù)據(jù)和人工智能等技術(shù)的快速發(fā)展,高性能計(jì)算需求日益增長(zhǎng)。英偉達(dá)Quantum-2 Infiniband平臺(tái)應(yīng)運(yùn)而生,為用戶提供高速、低延遲的數(shù)據(jù)傳輸和處理能力,實(shí)現(xiàn)卓越的分布式計(jì)算性能。

Quantum-2采用最新一代NVIDIA Mellanox HDR 200Gb/s Infiniband網(wǎng)絡(luò)適配器,支持高速數(shù)據(jù)傳輸和低延遲計(jì)算。結(jié)合NVIDIA GPU,實(shí)現(xiàn)加速計(jì)算和分布式存儲(chǔ),提高計(jì)算效率和資源利用率。

b8ce0c4e-24fa-11ee-962d-dac502259ad0.png

此外,Quantum-2還支持多種先進(jìn)技術(shù),如NVIDIA RDMA、NVLink和Multi-host等,實(shí)現(xiàn)數(shù)據(jù)中心范圍內(nèi)的高效數(shù)據(jù)傳輸和資源共享。用戶可根據(jù)實(shí)際需求,搭建高性能計(jì)算集群或分布式存儲(chǔ)系統(tǒng),為大數(shù)據(jù)分析、人工智能、科學(xué)計(jì)算等領(lǐng)域提供強(qiáng)大支持。

Q:CX7 NDR 200 QSFP112能否兼容HDR/EDR線纜?

A:可以

b8f0d01c-24fa-11ee-962d-dac502259ad0.png

Q:CX7 NDR能否支持CR8模塊?

A:CX7 NDR用Nvidia SR4多?;蛘逥R4單模規(guī)格的模塊,IB交換機(jī)側(cè)使用SR8或者DR8模塊。Q:CX7 Dual-port 400G能否bonding后達(dá)到800G,為啥200G bonding后能疊加達(dá)到400G?

A:目前CX7并沒(méi)有雙口400G配置,網(wǎng)絡(luò)總性能由PCle帶寬/網(wǎng)卡處理能力/網(wǎng)口物理帶寬的瓶頸決定,PCle帶寬上限為512G,網(wǎng)卡處理能力》400G,故雙口200G bond可達(dá)到400G帶寬。

Q:一分二線纜怎么連接

A:Al訓(xùn)練場(chǎng)景需配合NCCLSHARP通信環(huán)連接SU內(nèi)不同節(jié)點(diǎn)的網(wǎng)卡。

Q:哪些卡是IB/ETH雙模的,IB/ETH雙模怎么切換

A:mlxconfig -d mlx5_x s LINK_TYPE_P1=1(Or 2)

b913e0b6-24fa-11ee-962d-dac502259ad0.png

Q: Superpod組網(wǎng)里,假如我每臺(tái)服務(wù)器上配置4個(gè)NDR200的卡,那我能直接用一個(gè)一分四的線纜直接連接到同一個(gè)交換機(jī)上嗎?還是說(shuō)得用2根一分二的分別連不同的交換機(jī)?

A:不推薦,這種連接方式不符合SuperPoD組網(wǎng)規(guī)則,考慮到NCCL/SHARP性能,需要Leaf層交換機(jī)分別使用一分四線纜連接SU內(nèi)不同服務(wù)器的NDR200端口,形成不同的通信環(huán)。

Q:Super Pod組網(wǎng)中,如果最后一個(gè)SU中,節(jié)點(diǎn)的數(shù)量不足32臺(tái),比如只有16臺(tái),那最后一個(gè)SU的Leaf交換機(jī)可以只用4臺(tái)嗎?這樣會(huì)出現(xiàn)同一個(gè)節(jié)點(diǎn)的兩個(gè)網(wǎng)卡接入到一個(gè)leaf交換機(jī)上,SHARP樹(shù)會(huì)不會(huì)有問(wèn)題?

A:可以但不推薦,NDR交換機(jī)可以支持64 SAT(SHARP Aggregation Tree)。

Q.NDR交換機(jī)上的同一個(gè)模塊,一個(gè)口插NDR線纜,另一個(gè)口插NDR 200的一分二線纜嗎?

A:可以,需要交換機(jī)側(cè)做NDR口的端口分拆配置。

Q.有一個(gè)關(guān)于最新superpod組網(wǎng)的問(wèn)題想咨詢您一下,我看到最新的superpod組網(wǎng)白皮書(shū)是計(jì)算網(wǎng)絡(luò)中單獨(dú)配置2臺(tái)IB交換機(jī)組UFM軟件的網(wǎng)絡(luò),但是這樣就導(dǎo)致了我集群會(huì)減少一臺(tái)GPU節(jié)點(diǎn)。如果我不單獨(dú)配置UFM交換機(jī),只在管理節(jié)點(diǎn)部署UFM軟件,在不占用計(jì)算網(wǎng)絡(luò)的情況下通過(guò)另一套存儲(chǔ)網(wǎng)絡(luò)管理集群是否可以呢?

A:建議配置UFM設(shè)備(含軟件),計(jì)算網(wǎng)內(nèi)的管理節(jié)點(diǎn)部署UFM軟件是可選方案,但該節(jié)點(diǎn)不應(yīng)該承擔(dān)GPU計(jì)算業(yè)務(wù)負(fù)載。 存儲(chǔ)網(wǎng)絡(luò)是單獨(dú)組網(wǎng)的,是不同的網(wǎng)絡(luò)平面,無(wú)法管理計(jì)算集群。

Q: UFM Enterprise,SDN, Telemetry, Cyber-Al有什么區(qū)別?是不是必須買UFM?

A:可使用OFED自帶的opensm和命令腳本工具進(jìn)行簡(jiǎn)單的管理和監(jiān)控,但是不具備UFM友好的可視化界面,功能也少了很多。

b938665c-24fa-11ee-962d-dac502259ad0.png

Q:交換機(jī)的子網(wǎng)管理器,OFED的子網(wǎng)管理器,UFM,三個(gè)管理節(jié)點(diǎn)的數(shù)目是否有差異?客戶部署時(shí)選擇哪個(gè)比較合適?

A:管理交換機(jī)適合2K節(jié)點(diǎn)內(nèi)的管理,UFM和OFED的openSM節(jié)點(diǎn)管理能力無(wú)限制,需要配合管理節(jié)點(diǎn)的CPU以及硬件處理能力。

Q: DAC ACC AOC Transceiver的區(qū)別,每種的限制。

A:連接距離,布線的難易程度如下圖。

b94b3f48-24fa-11ee-962d-dac502259ad0.png

Q: 交換機(jī) 64 個(gè) 400Gb port, 為什么是 32 個(gè) QSFP56 端口

A: 尺寸和功耗,2U 面板只能 32 cage;這是 OSPF 接口,支持兩個(gè) 400G ports,NDR 交換機(jī)要把 cage 和 port 的概念區(qū)分清楚。

Q: 請(qǐng)問(wèn)兩端的模塊不同,可以通過(guò)線纜鏈接起來(lái)打通數(shù)據(jù)嗎?比如服務(wù)器這邊是 OSFP,交換機(jī)是 QSFP112

A: IB 必須用我們的 module 和 cable,現(xiàn)在主要介紹 IB,IB 交換機(jī)只有是 OSFP;兩側(cè)的模塊都要使用 NVIDIA 的推薦模塊,可以支持

Q: UFM 可以用來(lái)監(jiān)控 RoCE 網(wǎng)絡(luò)嗎

A: 不可以,只支持 IB

Q: UFM 跟有管理性 Switch 和非管性 switch, 功能性是否一樣

A: 一樣

Q: IB 線纜在不影響傳輸帶寬時(shí)延的前提下,最大支持多遠(yuǎn)的傳輸距離

A: 模塊+cable,最遠(yuǎn) 500m,多模;DAC 銅纜 3m 以下,ACC 5m

Q: CX7 網(wǎng)卡開(kāi)以太模式可以與其他家的 400G 支持 RDMA 的以太網(wǎng)交換機(jī)互聯(lián)嗎

A: 400G ethernet 互聯(lián)可以,RDMA 是 RoCE,可以在這種情況下跑,性能沒(méi)有保證;400G 以太網(wǎng)建議使用 BF3+Spectrum-4 組成的 Spectrum-X 平臺(tái)

Q: NDR 兼容 HDR、EDR 的話,這種線纜和模塊只有一體的嗎?

A: 是的,沒(méi)有分體的方案

Q: OSFP 網(wǎng)卡側(cè)的模塊應(yīng)該是用的 flat 的吧?

A: 是的,網(wǎng)卡用 flat

Q: IB 卡開(kāi)以太模式是不支持 RDMA 的嗎?

A: 可以跑 RoCE,就是 RDMA over Ethernet,推薦用 Nvidia Spectrum-X solution

Q: BF3 現(xiàn)在量產(chǎn)了嗎

A: 根據(jù) OPN 不同,量產(chǎn)時(shí)間不同,具體跟負(fù)責(zé) SA 聯(lián)系,提供你需要的 OPN

Q: 為什么 NDR 的光纜是分開(kāi)的,沒(méi)有像 HDR 一樣的那種 AOC 線纜呢

A: 混雜了單多模,風(fēng)水冷,不同長(zhǎng)度這些因素,AOC 一體的方案會(huì)非常復(fù)雜,部署也不靈活

Q: 請(qǐng)問(wèn) 400G 的 IB 和 400G 的以太,除了光模塊不一樣,線纜是一樣的嗎

A: 光纜是相同的,注意是 APC 帶 8 度斜角的類型

Q: CX7 網(wǎng)卡延時(shí)性能有具體要求么?在滿內(nèi)存,已綁核等最優(yōu)調(diào)試環(huán)境下對(duì)于網(wǎng)絡(luò)延時(shí)要求是?小于多少 us 算合適?

A: 這個(gè)跟測(cè)試機(jī)器的主頻,配置都有關(guān)系,還跟測(cè)試用 perftest, mpi 工具都有關(guān)系,建議你聯(lián)系負(fù)責(zé) SA,給你提供具體支持

Q: OSFP 網(wǎng)卡側(cè)的模塊應(yīng)該是用的 OSFP-flat 的吧?為啥會(huì)說(shuō)用的是 OSFP-Riding Heatsink 的呢?

A: riding heatsink 指的是在 cage 上有個(gè)散熱器

b97a682c-24fa-11ee-962d-dac502259ad0.png

Q: 這個(gè)集群方案里 ufm 的部分在哪里呢?想了解下這部分的作用

A: UFM 單獨(dú)跑在 server 上,可以當(dāng)做一個(gè) node,可以 HA 接兩臺(tái)。 但不建議跑 UFM 的node 同時(shí)跑計(jì)算業(yè)務(wù)

Q: 集群規(guī)模多大的時(shí)候,建議推薦 UFM 呢?

A: IB 網(wǎng)絡(luò)都建議配置,UFM 不只是 opensm,還有其他非常強(qiáng)大的管理和接口功能

A: 只要客戶有網(wǎng)管需求,建議都配置 UFM

Q: PCIe 5 是否只有 512G 嗎?PCIe4 是多少

A: Gen5 32G*16=512G, Gen 4 16G*16=256G

Q: IB 卡有單工或者雙工說(shuō)法么

A: 都是雙工;單工或者雙工對(duì)于當(dāng)前的設(shè)備來(lái)講,只是概念而已 因?yàn)槭蘸桶l(fā)物理通道已經(jīng)分離了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47279

    瀏覽量

    238488
  • 網(wǎng)絡(luò)適配器

    關(guān)注

    0

    文章

    41

    瀏覽量

    11571
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3776

    瀏覽量

    91103
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8889

    瀏覽量

    137441

原文標(biāo)題:英偉達(dá)Quantum-2 Infiniband平臺(tái)技術(shù)A&Q

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英偉達(dá)加速Rubin平臺(tái)AI芯片推出,SK海力士提前交付HBM4存儲(chǔ)器

    日,英偉達(dá)(NVIDIA)的主要高帶寬存儲(chǔ)器(HBM)供應(yīng)商南韓SK集團(tuán)會(huì)長(zhǎng)崔泰源透露,英偉達(dá)執(zhí)行長(zhǎng)黃仁勛已要求SK海力士提前六個(gè)月交付用于英偉
    的頭像 發(fā)表于 11-05 14:22 ?421次閱讀

    丹麥推出首臺(tái)AI超級(jí)計(jì)算機(jī)Gefion

    超級(jí)計(jì)算機(jī)由1528個(gè)英偉達(dá)H100 Tensor Core GPU驅(qū)動(dòng),并采用了英偉達(dá)DGX SuperPOD架構(gòu)設(shè)計(jì)。這些高性能計(jì)算單元通過(guò)英偉
    的頭像 發(fā)表于 10-29 15:13 ?396次閱讀

    英偉達(dá)Blackwell可支持10萬(wàn)億參數(shù)模型AI訓(xùn)練,實(shí)時(shí)大語(yǔ)言模型推理

    、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。 ? 英偉達(dá)稱,Blackwell擁有6項(xiàng)革命性技術(shù)
    的頭像 發(fā)表于 09-04 09:10 ?2904次閱讀

    英偉達(dá)高管解讀Q2財(cái)報(bào) 但是英偉達(dá)市值暴跌1.4萬(wàn)億元

    英偉達(dá)正式發(fā)布了2025財(cái)年第二季度報(bào)告,英偉達(dá)公司在Q2營(yíng)收達(dá)到了300.4億美元,這個(gè)營(yíng)收超過(guò)了市場(chǎng)預(yù)期的287億美元,同比增長(zhǎng)122%
    的頭像 發(fā)表于 08-30 13:03 ?728次閱讀

    英偉達(dá)Blackwell架構(gòu)揭秘:下一個(gè)AI計(jì)算里程碑?# 英偉達(dá)# 英偉達(dá)Blackwell

    英偉達(dá)行業(yè)資訊
    jf_02331860
    發(fā)布于 :2024年08月26日 10:58:09

    英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

    顯卡英偉達(dá)
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    ,第五代NVLink、InfiniBand網(wǎng)絡(luò)和NVIDIA Magnum IO?軟件的支持,確保企業(yè)和廣泛GPU計(jì)算集群的高效可擴(kuò)展性。 HGX B200 深度學(xué)習(xí)推理能力 英偉達(dá)第五代 NVLink
    發(fā)表于 05-13 17:16

    新思科技攜手英偉達(dá):基于加速計(jì)算、生成式AI和Omniverse釋放下一代EDA潛能

    將雙方數(shù)十年的合作深入擴(kuò)展到新思科技EDA全套技術(shù)棧 摘要: 新思科技攜手英偉達(dá),將其領(lǐng)先的AI驅(qū)動(dòng)型電子設(shè)計(jì)自動(dòng)化(EDA)全套技術(shù)棧部署于英偉
    發(fā)表于 03-20 13:43 ?276次閱讀
    新思科技攜手<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>:基于加速計(jì)算、生成式AI和Omniverse釋放下一代EDA潛能

    NVIDIA推出X800網(wǎng)絡(luò)交換機(jī)平臺(tái),實(shí)現(xiàn)800Gb/s端到端吞吐量

     X800系列包括InfiniBand適用的Quantum-X800和標(biāo)準(zhǔn)以太網(wǎng)適用的Spectrum-X800兩個(gè)產(chǎn)品線。前者以最高性能理念設(shè)計(jì),家族成員包括英偉達(dá)
    的頭像 發(fā)表于 03-19 13:48 ?1064次閱讀

    英偉達(dá)公布了其新的6G研究云平臺(tái)

    3月19日消息,在年度GTC AI活動(dòng)中,英偉達(dá)公布了其新的6G研究云平臺(tái),5G公眾號(hào)了解到這是一種“三管齊下”的方法,致力于讓英偉達(dá)芯片和
    的頭像 發(fā)表于 03-19 11:04 ?1004次閱讀

    英偉達(dá)GTC大會(huì)即將召開(kāi),聚焦AI與機(jī)器人技術(shù)前沿

    備受矚目的英偉達(dá)GTC大會(huì)將于3月18日至21日盛大舉行。作為英偉達(dá)每年最重要的技術(shù)發(fā)布平臺(tái),G
    的頭像 發(fā)表于 03-18 11:31 ?1005次閱讀

    英偉達(dá)為什么越漲越便宜?英偉達(dá)的市盈率一直在下降?

    英偉達(dá)為什么越漲越便宜?英偉達(dá)的市盈率一直在下降? 在2023年英偉達(dá)的股價(jià)漲了兩倍多;龍年開(kāi)年
    的頭像 發(fā)表于 03-12 18:02 ?1799次閱讀

    英偉達(dá)市值逼近2萬(wàn)億美元,漲瘋了

    ABSTRACT摘要英偉達(dá)公布了截至2024年1月28日的2024財(cái)年第四財(cái)季業(yè)績(jī):營(yíng)收同比大增265%,每股收益同比暴增765%,連續(xù)三個(gè)季度創(chuàng)紀(jì)錄。JAEALOT2024年2月22日當(dāng)?shù)貢r(shí)間
    的頭像 發(fā)表于 03-05 08:25 ?340次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>市值逼近<b class='flag-5'>2</b>萬(wàn)億美元,漲瘋了

    英偉達(dá)市值1.96萬(wàn)億美元

    英偉達(dá)市值1.96萬(wàn)億美元 英偉達(dá)股價(jià)一天之內(nèi)大漲16%;英偉達(dá)股價(jià)漲到785.38美元,市值1
    的頭像 發(fā)表于 02-24 15:22 ?936次閱讀