欧美亚洲中文字幕的影片,四虎影视国产永精品亚洲精品 ,97夜夜澡人人双人人人喊

全新 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)構(gòu)筑阿里生成式 AI 云底座。

隨著生成式 AI 的熱潮席卷全球，用于訓(xùn)練生成式 AI 的大型高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施開(kāi)始受到客戶和行業(yè)的關(guān)注。這不僅僅是因?yàn)榫薮蟮氖袌?chǎng)潛力，更因?yàn)樯墒?AI 應(yīng)用對(duì)當(dāng)前網(wǎng)絡(luò)的技術(shù)與產(chǎn)品帶來(lái)的巨大挑戰(zhàn)。

由于生成式 AI 訓(xùn)練任務(wù)的特性，其對(duì)網(wǎng)絡(luò)的要求與傳統(tǒng)的 DC 網(wǎng)絡(luò)在多方面存在差異。主要體現(xiàn)在：

性能至上，對(duì)于網(wǎng)絡(luò)帶寬及通信效率的要求高，需要實(shí)現(xiàn)從 GPU 到網(wǎng)絡(luò)，再到其它 GPU 的端到端帶寬平衡，從而達(dá)到充分發(fā)揮集群訓(xùn)練性能的目的。

AI 網(wǎng)絡(luò)流量并發(fā)性高和突發(fā)性流量多，對(duì)于數(shù)據(jù)的完整性要求很高，依賴于 RDMA 轉(zhuǎn)發(fā)保證帶寬最大化和數(shù)據(jù)的完整性，降低對(duì) CPU 資源消耗。

模型并行加數(shù)據(jù)并行共存的通信機(jī)制導(dǎo)致對(duì)于網(wǎng)絡(luò)時(shí)延敏感，網(wǎng)絡(luò)中的任何額外的時(shí)延都可能影響數(shù)以百計(jì)的 GPU 之間的通信效率。

需要無(wú)收斂的網(wǎng)絡(luò)拓?fù)浔ＷC各種通信場(chǎng)景下的網(wǎng)絡(luò)帶寬沒(méi)有瓶頸。

由于傳統(tǒng)的網(wǎng)絡(luò)解決方案無(wú)法滿足這些需求，NVIDIA 依靠多年在 AI 和高速通信領(lǐng)域的積累，推出了 Spectrum-X 以太網(wǎng)解決方案，以推動(dòng)以太網(wǎng)技術(shù)可以更好地適配生成式 AI 基礎(chǔ)設(shè)施的要求。

NVIDIA Spectrum-X 是專為基于以太網(wǎng)的 AI 云提高性能和效率而設(shè)計(jì)的平臺(tái)。

NVIDIA Spectrum-X 依托于 NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)和 NVIDIA BlueField-3 DPU 的緊密結(jié)合，專為 AI 工作負(fù)載構(gòu)建了端到端的創(chuàng)新網(wǎng)絡(luò)平臺(tái)，大幅提升了以太網(wǎng)在大規(guī)模、可擴(kuò)展環(huán)境中的通信效率，并在多租戶環(huán)境中實(shí)現(xiàn)了一致的、可預(yù)測(cè)的性能，提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)還包括 Cumulus Linux、NetQ、Air 和 DOCA 加速軟件等，以及 NVIDIA 的 LinkX 系列線纜和光模塊產(chǎn)品，共同助力該網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)出色的性能。

NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)集成了 NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)、NVIDIA BlueField-3 DPU、NVIDIA LinkX 線纜及加速軟件和 SDK，通過(guò)無(wú)損以太網(wǎng)的端到端動(dòng)態(tài)路由、基于可編程擁塞控制的性能隔離技術(shù)等先進(jìn)的 RoCE 擴(kuò)展功能，構(gòu)建了一個(gè)專為 AI 云而優(yōu)化和加速的端到端高性能 400GbE 以太網(wǎng)絡(luò)。測(cè)試顯示，與傳統(tǒng)以太網(wǎng)相比，采用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)可將大規(guī)模 AI 工作負(fù)載的性能提高到 1.7 倍，并將網(wǎng)絡(luò)的有效通信帶寬提升到 1.6 倍。

NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)，實(shí)現(xiàn)了 GPU 到 GPU 直接的端到端加速和優(yōu)化，大幅減少了大規(guī)模生成式 AI 模型的運(yùn)行時(shí)間，提升了 GPU 的效率，優(yōu)化了 AI 平臺(tái)的總體擁有成本（TCO）和降低了基礎(chǔ)設(shè)施的整體功耗。同時(shí)，它還具有高度的通用性，有力地支撐了各種生成式 AI 應(yīng)用，由于它也是標(biāo)準(zhǔn)的以太網(wǎng)，實(shí)現(xiàn)了與已有的基于以太網(wǎng)堆棧的云架構(gòu)和云服務(wù)互通。

阿里云作為全球領(lǐng)先的云供應(yīng)商，擁有巨型的通用計(jì)算平臺(tái)。同時(shí)，阿里云也持續(xù)向加速計(jì)算領(lǐng)域擴(kuò)張，建成并持續(xù)擴(kuò)張以“PAI 靈駿”算力服務(wù)為代表大型的 GPU 集群。阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)從 2017 年開(kāi)始構(gòu)建端網(wǎng)融合的可預(yù)期高性能 RDMA 網(wǎng)絡(luò)架構(gòu)，過(guò)去幾年已經(jīng)在高性能存儲(chǔ)領(lǐng)域?qū)崿F(xiàn)了大規(guī)模部署，目前正在大規(guī)模 AI 計(jì)算領(lǐng)域持續(xù)創(chuàng)新迭代和規(guī)模部署，以適配 AI 計(jì)算對(duì)高性能網(wǎng)絡(luò)的訴求。阿里云也充分認(rèn)識(shí)到技術(shù)創(chuàng)新對(duì)以太網(wǎng)方案持續(xù)支持高性能網(wǎng)絡(luò)，尤其是生成式 AI 基礎(chǔ)設(shè)施的重要性。

為此，阿里云聯(lián)合 NVIDIA 對(duì) Spectrum-X 解決方案進(jìn)行測(cè)試，以評(píng)估新技術(shù)對(duì)高性能網(wǎng)絡(luò)的適應(yīng)能力。

測(cè)試的主要內(nèi)容和結(jié)果

阿里云測(cè)試環(huán)境配置

測(cè)試環(huán)境使用了 2 臺(tái) Spine 交換機(jī)，4 臺(tái) ToR 交換機(jī)，16 臺(tái) HGX GPU 服務(wù)器并配置了 NVIDIA BlueField-3 DPU，基于 NVIDIA 51.2T Spectrum-4 交換芯片的 SN5600，以太網(wǎng)交換機(jī)，支持 128*400G 或者 64*800G 端口。每臺(tái) GPU 服務(wù)器配置 8 張 BlueField-3 DPU，每 4 臺(tái) GPU 服務(wù)器為一組連接到一臺(tái) ToR 交換機(jī)，共 4 組連接到 4 臺(tái) ToR 交換機(jī)。ToR 交換機(jī)通過(guò) 200G 網(wǎng)絡(luò)連接到 BlueField-3 DPU，4 臺(tái) ToR 交換機(jī)通過(guò) 2 臺(tái) Spine 交換機(jī)連接在一起，構(gòu)成無(wú)阻塞胖樹(shù)網(wǎng)絡(luò)。

主要的測(cè)試內(nèi)容

這些測(cè)試由多個(gè)級(jí)別的工作負(fù)載組成，從簡(jiǎn)單到復(fù)雜：

RDMA 基準(zhǔn)性能測(cè)試，覆蓋帶寬和延遲。

孤立場(chǎng)景下的 All to All 和 All Reduce 集合通信測(cè)試，專注于 NCCL 性能基準(zhǔn)。

在共享資源和有背景噪聲環(huán)境下的性能測(cè)試。

故障場(chǎng)景的測(cè)試。

測(cè)試結(jié)果顯示，由于使用了端到端的逐包負(fù)載均衡優(yōu)化技術(shù)（Adaptive Routing）和零配置 RoCE 擁塞控制（ZTR CC）使得網(wǎng)絡(luò)利用率顯著提升，并顯著減少由于網(wǎng)絡(luò)擁塞和 In-Cast 問(wèn)題帶來(lái)的時(shí)延和抖動(dòng)。網(wǎng)絡(luò)帶寬利用率在各種測(cè)試場(chǎng)景下均可超過(guò) 90%。這種逐包負(fù)載均衡技術(shù)也可以對(duì)多種故障情況（本端和遠(yuǎn)端）做出響應(yīng)，合理地利用網(wǎng)絡(luò)內(nèi)的帶寬資源。在真實(shí)訓(xùn)練任務(wù)的測(cè)試過(guò)程中，Spectrum-X 可以降低 20% 以上的訓(xùn)練時(shí)間。在獲得這一切收益的同時(shí)，網(wǎng)絡(luò)的配置工作量大大降低，運(yùn)維人員不再需要進(jìn)行復(fù)雜的配置和頻繁的調(diào)優(yōu)工作。

這些測(cè)試結(jié)果表明 NVIDIA Spectrum-X 加速網(wǎng)絡(luò)平臺(tái)的突破性技術(shù)可大幅提升大規(guī)模生成式 AI 工作負(fù)載的性能，并大幅縮短生成式 AI 模型的運(yùn)行時(shí)間。

通過(guò)采用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)，客戶可進(jìn)一步為千行百業(yè)的客戶提供具有性能和成本優(yōu)勢(shì)的生成式 AI 云服務(wù)，將 AI 通用大模型和行業(yè)大模型賦能和融合各種應(yīng)用場(chǎng)景。NVIDIA 和阿里云的開(kāi)發(fā)人員將基于 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)的加速軟件和 SDK 進(jìn)一步在虛擬化、定制化可編程擁塞控制、遙測(cè)、快速故障響應(yīng)等方面展開(kāi)合作，推動(dòng)這一新解決方案的進(jìn)一步發(fā)展和應(yīng)用。

針對(duì)這一聯(lián)合測(cè)試，阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)研發(fā)事業(yè)部總經(jīng)理蔡德忠表示：“高性能網(wǎng)絡(luò)技術(shù)是 AI 計(jì)算 Scaling Law 的關(guān)鍵所在，這個(gè)領(lǐng)域需要持續(xù)不斷的創(chuàng)新迭代，阿里云始終堅(jiān)持網(wǎng)絡(luò)的開(kāi)放性，也是網(wǎng)絡(luò)開(kāi)源生態(tài)的領(lǐng)導(dǎo)者和積極貢獻(xiàn)者，阿里云與 NVIDIA 在 AI 計(jì)算和高性能存儲(chǔ)領(lǐng)域合作多年，將持續(xù)探索創(chuàng)新基于 Open Ethernet 的高性能網(wǎng)絡(luò)方案，助力 AI 計(jì)算集群的大規(guī)模高效擴(kuò)展?！?/p>

NVIDIA 網(wǎng)絡(luò)高級(jí)副總裁 Gilad Shainer表示：“生成式 AI（Generative AI）是面向下一代業(yè)務(wù)需求的典型代表，為了支撐成千上萬(wàn)的用戶的需求，生成式 AI 云需要先進(jìn)及可靠的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)滿足各種 AI 業(yè)務(wù)的平滑增長(zhǎng)。阿里云和 NVIDIA 在 Spectrum-X 以太網(wǎng)平臺(tái)上的策略合作，可以充分利用 Spectrum-X 的先進(jìn)路由技術(shù)和云上業(yè)務(wù)性能隔離技術(shù)，使阿里云及其廣大用戶可以盡情享受生成式 AI 的服務(wù)?！?/p>

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

以太網(wǎng)

以太網(wǎng)

+關(guān)注

關(guān)注
40

文章
5427

瀏覽量
171788
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4990

瀏覽量
103117
交換機(jī)

交換機(jī)

+關(guān)注

關(guān)注
21

文章
2641

瀏覽量
99680
光模塊

光模塊

+關(guān)注

關(guān)注
77

文章
1269

瀏覽量
59026
GPU芯片

GPU芯片

+關(guān)注

關(guān)注
1

文章
303

瀏覽量
5821

原文標(biāo)題：全新 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)構(gòu)筑阿里生成式 AI 云底座

文章出處：【微信號(hào)：Leadtek，微信公眾號(hào)：麗臺(tái)科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 開(kāi)發(fā)了一個(gè)全新的生成式 AI 模型。利用輸入的文本和音頻，該模型可以創(chuàng)作出包含任意的音樂(lè)、人聲和聲音組合的作品。

發(fā)表于 11-27 11:29 ?361次閱讀

NVIDIA助力xAI打造全球最大AI超級(jí)計(jì)算機(jī)

NVIDIA 宣布，xAI 位于田納西州孟菲斯市的Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬(wàn)顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了NVIDIA Spectru

發(fā)表于 10-30 11:38 ?382次閱讀

NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

市的 Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬(wàn)顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡(luò)

發(fā)表于 10-30 09:33 ?157次閱讀

NVIDIA新增生成式AI就緒系統(tǒng)認(rèn)證類別

借助全新的 NVIDIA Spectrum-X Ready 和 NVIDIA IGX 認(rèn)證，領(lǐng)先的制造業(yè)合作伙伴將提供高性能系統(tǒng)，幫助客戶輕松部署

發(fā)表于 10-10 09:44 ?383次閱讀

NVIDIA AI助力SAP生成式AI助手Joule加速發(fā)展

在美國(guó)佛羅里達(dá)州奧蘭多舉行的 SAP Sapphire 大會(huì)上，NVIDIA 與這家企業(yè)軟件公司公布了搭載NVIDIA AI Enterprise軟件的生成

發(fā)表于 09-09 09:37 ?449次閱讀

簡(jiǎn)單認(rèn)識(shí)NVIDIA網(wǎng)絡(luò)平臺(tái)

NVIDIA Spectrum-X800 平臺(tái)是業(yè)界第一代 800Gb/s 的以太網(wǎng)網(wǎng)絡(luò)平臺(tái)，包括了 N

發(fā)表于 09-09 09:22 ?438次閱讀

應(yīng)用NVIDIA Spectrum-X網(wǎng)絡(luò)構(gòu)建新型主權(quán)AI云

法國(guó)云服務(wù)提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái) 構(gòu)建區(qū)域性 G

發(fā)表于 07-26 18:58 ?1184次閱讀

NVIDIA宣布全面推出 NVIDIA ACE 生成式 AI 微服務(wù)

采用 NVIDIA 宣布全面推出 NVIDIA ACE 生成式 AI 微服務(wù)，以加速新一代數(shù)字人的發(fā)展，并將在

發(fā)表于 06-04 10:18 ?670次閱讀

NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)已被業(yè)界廣泛使用

平臺(tái)已被業(yè)界廣泛使用，并且將進(jìn)一步加快新品發(fā)布計(jì)劃。 Spectrum-X 是全球首款專為 AI 打造的以太網(wǎng)網(wǎng)絡(luò)平臺(tái)，可將

發(fā)表于 06-03 18:20 ?978次閱讀

NVIDIA AI Enterprise榮獲金獎(jiǎng)

NVIDIA AI Enterprise、GH200 Grace Hopper 超級(jí)芯片和 Spectrum-X 在 COMPUTEX 2024 獲得認(rèn)可。

發(fā)表于 05-29 09:27 ?456次閱讀

NVIDIA Spectrum-X助力IBM為AI Cloud提供高性能底座

在混合云與 AI 的時(shí)代，企業(yè)和組織需要?jiǎng)?chuàng)建、分析和保存海量的數(shù)據(jù)，在分布式的應(yīng)用環(huán)境中會(huì)形成各種各樣的數(shù)據(jù)孤島，導(dǎo)致復(fù)雜系統(tǒng)難以管理，成本不斷增加。

發(fā)表于 05-08 09:27 ?443次閱讀

NVIDIA Edify為視覺(jué)內(nèi)容提供商帶來(lái)3D生成式AI和全新圖像控件

用于視覺(jué)生成式 AI 的多模態(tài)架構(gòu) NVIDIA Edify 正在邁入全新維度。

發(fā)表于 03-26 09:49 ?796次閱讀

NVIDIA發(fā)布專為大規(guī)模AI量身訂制的全新網(wǎng)絡(luò)交換機(jī)-X800系列

NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)和 NVIDIA Spectrum?-

發(fā)表于 03-20 09:54 ?513次閱讀

NVIDIA 發(fā)布全新交換機(jī)，全面優(yōu)化萬(wàn)億參數(shù)級(jí) GPU 計(jì)算和 AI 基礎(chǔ)設(shè)施

圣何塞 —— GTC —— 太平洋時(shí)間 2024 年 3 月 18 日 —— NVIDIA 發(fā)布專為大規(guī)模 AI 量身訂制的全新網(wǎng)絡(luò)交換機(jī) - X800 系列。 ?

發(fā)表于 03-19 10:05 ?345次閱讀

NVIDIA生成式AI開(kāi)啟藥物研發(fā)與設(shè)計(jì)的新紀(jì)元

NVIDIA BioNeMo 現(xiàn)已提供十余個(gè)生成式 AI 模型以及云服務(wù)，正在推動(dòng)計(jì)算機(jī)輔助藥物發(fā)現(xiàn)生態(tài)系統(tǒng)的發(fā)展。

發(fā)表于 01-10 16:00 ?540次閱讀