AI大模型的迅猛發(fā)展,使得網(wǎng)絡(luò)基礎(chǔ)設(shè)施技術(shù)的進(jìn)步速度超乎想象。產(chǎn)業(yè)鏈上的每一個(gè)環(huán)節(jié)都需緊密追蹤AI驅(qū)動(dòng)的技術(shù)革新,并據(jù)此進(jìn)行同步的創(chuàng)新升級(jí)。
AI網(wǎng)絡(luò)的Scale-up正在上演一場熱烈的軍備賽,業(yè)界正在呼喚更統(tǒng)一開放的GPU計(jì)算卡互聯(lián)標(biāo)準(zhǔn),從而打破NVIDIA主導(dǎo)的NVLink以及其所構(gòu)建的強(qiáng)大的HBD 網(wǎng)絡(luò)架構(gòu)的護(hù)城河。NVLink 是一種“多節(jié)點(diǎn)無損網(wǎng)絡(luò)”的代表,由一個(gè)強(qiáng)大的軟件協(xié)議組成,通常通過印在計(jì)算機(jī)板上的多對導(dǎo)線實(shí)現(xiàn),可以讓處理器以極高的速度收發(fā)共享內(nèi)存池中的數(shù)據(jù)。NVLink 的主要設(shè)計(jì)目的,就是突破PCIe的屏障,達(dá)成GPU-GPU及CPU-GPU的片間高效數(shù)據(jù)交互。
(來源: NVIDIA)
目前NVLink已經(jīng)升級(jí)到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系統(tǒng)的可擴(kuò)展性。單個(gè) NVIDIA Blackwell Tensor Core GPU 支持多達(dá) 18 個(gè) NVLink 100 GB/s 連接,總帶寬可達(dá) 1.8 TB/s,比上一代產(chǎn)品提高了兩倍,是 PCIe 5.0 帶寬的 14 倍之多。
如今討論Scale-up網(wǎng)絡(luò)已經(jīng)不僅提及NVIDIA的NVLink,無論是國際還是國內(nèi),行業(yè)更多的是在找尋一種更加緊密連接的集群組網(wǎng),這種緊密耦合所形成的計(jì)算系統(tǒng)將有助于推動(dòng)以GPU為核心的AI網(wǎng)絡(luò)獲得極高的帶寬與極低的延遲。
01超帶寬域(HBD)成為
業(yè)內(nèi)技術(shù)探索新領(lǐng)域
大模型時(shí)代,需要更大的模型并行規(guī)模,模型并行中Tensor并行或MOE類型的Expert并行都會(huì)在GPU之間產(chǎn)生大量的通信,當(dāng)前典型一機(jī)8卡服務(wù)器限制了Tensor并行的規(guī)?;駿xpert并行通過機(jī)間網(wǎng)絡(luò)。由此業(yè)界開始探索一種以超帶寬(HB)互聯(lián)GPU-GPU的系統(tǒng),又稱HBD(High Bandwidth Domain)。通過構(gòu)建更大的HBD系統(tǒng),以Scale-up方式提升系統(tǒng)算力是解決萬卡到十萬卡集群以上互聯(lián)挑戰(zhàn)的有效途徑之一。
于是NVIDIA的暴力美學(xué)再度彰顯,以其強(qiáng)大的計(jì)算能力繼續(xù)發(fā)揮著引領(lǐng)HBD技術(shù)趨勢的威力。NVIDIA將HB互聯(lián)擴(kuò)展至GPU片間通信之外的領(lǐng)域,將其應(yīng)用到GPU-CPU/Memory之間的超大帶寬互聯(lián),例如GH200、GB200產(chǎn)品。借助NVLink-C2C技術(shù)的創(chuàng)新,為GPU提供一個(gè)超帶寬訪問CPU/Memory的能力。
NVIDIA的GB200NVL72服務(wù)器產(chǎn)品體現(xiàn)了典型的超大HBD域系統(tǒng),實(shí)現(xiàn)了36組GB200(36個(gè)Grace CPU,72個(gè)B200 GPU)之間的超高帶寬互聯(lián)。一個(gè)NVL72機(jī)架服務(wù)器內(nèi)部共有18個(gè)Compute Tray和9個(gè)Switch Tray。
(來源:Semianalysis)
上圖右側(cè)是另外一種NVIDIA的Scale-up HBD 組網(wǎng)形態(tài):GB200 NVL36 * 2,它把兩個(gè)并排的機(jī)架互聯(lián)在一起。大多數(shù) GB200 機(jī)架都將使用此外形規(guī)格。每個(gè)機(jī)架包含 18 個(gè) Grace CPU 和 36 個(gè) Blackwell GPU。在 2 個(gè)機(jī)架之間,它仍然在 NVL72 中的所有 72 個(gè) GPU 之間保持非阻塞全對全。每個(gè)Compute Tray(高度為2U )包含 2 個(gè) Bianca 板。每個(gè) NVSwitch Tray都有兩個(gè) 28.8Tb/s NVSwitch5 ASIC 芯片。
(來源:Semianalysis)
更夸張的是,黃仁勛表示GB200 NVLink 可以同時(shí)連接到 576 個(gè) Blackwell GPU。據(jù)Semianalysis調(diào)研,該網(wǎng)絡(luò)系統(tǒng)使用具有 18 個(gè)平面的 2 層胖樹拓?fù)鋪硗瓿伞_@意味著NVIDIA計(jì)劃讓 DGX H100 NVL256 連接 16 個(gè) NVL36 機(jī)架。NVL576形成一個(gè)超級(jí)大的GPU HBD域,則包含288個(gè)GB200 GPU,576個(gè)B200 GPU。
據(jù)悉,該系統(tǒng)形態(tài)的互聯(lián)已經(jīng)超過銅纜能夠?qū)崿F(xiàn)的物理連接距離,必須使用光纖連接,這意味著需要花費(fèi)相當(dāng)昂貴的成本來實(shí)現(xiàn)極高的加速卡帶寬。
事實(shí)上,超帶寬域的穩(wěn)定運(yùn)行并非易事,其復(fù)雜性不僅體現(xiàn)在網(wǎng)絡(luò)和計(jì)算層面,還包括服務(wù)器機(jī)架的能耗管理、液冷散熱技術(shù)、以及機(jī)架間光模塊與光纜的通信效率等眾多挑戰(zhàn)。這些問題的解決非一家企業(yè)能夠獨(dú)立完成,它需要數(shù)據(jù)中心產(chǎn)業(yè)鏈的上下游運(yùn)用集體的智慧來共同突破,以實(shí)現(xiàn)高達(dá)十萬個(gè)以上的加速卡的互聯(lián)。
02產(chǎn)業(yè)鏈集體對抗
英偉達(dá)的暴力美學(xué)
上個(gè)月底, AMD、AWS、Astera Labs、思科、谷歌、惠普企業(yè) (HPE)、英特爾、Meta 和微軟等九大董事會(huì)成員聯(lián)合宣布,由其主導(dǎo)的UALink 聯(lián)盟宣布正式成立,目前已經(jīng)對行業(yè)開放成員邀請。
Ultra Accelerator Link(UALink) 是一種用于GPU加速卡間通信的開放行業(yè)標(biāo)準(zhǔn)化互聯(lián)。UALink 聯(lián)盟是一個(gè)開放的行業(yè)標(biāo)準(zhǔn)組織,旨在制定Scale-up互聯(lián)技術(shù)規(guī)范,以促進(jìn) AI 加速卡(即 GPU)之間的高效互聯(lián)。該技術(shù)規(guī)范定義了一種創(chuàng)新的I/O架構(gòu),單通道可達(dá)200 Gbps傳輸速率,支持最多1024個(gè)AI加速卡互連。相比傳統(tǒng)以太網(wǎng)(Ethernet)架構(gòu),UALink在性能和GPU互聯(lián)規(guī)模上都具有優(yōu)勢,互聯(lián)規(guī)模更是大幅超越NVIDIA NVLink技術(shù)。
UALink 1.0 規(guī)范可以利用開發(fā)和部署了各種加速卡和交換機(jī)的推廣者成員的經(jīng)驗(yàn)。
UALink 聯(lián)盟總裁 Willie Nelson 表示:“UALink 標(biāo)準(zhǔn)定義了數(shù)據(jù)中心內(nèi)擴(kuò)展 AI 系統(tǒng)的高速、低延遲通信。我們鼓勵(lì)有興趣的公司以貢獻(xiàn)者成員的身份加入,以支持我們的使命:為 AI 工作負(fù)載建立開放且高性能的加速卡互聯(lián)。”預(yù)計(jì)UALink 1.0規(guī)范將在2025年第一季度發(fā)布,這與UEC超以太聯(lián)盟1.0規(guī)范的發(fā)布節(jié)奏同步。
國內(nèi):AI網(wǎng)絡(luò)生態(tài)聯(lián)盟百花齊放
國內(nèi)AI網(wǎng)絡(luò)生態(tài)圈高度關(guān)注Scale-up互聯(lián)領(lǐng)域的發(fā)展,在短短幾個(gè)月內(nèi),以中國移動(dòng)、阿里云及騰訊云等巨頭電信運(yùn)營商及云廠商分別引領(lǐng)的Scale-up互聯(lián)生態(tài) OISA、ALink System以及ETH-X超節(jié)點(diǎn)等技術(shù)規(guī)范旨在推動(dòng)國內(nèi)智算中心互聯(lián)生態(tài)的快速發(fā)展。
OISA全向智感互聯(lián)
由中國移動(dòng)引領(lǐng)的OISA主要包括四大設(shè)計(jì)理念,包括“大規(guī)模GPU對等互聯(lián)”、“極致報(bào)文格式”、“數(shù)據(jù)層流控和重傳”以及“高效物理傳輸”,核心思想是為GPU卡間互聯(lián)提供開放的高帶寬、低時(shí)延解決方案。此前在6月份的多樣性算力產(chǎn)業(yè)峰會(huì)上,中國移動(dòng)重點(diǎn)展示了“OISA G1協(xié)議”并推出“OISA交換芯片原型”。
OISA G1的設(shè)計(jì)規(guī)格支持128張GPU通過8個(gè)Switch芯片互聯(lián),任意卡間點(diǎn)對點(diǎn)帶寬達(dá)到800GB/s,每個(gè)Switch芯片支持128個(gè)端口,芯片總速率達(dá)到51.2T。奇異摩爾目前已經(jīng)是OISA聯(lián)盟的成員,公司積極聯(lián)動(dòng)運(yùn)營商、GPU廠商、交換機(jī)及服務(wù)器領(lǐng)域的優(yōu)秀生態(tài)伙伴、共同推進(jìn)國內(nèi)GPU卡間互聯(lián)標(biāo)準(zhǔn)的建立與實(shí)施。
ALink System 加速器互連系統(tǒng)
ALS產(chǎn)業(yè)生態(tài)是業(yè)界首個(gè)支持UALink成立的產(chǎn)業(yè)生態(tài),旨在解決AI網(wǎng)絡(luò)縱向擴(kuò)展(Scale-up)中的超高速、超大帶寬等技術(shù)難題,為下一代智算網(wǎng)絡(luò)打造開放的、統(tǒng)一的標(biāo)準(zhǔn)規(guī)范。在今年9月召開的2024 ODCC開放數(shù)據(jù)中心大會(huì)上, 阿里云聯(lián)合信通院、奇異摩爾等十多家業(yè)界合作伙伴發(fā)起了ALS(ALink System,加速器互連系統(tǒng))開放生態(tài)系統(tǒng)。
依托于ODCC(開放數(shù)據(jù)中心委員會(huì))下設(shè)的ALS工作組,生態(tài)成員們攜手聚焦解決GPU卡間互聯(lián)系統(tǒng)的行業(yè)發(fā)展和規(guī)范問題,推動(dòng)Scale-up互連系統(tǒng)標(biāo)準(zhǔn)統(tǒng)一建設(shè),打造下一代AI互連網(wǎng)絡(luò)軟硬件系統(tǒng)。目前,ALS已形成從協(xié)議到芯片、從硬件設(shè)備到軟件平臺(tái)的系統(tǒng)體系,在ALS-D數(shù)據(jù)面支持UALink,在ALS-M管控面提供統(tǒng)一接口規(guī)范和管控軟件平臺(tái)。
ETH-X超節(jié)點(diǎn)
ETH-X超節(jié)點(diǎn)聯(lián)盟選擇以太網(wǎng)為基礎(chǔ)設(shè)施作為GPU超節(jié)點(diǎn)項(xiàng)目的首選原型方案。以太網(wǎng)技術(shù)(ETH)作為當(dāng)前最成熟、最開放的網(wǎng)絡(luò)技術(shù),具有最大交換芯片容量、最高速Serdes技術(shù)、200ns交換芯片、最多參與企業(yè)的特點(diǎn),并且已經(jīng)是當(dāng)前眾多GPU廠商選擇的Scale-up接口技術(shù)。
據(jù)悉,超節(jié)點(diǎn)目前已完成Computer-Cable-Switch開放解偶架構(gòu)設(shè)計(jì),保證超節(jié)點(diǎn)系統(tǒng)的硬件可以由不同專業(yè)領(lǐng)域廠家獨(dú)立研發(fā)生產(chǎn),并確保了各子系統(tǒng)硬件可集成互通。系統(tǒng)解偶后,各子系統(tǒng)均具有兼容多種GPU芯片、多種Switch芯片及其獨(dú)立演進(jìn)的能力,由此充分保證了GPU超節(jié)點(diǎn)系統(tǒng)參與廠家的專業(yè)性、多樣性和開放性。
正如之前我們所提及的加速卡間HBD的挑戰(zhàn),ETH-X以太超節(jié)點(diǎn)系統(tǒng)也面臨著集成測試、系統(tǒng)運(yùn)維、協(xié)議設(shè)計(jì)、業(yè)務(wù)測試等一些列的技術(shù)挑戰(zhàn)。這一系列的問題需要業(yè)界充分協(xié)作,共同努力在現(xiàn)有開放生態(tài)基礎(chǔ)上不斷完善、加速GPU超節(jié)點(diǎn)系統(tǒng)的成熟與發(fā)展。
奇異摩爾自研的網(wǎng)絡(luò)加速芯粒GPU Link Chiplet——NDSA-G2G,以其極高的靈活性和可擴(kuò)展性為Scale-up互聯(lián)生態(tài)提供了強(qiáng)有力的支撐。該產(chǎn)品基于可編程眾核流式架構(gòu),支持用戶自定義的協(xié)議和處理格式。通過將Chiplet芯粒集成在GPU加速卡內(nèi),并利用UCIe D2D接口與GPU互聯(lián),NDSA-G2G能夠?qū)崿F(xiàn)高性能的數(shù)據(jù)流,從而全面加速分布式計(jì)算網(wǎng)絡(luò)。
“據(jù)中國IDC圈不完全統(tǒng)計(jì),目前國內(nèi)不同建設(shè)階段的智算中心項(xiàng)目已超過500個(gè),其中投產(chǎn)運(yùn)營的項(xiàng)目160個(gè),開工在建項(xiàng)目超過200個(gè)。智算中心的建設(shè)可謂是如火如荼,其發(fā)展關(guān)乎到區(qū)域經(jīng)濟(jì)的發(fā)展和產(chǎn)業(yè)布局的未來?!?/p>
AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施作為智算中心的重要基石,直接決定了智算中心的能力、效率、可靠性和安全性。從芯片、交換機(jī)、網(wǎng)卡、光模塊到其他IT硬件設(shè)備,每一個(gè)組件都不可或缺,共同構(gòu)成了一套跨尺度、多層次的復(fù)雜系統(tǒng)工程。
奇異摩爾期待未來行業(yè)能夠擁抱一種開放而統(tǒng)一的物理接口,產(chǎn)業(yè)鏈通過標(biāo)準(zhǔn)制定、軟硬件結(jié)合等方面的協(xié)同最終實(shí)現(xiàn)以太網(wǎng)為基礎(chǔ)的Scale-up網(wǎng)絡(luò)和Scale-out網(wǎng)絡(luò)的融合,從而構(gòu)建一個(gè)更加高效、靈活的智算網(wǎng)絡(luò)架構(gòu),為國內(nèi)智算中心的發(fā)展釋放無限可能。
關(guān)于我們
AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計(jì)算平臺(tái)量身打造,以滿足其對高性能互聯(lián)的嚴(yán)苛需求。
我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計(jì)算提供了堅(jiān)實(shí)的支撐。
奇異摩爾的核心團(tuán)隊(duì)匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗(yàn),致力于推動(dòng)技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊(duì)擁有超過50個(gè)高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn),為公司的產(chǎn)品和服務(wù)提供了強(qiáng)有力的技術(shù)保障。我們的使命是支持一個(gè)更具創(chuàng)造力的芯世界,愿景是讓計(jì)算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動(dòng)力,技術(shù)探索新場景,生態(tài)構(gòu)建新的半導(dǎo)體格局,為高性能AI計(jì)算奠定穩(wěn)固的基石。
-
處理器
+關(guān)注
關(guān)注
68文章
19372瀏覽量
230430 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5047瀏覽量
103333 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7586瀏覽量
88996 -
AI
+關(guān)注
關(guān)注
87文章
31234瀏覽量
269595
原文標(biāo)題:Kiwi Talks | Scale-up 軍備賽愈演愈烈,集體對抗英偉達(dá)的暴力美學(xué)
文章出處:【微信號(hào):奇異摩爾,微信公眾號(hào):奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論