在AI大模型時代,隨著模型參數(shù)量與訓練集規(guī)模的爆炸性增長,單純依賴GPU單體算力的提升已難以滿足需求,業(yè)界焦點逐漸轉(zhuǎn)向系統(tǒng)架構(gòu)層面的革新,其中,作為底層核心技術的網(wǎng)絡成為了突破的關鍵。全球科技巨頭正競相研發(fā)相關產(chǎn)品技術,AI網(wǎng)絡技術的競爭日益激烈。
在“2024開放計算中國峰會”上,英偉達網(wǎng)絡高級總監(jiān)宋慶春揭示了AI網(wǎng)絡的四大核心技術支柱:端到端RDMA流量動態(tài)路由、AI云業(yè)務性能隔離、網(wǎng)絡計算以及網(wǎng)絡數(shù)字孿生,這些技術共同構(gòu)成了推動AI云環(huán)境性能飛躍的基石。
為助力客戶在云端高效構(gòu)建生成式AI及AI工作負載,英偉達推出了其創(chuàng)新的網(wǎng)絡平臺——NVIDIA Spectrum-X加速以太網(wǎng)平臺。這一平臺并非孤立產(chǎn)品,而是集成了Spectrum-4以太網(wǎng)交換機、BlueField-3 DPU、LinkX線纜及模塊,以及配套軟件,共同為生成式AI在云端提供了前所未有的規(guī)?;芰Α?/p>
Spectrum-X平臺的亮點之一在于其動態(tài)路由技術。面對數(shù)據(jù)中心算力結(jié)構(gòu)向生成式AI云轉(zhuǎn)型的趨勢,英偉達設計了專為AI優(yōu)化的以太網(wǎng)絡,其中端到端RDMA流量動態(tài)路由技術尤為引人注目。該技術將網(wǎng)絡傳輸效率較傳統(tǒng)以太網(wǎng)絡提升了1.6倍,通過端網(wǎng)協(xié)同有效緩解了網(wǎng)絡擁塞問題。RDMA技術直接在網(wǎng)絡層面實現(xiàn)數(shù)據(jù)從源系統(tǒng)到目標系統(tǒng)存儲區(qū)的快速傳輸,無需操作系統(tǒng)介入,大幅減少了內(nèi)存復制和上下文切換的開銷,從而釋放了更多內(nèi)存帶寬和CPU資源用于提升應用性能。
性能隔離技術則是另一項關鍵創(chuàng)新。在AI云環(huán)境中,多租戶多任務并行運行是常態(tài),如何確保各任務間既相互隔離又保持高性能,成為一大挑戰(zhàn)。英偉達將InfiniBand上成熟的性能隔離技術引入Spectrum-X平臺,通過先進的擁塞控制技術,有效避免了單一AI應用突發(fā)通信導致的網(wǎng)絡擁塞對其他應用性能的影響,實現(xiàn)了以太網(wǎng)云上業(yè)務的高性能隔離。
網(wǎng)絡計算作為分布式計算的一種形式,通過在網(wǎng)絡節(jié)點間分配和協(xié)同計算任務,不僅提升了數(shù)據(jù)處理和傳輸?shù)男?,還增強了數(shù)據(jù)的安全性和并發(fā)訪問能力。這對于解決生成式AI云面臨的資源利用率、長尾問題以及多任務調(diào)度等挑戰(zhàn)具有重要意義。
最后,網(wǎng)絡數(shù)字孿生技術為AI云網(wǎng)絡的運維和優(yōu)化提供了全新視角。通過構(gòu)建物理網(wǎng)絡的虛擬鏡像,運營商可以在不干擾實際網(wǎng)絡運行的情況下,進行方案模擬、選擇、優(yōu)化和測試,大大降低了部署成本和風險。同時,結(jié)合大數(shù)據(jù)處理和建模技術,網(wǎng)絡數(shù)字孿生還能實現(xiàn)現(xiàn)狀評估、歷史診斷和未來預測,為網(wǎng)絡運維提供更為全面和精準的決策支持。
綜上所述,英偉達Spectrum-X平臺及其所代表的AI網(wǎng)絡技術,正引領著AI云環(huán)境向更高效、更靈活、更智能的方向發(fā)展。
-
gpu
+關注
關注
28文章
4739瀏覽量
128941 -
網(wǎng)絡
+關注
關注
14文章
7565瀏覽量
88777 -
AI
+關注
關注
87文章
30887瀏覽量
269068
發(fā)布評論請先 登錄
相關推薦
評論