NVIDIA 研究人員創(chuàng)建了可以疏通計(jì)算機(jī)網(wǎng)絡(luò)擁堵的 AI 模型,該模型很快就會(huì)出現(xiàn)在大眾附近的數(shù)據(jù)中心。
Gal Dalal 希望為居家辦公或在辦公室工作的人緩解網(wǎng)絡(luò)壓力。
這位 NVIDIA 高級(jí)研究科學(xué)家是以色列一所 10 人實(shí)驗(yàn)室的成員,他正在使用 AI 減少計(jì)算機(jī)網(wǎng)絡(luò)的擁堵。
對(duì)于筆記本電腦用戶來(lái)說(shuō),如果看到屏幕上出現(xiàn)不停轉(zhuǎn)動(dòng)的圈圈,甚至無(wú)法移動(dòng)光標(biāo),那就像在高速路上遇到一片紅海那樣糟糕。如同在交通高峰期,大批旅客想要快速到達(dá)某地,他們?cè)谕局谢ハ鄵頂D,有時(shí)還會(huì)發(fā)生碰撞。
站在交叉路口的 AI
網(wǎng)絡(luò)使用擁塞控制來(lái)管理數(shù)字通信業(yè)務(wù)量。擁塞控制本質(zhì)上是嵌入到網(wǎng)絡(luò)適配器和交換機(jī)中的規(guī)則,但隨著網(wǎng)絡(luò)上用戶數(shù)量的增加,用戶之間的沖突可能變得過(guò)于復(fù)雜而難以預(yù)測(cè)。
AI 可以發(fā)現(xiàn)模式的發(fā)展過(guò)程并作出響應(yīng),因此有望成為更好的“交警”。這就是為什么 Dalal 與世界各地的許多研究人員一起尋找通過(guò)強(qiáng)化學(xué)習(xí)使網(wǎng)絡(luò)變得更加智能的方法。強(qiáng)化學(xué)習(xí)是當(dāng)模型找到好的解決方案時(shí),會(huì)對(duì)它們進(jìn)行獎(jiǎng)勵(lì)的 AI。
但直到現(xiàn)在,出于種種原因,還沒(méi)有人能夠想出實(shí)用的方法。
與時(shí)間賽跑
網(wǎng)絡(luò)需要既高效又公平,這樣才不會(huì)有忽略任何請(qǐng)求。這種平衡很難達(dá)成,因?yàn)樵跀?shù)字“道路”上,沒(méi)有任何“司機(jī)”可以看到其他“司機(jī)”不斷變化的軌跡和預(yù)定目的地。
這也是與時(shí)間賽跑的比賽。為了發(fā)揮作用,網(wǎng)絡(luò)需要在大約一微秒(即百萬(wàn)分之一秒)的時(shí)間內(nèi)對(duì)情況做出反應(yīng)。
為了使網(wǎng)絡(luò)交通變得順暢,NVIDIA 團(tuán)隊(duì)受到先進(jìn)計(jì)算機(jī)游戲 AI 的啟發(fā),創(chuàng)造了新的強(qiáng)化學(xué)習(xí)技術(shù)并將其應(yīng)用于網(wǎng)絡(luò)問(wèn)題。
NVIDIA 在 2021 年的論文中描述了他們的突破性進(jìn)展,包括提出使用算法和相應(yīng)的獎(jiǎng)勵(lì)函數(shù)來(lái)創(chuàng)造平衡的網(wǎng)絡(luò),單個(gè)網(wǎng)絡(luò)流可用的本地信息是此網(wǎng)絡(luò)的唯一基礎(chǔ)。憑借該算法,團(tuán)隊(duì)在其 NVIDIA DGX 系統(tǒng)上創(chuàng)建、訓(xùn)練并運(yùn)行了 AI 模型。
效果驚人
Dalal 回憶道,在那次會(huì)議上,來(lái)自 NVIDIA 的 Chen Tessler 用圖表展示了該模型在模擬的 InfiniBand 數(shù)據(jù)中心網(wǎng)絡(luò)上的運(yùn)行結(jié)果。
Dalal 表示:“我們當(dāng)時(shí)覺(jué)得效果十分顯著?!彼谝陨兄募夹g(shù)大學(xué),以色列理工學(xué)院(Technion)寫(xiě)過(guò)關(guān)于強(qiáng)化學(xué)習(xí)的博士論文。
他還認(rèn)為:“特別驚喜的在于我們只在 32 個(gè)網(wǎng)絡(luò)流上訓(xùn)練模型,它很好地概括了所學(xué),以管理 8000 多個(gè)包含各種復(fù)雜情況的網(wǎng)絡(luò)流,因此這個(gè)機(jī)器比預(yù)先制定的規(guī)則更有效。”
在 NVIDIA 的測(cè)試中,強(qiáng)化學(xué)習(xí)(紫色)的表現(xiàn)優(yōu)于所有基于規(guī)則的擁塞控制算法
事實(shí)上,與最好的基于規(guī)則的技術(shù)相比,該算法的吞吐量至少提高了 1.5 倍,延遲降低了 4 倍。
自該論文發(fā)布以來(lái),這項(xiàng)工作由于展現(xiàn)了強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)世界中的應(yīng)用潛力而贏得了贊譽(yù)。
在網(wǎng)絡(luò)中處理 AI
下一個(gè)重要的步驟仍然是正在進(jìn)行中的工作——設(shè)計(jì) AI 模型版本,它可以使用網(wǎng)絡(luò)中有限的算力和內(nèi)存資源以微秒級(jí)速度運(yùn)行。Dalal 描繪了兩個(gè)前進(jìn)方向。
Dalal 的團(tuán)隊(duì)正在與設(shè)計(jì) NVIDIA BlueField DPU 的工程師一起優(yōu)化用于未來(lái)硬件的 AI 模型。BlueField DPU 的目標(biāo)是在網(wǎng)絡(luò)內(nèi)運(yùn)行不斷擴(kuò)展的通信作業(yè),從負(fù)擔(dān)過(guò)重的 CPU 上卸載任務(wù)。
另外, Dalal 的團(tuán)隊(duì)正在將 AI 模型的精髓提煉成名為提升樹(shù)的機(jī)器學(xué)習(xí)技術(shù)。提升樹(shù)由一系列“是”與“否”的決策組成,它同樣十分智能,但運(yùn)行起來(lái)更簡(jiǎn)單。該團(tuán)隊(duì)的目標(biāo)是在今年晚些時(shí)候以能夠立即用來(lái)緩解網(wǎng)絡(luò)流量的形式展示其工作。
及時(shí)的“交通”解決方案
目前,Dalal 已經(jīng)將強(qiáng)化學(xué)習(xí)應(yīng)用于從自動(dòng)駕駛汽車到數(shù)據(jù)中心冷卻和芯片設(shè)計(jì)等各個(gè)領(lǐng)域。當(dāng) NVIDIA 于 2020 年 4 月 NVIDIA 收購(gòu) Mellanox 時(shí),這位 NVIDIA 以色列研究員開(kāi)始與附近網(wǎng)絡(luò)組的新同事進(jìn)行合作。
Dalal 表示:“將 AI 算法應(yīng)用于 NVIDIA 擁堵控制團(tuán)隊(duì)的工作十分有意義。兩年后的今天,這項(xiàng)研究變得更加成熟了?!?/p>
而時(shí)機(jī)也已經(jīng)成熟。最近的報(bào)道顯示,從疫情爆發(fā)前到現(xiàn)在,以色列路上的汽車數(shù)量出現(xiàn)了兩位數(shù)增長(zhǎng),這可能會(huì)鼓勵(lì)更多的人在家辦公,網(wǎng)絡(luò)會(huì)變得更加擁堵。
幸運(yùn)的是,AI “交警”正在趕赴崗位。
原文標(biāo)題:數(shù)據(jù)中心里的交警: AI 疏通數(shù)字流量擁堵
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4986瀏覽量
103066 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4778瀏覽量
72129 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269107
原文標(biāo)題:數(shù)據(jù)中心里的交警: AI 疏通數(shù)字流量擁堵
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論