NVIDIA為全球最快的10臺(tái)超級(jí)計(jì)算機(jī)中的8臺(tái)提供加速。 NVIDIA Selene成為美國(guó)速度最快的工業(yè)系統(tǒng),同時(shí)具有領(lǐng)先水平的能效表現(xiàn)。
最新TOP500超級(jí)計(jì)算機(jī)榜單展現(xiàn)了現(xiàn)代科學(xué)計(jì)算的整體情況:通過AI和數(shù)據(jù)分析進(jìn)行擴(kuò)展并使用NVIDIA技術(shù)提供加速。
目前,全球排名前十的超級(jí)計(jì)算機(jī)中有8臺(tái)采用了NVIDIA GPU、InfiniBand網(wǎng)絡(luò)技術(shù),或同時(shí)采用了兩種技術(shù)。其中包括美國(guó)、歐洲和中國(guó)最強(qiáng)大的超級(jí)計(jì)算機(jī)系統(tǒng)。
在TOP500榜單的所有系統(tǒng)中,有三分之二的系統(tǒng)(333套)采用了NVIDIA(現(xiàn)已與Mellanox合并)為其賦力。而在2017年6月發(fā)布的榜單上,采用兩家公司的系統(tǒng)占比總和還不到一半(203套)。
如今,榜單上有將近四分之三(74%)的全新InfiniBand系統(tǒng)采用了NVIDIA Mellanox HDR 200G InfiniBand,這也展現(xiàn)了該最新智能高速數(shù)據(jù)互連技術(shù)的迅速普及。
自2019年11月以來,榜單上使用HDR InfiniBand的TOP500系統(tǒng)數(shù)量幾乎增加了一倍。共有141臺(tái)超級(jí)計(jì)算機(jī)使用了InfiniBand,自2019年6月以來增長(zhǎng)了12%。
越來越多TOP500系統(tǒng)采用了NVIDIA GPU、Mellanox網(wǎng)絡(luò)技術(shù),或同時(shí)采用了這兩種技術(shù)。
在TOP500超級(jí)計(jì)算機(jī)中,有305套系統(tǒng)使用了NVIDIA Mellanox InfiniBand和Ethernet網(wǎng)絡(luò)(占61%),包括所有141套InfiniBand系統(tǒng)和164套(占63%)使用Ethernet的系統(tǒng)。
在能效方面,使用NVIDIA GPU的系統(tǒng)表現(xiàn)也都脫穎而出。與不使用NVIDIA GPU的系統(tǒng)相比,其能效(以gigaflops/watt為單位)平均高出2.8倍。
這也是為何排在TOP500榜單前25的超級(jí)計(jì)算機(jī)中有20臺(tái)系統(tǒng)都選擇采用NVIDIA GPU的原因之一。
NVIDIA GPU提高了TOP500超級(jí)計(jì)算機(jī)的能效。
最能夠證明此能效表現(xiàn)的是NVIDIA內(nèi)部研究集群的新成員—— Selene(如上圖所示)。該系統(tǒng)在Linpack基準(zhǔn)測(cè)試中以27.5 petaflops的性能表現(xiàn),在最新Green500榜單中排名第二,在整個(gè)TOP500榜單中排名第七。
Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差甚微,但排名第一的系統(tǒng)體積更小,其性能表現(xiàn)僅排在第394位。
Selene是排名前100系統(tǒng)中唯一突破20 gigaflops/watt能效表現(xiàn)大關(guān)的系統(tǒng),同時(shí)也是全球性能排名第二的工業(yè)超級(jí)計(jì)算機(jī),僅次于意大利能源巨頭Eni S.p.A.的NO. 6 系統(tǒng)(同樣使用了NVIDIA GPU)。
在能效方面,相比于未使用NVIDIA GPU的其它TOP500系統(tǒng)的平均能效表現(xiàn),Selene的能效高出了6.8倍。Selene的優(yōu)異性能和能效均要?dú)w功于NVIDIA A100 GPU中的第三代Tensor Core核心。該核心可以為傳統(tǒng)的64位數(shù)學(xué)模擬及精度較低的AI工作提供加速。
Selene所取得的名次對(duì)于它來說已經(jīng)是一項(xiàng)了不起的成就了,畢竟該系統(tǒng)只用了不到4周的時(shí)間就構(gòu)建完成了。工程師們可以使用NVIDIA的模塊化參照架構(gòu),快速構(gòu)建Selene。
該參考架構(gòu)既NVIDIA的DGX SuperPOD。該系統(tǒng)基于強(qiáng)大而靈活的現(xiàn)代數(shù)據(jù)中心構(gòu)建模塊 —— NVIDIA DGX A100系統(tǒng)。
高度靈活的DGX A100系統(tǒng)現(xiàn)已上市。該系統(tǒng)在一臺(tái)6U服務(wù)器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網(wǎng)絡(luò)技術(shù),可以為高性能計(jì)算、數(shù)據(jù)分析和AI工作(包括訓(xùn)練和推理)等多種組合提供加速,并實(shí)現(xiàn)快速部署。
從系統(tǒng)擴(kuò)展至SuperPOD
參照該參考架構(gòu)設(shè)計(jì),任何企業(yè)機(jī)構(gòu)都可以快速搭建屬于其自己的世界級(jí)計(jì)算集群。參照設(shè)計(jì)展示了如何像搭積木一樣使用高性能NVIDIA Mellanox InfiniBand交換機(jī)連接20臺(tái)DGX A100系統(tǒng)。
InfiniBand為排名前10的超級(jí)計(jì)算機(jī)中的7臺(tái)提速,其中包括中國(guó)、歐洲和美國(guó)性能最強(qiáng)大的系統(tǒng)。
4名操作人員僅需不到1個(gè)小時(shí),就能組裝起一套由20臺(tái)系統(tǒng)組成的DGX A100集群,創(chuàng)建出一套性能可以達(dá)到2-petaflops的系統(tǒng),如此性能表現(xiàn)足以被列入TOP500榜單當(dāng)中了。此類系統(tǒng)能夠在標(biāo)準(zhǔn)數(shù)據(jù)中心的功率和散熱能力承擔(dān)范圍內(nèi)輕松運(yùn)行。
通過添加NVIDIA Mellanox InfiniBand交換機(jī)層,工程師將14套分別配置有20臺(tái)DGXA100系統(tǒng)的模塊組的相連接,從而創(chuàng)造出了Selene。Selene系統(tǒng)具有:
·280臺(tái) DGX A100系統(tǒng)
·2240顆NVIDIA A100 GPU
·494臺(tái)NVIDIA Mellanox Quantum 200G InfiniBand交換機(jī)
·56 TB/s的網(wǎng)絡(luò)架構(gòu)
·7PB的高性能全閃存
Selene最重要的性能規(guī)格之一是可以提供超過1 exaflops的AI性能。此外,在TPCx-BB關(guān)鍵數(shù)據(jù)分析基準(zhǔn)測(cè)試中,其僅使用了16臺(tái)DGX A100系統(tǒng)就創(chuàng)造了新紀(jì)錄,其性能表現(xiàn)高出其他系統(tǒng)20倍。
如今,AI和分析已成為科學(xué)計(jì)算中的新需求,因此這些結(jié)果也顯得格外重要。
在全球各地,研究者正在使用深度學(xué)習(xí)和數(shù)據(jù)分析預(yù)測(cè)各種最具潛力的領(lǐng)域,并進(jìn)而開展實(shí)驗(yàn)。這一方法能夠幫助研究者減少成本高昂且費(fèi)時(shí)的實(shí)驗(yàn)量,從而加快取得科學(xué)成果的速度。
例如,目前有6臺(tái)在建系統(tǒng)雖然沒有出現(xiàn)在此次TOP500榜單中,但它們都采用了NVIDIA于上月發(fā)布的A100 GPU。這些系統(tǒng)將被用于加速HPC和AI的融合,開辟科學(xué)研究的新時(shí)代。
TOP500擴(kuò)展科學(xué)計(jì)算應(yīng)用
在這些系統(tǒng)當(dāng)中,其中一臺(tái)位于美國(guó)阿貢國(guó)家實(shí)驗(yàn)室(Argonne National Laboratory)。該機(jī)構(gòu)的研究者將使用24臺(tái)NVIDIA DGX A100系統(tǒng)組成的集群對(duì)數(shù)十億種藥物進(jìn)行掃描,以尋找COVID-19的治療方法。
阿貢國(guó)家實(shí)驗(yàn)室的計(jì)算生物學(xué)家Arvind Ramanathan在有關(guān)A100 GPU的首批用戶報(bào)告中表示:“這項(xiàng)工作中的一大難點(diǎn)在于在計(jì)算機(jī)上進(jìn)行模擬,因此我們運(yùn)用AI來指導(dǎo)下一步的采樣地點(diǎn)和時(shí)間?!?/p>
美國(guó)國(guó)家能源研究科學(xué)計(jì)算中心(NERSC)正在將AI應(yīng)用于幾個(gè)針對(duì)Perlmutter的項(xiàng)目中,Perlmutter是該中心的pre-exascale系統(tǒng),擁有6200顆A100 GPU。
例如,其中一個(gè)項(xiàng)目將使用強(qiáng)化學(xué)習(xí)來控制光源實(shí)驗(yàn),另有一個(gè)項(xiàng)目將使用生成模型在高能物理探測(cè)器上重現(xiàn)復(fù)雜的模擬。
為了加快新冠病毒蛋白的分析速度,慕尼黑的研究者們正在依靠Summit超級(jí)計(jì)算機(jī)中的6000顆GPU訓(xùn)練自然語言模型。有跡象表明,領(lǐng)先的TOP500系統(tǒng)正在超越使用雙精度數(shù)學(xué)運(yùn)行的傳統(tǒng)模擬。
AI、數(shù)據(jù)分析和邊緣串流正在重新定義科學(xué)計(jì)算。
隨著向深度學(xué)習(xí)和分析的擴(kuò)展,科學(xué)家們也在運(yùn)用云計(jì)算服務(wù),甚至運(yùn)用來自于網(wǎng)絡(luò)邊緣的遠(yuǎn)程儀器的流式數(shù)據(jù)。這些要素共同構(gòu)成了NVIDIA所加速的現(xiàn)代科學(xué)計(jì)算的四個(gè)支柱:
·模擬:在抗擊新冠病毒的過程中,橡樹嶺國(guó)家實(shí)驗(yàn)室(Oak Ridge National Laboratory)的研究者使用Summit超級(jí)計(jì)算機(jī)的內(nèi)置GPU運(yùn)行AutoDock,在24小時(shí)內(nèi)模擬了20億種化合物。
·AI和數(shù)據(jù)分析:Spark 3.0 為關(guān)鍵且耗時(shí)的機(jī)器學(xué)習(xí)處理流程前端提供GPU加速。
·科學(xué)邊緣串流:歐洲核子研究所(CERN)最近宣布,NVIDIA GPU將使其大型強(qiáng)子對(duì)撞機(jī)內(nèi)粒子碰撞事件產(chǎn)生的數(shù)據(jù)量減少500倍。
·可視化:NVIDIA的IndeX和Magnum IO軟件幫助增強(qiáng)火星登陸者號(hào)的可視化功能,這是全球規(guī)模最大的交互式實(shí)時(shí)立體可視化項(xiàng)目。
這些都表明研究者和企業(yè)都迫切需要從云到網(wǎng)絡(luò)邊緣的AI和分析加速,這也是為什么全球最大的云服務(wù)提供商以及全球頂尖的OEM廠商們都在采用NVIDIA GPU的原因。
此外,最新的TOP500榜單也以另一這種方式說明了NVIDIA為實(shí)現(xiàn)AI和HPC民主化所付出的努力。任何想要在計(jì)算能力上領(lǐng)先一步的公司都可以使用NVIDIA技術(shù),如為全球最強(qiáng)大的系統(tǒng)提供支持的DGX系統(tǒng)。
最后,NVIDIA要向排名第一的日本Fugaku超級(jí)計(jì)算機(jī)的幕后工程師們表示祝賀,這表明Arm正在變得日益實(shí)用并且已經(jīng)成為高性能計(jì)算的可行選擇。這也是NVIDIA在去年宣布為Arm處理器架構(gòu)提供CUDA加速計(jì)算軟件的原因之一。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4986瀏覽量
103066 -
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128951 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
462瀏覽量
41948 -
工業(yè)系統(tǒng)
+關(guān)注
關(guān)注
0文章
63瀏覽量
16479
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論