異構(gòu)超級計算機(jī)時代已經(jīng)到來。近日,日本筑波大學(xué)上線的Cygnus超算成為第一臺進(jìn)入超算top500榜單的GPU、FPGA混合加速超級計算機(jī)。在如何讓CPU、GPU、FPGA多硬件協(xié)調(diào)、高效、同步提供算力上邁出了重要一步。
如果說“異構(gòu)超級計算機(jī)”的時代已經(jīng)到來,那么本月早些時候在日本筑波大學(xué)上線的 CPU、GPU、FPGA混合硬件超算系統(tǒng)就是這個時代的首批探索者之一。
這臺超算名為Cygnus,由NEC制造,目前在日本筑波大計算科學(xué)中心(CCS)運行,由Intel Xeon CPU,Nvidia Tesla GPU和Intel Stratix 10 FPGA共同提供硬件支持。
Cygnus系統(tǒng)架構(gòu):所有80個Cygnus節(jié)點都配備了兩個Xeon“Skylake”黃金 CPU和四個Tesla V100 GPU,同時在32個節(jié)點中,還和GPU搭載了兩個Stratix 10 FPGA。48個CPU-GPU專用節(jié)點稱為“Deneb節(jié)點”(以最亮的Cygnus A星命名),而32個CPU-GPU-FPGA節(jié)點稱為Albireo節(jié)點(以Cygnus A雙星命名)。
FPGA型號為Bittware 520N PCIe卡,供應(yīng)商為Nallatech,這些“重型”FPGA卡可以提供10 teraflops的單精度性能,以及四組DDR4內(nèi)存。尤其是,該卡配備了四個100G光纖網(wǎng)絡(luò)端口,共提供400Gbps帶寬,可以通過自身結(jié)構(gòu)直接與其他520N FPGA進(jìn)行通信。在Cygnus中,可將8×8的2D環(huán)形網(wǎng)絡(luò)中的64個FPGA相互連接。Bittware包括一個板級支持包(BSP),可供OpenCL開發(fā)人員使用。
每個Cygnus節(jié)點的雙精度浮點性能為30 teraflops,其中28個節(jié)點算力由四個V100 GPU提供。由兩個Stratix 10器件在配備FPGA的節(jié)點上提供20個單精度teraflops。整機(jī)可提供算力為2.4 petaflop(64位浮點)或5.12 petaflop(32位浮點)算力。
目前,Cygnus正在取代該機(jī)構(gòu)之前使用的COMA,COMA是一款由Intel Xeon CPU和Xeon Phi協(xié)處理器驅(qū)動的Cray CS300計算機(jī)集群。它于2014年組建,今年3月底退役,為Cygnus讓位。
Mellanox HDR InfiniBand負(fù)責(zé)Cygnus上的系統(tǒng)互連,與獨立的FPGA網(wǎng)絡(luò)一樣,系統(tǒng)設(shè)計人員確保了足夠的帶寬來進(jìn)行節(jié)點間通信。每個節(jié)點使用四個100Gbps HDR通道,連接為全二分fat樹網(wǎng)絡(luò)。InfiniBand網(wǎng)絡(luò)還用于訪問托管在DataDirect Networks ES14KX設(shè)備上的2.5 PB Lustre文件系統(tǒng)。
盡管“雙加速硬件”的設(shè)定很新潮,但其實Cygnus并不是試驗機(jī)。其組建的主要用途是為宇宙學(xué)、粒子物理學(xué)、生命科學(xué)和人工智能等領(lǐng)域科學(xué)研究提供生產(chǎn)力。通過CPUGPUFPGA的組合,力求在實際科學(xué)研究中最有效地發(fā)揮這些硬件各自的計算優(yōu)勢。
具體來說,GPU負(fù)責(zé)提供粗粒度并行計算,主要擅長SIMD友好型計算,而FPGA提供細(xì)粒度并行計算,更適合應(yīng)用于非SIMD算法。而對于氣候模擬,生物信息學(xué)、分子動力學(xué)、地球物理學(xué)和線性代數(shù)中使用的一些特定算法,F(xiàn)PGA已經(jīng)證明能夠?qū)崿F(xiàn)比CPU、GPU更快、更高效的運算。不過,在科學(xué)上可以通過代碼同時高效利用這兩種架構(gòu)。
Cygnus系統(tǒng)架構(gòu)圖
Cygnus的目標(biāo)應(yīng)用之一是模擬早期宇宙,模擬光源的輻射傳輸。模擬過程是在一個套為ARGOT的代碼中實現(xiàn)的,其中名為“ART”(真實輻射傳輸)的光線追蹤算法是該模擬中的重要部分,ART部分更適合FPGA硬件平臺上的大規(guī)模運行。
不過,ARGOT的其他部分在GPU上運行更合適,因此利用“雙硬件加速”成為最佳解決方案。該應(yīng)用程序在GPU和FPGA之間使用基于PCIe的直接存儲器訪問來實現(xiàn)協(xié)調(diào),避免了使CPU受到影響而出現(xiàn)延遲。
ART實現(xiàn)是使用相對較高級別的OpenCL實現(xiàn)的,這表明其他開發(fā)人員也可以這樣做。Bittware方面表示,使用OpenCL實現(xiàn)的用戶與嚴(yán)格使用硬件描述語言(HDL)實現(xiàn)的用戶進(jìn)行對比發(fā)現(xiàn),在許多情況下,OpenCL實現(xiàn)在性能方面與后者“足夠接近”。
過去幾年來,F(xiàn)PGA軟件開發(fā)的進(jìn)展促使微軟、亞馬遜和百度等巨頭越來越廣泛地采用FPGA硬件,尤其是在機(jī)器學(xué)習(xí)和推理等應(yīng)用上。
但是,在高性能計算平臺中,使用FPGA的設(shè)備更少。筑波大學(xué)的這臺Cygnus將是唯一一個進(jìn)入超算TOP500榜單的采用FPGA加速的超級計算機(jī)。德國帕德博恩大學(xué)去年安裝了一臺使用FPGA的超算,Cray CS500超級計算機(jī),配備了32塊Bittware 520N卡,不過該機(jī)沒有配備GPU。
還有一些其他FPGA式的HPC集群遍布世界各地,包括美國佛羅里達(dá)州的CHREC(現(xiàn)改稱SHREC)的Nova-G#系統(tǒng),英國Hartree中心的Maxeler HPC-X以及Catapult 1和TACC的HARP v2計算機(jī)集群。
未來是否會有更多更強(qiáng)大的異構(gòu)超級計算機(jī)誕生?這不僅取決于使用者的需求,更多還要取決于硬件廠商和開發(fā)者是否繼續(xù)從上到下推動生態(tài)系統(tǒng)建設(shè)。
從Bittware的角度來看,關(guān)鍵的推動力一定是來自中間層面的,同時有賴于對高級語言和更成熟的開發(fā)工具更充分的支持。目前的好消息是,業(yè)界最大的兩家FPGA制造商——英特爾和賽林思都在為開發(fā)人員提供更好的工具,并將這些工具與下一代FPGA產(chǎn)品整合在一起。
從這一點上看,我們似乎可以對異構(gòu)超算的未來保持一份謹(jǐn)慎的樂觀。
-
FPGA
+關(guān)注
關(guān)注
1629文章
21748瀏覽量
603907 -
gpu
+關(guān)注
關(guān)注
28文章
4743瀏覽量
128996 -
超級計算機(jī)
+關(guān)注
關(guān)注
2文章
462瀏覽量
41954
原文標(biāo)題:迎接“異構(gòu)超算”新時代:日本Cygnus超算GPU和FPGA雙硬件加持,TOP500榜單只此一臺
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論