AMD和惠普企業(yè)介紹新制造的超級計算機Frontier。
當前全世界最快的超級計算機是美國田納西州橡樹嶺國家實驗室打造的Frontier,該計算機運算功能強大,運算速度比其他7臺最快的超級計算機的總和還要高,是運算速度排名第二的計算機的2倍多。Frontier不僅是第一臺突破每秒百億億次計算(exaflops)門檻的計算機,還在全球高能效超級計算機中排名第二。現(xiàn)在,協(xié)作制造Frontier的超微半導體公司(AMD)和惠普企業(yè)揭開了該超級計算機正常運轉(zhuǎn)的電子訣竅。
Frontier由74個惠普企業(yè)Cray EX超級計算機柜組成,這些機柜共容納超過9400個CPU。每個節(jié)點都包含1個優(yōu)化的第三代AMD EPYC 64核2千兆赫Trento處理器,用于一般任務(wù)處理,以及4個AMD Instinct MI250X加速器,用于高度并行超級計算和人工智能(AI)運算,此外,還有5太字節(jié)閃存,協(xié)助向GPU快速輸送數(shù)據(jù)。Frontier總共包含9408個CPU、37632個GPU和8730112個內(nèi)核,這些組件由145千米的網(wǎng)絡(luò)電纜連接在一起。美國田納西州橡樹嶺國家實驗室表示,這臺全球領(lǐng)先的超級計算機的功耗約為21兆瓦。
2022年5月,在德國漢堡的全球高性能計算大會上,F(xiàn)rontier展示了每秒1.1 exaflops的整體性能,成為全球500強超級計算機的巔峰。它還可能變得更快,理論峰值性能為2 exaflops。
另外,F(xiàn)rontier在最新的全球綠色500強中排名第二,該排名衡量超級計算機的能源效率。(這并不影響它在整體性能上成為全球最快的超級計算機。)不過,日本的MN-3作為先前全球綠色500強的榜首,每瓦能實現(xiàn)39.38 gigaflops(每秒10億浮點運算),而Frontier的測試開發(fā)系統(tǒng)為每瓦52.23 gigaflops。
Frontier成功的一個關(guān)鍵在于采用AMD的Infinity Fabric互連架構(gòu),每個節(jié)點內(nèi)CPU和GPU連接方式有助于增加CPU和GPU的一致性,即它們的共享數(shù)據(jù)視圖完全相同。
得克薩斯州奧斯汀AMD公司GPU和加速處理數(shù)據(jù)中心的副總裁布拉德?麥克雷迪(Brad McCredie)說:“一致性對于提升性能非常重要。它能幫助你確保分配合適的處理器運行合適的工作負載。很容易使并行CPU處理小任務(wù)和GPU處理大型任務(wù)?!?/p>
在Frontier的開發(fā)中,AMD表示,其面對的最大的挑戰(zhàn)是功率性能?!坝泻芏辔墨I說,要達到每秒百億億次運算,需要幾十萬個GPU和150兆到500兆瓦功率,而我們想要使用幾萬個GPU和20兆瓦功率來實現(xiàn)。”麥克雷迪說,“因此,開發(fā)過程中上上下下每個人都在追求效率?!?/p>
例如,F(xiàn)rontier的每個GPU上都緊密結(jié)合一個128千兆字節(jié)的高帶寬內(nèi)存。這可以幫助GPU克服計算機性能的一個著名瓶頸:內(nèi)存和處理之間的數(shù)據(jù)傳輸。
此外,F(xiàn)rontier的每個GPU還使用了臺積電生產(chǎn)的先進6納米節(jié)點芯片。因此,“它們執(zhí)行雙精度浮點運算的速度與單精度浮點運算相同,這是一項重大創(chuàng)新?!丙溈死椎险f。
借助這些進步,F(xiàn)rontier只需幾萬個GPU,而不需要幾十萬個GPU。“它承擔所有的并行管理,將程序員身上的負擔轉(zhuǎn)移到硬件上。這使得該系統(tǒng)更易于編程?!丙溈死椎险f。
一個“計算刀片”上有2個AMD節(jié)點,74個機柜中的每個都裝有64個這種刀片。計算刀片通過惠普企業(yè)Slingshot連接器互連,每個連接器都有一個專門設(shè)計的64端口交換機,可提供每秒12.8太字節(jié)的網(wǎng)絡(luò)帶寬。各組刀片的連接采用一種被稱為蜻蜓的拓撲結(jié)構(gòu),數(shù)百個機柜和數(shù)十萬個節(jié)點都可以相互通信,任意兩個節(jié)點之間最多可以跳轉(zhuǎn)3次。
“Slingshot的部署得到了高度優(yōu)化,根據(jù)所需距離合理采用能效最高的電纜,直連銅纜和有源光纜?!被萜掌髽I(yè)資深會員和HPC/MCS的首席技術(shù)官邁克?伍德克(Mike Woodacre)說。他補充道,去除低效的通用器件“顯著降低了線纜的能耗”。
機柜中計算機刀片的降溫采用了液體冷卻?;萜掌髽I(yè)高性能計算和人工智能系統(tǒng)副總裁杰拉爾德?克萊恩(Gerald Kleyn)表示,這臺超級計算機的密度能夠達到傳統(tǒng)風冷結(jié)構(gòu)的5倍。其結(jié)果是,這種緊湊的系統(tǒng)反過來大大降低了布線要求和運行費用。
“突破百億億次計算的門檻很重要,同時位列全球綠色500強第二更是非凡。”克萊恩說。此外,他說,在疫情期間和全球性供應(yīng)鏈問題的環(huán)境下,實現(xiàn)這一點“全靠美國橡樹嶺國家實驗室、惠普企業(yè)和AMD之間強大的團隊合作”。
Frontier下一步的工作包括繼續(xù)測試和驗證該系統(tǒng)。該實驗室表示,2022年后期將繼續(xù)進行最后驗收和早期科學應(yīng)用,計劃于2023年初全面開放應(yīng)用于科學項目。
已經(jīng)計劃在Frontier展開的項目包括癌癥研究、藥物研發(fā)、核聚變、特殊材料、超高效引擎和恒星爆炸。這臺機器的目標是將完成這類工作所需的時間從幾周縮短到幾個小時,從幾個小時縮短到幾秒。
“Frontier可幫助科學家們開展更多的科學研究,這意味著更接近高效清潔能源,更快發(fā)現(xiàn)有效的病毒疫苗?!丙溈死椎险f,“Frontier成為首個百億億次級計算機,這是我們整個征途的開始。看到美國橡樹嶺國家實驗室的研究人員致力于解決氣候、能源和疫情方面的問題,以及人類面臨的其他重大挑戰(zhàn),我們已經(jīng)從制造一臺強大的計算機走向想要制造一些對每個人都有幫助的東西。”
審核編輯 :李倩
-
amd
+關(guān)注
關(guān)注
25文章
5470瀏覽量
134211 -
計算機
+關(guān)注
關(guān)注
19文章
7500瀏覽量
88032 -
超級計算機
+關(guān)注
關(guān)注
2文章
462瀏覽量
41949
原文標題:首臺百億億次計算機內(nèi)部的秘密
文章出處:【微信號:bdtdsj,微信公眾號:中科院半導體所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論