?商用高性能計(jì)算處理器市場(chǎng)主要被NVIDIA、AMD和Intel3家公司長(zhǎng)期占據(jù),在面向E級(jí)計(jì)算 的 高 性 能 處 理 器 中,AMD 最 新 的Instinct MI250X處理器雙精度浮點(diǎn)運(yùn)算能力已經(jīng)高達(dá)95.7TFlops,NVIDIA和Intel最新發(fā)布的高性能處理器峰值性能也均達(dá)到了數(shù)十 TFlops。 ?
本文主要分析和探討國(guó)際上面向 E 級(jí)計(jì)算的先進(jìn)高性能處理器的核心運(yùn)算架構(gòu),包括 Fujitsu A64FX、NVIDIA H100、AMD MI250X 和 Intel PonteVecchio 4款高性能處理器,著重關(guān)注運(yùn)算資源組織結(jié)構(gòu)、數(shù)據(jù)和指令級(jí)并行方式、領(lǐng)域?qū)S眉铀俳Y(jié)構(gòu) DSA、支持?jǐn)?shù)據(jù)類型和算力等方面,并總結(jié)和展望主流高性能處理器的運(yùn)算架構(gòu)研究發(fā)展現(xiàn)狀和趨勢(shì),以期為國(guó)內(nèi)自主研發(fā)面向后 E 級(jí)計(jì)算的高性能處理器提供技術(shù)參考和借鑒。
1、Fujitsu A64FX
Fujitsu A64FX 是由富士通(Fujitsu)在2018年發(fā)布的,主要用于構(gòu)建日本原計(jì)劃研發(fā)的首臺(tái) E級(jí)計(jì)算機(jī) “后 京”(POST-K)[6],后 改 名 為 “富 岳”(Fugaku)并于2020年6月發(fā)布。目前,“富岳”超算在全球高性能計(jì)算機(jī) TOP500榜單中排名第2,集成的 A64FX處理器芯片數(shù)量高達(dá)158976片,全機(jī)峰值性能為0.537212EFlops,Linpack實(shí)測(cè)性能為0.44201EFlops,效率為82.28%。
A64FX處理器結(jié)構(gòu)框圖如圖1所示,分成4個(gè)處理核心存儲(chǔ)組 CMG(CPU MemoryGroup),每個(gè) CMG 包含13個(gè)同構(gòu)核心、L2Cache和存儲(chǔ)控制器,其中12個(gè)核心為計(jì)算核心,1個(gè)為輔助核心,用于運(yùn)行操作系統(tǒng)和I/O 操作,全片共52個(gè)核心。每個(gè) CMG 集成8GB 容量的 HBM2存儲(chǔ)器,全片總?cè)萘繛?2GB,總帶寬為 1024GB/s。
片上還集成了 PCIe3.016x接口和富士通特有的TofuD互連網(wǎng)絡(luò)接口與路由器,這些外接口與4個(gè)CMG 通過片上網(wǎng)絡(luò) NoC(NetworkonChip)實(shí)現(xiàn)互連和通信。
A64FX 處理器采用臺(tái)積電7nm 工藝和 CoWoS封裝實(shí)現(xiàn),集成了87.86億晶體管,最高運(yùn)行頻率為2.2GHz,峰值性能為3.3792TFlops,功耗為200W。
2、NVIDIA H100
NVIDIA 在 HPC 和 人 工 智 能 AI商用處理器市場(chǎng)占比非常高,一直是圖形處理器 GPU領(lǐng)域的佼佼者。TOP500最新榜單排行前20的超算系統(tǒng)中有11臺(tái)采用了 NVIDIA 的 GPU 實(shí)現(xiàn)。目前這些超算算力主要由前兩代 GPU 產(chǎn)品 V100和A100提供。
NVIDIA 于2022年3月發(fā)布了面向 HPC 和AI的最新款高性能處理器 H100GPU。該處理器采用 新 一 代 HOPPER 架 構(gòu),基 于 上 一 代 GPUA100的 Ampere架構(gòu)主要進(jìn)行了如下擴(kuò)展:
(1)集成第4代張量核心(TensorCore);
(2)新增動(dòng)態(tài)規(guī)劃算法加速指令 DPX;
(3)流多處理器 SM內(nèi) CUDA核 數(shù) 量 翻 倍;
(4)與GPC相對(duì)應(yīng),強(qiáng)化線程塊簇特征;
(5)新增 TMA引 擎,增 強(qiáng) 異 步 數(shù) 據(jù) 傳 輸 功 能;
(6)定 制Transformer引 擎,以 加 速 Transformer 模 型 訓(xùn)練;
(7)更新?lián)Q代 HBM3、PCIe5.0和第4代 NVLink等存儲(chǔ)和外接口。
H100的結(jié) 構(gòu) 框 圖如 圖 2 所 示,全 片 實(shí) 際(非 GH100架構(gòu)滿配)集成了132個(gè) SM,每2個(gè)SM 構(gòu)成一個(gè) TPC(TextureProcessingCluster),9個(gè)或8個(gè) TPC構(gòu)成一個(gè) GPC,全片共8個(gè) GPC。 ?
每個(gè)SM 包含128個(gè) FP32(單精度浮點(diǎn))CUDA核和 4 個(gè) TensorCore,全片共 16896 個(gè) CUDA核,528個(gè) TensorCore。 ?
H100GPU 片上集成了50MB的L2Cache,5個(gè)16GB容量的 HBM3,存儲(chǔ)總?cè)萘繛?0GB,總訪存帶 寬 為 3 TB/s。此 外,片 上 還 集 成 了 PCIe 5.0 16x和第 4 代 NVLink 外接口,支 持 與 CPU或 GPU 高速互連。 ?
H100GPU 采 用 臺(tái) 積 電 為 NVIDIA 定 制 的4N 工藝和 CoWOS封裝實(shí)現(xiàn),全片集成了800億個(gè)晶體管,運(yùn)行頻率為1.776GHz(根據(jù)雙精度浮點(diǎn)峰值性能和全片集成運(yùn)算部件數(shù)量推算得到),峰值性能為 60.0TFlops,TDP功耗為700 W。
3、AMD MI250X
為進(jìn)一步加強(qiáng)在 HPC領(lǐng)域的影響力,AMD將旗下通用 GPUGP拆分成 RDNA(RadeonDNA)和 CDNA(ComputeDNA)架構(gòu),前者主要面向?qū)崟r(shí)游戲和圖形處理,后者主要面向 HPC應(yīng)用。 ?
CDNA 架構(gòu)目前已經(jīng)發(fā)展到第2代 MI200,代表高性能處理器是 MI250X發(fā)布于2021年11月,并用于構(gòu)建美國(guó)E級(jí)超算“前線”(Frontier)。“前 線”超 算 發(fā) 布 于 2022 年 5 月 30日,在全球高性能計(jì)算機(jī) TOP500榜單中排名第1,集成的 MI250X 處理器芯片數(shù)量高達(dá)36992片,全機(jī)峰值性能為1.68565EFlops,Linpack實(shí)測(cè)性能為1.102EFlops,效率為65.38%。
MI250X處理器采用 AMD 特有的先進(jìn)3D封裝技 術(shù) 集 成 2 個(gè) MI200 GCD(GraphicsComputeDie),2個(gè) GCD 間通過無盡互連IF(Infinit Fabric)接口直連實(shí)現(xiàn)高帶寬通信。MI250X 處理y器中單個(gè) GCD(非 MI200滿配)結(jié)構(gòu)框圖如圖3所示,包含4個(gè)計(jì)算引擎 CE(ComputeEngine),每個(gè) CE內(nèi)含27或28個(gè)計(jì)算單元 CU(ComputeUnit)。
MI250X 處 理 器 全 片 2 個(gè) GCD 共 220 個(gè)CU;集成了16 MB 的 L2Cache;8個(gè)16GB 容量的 HBM2E,總?cè)萘繛?28GB、總帶寬為3.2TB/s;8路IFLink或者6路IFLink加PCIe4.0接口(2路IF接口可重構(gòu)配置成 PCIE4.0接口),支持GPU 和 CPU 多種可擴(kuò)展高速互連。
MI250X處理器采用臺(tái)積電 N6工藝實(shí)現(xiàn),全片集成了 582 億個(gè)晶體管,運(yùn)行頻率最高為 1.7GHz,峰值性能為 95.7TFlops,是首個(gè)峰值性能接近 100 TFlops的 高 性 能 處 理 器,TDP 功 耗 為560 W。
4、Intel PonteVecchio
Intel一直致力于重新贏得 HPC 領(lǐng)域的高性能處理器領(lǐng)導(dǎo)者地位,其精心打造的面向 E 級(jí)計(jì)算的高性能處理器 PonteVecchio于2021年8月在Intel體系結(jié)構(gòu)日上發(fā)布,2023年1季度已上市。PonteVecchio處理器將用于構(gòu)建2臺(tái)美國(guó) E級(jí)計(jì) 算 機(jī) “極 光”(Aurora)和 “酋 長(zhǎng) 巖”(ElCaptain),并為其提供主要算力,預(yù)計(jì)“極光”的超算峰值性能為1.0EFlops、“酋長(zhǎng)巖”的超算峰值性能為2.0EFlops。
PonteVecchio處理器采用 X HPC架構(gòu)實(shí)現(xiàn),結(jié)構(gòu)框圖如圖4所示。
PonteVecchio處理器通過多種先進(jìn)封裝集成2個(gè)同構(gòu)的 Stack,Stack 間通過高速直連接口互連;全片共8個(gè) Slice,每個(gè) Slice包含16個(gè) X 核心,總計(jì)128個(gè) X 核心;全片集成了144 MB的共享 L2Cache;8個(gè) HBM2E,總帶寬超過5TB/s;16路 X Link,支持多 CPU 間高速直連,總帶寬超過2TB/s;此外還集成了 PCIe5.0接口。
PonteVecchio處理器采用 5 種先進(jìn)工藝實(shí)現(xiàn),包括臺(tái)積電5nm、7nm 和Intel 7nm 等,全片多 達(dá) 47 個(gè) Tile (Die),通 過 Foveros和 EMIB等多種先進(jìn)封裝技術(shù)集成。全片集成了超過1000億個(gè)晶體管,運(yùn)行頻率為1.373GHz(根據(jù)單精度浮點(diǎn)峰值性能和全片集成運(yùn)算部件數(shù)量推算得到),峰值性能超過45.0TFlops(雙精度浮點(diǎn)與單精度浮點(diǎn)相同),功耗暫無官方數(shù)據(jù)。
5、小結(jié)
4款面向 E級(jí)計(jì)算的高性能處理器參數(shù)與對(duì)比統(tǒng)計(jì)信息如表1所示,4款處理器均采用臺(tái)積電7nm 或更先進(jìn)工藝,集成密度高、晶體管數(shù)目龐大,通過先進(jìn)封裝集成高帶寬存儲(chǔ)器 HBM 提供TB/s級(jí)訪存帶寬,并采用商用大容量存儲(chǔ)顆粒。
工作頻 率 方 面,A64FX 的 較 高,達(dá) 到 了 2.2GHz,H100 和 MI250X 的 均 在 1.7 GHz 左 右,PonteVecchio的最低為1.373GHz; ?
峰值性能方面,A64FX 是唯一峰值性能低于10.0TFlops的處理器,其他3款的均超過45.0TFlops,MI250X的甚 至 高 達(dá) 95.7 TFlops; ?
功 耗 方 面,H100 和MI250X的均超過 500 W,PonteVecchio的無官方數(shù)據(jù),預(yù)計(jì)也會(huì)超過500W。 ?
先進(jìn)封裝技術(shù)方面,均采用了2.5D 或3D 封裝,MI250X 還通過 EFB封裝集成了2個(gè) GCD,而 PonteVecchio采用 Foveros+EMIB 封裝集成超過47個(gè) Die,并通過多種先進(jìn)工藝分別實(shí)現(xiàn)了計(jì)算 Die、存儲(chǔ) Die和互連 Die。? ?
審核編輯:劉清
評(píng)論