很多年前,我們曾開過一個玩笑,認為未來的計算引擎看起來更像是 GPU 卡,而不是我們當時所知道的服務器那樣。該信念的核心原則之一是,考慮到有多少 HPC 和 AI 應用程序受內存帶寬(而不是計算容量甚至內存容量)的約束,某種形式的極其接近、非常高帶寬的內存將適用于所有方式計算芯片:包括但不限于GPU、CPU、FPGA、矢量引擎等等。 事實證明,這在很大程度上是正確的,至少在另一種存儲被發(fā)明之前是這樣。
如果 FPGA——更準確地說,我們稱之為 FPGA 的混合計算和網絡復合體,即使它們不僅僅是可編程邏輯塊——要競爭計算工作,它就必須擁有某種形式的高帶寬主存儲器與它緊密結合。這就是賽靈思談論其高端 Versal HBM 器件的原因,該器件自 2018 年以來,一直在賽靈思路線圖中有所暗示,并將在大約 9 個月后上市。
Virtex UltraScale+ 高級產品線經理 Mike Thompson Xilinx 告訴The Next Platform. 這比預期晚了大約 6 個月——很難說許多供應商路線圖上 X 軸的變幻莫測,因為它們離 Y 軸更遠,但請自行估計:
Xilinx 與其他幾家設備制造商一起開辟了高帶寬主存儲器的道路,這不是作為一項科學實驗,而是因為網絡、航空航天和國防、電信和金融服務行業(yè)中的許多延遲敏感的工作負載根本無法通過使用標準 DRAM 或什至嵌入在 FPGA 邏輯塊中的非??斓?SRAM完成。 高帶寬內存最初有兩種用于數(shù)據(jù)中心計算引擎的形式,但市場已經圍繞其中一種發(fā)力。 來自英特爾和美光科技的稱為混合內存立方體 (HMC) 的 MCDRAM 變體部署在英特爾“Knights Landing”至強融核設備上,這些設備本身可以用作計算引擎,也可以用作普通 CPU 的加速器。Xeon Phi 可以通過 16 GB 的 HMC 內存向芯片上高度矢量化的 Atom 內核提供略高于 400 GB/秒的內存帶寬,這在當時非常重要。
這種 HMC 變體還用于富士通的 Sparc64-IXfx 處理器,該處理器針對超級計算機,具有 32 GB 的容量,并在其四個內存庫中提供 480 GB/秒的帶寬。 但是隨著富士通為世界上最強大的機器“Fugaku”設計基于 A64FX Arm 的處理器后,富士通轉而使用更常見的堆疊并行 DRAM 的第二代高帶寬內存 (HBM2) 變體,這是最初由 AMD 和內存制造商三星和 SK 海力士創(chuàng)建,并首次用于“Fiji”一代 Radeon 顯卡。大約同期,英特爾推出帶有 MCDRAM 的 Xeon Phi 芯片的同時。
富士通在芯片上放置了四個通道,可提供 32 GB 的容量和非常可觀的 1 TB/秒的帶寬——比 CPU 插槽提供的帶寬高出一個數(shù)量級左右。 鑒于需要比集成 SRAM 提供更高帶寬和更大容量,賽靈思在其上一代 Virtex UltraScale+ FPGA 上放置了 16 GB HBM2 內存,提供 460 GB/秒的帶寬。正如您所看到的,這大約是當時的 flops-heavy CPU 計算引擎提供的性能的一半,您將再次看到這種模式。
速度與工作負載的需求和客戶需要的價格點相平衡。那些購買強大 FPGA 的人同樣需要高速 SerDes 進行信號傳輸,因此他們必須權衡網絡和內存,以保持在對用例有意義的熱范圍內。 Nvidia 已將 HBM容量和帶寬發(fā)揮到極致,因為它在其 GPU 加速器上提供了三代 HBM2 內存,當前的“Ampere”設備具有最大 80 GB 的容量,產生了令人印象深刻的 2 TB/秒的帶寬。而這種對速度和容量的需求是由貪婪的人工智能工作負載驅動的,這些工作負載有爆炸式的數(shù)據(jù)集需要“咀嚼”。
在混合 CPU-GPU 系統(tǒng)上運行的 HPC 代碼可以使用比許多 AI 代碼更小的內存占用,這是幸運的,但如果內存可用,情況就不會如此。所有應用程序和數(shù)據(jù)集最終都會擴展到消耗所有容量和帶寬。 當涉及到 HBM 內存時,一些設備適合這兩種極端情況的中間。NEC四年前推出的“Aurora”矢量加速器擁有 48 GB 的 HBM2 內存和 1.2 TB/秒的帶寬,擊敗了當時 Nvidia 的“Volta”一代 GPU 加速器。但今年推出的更新版 Ampere 只是在 HBM2 容量和帶寬方面擊敗了其他一切。英特爾剛剛宣布,其未來的“Sapphire Rapids” 至強處理器SP,現(xiàn)在預計,明年將有一個變體,支持HBM2內存,當然,英特爾的 HPC GPU 加速器也將擁有 HBM2 內存堆棧。我們不知道英特爾的 CPU 和 GPU 在 HBM2 頻譜上的最終位置,但如果英特爾真的認真對待競爭,它可能介于 CPU 的極端和 GPU 的極端之間。
Xilinx 即將推出的 Versal HBM 器件也采取了中間路線,其原因與 Virtex UltraScale+ 器件在 2016 年 11 月發(fā)布時所做的相同。但賽靈思還加入了其他 HBM 創(chuàng)新,在每單位容量和帶寬上比其他創(chuàng)新更進一步減少延遲。 Versal HBM 設備基于我們在 2020 年 3 月詳細介紹的 Versal Premium 而設計。Versal Premium 復合體有四個超級邏輯區(qū)域,或賽靈思所稱的 SLR,其中一個 SLR 被替換為兩組 8 堆棧的 HBM2e 存儲器。每個堆棧最多有 16 GB,總共 32 GB,跨 SKU 的內存有 8 GB、16 GB 和 32 GB,具有不同的計算量和互連量。
緊鄰交換的 HBM 存儲器的 SLR 嵌入了一個 HBM 控制器和一個 HBM 開關——兩者都是由賽靈思設計的——Thompson 說這些開關相對較小。這個 HBM 開關是一個關鍵的區(qū)別。 “HBM 面臨的一個挑戰(zhàn)是您可以從任何內存端口訪問每個內存位置,我們在該設備上有 32 個內存端口,”Thompson 解釋說?!笆袌錾系钠渌a品也沒有內置開關,這意味著他們必須花費大量的軟邏輯來創(chuàng)建自己的開關,這會占用這些設備中的大部分邏輯,并且介于 4瓦和 5 瓦的功率。對于使用 HBM 的其他設備,沒有交換機會導致大量開銷和額外延遲,因為內存映射最終會比應有的更煩人?!?還有一部分 FPGA 邏輯與 SerDes 和許多其他加速器一起被硬編碼在晶體管中以提高效率。Versal HBM 框圖如下所示:
與 Versal Premium 設備一樣,Versal HBM 設備具有一些基于 Arm 內核的標量處理引擎、一些實現(xiàn) FPGA 功能及其內部和各種存儲器的可編程邏輯,以及為機器學習、成像進行混合精度數(shù)學運算的 DSP 引擎和信號處理應用。與之相連的是 HBM 內存和大量硬編碼 I/O 控制器和 SerDes,它們使數(shù)據(jù)以閃電般的速度進出這些芯片。
FPGA 客戶需要在此類設備上使用 HBM 存儲器的原因之一是,它具有如此多的不同 I/O,加起來如此之多的總帶寬。PCI-Express 5.0 控制器支持 DMA、CCIX 和 CXL 協(xié)議以實現(xiàn)內存延遲,總帶寬為 1.5 Tb/秒;芯片到芯片 Interlaken 互連具有集成的前向糾錯 (FEC) 加速器,可提供 600 Gb/秒的總帶寬。加密引擎也像 PCI-Express 和 Interlaken 控制器一樣采用硬編碼,支持 128 位和 256 位的 AES-GCM 以及 MACsec 和 IPsec 協(xié)議,并提供 1.2 Tb/秒的聚合帶寬,并且可以進行加密400 Gb/秒以匹配 400 Gb/秒以太網端口的線路速率。
硬編碼以太網控制器可以驅動 400 Gb/秒端口(帶有 58 Gb/秒 PAM4 信號)和 800 Gb/秒端口(帶有 112 Gb/秒 PAM4 信號)以及任何低至 10 Gb/秒的以太網步驟使用傳統(tǒng)的 32 Gb/秒 NRZ 信令; 總而言之,該芯片的以太網總帶寬為 2.4 Tb/秒。
這個 Versal HBM 設備是 I/O 上的帶寬野獸,對于某些應用程序,這意味著它需要成為內存帶寬野獸來平衡它。Versal HBM 設備比它將取代的 Virtex UltraScale+ HBM 設備更像野獸,并在 HBM 內存容量和帶寬之外的許多不同指標上證明了這一點。這是通過架構變化和從 16 納米工藝到 7 納米的轉變(感謝晶圓廠合作伙伴臺灣半導體制造公司)實現(xiàn)的。
Thompson 表示,Versal HBM 設備具有相當于 14 個 FPGA 的邏輯,而 HBM 具有相當于 32 個 DDR5-6400 DRAM 模塊的帶寬。 Xilinx 估計,與四個相同容量的 DDR5-6400 模塊相比,該器件具有 8 倍的內存帶寬和 63% 的功耗:
那么,Versal HBM 器件與之前的 Xilinx 器件和 Intel Agilex 器件以及 Intel 和 AMD CPU 相比如何?好吧,在以 350 億美元收購 Xilinx 的過程中,您可以忘記將 AMD Epyc CPU 與AMD 進行任何比較。
Thompson 也沒有與英特爾 ACAP 等效設備進行任何比較。但他確實帶來了一些圖表,將兩路英特爾“冰湖”至強 SP 系統(tǒng)與 Virtex HBM 和 Versal HBM 設備進行對比,如下所示:
在上圖左側的臨床記錄推薦引擎測試中,僅使用 CPU 的系統(tǒng)需要幾秒到幾分鐘才能運行,但舊的 Virtex HBM 設備能夠容納兩倍大的數(shù)據(jù)庫,因為它的速度是它可以將數(shù)據(jù)流式傳輸?shù)皆O備中,并且在提出治療建議方面的速度提高了 100 倍。
Versal HBM 設備擁有兩倍大的數(shù)據(jù)庫,并且以兩倍的速度導出建議。右側的實時欺詐檢測基準也具有相同的相對性能。 Thompson 說,這是考慮如何使用 Versal HBM 設備的另一種方式。
假設您想構建一個內置機器學習智能的下一代 800 Gb/秒防火墻。如果您想使用只能驅動 400 Gb/秒端口的 Marvell Octeon 網絡處理器 SoC,您將需要其中的兩個,而且他們沒有機器學習。因此,您將需要兩個 Virtex UltraScale+ FPGA 來將該功能添加到 Octeons 對中。還需要十幾個 DDR4 DRAM 模塊才能提供 250 GB/秒的內存吞吐量。像這樣:
據(jù)推測,Versal HBM 系統(tǒng)不僅在設備更少、吞吐量更大和功耗更低方面表現(xiàn)更好,而且購買成本也更低。我們不知道,因為 Xilinx 沒有給出定價。如果沒有,它肯定必須提供更好的性價比和更好的每瓦特性能,否則玩這個游戲根本沒有意義。
編輯:黃飛
評論
查看更多