NoLoad 計(jì)算存儲設(shè)備與英特爾 Agilex FPGA 及英特爾 至強(qiáng) 處理器相結(jié)合,可為要求嚴(yán)苛的存儲和計(jì)算工作負(fù)載帶來出色性能,同時(shí)顯著降低TCO。
如今的計(jì)算工作負(fù)載比過去規(guī)模更大、更復(fù)雜、更多樣化??茖W(xué)計(jì)算、人工智能 (AI)、機(jī)器學(xué)習(xí)(ML)、數(shù)據(jù)分析和其他專門任務(wù)的爆發(fā)式增長正在推動數(shù)據(jù)量呈指數(shù)級增長。而處理這些數(shù)據(jù)不僅需要大量算力,還需要具備低時(shí)延、高帶寬的數(shù)據(jù)存取能力。
計(jì)算存儲
(Computational Storage)
隨著存儲市場規(guī)模的擴(kuò)大,我們需要新的技術(shù)和解決方案來傳輸、管理和保護(hù)已存儲的數(shù)據(jù)。要增加存儲容量,可視化、數(shù)據(jù)保護(hù)、數(shù)據(jù)安全(加密)和數(shù)據(jù)壓縮等存儲處理功能必不可少。然而,這些功能常涉及多種需要消耗大量計(jì)算周期的基礎(chǔ)設(shè)施服務(wù)。
過去,從 CPU 內(nèi)核卸載基礎(chǔ)設(shè)施功能的第一步是引入 SmartNIC。SmartNIC會使用 FPGA 來增強(qiáng)常規(guī)網(wǎng)卡 (NIC) 中以太網(wǎng)芯片組的性能。但“SmartNIC”這個(gè)詞某種程度上已被賦予了太多含義,不同供應(yīng)商提供的實(shí)現(xiàn)方案往往截然不同。不管怎樣,SmartNIC 在最基礎(chǔ)層面上可定義為可編程的網(wǎng)卡。換言之,SmartNIC 支持從 CPU 內(nèi)核中卸載基礎(chǔ)設(shè)施功能的數(shù)據(jù)路徑部分。
近期,英特爾推出基于 FPGA 的基礎(chǔ)設(shè)施處理單元(IPU),配備高端 FPGA 及緊密耦合的英特爾 至強(qiáng) CPU 等高端處理器,將這一卸載過程提升至更高水平。IPU 是 SmartNIC 的演進(jìn)產(chǎn)品,可視為“更智能的 SmartNIC”,它通過將能夠處理數(shù)據(jù)路徑功能的 FPGA 和能夠處理控制路徑功能的 CPU 相結(jié)合,可在更大程度上卸載主機(jī)系統(tǒng)上的工作負(fù)載。
英特爾 Agilex 7 FPGA 的高速收發(fā)器、高密度邏輯和大內(nèi)存,結(jié)合英特爾及其合作伙伴提供的知識產(chǎn)權(quán) (IP) 解決方案,可幫助開發(fā)人員輕松創(chuàng)建理想的在線、近線和離線存儲解決方案。
在數(shù)據(jù)中心領(lǐng)域,F(xiàn)PGA 可提供數(shù)據(jù)分析、AI、智能網(wǎng)絡(luò)、超融合存儲等功能實(shí)現(xiàn)加速所需的低時(shí)延卸載能力。FPGA 支持內(nèi)聯(lián)、旁路和多功能處理模式,通過減少復(fù)雜的瓶頸問題來卸載 CPU 的工作負(fù)載(圖 1)。
圖 1. FPGA 支持內(nèi)聯(lián)、旁路和多功能處理解決方案。
就計(jì)算存儲 (CS) 這一全新存儲范式而言,系統(tǒng)架構(gòu)的特點(diǎn)是將計(jì)算存儲功能 (CSF)接入存儲設(shè)備本身,進(jìn)而卸載主機(jī)處理器上的工作負(fù)載,減少數(shù)據(jù)傳輸。使用這種架構(gòu),CSF 計(jì)算資源可以部署于固態(tài)盤 (SSD) 存儲設(shè)備本身[在這種情況下,這些設(shè)備將歸類為計(jì)算存儲設(shè)備 (CSD)],或者部署在位于固態(tài)盤和主機(jī)之間的設(shè)備上,例如基于 FPGA 的加速器、SmartNIC 或 IPU。
基于 FPGA 的加速器可以為包括壓縮和解壓縮、加密和解密、SQL 查詢以及圖算法(中心性算法、尋路算法、社區(qū)檢測算法等)在內(nèi)的更多功能加速。
另一個(gè)潛在的應(yīng)用是數(shù)據(jù)轉(zhuǎn)碼。例如,很多數(shù)據(jù)庫目前都在采用開源內(nèi)存格式 Apache Arrow(一種與語言無關(guān)的軟件框架,用于開發(fā)處理列式數(shù)據(jù)的數(shù)據(jù)分析應(yīng)用),因?yàn)樗兄谠诂F(xiàn)代 CPU 和 GPU 硬件上進(jìn)行高效的數(shù)據(jù)分析操作。此外,還有開源的磁盤數(shù)據(jù)存儲格式 Apache Parquet。該存儲格式提供高效的數(shù)據(jù)壓縮和編碼方案,能夠以更強(qiáng)的性能,批量處理復(fù)雜的數(shù)據(jù)。可以預(yù)見,Apache Arrow 和 Apache Parquet 之間的數(shù)據(jù)轉(zhuǎn)碼將變得越來越重要。
Eideticom NoLoad 解決方案釋放
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器強(qiáng)大性能
如前所述,計(jì)算存儲帶來的助益能夠提升應(yīng)用的性能和/或減少主機(jī) CPU 內(nèi)核用量,而釋放出來的內(nèi)核資源可用于執(zhí)行其他創(chuàng)收任務(wù)。這可以提升基礎(chǔ)設(shè)施效率,降低 TCO。
Eideticom 是專為數(shù)據(jù)中心存儲或計(jì)算工作負(fù)載開發(fā)計(jì)算存儲解決方案的領(lǐng)航企業(yè),同時(shí)也是英特爾的合作伙伴之一1。Eideticom NoLoad 解決方案是一種基于 NVM Express (NVMe)的計(jì)算存儲處理器 (CSP)。NoLoad 計(jì)算存儲解決方案打破了處理存儲密集型或計(jì)算密集型工作負(fù)載時(shí)以 CPU 為中心的計(jì)算系統(tǒng)面臨的諸多限制。
NoLoad 解決方案現(xiàn)已量產(chǎn)并且正在出貨,它基于 Eideticom 硬件合作伙伴多種外形規(guī)格,如 BittWare 的 IA-220-U22 U. 2 模塊和 IA-420F3 卡——二者均采用了可通過 PCIe 4.0 與主機(jī) CPU 進(jìn)行通信的英特爾 Agilex 7 FPGA(圖 2)。
NoLoad 具備一整套功能,包括壓縮和解壓縮、加密和解密、去重和數(shù)據(jù)分析。
作為“金融科技”的集大成者,F(xiàn)SI將是 NoLoad 技術(shù)的一大受益者。FSI是指在交付金融服務(wù)方面使用新技術(shù)與傳統(tǒng)金融方法展開競爭的公司。AI、區(qū)塊鏈、云計(jì)算和大數(shù)據(jù)被視為 FSI 的 “ABCD”(四大關(guān)鍵領(lǐng)域)。
FSI 分析用例的
基準(zhǔn)測試
近期,我們通過一項(xiàng)基準(zhǔn)測試對在兩種不同計(jì)算環(huán)境中執(zhí)行的典型高端 FSI 任務(wù)進(jìn)行了比較。該真實(shí)場景示例配備了一款性能出色、軟件定義的數(shù)據(jù)包捕獲與分析引擎。
基準(zhǔn)測試場景 1 僅在兩個(gè)第四代英特爾 至強(qiáng) 可擴(kuò)展處理器[之前代號 Sapphire Rapids (SPR)] 上的軟件中運(yùn)行。場景 2 則利用基于 FPGA 的加速器使 CPU 性能得到增強(qiáng),且所有這些設(shè)備均接入 Eideticom NoLoad 解決方案。
FSI 任務(wù)涉及對 1 GB 數(shù)據(jù)文件中的股票市場數(shù)據(jù)執(zhí)行壓縮和解壓縮。
場景 1 的硬件配備的是 2 個(gè)主頻為 2 GHz 的第四代英特爾 至強(qiáng) 可擴(kuò)展處理器(雙路平臺)(圖 3)。每個(gè) CPU 包含 56 個(gè)內(nèi)核,每個(gè)內(nèi)核對應(yīng)兩個(gè)線程,因此共有 224 個(gè)可用內(nèi)核。
圖 3. 數(shù)據(jù)包的所有處理操作均在主機(jī) CPU 內(nèi)核上進(jìn)行。
場景 2 的硬件(圖 4)使用了在 CPU 和基于 FPGA 的加速器上實(shí)現(xiàn)的 NoLoad 解決方案。用于壓縮/解壓縮的是 2 個(gè) IA-220-U2 卡。
圖 4. 來自主機(jī)的數(shù)據(jù)包經(jīng)由 PCIe 傳輸至 BittWare IA-220-U2,以使用 NoLoad 框架和 IP 實(shí)現(xiàn) FPGA 存儲服務(wù)加速。
在這一基準(zhǔn)測試中,數(shù)據(jù)包經(jīng)壓縮后寫入固態(tài)盤陣列。NoLoad 軟件堆棧支持在文件系統(tǒng)、內(nèi)核空間或用戶空間中使用 NoLoad 壓縮和解壓縮服務(wù)。
圖 5. 基于第四代英特爾 至強(qiáng) 可擴(kuò)展處理器和英特爾 Agilex 7 FPGA 加速器的 Eideticom NoLoad 解決方案基準(zhǔn)測試結(jié)果。數(shù)據(jù)源自 Eideticom。
基準(zhǔn)測試結(jié)果
分析對比場景 1 和場景 2 中 3 個(gè)關(guān)鍵指標(biāo)(吞吐性能、CPU 內(nèi)核用量和總功耗)的測試結(jié)果(圖 5)可以清楚地看到,雖然基于 FPGA 的加速器的測試場景中性能幾乎相同,但所使用的 CPU 內(nèi)核數(shù)量大大減少,功耗也更低。FPGA 場景的總功耗為系統(tǒng)總功耗,包括 CPU 內(nèi)核、NMVe 存儲和兩個(gè) FPGA 卡。FPGA 卸載 能力結(jié)合 NoLoad 解決方案釋放的 CPU 內(nèi)核現(xiàn)在可用于執(zhí)行其他任務(wù)或工作負(fù)載。
CPU內(nèi)核用量減少96%(越低越好) 功耗降低24%(越低越好)
表 1. 基于基準(zhǔn)測試結(jié)果的 TCO 計(jì)算和假設(shè)
注:
取決于 FPGA 卡(自主設(shè)計(jì)或從第三方供應(yīng)商處購買現(xiàn)貨)。
聯(lián)系 Eideticom 獲取 NoLoad 解決方案報(bào)價(jià)。
每個(gè) CPU 內(nèi)核的價(jià)值 =(每小時(shí) 1.06 美元/8 個(gè)內(nèi)核)x 24 小時(shí) x 30 天 = 95.40 美元。
假設(shè)電力成本 = 0.04 美元/千瓦。
假設(shè)兩種場景均在 2 秒內(nèi)完成操作。
TCO 節(jié)省情況估算
表 1 中從財(cái)務(wù)角度對使用基于 FPGA 的加速器的測試場景進(jìn)行了考量。我們使用亞馬遜云服務(wù) EC2 實(shí)例的價(jià)格代表每個(gè) CPU 內(nèi)核的價(jià)值?;趤嗰R遜 EC2 F1 實(shí)例(提供基于 FPGA 的加速器的虛擬云服務(wù) + 每 CPU 內(nèi)核服務(wù)),我們假設(shè)每小時(shí)成本為 1.06 美元4。這一成本包含使用 1 個(gè) FPGA 和 8 個(gè)虛擬 CPU 內(nèi)核的費(fèi)用,不過為了簡化計(jì)算,假設(shè)該價(jià)格僅適用于 CPU 內(nèi)核。
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器專為快速增長的計(jì)算密集型和內(nèi)存密集型工作負(fù)載實(shí)現(xiàn)更高性能而設(shè)計(jì)。
通過內(nèi)置加速器和軟件優(yōu)化,上一代英特爾 至強(qiáng) 可擴(kuò)展處理器已被證明可以在真實(shí)場景下的目標(biāo)工作負(fù)載上實(shí)現(xiàn)出色的每瓦性能5。這不但可以提高 CPU 利用率、降低功耗、提升投資回報(bào)率(ROI),而且還能幫助企業(yè)實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)。
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器內(nèi)置更多加速器,可為AI、數(shù)據(jù)分析、網(wǎng)絡(luò)、存儲和科學(xué)計(jì)算等快速增長的工作負(fù)載帶來更大的性能和能效優(yōu)勢。為實(shí)現(xiàn)新的內(nèi)置加速器功能,英特爾還為生態(tài)系統(tǒng)提供了操作系統(tǒng)級軟件、庫和 API 支持。值得一提的是,全新英特爾 至強(qiáng) 可擴(kuò)展處理器還具備其他一些重要特性,包括支持 DDR5、PCI Express 5.0 和 Compute Express Link (CXL) v1.1。
英特爾 Agilex 7 FPGA
從數(shù)據(jù)中心到網(wǎng)絡(luò),再到邊緣,F(xiàn)PGA 在現(xiàn)代應(yīng)用中發(fā)揮著越來越重要的作用。FPGA 的靈活性、出色能效、大規(guī)模并行架構(gòu)和高輸入/輸出 (I/O) 帶寬使其在加速和/或卸載AI、存儲和網(wǎng)絡(luò)等廣泛任務(wù)方面非常具有吸引力。這些應(yīng)用中有很多都對內(nèi)存提出了嚴(yán)苛要求(包括內(nèi)存的容量、帶寬、時(shí)延和能效)。為了滿足這些應(yīng)用的嚴(yán)苛要求,英特爾開發(fā)了英特爾 Agilex 7 FPGA 和 SoC FPGA(圖 6)。
英特爾 Agilex 7 FPGA I 系列6 采用了英特爾的 10 納米 SuperFin 技術(shù),專為帶寬密集型應(yīng)用打造。這些 FPGA 和 SoC FPGA 包含支持外部 DDR4 內(nèi)存的硬核化控制器,同時(shí)還支持 FPGA 領(lǐng)域首個(gè) CXL 硬核 IP,使開發(fā)人員能夠?qū)r(shí)延敏感型功能通過 CXL 互聯(lián)技術(shù)卸載至加速器上。
英特爾 Agilex 7 FPGA M 系列7 是第一款基于英特爾 7 制程工藝實(shí)現(xiàn),并配備有封裝 HBM2e 內(nèi)存的英特爾 Agilex FPGA。英特爾 7 制程工藝可實(shí)現(xiàn)更高的可編程邏輯結(jié)構(gòu)容量和性能,功耗也更低。硬核化控制器可支持 DDR5 和 LPDDR5 等先進(jìn)的內(nèi)存技術(shù)。
英特爾 Agilex 7 FPGA 和 SoC FPGA 可帶來出色的 I/O 帶寬(這對于當(dāng)今需要處理海量數(shù)據(jù)負(fù)載的系統(tǒng)而言至關(guān)重要),收發(fā)器數(shù)據(jù)速率高達(dá) 116 Gbps,并可支持 PCIe 5.0 和 CXL 1.1/2.0。
總結(jié)
如今的計(jì)算工作負(fù)載比過去規(guī)模更大、更復(fù)雜、更多樣化。通過將全新英特爾 產(chǎn)品與 Eideticom 和 Bittware 等合作伙伴的創(chuàng)新解決方案相結(jié)合,客戶可顯著降低目標(biāo)用例或工作負(fù)載的 TCO。
在很多情況下,將算法密集型和時(shí)延敏感型功能卸載至基于英特爾 Agilex FPGA 的加速器上,可釋放主機(jī) CPU 內(nèi)核,用于執(zhí)行其他創(chuàng)收任務(wù),使第四代英特爾 至強(qiáng) 可擴(kuò)展處理器發(fā)揮更大的價(jià)值。FSI 正是眾多從中受益的用例之一。
未來,Eideticon Noload解決方案還將移植到更高版本的 BittWare 卡(IA-440i8)上,這么做可能會將用于此 FSI 用例的 FPGA 卡從 2 個(gè)減至 1 個(gè)。
審核編輯:湯梓紅
-
處理器
+關(guān)注
關(guān)注
68文章
19286瀏覽量
229866 -
英特爾
+關(guān)注
關(guān)注
61文章
9967瀏覽量
171793 -
cpu
+關(guān)注
關(guān)注
68文章
10863瀏覽量
211797 -
存儲
+關(guān)注
關(guān)注
13文章
4314瀏覽量
85853 -
人工智能
+關(guān)注
關(guān)注
1791文章
47282瀏覽量
238534
原文標(biāo)題:Eideticom NoLoad? 解決方案釋放第四代英特爾? 至強(qiáng)? 可擴(kuò)展處理器強(qiáng)大性能,更好支持存儲計(jì)算
文章出處:【微信號:英特爾FPGA,微信公眾號:英特爾FPGA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論