(文/程文智)近年來(lái),在數(shù)字化浪潮的推動(dòng)下,傳感器及其產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出了爆炸式的增長(zhǎng),對(duì)數(shù)據(jù)處理基礎(chǔ)架構(gòu)的需求也隨之增長(zhǎng)。根據(jù)國(guó)際超級(jí)計(jì)算大會(huì)(ISC)的統(tǒng)計(jì),在HPC領(lǐng)域,超算系統(tǒng)架構(gòu)正變得越來(lái)越多元化,在近幾年的TOP500超算榜單中,使用GPU、FPGA等加速卡的異構(gòu)計(jì)算系統(tǒng)占比呈上升趨勢(shì)。
圖:Alveo U55C數(shù)據(jù)中心加速器卡
近日,賽靈思(Xilinx)在SC21全球超級(jí)計(jì)算大會(huì)上推出了新的Alveo U55C數(shù)據(jù)中心加速器卡,以及一款基于標(biāo)準(zhǔn)、API-driven 的集群解決方案,用于大規(guī)模部署 FPGA。據(jù)賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算( HPC )產(chǎn)品經(jīng)理Nathan Chang介紹,Alveo U55C加速器卡結(jié)合了非常多當(dāng)今HPC和大數(shù)據(jù)工作負(fù)載需要的關(guān)鍵功能。該加速器卡能夠提供Alveo 加速器產(chǎn)品系列中的最高計(jì)算密度和 HBM2容量。結(jié)合賽靈思基于 RoCE v2 的全新集群解決方案,可令運(yùn)行大規(guī)模計(jì)算工作負(fù)載的各類客戶大獲裨益,支持其利用現(xiàn)有數(shù)據(jù)中心基礎(chǔ)架構(gòu)和網(wǎng)絡(luò),實(shí)現(xiàn)強(qiáng)大的基于 FPGA 的 HPC 集群。
圖:賽靈思數(shù)據(jù)中心事業(yè)部高性能計(jì)算( HPC )產(chǎn)品經(jīng)理Nathan Chang
Alveo U55C最重要的特性
Alveo U55C卡融合了當(dāng)前 HPC工作負(fù)載所需的眾多關(guān)鍵特性。它能提供更高的數(shù)據(jù)流水線并行度、卓越的存儲(chǔ)器管理、優(yōu)化的整個(gè)流水線的數(shù)據(jù)遷移,以及Alveo產(chǎn)品系列中最高的單位功耗性能。
Alveo U55C與其前一代產(chǎn)品Alveo U280相比,有了很多升級(jí)。從外觀上來(lái)看,Alveo U55C采用了單插槽、全高半長(zhǎng)( FHHL )外形尺寸;從算力上來(lái)看,雖然Alveo U55C提供的算力沒(méi)變,但體積更小了,計(jì)算密度得到了很大的提升;從功耗上來(lái)看,Alveo U55C的最大功耗為150W,而Alveo U280的功耗為225W。而且,Alveo U55C還將HBM2的容量翻倍至16GB。
Nathan Chang解釋說(shuō),功耗降低的原因是Alveo U55C去掉了DDR,在存儲(chǔ)器卡方面讓HBM2增加了一倍,這就相當(dāng)于讓高帶寬的數(shù)量增加了4倍,由于去掉了DDR,所以Alveo U55C整個(gè)TDP功耗也下降了。
圖:Alveo U55C與其前一代產(chǎn)品Alveo U280的參數(shù)對(duì)比
在Nathan Chang看來(lái),Alveo U55C有三個(gè)非常重要的特性:一是采用了RoCE v2、DCBx,還有MPI,在現(xiàn)有網(wǎng)絡(luò)和基礎(chǔ)架構(gòu)上,為現(xiàn)在的數(shù)據(jù)中心提供了最尖端的計(jì)算集群。第二,現(xiàn)有的應(yīng)用開(kāi)發(fā)人員可以利用Vitis平臺(tái)上的一些已有的API、庫(kù)以及MPI,來(lái)擴(kuò)展他們的工作負(fù)載。第三就是高性能。
據(jù)他介紹,通過(guò)RoCE v2和 DCBx技術(shù),再結(jié)合200 Gbps帶寬,Alveo U55C構(gòu)建的集群解決方案使Alveo網(wǎng)絡(luò)可在性能和時(shí)延方面媲美 InfiniBand 網(wǎng)絡(luò),且無(wú)需對(duì)廠商加鎖。MPI (信息傳遞接口)集成功能使 HPC 開(kāi)發(fā)人員能以賽靈思 Vitis統(tǒng)一軟件平臺(tái)擴(kuò)展Alveo數(shù)據(jù)流水線。利用現(xiàn)有開(kāi)放標(biāo)準(zhǔn)和框架,現(xiàn)在能跨數(shù)百?gòu)?Alveo 卡上進(jìn)行性能擴(kuò)展,無(wú)需考慮服務(wù)器平臺(tái)和網(wǎng)絡(luò)基礎(chǔ)架構(gòu),同時(shí)還能共享工作負(fù)載和存儲(chǔ)器。
借助面向應(yīng)用和集群的高層次編程,軟件開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家能夠運(yùn)用 Vitis 平臺(tái),解鎖 Alveo 和自適應(yīng)計(jì)算的優(yōu)勢(shì)。賽靈思大力投入于 Vitis 開(kāi)發(fā)平臺(tái)和工具流程,旨在令不具備硬件專業(yè)知識(shí)的軟件開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家,也能更容易地使用自適應(yīng)計(jì)算。Vitis 平臺(tái)支持 Pytorch 和 Tensorflow 等主流 AI 框架,還支持 C、C++ 和 Python 等高層次編程語(yǔ)言,使開(kāi)發(fā)者能利用特定 API 和庫(kù)來(lái)構(gòu)建領(lǐng)域解決方案,或者使用賽靈思軟件開(kāi)發(fā)套件,從而在現(xiàn)有數(shù)據(jù)中心內(nèi)輕松加速關(guān)鍵 HPC 工作負(fù)載。
應(yīng)用案例
談到Alveo U55C的應(yīng)用,Nathan Chang列舉了幾個(gè)常用的應(yīng)用場(chǎng)景,比如幾乎每一家汽車廠商都會(huì)用到的碰撞仿真軟件LS-DYNA。汽車廠商主要是用它賴進(jìn)行汽車的撞擊測(cè)試,以便查看仿真效果,確保汽車在設(shè)計(jì)方面的安全性和結(jié)構(gòu)方面的完整性。而安全性和結(jié)構(gòu)系統(tǒng)的設(shè)計(jì)往往取決于模型性能,因其能以計(jì)算機(jī)輔助設(shè)計(jì)有限元方法( FEM )仿真來(lái)降低物理碰撞測(cè)試的成本。FEM求解器是驅(qū)動(dòng)具備數(shù)億個(gè)自由度仿真的主要算法,而這些龐大的算法可以細(xì)分為更基本的求解器,如 PCG、稀疏矩陣、ICCG。與 x86 CPU 相比,利用超并行數(shù)據(jù)流水線在大量 Alveo 卡上進(jìn)行性能擴(kuò)展,LS-DYNA 能夠?qū)崿F(xiàn)超過(guò) 5 倍的性能加速。這能在一個(gè) Alveo 流水線中提高單位時(shí)鐘周期的工作效率,令 LS-DYNA 客戶受益于突破性的仿真時(shí)間。
另外,他還介紹了一個(gè)圖分析的案例,“在加入賽靈思之前,我是一個(gè)創(chuàng)業(yè)者,當(dāng)時(shí)我處于油氣行業(yè),主要做的工作是做地殼震動(dòng)圖解決的AI和機(jī)器學(xué)習(xí)。我們知道,數(shù)據(jù)工程師、科學(xué)家、分析師在處理此類課題的時(shí)候,都會(huì)尋找數(shù)據(jù)的一些相關(guān)性。在尋找的過(guò)程中,我們發(fā)現(xiàn)了一個(gè)巨大的痛點(diǎn),那就是數(shù)據(jù)的孤島越來(lái)越多,如果想要把這些不同孤島上的數(shù)據(jù)聯(lián)系起來(lái),真的非常困難。”他感嘆。
不過(guò),Nathan Chang表示,圖庫(kù)數(shù)據(jù)是科學(xué)家認(rèn)為非常具有顛覆性的一個(gè)平臺(tái),它能夠?qū)?shù)據(jù)從孤島中提取出來(lái),讓偶讓數(shù)據(jù)科學(xué)家可以專注于數(shù)據(jù)之間的關(guān)系,而不是看單張圖。賽靈思的合作伙伴,TigerGraph 是一家圖分析平臺(tái)提供商,他們正使用多張 Alveo U55C 卡為兩種最高效算法進(jìn)行集群與加速,以驅(qū)動(dòng)基于圖的推薦和集群引擎。圖從信息孤島中采集數(shù)據(jù)并重點(diǎn)關(guān)注數(shù)據(jù)間的關(guān)系。圖領(lǐng)域的下一個(gè)前沿是實(shí)時(shí)查找答案。Alveo U55C 將推薦引擎的查詢和預(yù)測(cè)時(shí)間從數(shù)分鐘縮短至數(shù)毫秒。與基于 CPU 的集群相比,使用多張 U55C 卡擴(kuò)展分析所提供的出色計(jì)算能力和存儲(chǔ)器帶寬,可將圖查詢速度提升高達(dá) 45 倍。質(zhì)量評(píng)分也提升高達(dá) 35%,從而顯著提升置信度,將誤報(bào)幾率降至低個(gè)位數(shù)
另外,他還列舉了Alveo U55C在信號(hào)處理、醫(yī)療和金融方面的應(yīng)用。
總結(jié)
隨著高性能計(jì)算邁向百億億級(jí)大關(guān),功耗將成為下一個(gè)難關(guān)。而典型的高性能計(jì)算架構(gòu),即CPU和GPU的架構(gòu),難以提供可接收的單位功耗性能,因此,現(xiàn)在越來(lái)越多的高性能計(jì)算集群開(kāi)始采用一機(jī)構(gòu)計(jì)算架構(gòu),預(yù)計(jì)未來(lái)將會(huì)有更多的算力會(huì)部署在專門(mén)的加速器上,而不是通用CPU上。對(duì)于整個(gè)HPC服務(wù)器集群的降功耗目標(biāo)來(lái)說(shuō),使用加速器卡的效果更好,功耗更低。未來(lái)加速器卡的市場(chǎng)前景將會(huì)更加廣闊。
-
FPGA
+關(guān)注
關(guān)注
1630文章
21782瀏覽量
604980 -
圖像處理
+關(guān)注
關(guān)注
27文章
1298瀏覽量
56831 -
異構(gòu)計(jì)算
+關(guān)注
關(guān)注
2文章
102瀏覽量
16321
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論