国产精品无码专区?v在线播放,国产毛片网站

高性能計(jì)算（HPC）和人工智能已經(jīng)將超級(jí)計(jì)算機(jī)推向了廣泛的商業(yè)應(yīng)用領(lǐng)域，成為其主要的數(shù)據(jù)處理引擎，助力于研究探索、科學(xué)發(fā)現(xiàn)和產(chǎn)品開(kāi)發(fā)等。

這些系統(tǒng)可以進(jìn)行復(fù)雜的模擬，開(kāi)啟通過(guò)軟件編寫(xiě)軟件的人工智能新時(shí)代。

超級(jí)計(jì)算能力的領(lǐng)先意味著科學(xué)和創(chuàng)新能力的領(lǐng)先，這也是為什么許多政府、研究機(jī)構(gòu)和企業(yè)愿意投資構(gòu)建更快、更強(qiáng)大的超級(jí)計(jì)算平臺(tái)的原因。

追求超級(jí)計(jì)算系統(tǒng)最高的性能來(lái)達(dá)到最佳的效率，傳統(tǒng)意義上與現(xiàn)代云計(jì)算系統(tǒng)追求的安全、多租戶架構(gòu)完全不一樣。

云原生超級(jí)計(jì)算平臺(tái)首次提供了一個(gè)兩全其美的方案，將峰值性能、集群效率與當(dāng)代流行的基于零信任的安全隔離和多租戶等特征集于一體。

邁向這種新架構(gòu)的關(guān)鍵就是 NVIDIA 的 BlueField DPU（數(shù)據(jù)處理器）。DPU 是一個(gè)集數(shù)據(jù)中心于單芯片的平臺(tái)，為每個(gè)超級(jí)計(jì)算節(jié)點(diǎn)注入了兩種新功能：

基礎(chǔ)設(shè)施的控制平面處理器 – 保護(hù)用戶訪問(wèn)的安全、加速存儲(chǔ)訪問(wèn)、加速網(wǎng)絡(luò)通信和對(duì)于計(jì)算節(jié)點(diǎn)的全生命周期編排，卸載主計(jì)算處理器的基礎(chǔ)設(shè)施操作，實(shí)現(xiàn)裸機(jī)多租戶。

通過(guò)硬件加速的方式將數(shù)據(jù)通路隔離出來(lái)，保障線速 – 實(shí)現(xiàn)裸機(jī)性能。

HPC 和 AI 通信框架和庫(kù)對(duì)延遲和帶寬都很敏感，它們?cè)趹?yīng)用性能方面起著關(guān)鍵作用。將通信庫(kù)從主機(jī) CPU 或 GPU 卸載到 BlueField DPU ，為通信和計(jì)算的并行處理實(shí)現(xiàn)了最大程度的重疊，它還減少了操作系統(tǒng)的抖動(dòng)帶來(lái)的負(fù)面影響，顯著提高了應(yīng)用性能。

云原生超級(jí)計(jì)算機(jī)架構(gòu)的開(kāi)發(fā)是基于開(kāi)放社區(qū)而進(jìn)行的，包括了商業(yè)公司、學(xué)術(shù)組織和政府機(jī)構(gòu)等。這個(gè)不斷增長(zhǎng)的社區(qū)對(duì)于開(kāi)發(fā)下一代超級(jí)計(jì)算至關(guān)重要。

在本文中分享的一個(gè)例子是 MVAPICH2-DPU 通信庫(kù)，由 X-ScaleSolutions 公司設(shè)計(jì)和開(kāi)發(fā)。MVAPICH2-DPU 庫(kù)實(shí)現(xiàn)了了對(duì)于標(biāo)準(zhǔn) MPI（消息傳遞接口）的無(wú)阻塞集合通信的卸載。

本文將介紹這種無(wú)阻塞集合通信卸載的基本原理，以及最終用戶如何使用 MVAPICH2-DPU MPI 庫(kù)來(lái)加速科學(xué)計(jì)算應(yīng)用的執(zhí)行，特別是針對(duì)于大規(guī)模的的無(wú)阻塞 all-to-all 通信。

BlueField DPU

關(guān)于 BlueField DPU 的架構(gòu)及其如何與主機(jī)計(jì)算平臺(tái)互連的介紹， DPU 上的 ConnectX-6 網(wǎng)卡可以提供 InfiniBand 網(wǎng)絡(luò)接口。此外，它還有一組 Arm 核， BlueField-2 DPU 包含一組 8 個(gè) 2.0 GHz 的 Arm 核， Arm 處理器集成了 16GB 的共享內(nèi)存。

MVAPICH2-DPU MPI 通信庫(kù)是 MVAPICH2 MPI 通信庫(kù)的分支，該通信庫(kù)專(zhuān)門(mén)為在 InfiniBand 網(wǎng)絡(luò)中充分發(fā)揮 BlueField DPU 的潛力而進(jìn)行了優(yōu)化。

最新的 MVAPICH2-DPU 2021 。 06 版本具有以下功能：

基于 MVAPICH2 2.3.6 版本，符合 MPI 3.1 標(biāo)準(zhǔn)

支持 MVAPICH2 2.3.6 版本提供的所有功能

通過(guò)這個(gè)新框架可以將無(wú)阻塞集合通信（Nonblocking Collectives）卸載到 DPU

卸載無(wú)阻塞 Alltoall （MPI 的 Ialltoall）到 DPU

100%的計(jì)算與 MPI_Ialltoall 無(wú)阻塞集合通信的重疊使用 MPI Ialltoall 無(wú)阻塞集合通信加速科學(xué)計(jì)算應(yīng)用

OSU（俄亥俄州立大學(xué)）做的

Micro-Benchmark 測(cè)試用例

OSU的MVAPICH2-DPU MPI 軟件包內(nèi)置了OSU MPI Micro-Benchmarks。OMB 基準(zhǔn)測(cè)試套件包含了無(wú)阻塞集合通信操作的基準(zhǔn)測(cè)試，這些基準(zhǔn)測(cè)試旨在評(píng)估無(wú)阻塞 MPI 集合通信和計(jì)算之間的重疊能力。

OMB 測(cè)試包中的無(wú)阻塞集合通信測(cè)試基準(zhǔn)可以用來(lái)評(píng)估以下指標(biāo)：

重疊功能

采用無(wú)阻塞集合通信與計(jì)算步驟重疊運(yùn)行時(shí)的總執(zhí)行時(shí)間

為此，我們?cè)趪?guó)際高性能計(jì)算和人工智能咨詢委員會(huì)（HPC-AI Advisory Council）的一臺(tái) 32 節(jié)點(diǎn)的集群上運(yùn)行了完整 OMB 測(cè)試這臺(tái)集群采用了32 個(gè)HDR 200Gb/s InfiniBand BlueField DPU 互連在一起，每個(gè)主機(jī)節(jié)點(diǎn)有兩個(gè) 16 核、2.60 GHz 的 Intel Xeon E5-2697A V4 CPU ，每個(gè) BluefFeld-2 DPU 有 8 個(gè)2.0 GHz 的 Arm 核和 16GB 內(nèi)存。

分別運(yùn)行 512 個(gè)MPI 進(jìn)程（ 32 個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)運(yùn)行 16 個(gè)進(jìn)程（PPN：Process Per Node ）和 1024 個(gè)MPI 進(jìn)程（32 個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)運(yùn)行 32 個(gè) PPN）的 MPI的 Ialltoall 無(wú)阻塞集合通信的測(cè)試結(jié)果。

隨著消息（Message）大小的增加， MVAPICH2- DPU 庫(kù)表現(xiàn)出了計(jì)算和 MPI Ialltoall 無(wú)阻塞集合通信之間的完全（100%）重疊。相比之下，沒(méi)有 DPU 來(lái)卸載的 MVAPICH2 默認(rèn)通信庫(kù)，僅僅可以在計(jì)算和 MPI Ialltoall 無(wú)阻塞集合通信之間發(fā)生很少的重疊。

當(dāng) MPI 應(yīng)用程序中的計(jì)算步驟與 MPI Ialltoall 無(wú)阻塞集合通信進(jìn)行重疊操作時(shí)， MVAPICH2-DPU MPI 庫(kù)在程序的總體執(zhí)行時(shí)間上體現(xiàn)出了顯著的性能優(yōu)勢(shì)。

其原因就是因?yàn)?在主機(jī)上的 Xeon CPU 核在計(jì)算時(shí)，DPU 中的 Arm 核可以同時(shí)在執(zhí)行無(wú)阻塞 MPI all-to-all 通信，實(shí)現(xiàn)了計(jì)算和通信的高度重疊。

與標(biāo)準(zhǔn)的 MVAPICH2 MPI 庫(kù)相比， MVAPICH2-DPU MPI 庫(kù)可以提供高達(dá) 23% 的性能優(yōu)勢(shì)。這個(gè) OMB-MPI_Ialltoall 測(cè)試涵蓋了在 32 節(jié)點(diǎn)上不同消息大小和不同 PPN 的場(chǎng)景。

加速 P3DFFT 應(yīng)用程序內(nèi)核

P3DFFT 是一種常見(jiàn)的 MPI 內(nèi)核，被用于許多使用快速傅立葉變換（ FFT ）的終端應(yīng)用。P3DFFT 的開(kāi)發(fā)人員專(zhuān)門(mén)設(shè)計(jì)了一個(gè) MPI 內(nèi)核版本來(lái)支持無(wú)阻塞 all-to-all 集合通信和計(jì)算步驟的最大化重疊操作。

我們?cè)贖PC-AI Advisory Council的 32 節(jié)點(diǎn)集群上對(duì) P3DFFT MPI 內(nèi)核的增強(qiáng)版本通過(guò)MVAPICH2-DPU MPI 庫(kù)進(jìn)行了評(píng)估。從圖 4 可以看到 MVAPICH2-DPU MPI 庫(kù)將 P3DFFT 應(yīng)用內(nèi)核的總體執(zhí)行時(shí)間減少了 21% ，涵蓋了各種大小的網(wǎng)格和PPN 。

概括

NVIDIA DPU 架構(gòu)提供了新的功能，可以將各種中間件的功能卸載到 DPU 上的可編程 Arm 核上。為了能利用這些功能來(lái)加速科學(xué)應(yīng)用，必須重新設(shè)計(jì) MPI 通信庫(kù)。

MVAPICH2-DPU MPI 庫(kù)是利用到 DPU 的這種功能的先行者之一。最初版本的可以卸載MPI_Ialltoall 無(wú)阻塞集合通信的MVAPICH2-DPU 通信庫(kù)，展示了計(jì)算和無(wú)阻塞 alltoall 集合通信的之間的 100% 重疊。在運(yùn)行 1024 個(gè)MPI進(jìn)程時(shí)，它可以將 P3DFFT 應(yīng)用內(nèi)核的執(zhí)行時(shí)間縮短 21% 。

這項(xiàng)研究證明了使用 MVAPICH2-DPU MPI 通信庫(kù)的 DPU 架構(gòu)具有很強(qiáng)的 ROI 。

隨著 DPU 架構(gòu)的不斷進(jìn)步，越來(lái)越多的面向其它 MPI 操作的卸載功能將隨著新的版本逐漸發(fā)布，并為加速云原生超級(jí)計(jì)算系統(tǒng)上的科學(xué)應(yīng)用發(fā)揮重要作用。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5002

瀏覽量
103233

原文標(biāo)題：NVIDIA DPU在HPC 集群上加速科學(xué)計(jì)算應(yīng)用

文章出處：【微信號(hào)：murata-eetrend，微信公眾號(hào)：murata-eetrend】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

在NVIDIA BlueField-3 DPU上運(yùn)行WEKA客戶端的實(shí)際優(yōu)勢(shì)

WEKA是可擴(kuò)展軟件定義數(shù)據(jù)平臺(tái)的先驅(qū)，NVIDIA 正在與其合作，將 WEKA 先進(jìn)的數(shù)據(jù)平臺(tái)解決方案與功能強(qiáng)大的NVIDIA BlueField DPU相結(jié)合。

發(fā)表于 01-07 09:43 ?87次閱讀

在<b class='flag-5'>NVIDIA</b> BlueField-3 <b class='flag-5'>DPU</b><b class='flag-5'>上</b>運(yùn)行WEKA客戶端的實(shí)際優(yōu)勢(shì)

云計(jì)算HPC軟件關(guān)鍵技術(shù)

云計(jì)算HPC軟件關(guān)鍵技術(shù)涉及系統(tǒng)架構(gòu)、處理器技術(shù)、操作系統(tǒng)、計(jì)算加速、網(wǎng)絡(luò)技術(shù)以及軟件優(yōu)化等多個(gè)方面。下面，AI部落小編帶您探討云計(jì)算

發(fā)表于 12-18 11:23 ?106次閱讀

《CST Studio Suite 2024 GPU加速計(jì)算指南》

的各個(gè)方面，包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 - NVIDIA GPU：詳細(xì)列出了支持

發(fā)表于 12-16 14:25

云計(jì)算和HPC的關(guān)系

盡管云計(jì)算和HPC在架構(gòu)、應(yīng)用場(chǎng)景和成本效益等方面存在顯著差異，但云計(jì)算和HPC之間并非孤立存在，而是相互補(bǔ)充、協(xié)同發(fā)展的關(guān)系。下面，AI部落小編帶您探討云

發(fā)表于 12-14 10:35 ?126次閱讀

NVIDIA發(fā)布cuPyNumeric加速計(jì)算庫(kù)

該加速計(jì)算庫(kù)幫助科研人員無(wú)縫地?cái)U(kuò)展到強(qiáng)大的計(jì)算集群，并且無(wú)需修改 Python 代碼，推進(jìn)科學(xué)發(fā)現(xiàn)。

發(fā)表于 11-21 10:05 ?274次閱讀

NVIDIA加速計(jì)算如何推動(dòng)醫(yī)療健康

近日，NVIDIA 企業(yè)平臺(tái)副總裁 Bob Pette 在 AI Summit 一場(chǎng)演講中重點(diǎn)談?wù)摿?NVIDIA 加速計(jì)算如何推動(dòng)醫(yī)療健康、網(wǎng)絡(luò)安全和制造等行業(yè)實(shí)現(xiàn)轉(zhuǎn)型。他表示，

發(fā)表于 11-20 09:10 ?305次閱讀

NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

市的 Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬(wàn)顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA S

發(fā)表于 10-30 09:33 ?163次閱讀

<b class='flag-5'>NVIDIA</b> 以太網(wǎng)<b class='flag-5'>加速</b> xAI 構(gòu)建的全球最大 AI 超級(jí)<b class='flag-5'>計(jì)算</b>機(jī)

科研計(jì)算HPC平臺(tái)是什么

高性能計(jì)算平臺(tái)（HPC平臺(tái)）是一個(gè)利用由成千上萬(wàn)個(gè)處理器核心組成的超級(jí)計(jì)算機(jī)或計(jì)算機(jī)集群來(lái)執(zhí)行復(fù)雜計(jì)算

發(fā)表于 10-21 10:43 ?193次閱讀

HPC云計(jì)算前景

高性能計(jì)算（HPC）與云計(jì)算的結(jié)合，正逐步成為推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)升級(jí)的重要引擎。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大和計(jì)算需求的日益復(fù)雜，HPC云

發(fā)表于 10-16 10:17 ?245次閱讀

借助NVIDIA超級(jí)計(jì)算機(jī)加速量子計(jì)算發(fā)展

科學(xué)期刊《自然》（Nature）本月早些時(shí)候發(fā)表了一項(xiàng)研究，通過(guò)使用 NVIDIA 驅(qū)動(dòng)的超級(jí)計(jì)算機(jī)，驗(yàn)證了量子計(jì)算的商業(yè)化途徑。

發(fā)表于 07-25 09:55 ?539次閱讀

基于FPGA的類(lèi)腦計(jì)算平臺(tái) —PYNQ 集群的無(wú)監(jiān)督圖像識(shí)別類(lèi)腦計(jì)算系統(tǒng)

模擬器，可為 SNN 算法開(kāi)發(fā)者和神經(jīng)學(xué)家提供理想滿意的類(lèi)腦仿真實(shí)驗(yàn)平臺(tái)。 (2)本設(shè)計(jì)提供的基于 NEST 仿真器的 FPGA 集群的硬件加速服務(wù)可以為實(shí)驗(yàn)環(huán)境不理想，應(yīng)用計(jì)算復(fù)雜周期長(zhǎng)的用戶帶來(lái)

發(fā)表于 06-25 18:35

高性能計(jì)算集群的能耗優(yōu)化

高性能計(jì)算（HighPerformanceComputing，HPC）是指利用大規(guī)模并行計(jì)算機(jī)集群來(lái)解決復(fù)雜的科學(xué)和工程問(wèn)題的技術(shù)。高性能

發(fā)表于 05-25 08:27 ?447次閱讀

助力科學(xué)發(fā)展，NVIDIA AI加速HPC研究

科學(xué)家和研究人員正在利用 NVIDIA 技術(shù)將生成式 AI 應(yīng)用于代碼生成、天氣預(yù)報(bào)、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。

發(fā)表于 05-14 09:17 ?426次閱讀

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI 預(yù)測(cè)。

發(fā)表于 02-29 14:04 ?594次閱讀

什么是HPC高性能計(jì)算

高性能計(jì)算（HighPerformanceComputing，簡(jiǎn)稱(chēng)HPC），是指利用集群、網(wǎng)格、超算等計(jì)算機(jī)技術(shù)，通過(guò)合理地組織計(jì)算機(jī)資源以

發(fā)表于 02-19 13:27 ?878次閱讀

搜索歷史

剖析NVIDIA DPU如何在HPC 集群上加速科學(xué)計(jì)算應(yīng)用

評(píng)論

在NVIDIA BlueField-3 DPU上運(yùn)行WEKA客戶端的實(shí)際優(yōu)勢(shì)

云計(jì)算HPC軟件關(guān)鍵技術(shù)

《CST Studio Suite 2024 GPU加速計(jì)算指南》

云計(jì)算和HPC的關(guān)系

NVIDIA發(fā)布cuPyNumeric加速計(jì)算庫(kù)

NVIDIA加速計(jì)算如何推動(dòng)醫(yī)療健康

NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

科研計(jì)算HPC平臺(tái)是什么

HPC云計(jì)算前景

借助NVIDIA超級(jí)計(jì)算機(jī)加速量子計(jì)算發(fā)展

基于FPGA的類(lèi)腦計(jì)算平臺(tái) —PYNQ 集群的無(wú)監(jiān)督圖像識(shí)別類(lèi)腦計(jì)算系統(tǒng)

高性能計(jì)算集群的能耗優(yōu)化

助力科學(xué)發(fā)展，NVIDIA AI加速HPC研究

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

什么是HPC高性能計(jì)算