0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為MLPerf HPC v1.0實(shí)現(xiàn)的選定優(yōu)化

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Sukru Burc Eryilmaz ? 2022-04-02 12:08 ? 次閱讀

在 MLPerf HPC v1 . 0 中, NVIDIA 供電系統(tǒng)贏得了五項(xiàng)新的行業(yè)指標(biāo)中的四項(xiàng),這些指標(biāo)主要關(guān)注 HPC 中的人工智能性能。作為一個(gè)全行業(yè)人工智能聯(lián)盟, MLPerf HPC 評(píng)估了一套性能基準(zhǔn),涵蓋了廣泛使用的人工智能工作負(fù)載。

在這一輪中,與 MLPerf 0 . 7 的強(qiáng)大擴(kuò)展性結(jié)果相比, NVIDIA 在 CosmoFlow 上的性能提高了 5 倍,在 DeepCAM 上的性能提高了 7 倍。這一強(qiáng)大的表現(xiàn)得益于成熟的 NVIDIA AI 平臺(tái)和全套軟件。

提供豐富多樣的庫(kù)、 SDK 、工具、編譯器和探查器,很難知道在正確的情況下何時(shí)何地應(yīng)用正確的資產(chǎn)。這篇文章詳細(xì)介紹了各種場(chǎng)景的工具、技術(shù)和好處,并概述了 CosmoFlow 和 DeepCAM 基準(zhǔn)測(cè)試所取得的成果。

我們已經(jīng)為 MLPerf Training v1.0 和 MLPerf Inference v1.1 發(fā)布了類似的指南,推薦用于其他面向基準(zhǔn)測(cè)試的案例。

調(diào)整計(jì)劃

我們使用包括 NVIDIA DALI 在內(nèi)的工具對(duì)代碼進(jìn)行了優(yōu)化,以加速數(shù)據(jù)處理,以及 CUDA Graphs 減少了小批量延遲,從而有效地?cái)U(kuò)展到 1024 個(gè)或更多 GPU 。我們還應(yīng)用了 NVIDIA SHARP ,通過(guò)將一些操作卸載到網(wǎng)絡(luò)交換機(jī)來(lái)加速通信。

我們提交的文件中使用的軟件可從 MLPerf repository 獲得。我們定期向 NGC catalog 添加新工具和新版本,這是我們針對(duì)預(yù)訓(xùn)練 AI 模型、行業(yè)應(yīng)用程序框架、 GPU 應(yīng)用程序和其他軟件資源的軟件中心。

主要性能優(yōu)化

在本節(jié)中,我們將深入討論為 MLPerf HPC 1 . 0 實(shí)現(xiàn)的選定優(yōu)化。

使用 NVIDIA DALI 庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理

在每次迭代之前,從磁盤獲取數(shù)據(jù)并進(jìn)行預(yù)處理。我們從默認(rèn)的數(shù)據(jù)加載器移到了 NVIDIA DALI library 。這為 GPU 提供了優(yōu)化的數(shù)據(jù)加載和預(yù)處理功能。

DALI 庫(kù)使用 CPU 和 GPU 的組合,而不是在 CPU 上執(zhí)行數(shù)據(jù)加載和預(yù)處理并將結(jié)果移動(dòng)到 GPU 。這將為即將到來(lái)的迭代帶來(lái)更有效的數(shù)據(jù)預(yù)處理。優(yōu)化后, CosmoFlow 和 DeepCAM 的速度都顯著加快。 DeepCAM 實(shí)現(xiàn)了超過(guò) 50% 的端到端性能提升。

此外, DALI 還為即將到來(lái)的迭代提供異步數(shù)據(jù)加載,以消除關(guān)鍵路徑的 I / O 開銷。啟用此模式后,我們看到 DeepCAM 額外增加了 70% 。

將通道應(yīng)用于最后的 NHWC 布局

默認(rèn)情況下, DeepCAM 基準(zhǔn)使用 NCHW 布局作為激活張量。我們使用 PyTorch 的通道 last ( NHWC 布局)支持來(lái)避免額外的轉(zhuǎn)置內(nèi)核。 cuDNN 中的大多數(shù)卷積核都針對(duì) NHWC 布局進(jìn)行了優(yōu)化。

因此,在框架中使用 NCHW 布局需要額外的轉(zhuǎn)置內(nèi)核,以便從 NCHW 轉(zhuǎn)換到 NHWC ,從而實(shí)現(xiàn)高效的卷積運(yùn)算。在框架中使用 NHWC 布局避免了這些冗余拷貝,并在 DeepCAM 模型上實(shí)現(xiàn)了約 10% 的性能提升。 NHWC support 在 PyTorch 框架中以 beta 模式提供。

CUDA 圖

CUDA 圖形允許啟動(dòng)由一系列內(nèi)核組成的單個(gè)圖形,而不是單獨(dú)啟動(dòng)從 CPU 到 GPU 的每個(gè)內(nèi)核。此功能最大限度地減少了 CPU 在每次迭代中的參與,通過(guò)最大限度地減少延遲(尤其是在強(qiáng)擴(kuò)展場(chǎng)景中)顯著提高了性能。

MXNet 先前添加了 CUDA 圖形支持,而 CUDA Graphs support 最近也添加到了 PyTorch 。 PyTorch 中的 CUDA 圖形支持使 DeepCAM 在強(qiáng)擴(kuò)展場(chǎng)景中的端到端性能提高了約 15% ,這對(duì)延遲和抖動(dòng)最為敏感。

使用 MPI 進(jìn)行高效的數(shù)據(jù)暫存

在伸縮性較弱的情況下,分布式文件系統(tǒng)的性能無(wú)法滿足 GPU 的需求。為了增加總存儲(chǔ)帶寬,我們將數(shù)據(jù)集放入 DeepCAM 的節(jié)點(diǎn)本地 NVME 內(nèi)存中。

由于各個(gè)實(shí)例都很小,我們可以靜態(tài)地分割數(shù)據(jù),因此每個(gè)節(jié)點(diǎn)只需要準(zhǔn)備完整數(shù)據(jù)集的一小部分。該解決方案如圖 1 所示。這里,我們用 M 表示實(shí)例數(shù),用 N 表示每個(gè)實(shí)例的秩數(shù)。

圖 1 :將列組聚集到碎片中。

請(qǐng)注意,跨實(shí)例,具有相同列組 ID 的每個(gè)列組使用相同的數(shù)據(jù)碎片。這意味著在本機(jī)上,每個(gè)數(shù)據(jù)碎片被讀取 M 次。為了減輕文件系統(tǒng)的壓力,我們創(chuàng)建了與實(shí)例正交的數(shù)據(jù)子硬盤,如圖 2 所示。

圖 2 :亞硬化的演示。

這樣,每個(gè)文件從全局文件系統(tǒng)只讀一次。最后,每個(gè)實(shí)例都需要接收所有數(shù)據(jù)。為此,我們創(chuàng)建了與實(shí)例內(nèi)通訊器正交的新 MPI 通訊器,也就是說(shuō),我們將具有相同列組 id 的所有實(shí)例列組組合到相同的實(shí)例間通訊器中。然后,我們可以使用 MPI allgather 將各個(gè)子硬盤組合成原始碎片的 M 個(gè)副本。

圖 3 :子硬塊的分布。

我們不按順序執(zhí)行這些步驟,而是使用批處理來(lái)創(chuàng)建一個(gè)管道,該管道與子硬盤的數(shù)據(jù)讀取和分發(fā)重疊。為了提高讀寫性能,我們進(jìn)一步實(shí)現(xiàn)了一個(gè)小型輔助工具,它使用 O _ DIRECT 來(lái)提高 I / O 帶寬。

優(yōu)化使 DeepCAM 基準(zhǔn)測(cè)試的端到端加速比超過(guò) 2 倍。這在提交文件 repository 中提供。

損失函數(shù)的混合編程

使用命令式編程可以靈活地定義和運(yùn)行模型,這樣定義一個(gè)機(jī)器學(xué)習(xí)模型就像寫一個(gè)python程序。與此相對(duì)的是符號(hào)式編程,它會(huì)先定義計(jì)算過(guò)程,然后再執(zhí)行。這種編程方法允許執(zhí)行引擎進(jìn)行各種優(yōu)化,但丟失了命令式方法的靈活性。

MXNet 框架采用了合并這兩種方法的混合式編程。命令式定義的計(jì)算可以被編譯成符號(hào)式,并在可能時(shí)進(jìn)行優(yōu)化。CosmoFlow 將模型混合式編程進(jìn)行了擴(kuò)展,把損失函數(shù)也包含進(jìn)來(lái)。

Hybridization of a larger scope of the model allows realizing further fusion opportunities.

圖 4 :損失函數(shù)的模型混合式。

這允許將損耗計(jì)算中的元素操作與 CosmoFlow 模型的縮放激活輸出進(jìn)行融合,從而減少總體迭代延遲。優(yōu)化使 CosmoFlow 的端到端性能提高了近 5% 。

節(jié)間均采用夏普處理,降低了集體成本

SHARP 允許將集合操作從 CPU 卸載到節(jié)間網(wǎng)絡(luò)結(jié)構(gòu)中的交換機(jī)。這有效地將 allreduce 操作的 InfiniBand 網(wǎng)絡(luò)的節(jié)間帶寬增加了一倍。這種優(yōu)化可使 MLPerf HPC 基準(zhǔn)測(cè)試的性能提高高達(dá) 5% ,特別是在強(qiáng)擴(kuò)展場(chǎng)景中。

繼續(xù)使用 MLPerf HPC

科學(xué)家們正在加速取得突破,部分原因是人工智能和高性能計(jì)算相結(jié)合,能夠比傳統(tǒng)方法更快、更準(zhǔn)確地提供洞察力。

MLPerf HPC v1 . 0 反映了超級(jí)計(jì)算行業(yè)對(duì)客觀、同行評(píng)審的方法的需求,以測(cè)量和比較與 HPC 相關(guān)用例的 AI 培訓(xùn)性能。在這一輪中, NVIDIA 計(jì)算平臺(tái)通過(guò)損壞所有三個(gè)性能基準(zhǔn)來(lái)證明清晰的領(lǐng)導(dǎo),同時(shí)也證明了兩個(gè)吞吐量測(cè)量的最高效率。

關(guān)于作者

Sukru Burc Eryilmaz 是 NVIDIA 計(jì)算機(jī)體系結(jié)構(gòu)的高級(jí)架構(gòu)師,他致力于在單節(jié)點(diǎn)和超級(jí)計(jì)算機(jī)規(guī)模上改進(jìn)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的端到端性能。他從斯坦福大學(xué)獲得博士學(xué)位,并從比爾肯特大學(xué)獲得學(xué)士學(xué)位。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4986

    瀏覽量

    103067
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7494

    瀏覽量

    87962
  • MLPerf
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    641
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    APView500PV電能質(zhì)量在線監(jiān)測(cè)裝置安裝使用說(shuō)明書V1.0

    電子發(fā)燒友網(wǎng)站提供《APView500PV電能質(zhì)量在線監(jiān)測(cè)裝置安裝使用說(shuō)明書V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 12-16 14:11 ?0次下載

    ESP32-CAM Wi-Fi+BT SoC模組 V1.0

    電子發(fā)燒友網(wǎng)站提供《ESP32-CAM Wi-Fi+BT SoC模組 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 11-21 16:24 ?0次下載

    浪潮信息AI存儲(chǔ)性能測(cè)試的領(lǐng)先之道

    AI技術(shù)的無(wú)限可能。近日,在MLCommons的子項(xiàng)目MLPerf Storage v1.0性能基準(zhǔn)評(píng)測(cè)中,浪潮信息再度展現(xiàn)了在AI存儲(chǔ)領(lǐng)域的卓越實(shí)力。
    的頭像 發(fā)表于 10-29 16:30 ?249次閱讀
    浪潮信息AI存儲(chǔ)性能測(cè)試的領(lǐng)先之道

    浪潮信息AS13000G7榮獲MLPerf? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

    北京2024年9月27日?/美通社/ -- 9月25日,MLCommons協(xié)會(huì)發(fā)布最新MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)。浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7表現(xiàn)出
    的頭像 發(fā)表于 09-28 16:46 ?217次閱讀
    浪潮信息AS13000G7榮獲<b class='flag-5'>MLPerf</b>? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

    第四章:對(duì)廣東龍芯2K0300-蜂鳥板-v1.0視頻教程我的感觸

    我全部下載了廣東龍芯2K0300-蜂鳥板-v1.0視頻教程共十四個(gè)。 (在嘩哩嘩哩地址https://space.bilibili.com/481273999) 將看后的感想總結(jié)如下: 龍芯
    發(fā)表于 09-11 18:10

    qdprobot for mixly軟件及模塊操作教程v1.0

    電子發(fā)燒友網(wǎng)站提供《qdprobot for mixly軟件及模塊操作教程v1.0.pdf》資料免費(fèi)下載
    發(fā)表于 08-06 14:23 ?0次下載

    SM7603P芯片12V/300mA電源方案2015 V1.0

    鉦銘科SM7503P芯片12V 300mA適配器電源方案2015V1.0
    發(fā)表于 07-11 10:57 ?0次下載

    TC397_TFT v1.0開發(fā)板編譯燒錄任意ADS程序會(huì)進(jìn)Context Maneger Error Trap如何解決?

    目前TC397_TFT v1.0開發(fā)板采用的是TC397 A step的芯片,但我看ADS都是TC397 B step的例程,我將ADS中幾個(gè)示例編譯并燒錄至開發(fā)版中,均不能正常運(yùn)行,分別通過(guò)
    發(fā)表于 05-28 06:42

    芯海應(yīng)用筆記:CSU3AF10 IAP功能設(shè)計(jì)指南_V1.0

    和 UART 兩種協(xié)議的 IAP 升則方式的差異、IAP 設(shè)計(jì)需要注意的事項(xiàng)等。*附件:應(yīng)用筆記:CSU3AF10IAP功能設(shè)計(jì)指南_V1.0.pdf
    發(fā)表于 05-16 14:29

    2024年,RISC-V能在HPC實(shí)現(xiàn)突破嗎?

    電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))自x86統(tǒng)治HPC多年以來(lái),大家都在期待著能有新的架構(gòu)能夠打破這一現(xiàn)狀。而2020年的富岳超算做到了這一點(diǎn),將Arm架構(gòu)以第一的姿態(tài)呈現(xiàn)在了大家的面前??呻S著RISC-V慢慢獲得更多的關(guān)注,不少人在猜測(cè)這個(gè)全新的開放式架構(gòu)何時(shí)能在
    的頭像 發(fā)表于 02-05 01:19 ?8307次閱讀

    OK3568-C開發(fā)板_AMP_Linux4.19.232+QT5.15.8_用戶編譯手冊(cè)_V1.0

    OK3568-C_AMP_Linux4.19.232+QT5.15.8_用戶編譯手冊(cè)_V1.0_20231227
    發(fā)表于 01-23 16:28 ?12次下載

    賽昉系列:OK7110-C_Qt5.15.2+Linux5.15.0_編譯手冊(cè)_V1.0

    OK7110-C_Qt5.15.2+Linux5.15.0_編譯手冊(cè)_V1.0_20230820
    發(fā)表于 01-23 16:23 ?0次下載

    賽昉系列:OK7110-C_Qt5.15.2+Linux5.15.0_軟件手冊(cè)_V1.0

    OK7110-C開發(fā)板_Qt5.15.2+Linux5.15.0_軟件手冊(cè)_V1.0_20230808
    發(fā)表于 01-23 16:21 ?0次下載

    賽昉系列:FET7110-C、OK7110-C_硬件手冊(cè)_V1.0

    FET7110-C、OK7110-C_硬件手冊(cè)_V1.0_20230729
    發(fā)表于 01-23 16:18 ?1次下載

    軟通動(dòng)力天鶴數(shù)據(jù)復(fù)制服務(wù)系統(tǒng)V1.0獲得華為技術(shù)認(rèn)證書

    近日,軟通動(dòng)力自主研發(fā)的“天鶴數(shù)據(jù)復(fù)制服務(wù)系統(tǒng)V1.0”成功通過(guò)華為云GaussDB各項(xiàng)兼容性測(cè)試驗(yàn)證,正式獲得華為云授予的HUAWEI COMPATIBLE技術(shù)認(rèn)證證書。這標(biāo)志著軟通動(dòng)力數(shù)據(jù)復(fù)制服務(wù)進(jìn)一步完善,將為各行各業(yè)的數(shù)字化轉(zhuǎn)型提供更加全面、高效的數(shù)據(jù)支持。
    的頭像 發(fā)表于 01-23 09:56 ?791次閱讀
    軟通動(dòng)力天鶴數(shù)據(jù)復(fù)制服務(wù)系統(tǒng)<b class='flag-5'>V1.0</b>獲得華為技術(shù)認(rèn)證書