久久99久久99精品免视看动漫,三级麻豆樱花在线观看视频,亚洲色香蕉一区二区三区

在 MLPerf HPC v1 . 0 中， NVIDIA 供電系統(tǒng)贏得了五項(xiàng)新的行業(yè)指標(biāo)中的四項(xiàng)，這些指標(biāo)主要關(guān)注 HPC 中的人工智能性能。作為一個(gè)全行業(yè)人工智能聯(lián)盟， MLPerf HPC 評(píng)估了一套性能基準(zhǔn)，涵蓋了廣泛使用的人工智能工作負(fù)載。

在這一輪中，與 MLPerf 0 . 7 的強(qiáng)大擴(kuò)展性結(jié)果相比， NVIDIA 在 CosmoFlow 上的性能提高了 5 倍，在 DeepCAM 上的性能提高了 7 倍。這一強(qiáng)大的表現(xiàn)得益于成熟的 NVIDIA AI 平臺(tái)和全套軟件。

提供豐富多樣的庫(kù)、 SDK 、工具、編譯器和探查器，很難知道在正確的情況下何時(shí)何地應(yīng)用正確的資產(chǎn)。這篇文章詳細(xì)介紹了各種場(chǎng)景的工具、技術(shù)和好處，并概述了 CosmoFlow 和 DeepCAM 基準(zhǔn)測(cè)試所取得的成果。

我們已經(jīng)為 MLPerf Training v1.0 和 MLPerf Inference v1.1 發(fā)布了類似的指南，推薦用于其他面向基準(zhǔn)測(cè)試的案例。

調(diào)整計(jì)劃

我們使用包括 NVIDIA DALI 在內(nèi)的工具對(duì)代碼進(jìn)行了優(yōu)化，以加速數(shù)據(jù)處理，以及 CUDA Graphs 減少了小批量延遲，從而有效地?cái)U(kuò)展到 1024 個(gè)或更多 GPU 。我們還應(yīng)用了 NVIDIA SHARP ，通過(guò)將一些操作卸載到網(wǎng)絡(luò)交換機(jī)來(lái)加速通信。

我們提交的文件中使用的軟件可從 MLPerf repository 獲得。我們定期向 NGC catalog 添加新工具和新版本，這是我們針對(duì)預(yù)訓(xùn)練 AI 模型、行業(yè)應(yīng)用程序框架、 GPU 應(yīng)用程序和其他軟件資源的軟件中心。

主要性能優(yōu)化

在本節(jié)中，我們將深入討論為 MLPerf HPC 1 . 0 實(shí)現(xiàn)的選定優(yōu)化。

使用 NVIDIA DALI 庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理

在每次迭代之前，從磁盤獲取數(shù)據(jù)并進(jìn)行預(yù)處理。我們從默認(rèn)的數(shù)據(jù)加載器移到了 NVIDIA DALI library 。這為 GPU 提供了優(yōu)化的數(shù)據(jù)加載和預(yù)處理功能。

DALI 庫(kù)使用 CPU 和 GPU 的組合，而不是在 CPU 上執(zhí)行數(shù)據(jù)加載和預(yù)處理并將結(jié)果移動(dòng)到 GPU 。這將為即將到來(lái)的迭代帶來(lái)更有效的數(shù)據(jù)預(yù)處理。優(yōu)化后， CosmoFlow 和 DeepCAM 的速度都顯著加快。 DeepCAM 實(shí)現(xiàn)了超過(guò) 50% 的端到端性能提升。

此外， DALI 還為即將到來(lái)的迭代提供異步數(shù)據(jù)加載，以消除關(guān)鍵路徑的 I / O 開銷。啟用此模式后，我們看到 DeepCAM 額外增加了 70% 。

將通道應(yīng)用于最后的 NHWC 布局

默認(rèn)情況下， DeepCAM 基準(zhǔn)使用 NCHW 布局作為激活張量。我們使用 PyTorch 的通道 last （ NHWC 布局）支持來(lái)避免額外的轉(zhuǎn)置內(nèi)核。 cuDNN 中的大多數(shù)卷積核都針對(duì) NHWC 布局進(jìn)行了優(yōu)化。

因此，在框架中使用 NCHW 布局需要額外的轉(zhuǎn)置內(nèi)核，以便從 NCHW 轉(zhuǎn)換到 NHWC ，從而實(shí)現(xiàn)高效的卷積運(yùn)算。在框架中使用 NHWC 布局避免了這些冗余拷貝，并在 DeepCAM 模型上實(shí)現(xiàn)了約 10% 的性能提升。 NHWC support 在 PyTorch 框架中以 beta 模式提供。

CUDA 圖

CUDA 圖形允許啟動(dòng)由一系列內(nèi)核組成的單個(gè)圖形，而不是單獨(dú)啟動(dòng)從 CPU 到 GPU 的每個(gè)內(nèi)核。此功能最大限度地減少了 CPU 在每次迭代中的參與，通過(guò)最大限度地減少延遲（尤其是在強(qiáng)擴(kuò)展場(chǎng)景中）顯著提高了性能。

MXNet 先前添加了 CUDA 圖形支持，而 CUDA Graphs support 最近也添加到了 PyTorch 。 PyTorch 中的 CUDA 圖形支持使 DeepCAM 在強(qiáng)擴(kuò)展場(chǎng)景中的端到端性能提高了約 15% ，這對(duì)延遲和抖動(dòng)最為敏感。

使用 MPI 進(jìn)行高效的數(shù)據(jù)暫存

在伸縮性較弱的情況下，分布式文件系統(tǒng)的性能無(wú)法滿足 GPU 的需求。為了增加總存儲(chǔ)帶寬，我們將數(shù)據(jù)集放入 DeepCAM 的節(jié)點(diǎn)本地 NVME 內(nèi)存中。

由于各個(gè)實(shí)例都很小，我們可以靜態(tài)地分割數(shù)據(jù)，因此每個(gè)節(jié)點(diǎn)只需要準(zhǔn)備完整數(shù)據(jù)集的一小部分。該解決方案如圖 1 所示。這里，我們用 M 表示實(shí)例數(shù)，用 N 表示每個(gè)實(shí)例的秩數(shù)。

圖 1 ：將列組聚集到碎片中。

請(qǐng)注意，跨實(shí)例，具有相同列組 ID 的每個(gè)列組使用相同的數(shù)據(jù)碎片。這意味著在本機(jī)上，每個(gè)數(shù)據(jù)碎片被讀取 M 次。為了減輕文件系統(tǒng)的壓力，我們創(chuàng)建了與實(shí)例正交的數(shù)據(jù)子硬盤，如圖 2 所示。

圖 2 ：亞硬化的演示。

這樣，每個(gè)文件從全局文件系統(tǒng)只讀一次。最后，每個(gè)實(shí)例都需要接收所有數(shù)據(jù)。為此，我們創(chuàng)建了與實(shí)例內(nèi)通訊器正交的新 MPI 通訊器，也就是說(shuō)，我們將具有相同列組 id 的所有實(shí)例列組組合到相同的實(shí)例間通訊器中。然后，我們可以使用 MPI allgather 將各個(gè)子硬盤組合成原始碎片的 M 個(gè)副本。

圖 3 ：子硬塊的分布。

我們不按順序執(zhí)行這些步驟，而是使用批處理來(lái)創(chuàng)建一個(gè)管道，該管道與子硬盤的數(shù)據(jù)讀取和分發(fā)重疊。為了提高讀寫性能，我們進(jìn)一步實(shí)現(xiàn)了一個(gè)小型輔助工具，它使用 O _ DIRECT 來(lái)提高 I / O 帶寬。

優(yōu)化使 DeepCAM 基準(zhǔn)測(cè)試的端到端加速比超過(guò) 2 倍。這在提交文件 repository 中提供。

損失函數(shù)的混合編程

使用命令式編程可以靈活地定義和運(yùn)行模型，這樣定義一個(gè)機(jī)器學(xué)習(xí)模型就像寫一個(gè)python程序。與此相對(duì)的是符號(hào)式編程，它會(huì)先定義計(jì)算過(guò)程，然后再執(zhí)行。這種編程方法允許執(zhí)行引擎進(jìn)行各種優(yōu)化，但丟失了命令式方法的靈活性。

MXNet 框架采用了合并這兩種方法的混合式編程。命令式定義的計(jì)算可以被編譯成符號(hào)式，并在可能時(shí)進(jìn)行優(yōu)化。CosmoFlow 將模型混合式編程進(jìn)行了擴(kuò)展，把損失函數(shù)也包含進(jìn)來(lái)。

Hybridization of a larger scope of the model allows realizing further fusion opportunities.

圖 4 ：損失函數(shù)的模型混合式。

這允許將損耗計(jì)算中的元素操作與 CosmoFlow 模型的縮放激活輸出進(jìn)行融合，從而減少總體迭代延遲。優(yōu)化使 CosmoFlow 的端到端性能提高了近 5% 。

節(jié)間均采用夏普處理，降低了集體成本

SHARP 允許將集合操作從 CPU 卸載到節(jié)間網(wǎng)絡(luò)結(jié)構(gòu)中的交換機(jī)。這有效地將 allreduce 操作的 InfiniBand 網(wǎng)絡(luò)的節(jié)間帶寬增加了一倍。這種優(yōu)化可使 MLPerf HPC 基準(zhǔn)測(cè)試的性能提高高達(dá) 5% ，特別是在強(qiáng)擴(kuò)展場(chǎng)景中。

繼續(xù)使用 MLPerf HPC

科學(xué)家們正在加速取得突破，部分原因是人工智能和高性能計(jì)算相結(jié)合，能夠比傳統(tǒng)方法更快、更準(zhǔn)確地提供洞察力。

MLPerf HPC v1 . 0 反映了超級(jí)計(jì)算行業(yè)對(duì)客觀、同行評(píng)審的方法的需求，以測(cè)量和比較與 HPC 相關(guān)用例的 AI 培訓(xùn)性能。在這一輪中， NVIDIA 計(jì)算平臺(tái)通過(guò)損壞所有三個(gè)性能基準(zhǔn)來(lái)證明清晰的領(lǐng)導(dǎo)，同時(shí)也證明了兩個(gè)吞吐量測(cè)量的最高效率。

關(guān)于作者

Sukru Burc Eryilmaz 是 NVIDIA 計(jì)算機(jī)體系結(jié)構(gòu)的高級(jí)架構(gòu)師，他致力于在單節(jié)點(diǎn)和超級(jí)計(jì)算機(jī)規(guī)模上改進(jìn)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的端到端性能。他從斯坦福大學(xué)獲得博士學(xué)位，并從比爾肯特大學(xué)獲得學(xué)士學(xué)位。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4986

瀏覽量
103067
計(jì)算機(jī)

計(jì)算機(jī)

+關(guān)注

關(guān)注
19

文章
7494

瀏覽量
87962
MLPerf

MLPerf

+關(guān)注

關(guān)注
0

文章
35

瀏覽量
641

評(píng)論

相關(guān)推薦

APView500PV電能質(zhì)量在線監(jiān)測(cè)裝置安裝使用說(shuō)明書V1.0

電子發(fā)燒友網(wǎng)站提供《APView500PV電能質(zhì)量在線監(jiān)測(cè)裝置安裝使用說(shuō)明書V1.0.pdf》資料免費(fèi)下載

發(fā)表于 12-16 14:11 ?0次下載

ESP32-CAM Wi-Fi+BT SoC模組 V1.0

電子發(fā)燒友網(wǎng)站提供《ESP32-CAM Wi-Fi+BT SoC模組 V1.0.pdf》資料免費(fèi)下載

發(fā)表于 11-21 16:24 ?0次下載

浪潮信息AI存儲(chǔ)性能測(cè)試的領(lǐng)先之道

AI技術(shù)的無(wú)限可能。近日，在MLCommons的子項(xiàng)目MLPerf Storage v1.0性能基準(zhǔn)評(píng)測(cè)中，浪潮信息再度展現(xiàn)了在AI存儲(chǔ)領(lǐng)域的卓越實(shí)力。

發(fā)表于 10-29 16:30 ?249次閱讀

浪潮信息AS13000G7榮獲MLPerf? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

北京2024年9月27日?/美通社/ -- 9月25日，MLCommons協(xié)會(huì)發(fā)布最新MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)。浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7表現(xiàn)出

發(fā)表于 09-28 16:46 ?217次閱讀

浪潮信息AS13000G7榮獲<b class='flag-5'>MLPerf</b>? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

第四章：對(duì)廣東龍芯2K0300-蜂鳥板-v1.0視頻教程我的感觸

我全部下載了廣東龍芯2K0300-蜂鳥板-v1.0視頻教程共十四個(gè)。（在嘩哩嘩哩地址https://space.bilibili.com/481273999) 將看后的感想總結(jié)如下：龍芯

發(fā)表于 09-11 18:10

qdprobot for mixly軟件及模塊操作教程v1.0

電子發(fā)燒友網(wǎng)站提供《qdprobot for mixly軟件及模塊操作教程v1.0.pdf》資料免費(fèi)下載

發(fā)表于 08-06 14:23 ?0次下載

SM7603P芯片12V/300mA電源方案2015 V1.0

鉦銘科SM7503P芯片12V 300mA適配器電源方案2015V1.0

發(fā)表于 07-11 10:57 ?0次下載

TC397_TFT v1.0開發(fā)板編譯燒錄任意ADS程序會(huì)進(jìn)Context Maneger Error Trap如何解決？

目前TC397_TFT v1.0開發(fā)板采用的是TC397 A step的芯片，但我看ADS都是TC397 B step的例程，我將ADS中幾個(gè)示例編譯并燒錄至開發(fā)版中，均不能正常運(yùn)行，分別通過(guò)

發(fā)表于 05-28 06:42

芯海應(yīng)用筆記：CSU3AF10 IAP功能設(shè)計(jì)指南_V1.0

和 UART 兩種協(xié)議的 IAP 升則方式的差異、IAP 設(shè)計(jì)需要注意的事項(xiàng)等。*附件：應(yīng)用筆記：CSU3AF10IAP功能設(shè)計(jì)指南_V1.0.pdf

發(fā)表于 05-16 14:29

2024年，RISC-V能在HPC上實(shí)現(xiàn)突破嗎？

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）自x86統(tǒng)治HPC多年以來(lái)，大家都在期待著能有新的架構(gòu)能夠打破這一現(xiàn)狀。而2020年的富岳超算做到了這一點(diǎn)，將Arm架構(gòu)以第一的姿態(tài)呈現(xiàn)在了大家的面前?？呻S著RISC-V慢慢獲得更多的關(guān)注，不少人在猜測(cè)這個(gè)全新的開放式架構(gòu)何時(shí)能在

發(fā)表于 02-05 01:19 ?8307次閱讀

OK3568-C開發(fā)板_AMP_Linux4.19.232+QT5.15.8_用戶編譯手冊(cè)_V1.0

OK3568-C_AMP_Linux4.19.232+QT5.15.8_用戶編譯手冊(cè)_V1.0_20231227

發(fā)表于 01-23 16:28 ?12次下載

賽昉系列：OK7110-C_Qt5.15.2+Linux5.15.0_編譯手冊(cè)_V1.0

OK7110-C_Qt5.15.2+Linux5.15.0_編譯手冊(cè)_V1.0_20230820

發(fā)表于 01-23 16:23 ?0次下載

賽昉系列：OK7110-C_Qt5.15.2+Linux5.15.0_軟件手冊(cè)_V1.0

OK7110-C開發(fā)板_Qt5.15.2+Linux5.15.0_軟件手冊(cè)_V1.0_20230808

發(fā)表于 01-23 16:21 ?0次下載

賽昉系列：FET7110-C、OK7110-C_硬件手冊(cè)_V1.0

FET7110-C、OK7110-C_硬件手冊(cè)_V1.0_20230729

發(fā)表于 01-23 16:18 ?1次下載

軟通動(dòng)力天鶴數(shù)據(jù)復(fù)制服務(wù)系統(tǒng)V1.0獲得華為技術(shù)認(rèn)證書

近日，軟通動(dòng)力自主研發(fā)的“天鶴數(shù)據(jù)復(fù)制服務(wù)系統(tǒng)V1.0”成功通過(guò)華為云GaussDB各項(xiàng)兼容性測(cè)試驗(yàn)證，正式獲得華為云授予的HUAWEI COMPATIBLE技術(shù)認(rèn)證證書。這標(biāo)志著軟通動(dòng)力數(shù)據(jù)復(fù)制服務(wù)進(jìn)一步完善，將為各行各業(yè)的數(shù)字化轉(zhuǎn)型提供更加全面、高效的數(shù)據(jù)支持。

發(fā)表于 01-23 09:56 ?791次閱讀

搜索歷史

為MLPerf HPC v1.0實(shí)現(xiàn)的選定優(yōu)化