0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA A30 GPU加速AI推理工作負(fù)載

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-05-16 09:25 ? 次閱讀

NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 體系結(jié)構(gòu),可加速各種工作負(fù)載,如大規(guī)模人工智能推理、企業(yè)培訓(xùn)和數(shù)據(jù)中心主流服務(wù)器的 HPC 應(yīng)用程序。 A30 PCIe 卡將第三代 Tensor 內(nèi)核與大容量 HBM2 內(nèi)存( 24 GB )和快速 GPU 內(nèi)存帶寬( 933 GB / s )組合在一個(gè)低功耗外殼中(最大 165 W )。

A30 支持廣泛的數(shù)學(xué)精度:

雙精度( FP64 )

單精度( FP32 )

半精度( FP16 )

腦浮 16 ( BF16 )

整數(shù)( INT8 )

它還支持 Tensor Float 32 ( TF32 )和 Tensor Core FP64 等創(chuàng)新技術(shù),提供了一個(gè)單一的加速器來(lái)加速每個(gè)工作負(fù)載。

圖 1 顯示了 TF32 ,其范圍為 FP32 ,精度為 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默認(rèn)選項(xiàng),因此在上一代 NVIDIA Volta 架構(gòu)中實(shí)現(xiàn)加速不需要更改代碼。

A30 的另一個(gè)重要特點(diǎn)是多實(shí)例 GPU ( MIG )能力。 MIG 可以最大限度地提高從大到小工作負(fù)載的 GPU 利用率,并確保服務(wù)質(zhì)量( QoS )。單個(gè) A30 最多可以被劃分為四個(gè) MIG 實(shí)例,以同時(shí)運(yùn)行四個(gè)應(yīng)用程序,每個(gè)應(yīng)用程序都與自己的流式多處理器( SMs )、內(nèi)存、二級(jí)緩存、 DRAM 帶寬和解碼器完全隔離。有關(guān)更多信息,請(qǐng)參閱 支持的 MIG 配置文件 。

對(duì)于互連, A30 支持 PCIe Gen4 ( 64 GB / s )和高速第三代 NVLink (最大 200 GB / s )。每個(gè) A30 都可以支持一個(gè) NVLink 橋接器與一個(gè)相鄰的 A30 卡連接。只要服務(wù)器中存在一對(duì)相鄰的 A30 卡,這對(duì)卡就應(yīng)該通過(guò)跨越兩個(gè) PCIe 插槽的 NVLink 橋接器連接,以獲得最佳橋接性能和平衡的橋接拓?fù)洹?/p>

性能和平衡的橋接拓?fù)洹?/p>

poYBAGKBqBmALH-VAABBLLMJLWQ255.png

除了表 1 中總結(jié)的硬件優(yōu)勢(shì)外, A30 可以實(shí)現(xiàn)比 T4 GPU 更高的每美元性能。 A30 還支持端到端軟件堆棧解決方案:

圖書(shū)館

GPU 加速了 PyTorch 、 TensorFlow 和 MXNet 等深度學(xué)習(xí)框架

優(yōu)化的深度學(xué)習(xí)模型

可從 NGC 和[2000]以上的容器中獲得

性能分析

為了分析 A30 相對(duì)于 T4 和 CPU 的性能改進(jìn),我們使用以下數(shù)據(jù)集對(duì) MLPerf 推斷 v1.1 。 中的六個(gè)模型進(jìn)行了基準(zhǔn)測(cè)試:

ResNet-50v1 。 5 ( ImageNet )

SSD 大尺寸 ResNet-34 ( COCO )

3D Unet (布拉茨 2019 )

DLRM ( 1TB 點(diǎn)擊日志,離線場(chǎng)景)

BERT (第 1.1 版,第 384 小節(jié))

RNN-T (圖書(shū)館語(yǔ)言)

MLPerf 基準(zhǔn)測(cè)試套件 涵蓋了廣泛的推理用例,從圖像分類(lèi)和對(duì)象檢測(cè)推薦,以及自然語(yǔ)言處理( NLP )。

圖 2 顯示了 A30 與 T4 和 BERT 在人工智能推理工作負(fù)載上的性能比較結(jié)果。對(duì)于 CPU 推斷, A30 比 CPU 快約 300 倍。

與T4相比,A30在使用這六種機(jī)型進(jìn)行推理時(shí)提供了大約3-4倍的性能加速比。性能加速是由于30個(gè)較大的內(nèi)存大小。這使得模型的批量更大,內(nèi)存帶寬更快(幾乎是3倍T4),可以在更短的時(shí)間內(nèi)將數(shù)據(jù)發(fā)送到計(jì)算核心。

pYYBAGKBqAaAZWaAAACGpnmS5vk955.png

圖 2 使用 MLPerf 比較 A30 與 T4 和 CPU 的性能。

CPU:8380H (不在 3D Unet 上提交)

除了人工智能推理之外, A30 還可以快速預(yù)訓(xùn)練人工智能模型,例如 BERT 大型 TF32 ,以及使用 FP64 張量核加速 HPC 應(yīng)用。帶有 TF32 的 A30 Tensor Cores 的性能比 T4 高出 10 倍,無(wú)需對(duì)代碼進(jìn)行任何更改。它們還提供了自動(dòng)混合精度的額外 2 倍提升,使吞吐量增加了 20 倍。

硬件解碼器

在構(gòu)建視頻分析或視頻處理管道時(shí),必須考慮以下幾個(gè)操作:

計(jì)算模型或預(yù)處理步驟的需求。 這取決于 Tensor 內(nèi)核、 GPU DRAM 和其他硬件組件,它們可以加速模型或幀預(yù)處理內(nèi)核。

傳輸前的視頻流編碼。 這樣做是為了最小化網(wǎng)絡(luò)上所需的帶寬。為了加快這一工作量,請(qǐng)使用 NVIDIA 硬件解碼器。

pYYBAGKBqAmAUZqIAACM1qWslYA962.png

圖 3 在不同 GPU 上處理的流的數(shù)量

使用 DeepStream 5.1 測(cè)試性能。它代表了 e2e 在視頻捕獲和解碼、預(yù)處理、批處理、推理和后處理方面的性能。已關(guān)閉輸出渲染以獲得最佳性能,運(yùn)行 ResNet10 、 ResNet18 和 ResNet50 網(wǎng)絡(luò)以推斷 H.264 1080p30 視頻流。

A30 旨在通過(guò)提供四個(gè)視頻解碼器、一個(gè) JPEG 解碼器和一個(gè)光流解碼器來(lái)加速智能視頻分析( IVA )。

要使用這些解碼器和計(jì)算資源來(lái)分析視頻,請(qǐng)使用 NVIDIA DeepStream SDK ,它為基于人工智能的多傳感器處理、視頻、音頻和圖像理解提供了一個(gè)完整的流分析工具包。有關(guān)更多信息,請(qǐng)參閱 TAO 工具包與 DeepStream 的集成 或者 使用 NVIDIA DeepStream 構(gòu)建實(shí)時(shí)編校應(yīng)用程序,第 1 部分:培訓(xùn) 。

接下來(lái)呢?

A30 代表了數(shù)據(jù)中心最強(qiáng)大的端到端人工智能和 HPC 平臺(tái),使研究人員、工程師和數(shù)據(jù)科學(xué)家能夠交付真實(shí)世界的結(jié)果,并將解決方案大規(guī)模部署到生產(chǎn)中。有關(guān)更多信息,請(qǐng)參閱 NVIDIA A30 Tensor Core GPU 數(shù)據(jù)表 和 NVIDIA A30 GPU 加速器產(chǎn)品簡(jiǎn)介 。

關(guān)于作者

Maggie Zhang 是 NVIDIA 的深度學(xué)習(xí)工程師,致力于深度學(xué)習(xí)框架和應(yīng)用程序。她在澳大利亞新南威爾士大學(xué)獲得計(jì)算機(jī)科學(xué)和工程博士學(xué)位,在那里她從事 GPU / CPU 異構(gòu)計(jì)算和編譯器優(yōu)化。

Tanay Varshney 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營(yíng)銷(xiāo)工程師,負(fù)責(zé)廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,專(zhuān)注于計(jì)算機(jī)視覺(jué)、數(shù)據(jù)可視化和城市分析的橫斷面。

Davide Onofrio 是 NVIDIA 的高級(jí)深度學(xué)習(xí)軟件技術(shù)營(yíng)銷(xiāo)工程師。他在 NVIDIA 專(zhuān)注于深度學(xué)習(xí)技術(shù)開(kāi)發(fā)人員關(guān)注內(nèi)容的開(kāi)發(fā)和演示。戴維德在生物特征識(shí)別、虛擬現(xiàn)實(shí)和汽車(chē)行業(yè)擔(dān)任計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)工程師已有多年經(jīng)驗(yàn)。他的教育背景包括米蘭理工學(xué)院的信號(hào)處理博士學(xué)位。Ivan Belyavtsev 是一名圖形開(kāi)發(fā)工程師,主要致力于開(kāi)發(fā)人員支持和優(yōu)化基于虛擬引擎的游戲。他還是 Innopolis 大學(xué)游戲開(kāi)發(fā)領(lǐng)域的計(jì)算機(jī)圖形學(xué)導(dǎo)師。

Shar Narasimhan 是 AI 的高級(jí)產(chǎn)品營(yíng)銷(xiāo)經(jīng)理,專(zhuān)門(mén)從事 NVIDIA 的 Tesla 數(shù)據(jù)中心團(tuán)隊(duì)的深度學(xué)習(xí)培訓(xùn)和 OEM 業(yè)務(wù)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5059

    瀏覽量

    103381
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47532

    瀏覽量

    239278
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121349
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA和GeForce RTX GPU專(zhuān)為AI時(shí)代打造

    NVIDIA 和 GeForce RTX GPU 專(zhuān)為 AI 時(shí)代打造。
    的頭像 發(fā)表于 01-06 10:45 ?166次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 - NVIDIA
    發(fā)表于 12-16 14:25

    深度學(xué)習(xí)工作負(fù)載GPU與LPU的主要差異

    ,一個(gè)新的競(jìng)爭(zhēng)力量——LPU(Language Processing Unit,語(yǔ)言處理單元)已悄然登場(chǎng),LPU專(zhuān)注于解決自然語(yǔ)言處理(NLP)任務(wù)中的順序性問(wèn)題,是構(gòu)建AI應(yīng)用不可或缺的一環(huán)。 本文旨在探討深度學(xué)習(xí)工作負(fù)載
    的頭像 發(fā)表于 12-09 11:01 ?383次閱讀
    深度學(xué)習(xí)<b class='flag-5'>工作</b><b class='flag-5'>負(fù)載</b>中<b class='flag-5'>GPU</b>與LPU的主要差異

    日本企業(yè)借助NVIDIA產(chǎn)品加速AI創(chuàng)新

    日本領(lǐng)先企業(yè)和大學(xué)正在使用 NVIDIA NeMo、NIM 微服務(wù)和 NVIDIA Isaac 加速 AI 創(chuàng)新。
    的頭像 發(fā)表于 11-19 14:34 ?356次閱讀

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專(zhuān)門(mén)做推理的ASIC,像Groq的LPU,專(zhuān)門(mén)針對(duì)大語(yǔ)言模型的
    的頭像 發(fā)表于 10-29 14:12 ?596次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應(yīng)用

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過(guò) Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise,為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速
    的頭像 發(fā)表于 10-27 10:03 ?283次閱讀
    <b class='flag-5'>NVIDIA</b>助力麗蟾科技打造<b class='flag-5'>AI</b>訓(xùn)練與<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解決方案

    NVIDIA與思科合作打造企業(yè)級(jí)生成式AI基礎(chǔ)設(shè)施

    NVIDIA 加速計(jì)算平臺(tái)、NVIDIA AI Enterprise 軟件和 NVIDIA NIM
    的頭像 發(fā)表于 10-10 09:35 ?394次閱讀

    AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

    HyperAccel 是一家成立于 2023 年 1 月的韓國(guó)初創(chuàng)企業(yè),致力于開(kāi)發(fā) AI 推理專(zhuān)用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)載的存儲(chǔ)器帶寬使用,并通過(guò)將此解決方案應(yīng)用于
    的頭像 發(fā)表于 09-18 09:37 ?392次閱讀
    AMD助力HyperAccel開(kāi)發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù),與同樣剛推出的 Llama 3.1
    的頭像 發(fā)表于 07-25 09:48 ?748次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    計(jì)算工作負(fù)載、釋放百億億次計(jì)算能力和萬(wàn)億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。 NVLink釋放數(shù)萬(wàn)億參數(shù)AI模型的加速性能,顯著提升大型多GPU
    發(fā)表于 05-13 17:16

    NVIDIA加速微軟最新的Phi-3 Mini開(kāi)源語(yǔ)言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開(kāi)源語(yǔ)言模型。TensorRT-LLM 是一個(gè)開(kāi)源庫(kù),用于優(yōu)化從 PC 到云端的 NVID
    的頭像 發(fā)表于 04-28 10:36 ?598次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將
    的頭像 發(fā)表于 04-20 09:39 ?777次閱讀

    全新NVIDIA RTX A400和A1000 GPU全面加強(qiáng)AI設(shè)計(jì)與生產(chǎn)力工作

    兩款 NVIDIA Ampere 架構(gòu) GPU工作站帶來(lái)實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-18 10:29 ?572次閱讀

    NVIDIA 發(fā)布全新交換機(jī),全面優(yōu)化萬(wàn)億參數(shù)級(jí) GPU 計(jì)算和 AI 基礎(chǔ)設(shè)施

    NVIDIA 軟件實(shí)現(xiàn)了跨 ?Blackwell GPU、新交換機(jī)和 BlueField-3 SuperNIC 的分布式計(jì)算,大幅提升了 AI、數(shù)據(jù)處理、高性能計(jì)算和云工作
    發(fā)表于 03-19 10:05 ?381次閱讀
    <b class='flag-5'>NVIDIA</b> 發(fā)布全新交換機(jī),全面優(yōu)化萬(wàn)億參數(shù)級(jí) <b class='flag-5'>GPU</b> 計(jì)算和 <b class='flag-5'>AI</b> 基礎(chǔ)設(shè)施

    使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

    這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI 預(yù)測(cè)。
    的頭像 發(fā)表于 02-29 14:04 ?605次閱讀