如果你是一個(gè)活躍的 Jetson 開發(fā)者,你知道 NVIDIA ISAAC 的一個(gè)關(guān)鍵優(yōu)點(diǎn)是它將 CPU 和 GPU 組合成一個(gè)單一的模塊,在一個(gè)可以部署在邊緣的小、低功耗軟件包中為你提供擴(kuò)展的 NVIDIA 軟件堆棧。
Jetson 還具有多種其他處理器,包括硬件加速編碼器和解碼器、圖像信號處理器和深度學(xué)習(xí)加速器( DLA )。
DLA 可在 Jetson AGX Xavier, Xavier NX, Jetson AGX Orin 和 Jetson Orin-NX 模塊上使用。最近的 NVIDIA DRIVE Xavier 和基于 Orin 的平臺也有 DLA 核心。
深度學(xué)習(xí)加速器概述
DLA 是一種特定于應(yīng)用的集成電路,能夠有效地執(zhí)行固定操作,如卷積和池,這在現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu)中很常見。雖然 DLA 沒有那么多 支持的層 作為 GPU ,它仍然支持許多流行的神經(jīng)網(wǎng)絡(luò)架構(gòu)中使用的各種層。
在許多情況下,層支持可能涵蓋模型的需求。例如, NVIDIA TAO 工具包 包括 DLA 支持的各種預(yù)訓(xùn)練模型,從目標(biāo)檢測到動(dòng)作識別。
雖然需要注意的是, DLA 吞吐量通常低于 GPU 的吞吐量,但它具有能效,允許您卸載深度學(xué)習(xí)工作負(fù)載,將 GPU 釋放出來用于其他任務(wù)?;蛘撸鶕?jù)您的應(yīng)用程序,您可以在 GPU 和 DLA 上同時(shí)運(yùn)行相同的模型,以實(shí)現(xiàn)更高的凈吞吐量。
許多 NVIDIA Jetson 開發(fā)者已經(jīng)在使用 DLA 成功優(yōu)化他們的應(yīng)用程序。 Postmates 利用 DLA 和 GPU 優(yōu)化了 Jetson AGX Xavier 上的交付機(jī)器人應(yīng)用。這個(gè) 菜鳥實(shí)驗(yàn)室 使用 DLA 優(yōu)化其物流車輛。如果您希望充分優(yōu)化應(yīng)用程序, DLA 是 Jetson 系列中需要考慮的一個(gè)重要部分。
如何使用深度學(xué)習(xí)加速器
圖 1.Jetson Orin 上深度學(xué)習(xí)加速器的粗略架構(gòu)圖
要使用 DLA ,首先需要使用深度學(xué)習(xí)框架(如 PyTorch 或 TensorFlow )來訓(xùn)練模型。接下來,您需要使用 NVIDIA TensorRT 導(dǎo)入并優(yōu)化您的模型。 TensorRT 負(fù)責(zé)生成 DLA 引擎,也可以用作執(zhí)行這些引擎的運(yùn)行時(shí)。最后,您應(yīng)該分析您的模式,并盡可能進(jìn)行優(yōu)化,以最大限度地提高 DLA 兼容性。
開始使用深度學(xué)習(xí)加速器
準(zhǔn)備好潛水了嗎?這個(gè) Jetson_dla_tutorial GitHub 項(xiàng)目演示了一個(gè)基本的 DLA 工作流,可以幫助您優(yōu)化 Jetson 的應(yīng)用程序。
通過本教程,您可以學(xué)習(xí)如何在 PyTorch 中定義模型,使用 TensorRT 導(dǎo)入模型,使用 NVIDIA Nsight System profiler 分析性能,修改模型以獲得更好的 DLA 兼容性,以及為 INT8 執(zhí)行進(jìn)行校準(zhǔn)。請注意, CIFAR10 數(shù)據(jù)集用作玩具示例,以便于再現(xiàn)步驟。
關(guān)于作者
John Welsh 是 NVIDIA 自治機(jī)器的開發(fā)技術(shù)工程師,他與 NVIDIA Jetson 一起開發(fā)加速應(yīng)用程序。
審核編輯:郭婷
-
解碼器
+關(guān)注
關(guān)注
9文章
1144瀏覽量
40848 -
編碼器
+關(guān)注
關(guān)注
45文章
3656瀏覽量
134969 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121372
發(fā)布評論請先 登錄
相關(guān)推薦
評論