世界上為人工智能開發(fā)者開發(fā)的終極嵌入式解決方案, Jetson AGX Xavier ,現(xiàn)在作為獨(dú)立的生產(chǎn)模塊從 NVIDIA 發(fā)貨。作為自主機(jī)器 NVIDIA 的 AGX 系統(tǒng) 的一員, Jetson AGX Xavier 是將先進(jìn)的人工智能和計(jì)算機(jī)視覺部署到邊緣的理想選擇,使機(jī)器人平臺(tái)具有工作站級(jí)的性能,并且能夠在不依賴人工干預(yù)和云連接的情況下完全自主地運(yùn)行。由 Jetson AGX Xavier 提供動(dòng)力的智能機(jī)器可以自由地在其環(huán)境中進(jìn)行交互和安全導(dǎo)航,不受復(fù)雜地形和動(dòng)態(tài)障礙物的阻礙,完全自主地完成現(xiàn)實(shí)世界的任務(wù)。這包括包裝交付和工業(yè)檢驗(yàn),需要先進(jìn)的實(shí)時(shí)感知和推理能力。作為世界上第一臺(tái)專門為機(jī)器人和邊緣計(jì)算而設(shè)計(jì)的計(jì)算機(jī), Jetson AGX Xavier 的高性能可以處理視覺里程測量、傳感器融合、定位和映射、障礙物檢測,以及對(duì)下一代機(jī)器人至關(guān)重要的路徑規(guī)劃算法。開發(fā)人員現(xiàn)在可以開始批量部署新的自主機(jī)器。
圖 1 。 Jetson AGX Xavier 帶熱傳遞板( TTP )的嵌入式計(jì)算模塊, 100x87mm
最新一代 NVIDIA 業(yè)界領(lǐng)先的嵌入式 Linux 高性能計(jì)算機(jī) Jetson AGX 系列, Jetson AGX Xavier 以 100x87mm 的緊湊型外形,提供了 GPU 工作站級(jí)的性能和無與倫比的 32 兆兆( TOPS )峰值計(jì)算和 750Gbps 的高速 I / O 。用戶可以根據(jù)應(yīng)用需要配置 10W 、 15W 和 30W 的工作模式。 Jetson AGX Xavier 為可部署到邊緣的計(jì)算密度、能源效率和人工智能推斷能力設(shè)置了新的標(biāo)準(zhǔn),使具有端到端自主能力的下一級(jí)智能機(jī)器成為可能。
Jetson 通過深度學(xué)習(xí)和計(jì)算機(jī)視覺,為許多世界上最先進(jìn)的機(jī)器人和自動(dòng)機(jī)器提供人工智能,同時(shí)專注于性能、效率和可編程性。 Jetson AGX Xavier ,如圖 2 所示,由超過 90 億個(gè)晶體管組成,基于有史以來最復(fù)雜的片上系統(tǒng)( SoC )。該平臺(tái)包括集成的 512 核 NVIDIA Volta GPU ,包括 64 張量核 、 8 核 NVIDIA Carmel ARMv8 。 2 64 位 CPU 、 16GB 256 位 LPDDR4x 、雙 NVIDIA 深度學(xué)習(xí)加速器 ( DLA )引擎、 NVIDIA 視覺加速器引擎、高清視頻編解碼器、 128Gbps 專用攝像頭攝取和 16 通道 PCIe Gen 4 擴(kuò)展。 256 位接口上的內(nèi)存帶寬為 137GB / s ,而 DLA 引擎減輕了深度神經(jīng)網(wǎng)絡(luò)( DNNs )的推理任務(wù)。 NVIDIA 的 jetpacksdk4 。 1 。 1 適用于 Jetson AGX Xavier 的 jetpacksdk4 。 1 。 1 包括 CUDA 10 。 0 、 cuDNN 7 。 3 和 TensorRT 5 。 0 ,提供了完整的 AI 軟件棧。
圖 2 。 Jetson AGX Xavier 提供了豐富的高速 I / O
這使得開發(fā)者能夠在機(jī)器人、智能視頻分析、醫(yī)療儀器、嵌入式物聯(lián)網(wǎng)邊緣設(shè)備等應(yīng)用中部署加速人工智能。和它的前輩 Jetson TX1 和 TX2 一樣, Jetson AGX Xavier 使用的是模塊上系統(tǒng)( SoM )范式。所有的處理都包含在計(jì)算模塊上,高速 I / O 通過高密度板對(duì)板連接器提供的分接載體或外殼上。以這種方式將功能封裝在模塊上,使開發(fā)人員能夠輕松地將 Jetson Xavier 集成到他們自己的設(shè)計(jì)中。 NVIDIA 發(fā)布了全面的 文檔 和參考設(shè)計(jì)文件,可供嵌入式設(shè)計(jì)師使用 Jetson AGX Xavier 創(chuàng)建自己的設(shè)備和平臺(tái)。請(qǐng)務(wù)必參考 Jetson AGX Xavier 模塊數(shù)據(jù)表 和 Jetson AGX Xavier OEM 產(chǎn)品設(shè)計(jì)指南 了解表 1 中列出的全部產(chǎn)品功能,此外還有 eleCTR 機(jī)械規(guī)范、模塊引腳輸出、電源順序和信號(hào)布線指南。
Jetson AGX Xavier 包括超過 750Gbps 的高速 I / O ,為流式傳感器和高速外圍設(shè)備提供了超常的帶寬。它是最早支持 PCIe Gen 4 的嵌入式設(shè)備之一,在五個(gè) PCIe Gen 4 控制器上提供 16 個(gè)通道,其中三個(gè)控制器可以在根端口或端點(diǎn)模式下運(yùn)行。 16 個(gè) MIPI CSI-2 通道可連接到 4 個(gè) 4 通道攝像頭、 6 個(gè) 2 通道攝像頭、 6 個(gè) 1 通道攝像頭,或這些配置的組合(最多 6 個(gè)攝像頭), 36 個(gè)虛擬通道允許使用流聚合同時(shí)連接更多攝像頭。其他高速 I / O 包括三個(gè) USB 3 。 1 端口、 SLVS-EC 、 UFS 和用于千兆以太網(wǎng)的 RGMII 。開發(fā)者現(xiàn)在可以訪問 NVIDIA 的 JetPack 4 。 1 。 1 開發(fā)者預(yù)覽 軟件,用于 Jetson AGX Xavier ,如表 2 所示。開發(fā)者預(yù)覽版包括 Linux For Tegra ( L4T ) R31 。 1 Board Support Package ( BSP ),目標(biāo)系統(tǒng)支持 Linux 內(nèi)核 4 。 9 和 Ubuntu18 。 04 。在主機(jī)端, Jetpack4 。 1 。 1 支持 Ubuntu16 。 04 和 Ubuntu18 。 04 。
Jetpack4 。 1 。 1 開發(fā)者預(yù)覽版允許開發(fā)者立即使用 Jetson AGX Xavier 開始產(chǎn)品和應(yīng)用程序的原型制作,為生產(chǎn)部署做準(zhǔn)備。 NVIDIA 將繼續(xù)對(duì) JetPack 進(jìn)行改進(jìn),并提供額外的功能增強(qiáng)和性能優(yōu)化。請(qǐng)閱讀 發(fā)行說明 了解本版本的亮點(diǎn)和軟件狀態(tài)。
Volta GPU
如圖 3 所示, Jetson AGX Xavier 集成 Volta GPU 提供 512 個(gè) CUDA 核和 64 個(gè)張量核心,可用于高達(dá) 11 TFLOPS FP16 或 22 個(gè) INT8 compute 頂部,最大時(shí)鐘頻率為 1 。 37GHz 。它支持計(jì)算能力為 sm _的 CUDA 10 , GPU 包括 8 個(gè) Volta 流式多處理器( sm ),每個(gè) Volta sm 有 64 個(gè) CUDA 核和 8 個(gè)張量核。每個(gè) Volta SM 都包括一個(gè) 128KB 的 L1 緩存,比前幾代大 8 倍。 SMs 共享一個(gè) 512KB 的二級(jí)緩存,訪問速度比前幾代快 4 倍。
圖 3 。 Jetson AGX Xavier 電壓 GPU 方框圖
每個(gè) SM 由 4 個(gè)獨(dú)立的處理塊組成,稱為 SMPs (流式多處理器分區(qū)),每個(gè)處理塊包括自己的 L0 指令緩存、 warp 調(diào)度器、調(diào)度單元和寄存器文件,以及 CUDA 內(nèi)核和 Tensor 內(nèi)核。每個(gè) SM 的 smp 數(shù)量是 Pascal 的兩倍, Volta SM 的特點(diǎn)是改進(jìn)了并發(fā)性,并且支持更多的線程、扭曲和線程塊。
張量核
NVIDIA 張量核心是可編程的融合矩陣乘法和累加單元,它們與 CUDA 核心并行執(zhí)行。張量核實(shí)現(xiàn)了新的浮點(diǎn) HMMA (半精度矩陣乘法和累加)和 IMMA (整數(shù)矩陣乘法和累加)指令,用于加速密集線性代數(shù)計(jì)算、信號(hào)處理和深度學(xué)習(xí)推理。
圖 4 。張量核 HMMA / IMMA 4x4x4 矩陣乘法和累加
矩陣乘法輸入 A 和 B 是 HMMA 指令的 FP16 矩陣,而累加矩陣 C 和 D 可以是 FP16 或 FP32 矩陣。對(duì)于 IMMA ,矩陣乘法輸入 A 是有符號(hào)或無符號(hào)的 INT8 或 INT16 矩陣, B 是有符號(hào)或無符號(hào)的 INT8 矩陣, C 和 D 累加器矩陣都是有符號(hào) INT32 。因此,精度和計(jì)算范圍足以避免內(nèi)部積累期間的溢出和下溢情況。
NVIDIA 庫包括 cuBLAS 、 cuDNN 和 TensorRT 已被更新,以在內(nèi)部利用 HMMA 和 IMMA ,使程序員能夠輕松地利用張量核固有的性能增益。用戶還可以通過在 wmma 名稱空間和 CUDA 10 中包含的 mma 。 h 頭文件中公開的新 API ,直接訪問 warp 級(jí)別的 Tensor 核心操作。 warp 級(jí)別的接口在每個(gè) warp 的所有 32 個(gè)線程上映射 16 × 16 、 32 × 8 和 8 × 32 大小的矩陣。
深度學(xué)習(xí)加速器
Jetson AGX Xavier 具有兩個(gè) NVIDIA 深度學(xué)習(xí)加速器 ( DLA )引擎,如圖 5 所示,它們減輕了固定函數(shù)卷積神經(jīng)網(wǎng)絡(luò)( CNN )的推理。這些引擎提高了能源效率,并釋放了 GPU 來運(yùn)行更復(fù)雜的網(wǎng)絡(luò)和用戶執(zhí)行的動(dòng)態(tài)任務(wù)。 NVIDIA DLA 硬件體系結(jié)構(gòu)是開源的,可從 NVDLA 。 org 網(wǎng)站 獲得。每個(gè) DLA 具有高達(dá) 5 個(gè) TOP INT8 或 2 。 5 TFLOPS FP16 性能,功耗僅為 0 。 5-1 。 5W 。 DLA 支持加速 CNN 層,如卷積、反褶積、激活函數(shù)、最小/最大/平均池、本地響應(yīng)規(guī)范化和完全連接層。
圖 5 。深度學(xué)習(xí)加速器( DLA )架構(gòu)框圖
DLA 硬件由以下組件組成:
卷積核心 – 優(yōu)化的高性能卷積引擎。
單數(shù)據(jù)處理器 – 激活功能的單點(diǎn)查找引擎。
平面數(shù)據(jù)處理器 – 用于池的平面平均引擎。
通道數(shù)據(jù)處理器–用于高級(jí)標(biāo)準(zhǔn)化功能的多通道平均引擎。
專用內(nèi)存和數(shù)據(jù)整形引擎 – 用于張量整形和復(fù)制操作的內(nèi)存到內(nèi)存轉(zhuǎn)換加速。
開發(fā)人員使用 TensorRT 5 。 0 編程 DLA 引擎,在網(wǎng)絡(luò)上執(zhí)行推斷,包括對(duì) AlexNet 、 GoogleNet 和 ResNet-50 的支持。對(duì)于使用 DLA 不支持的層配置的網(wǎng)絡(luò), TensorRT 為無法在 DLA 上運(yùn)行的層提供 GPU 回退。 Jetpack4 。 0 開發(fā)者預(yù)覽版最初將 DLA 的精度限制在 FP16 模式,在未來的 JetPack 版本中, DLA 的 INT8 精度和更高的性能將會(huì)出現(xiàn)。
TensorRT 5 。 0 在其 IBuilder 接口中添加了以下 API 以啟用 DLA :
setDeviceType() 和 setDefaultDeviceType() 用于選擇 GPU 、 DLA ? 0 或 DLA ? 1 以執(zhí)行特定層,或默認(rèn)情況下用于網(wǎng)絡(luò)中的所有層。
canRunOnDLA() 檢查層是否可以按配置在 DLA 上運(yùn)行。
getMaxDLABatchSize() 用于檢索 DLA 可以支持的最大批處理大小。
allowGPUFallback() 使 GPU 能夠執(zhí)行 DLA 不支持的層。
請(qǐng)參考 TensorRT 5 。 0 開發(fā)人員指南 的第 6 章,了解 TensorRT 中支持的層配置和使用 DLA 的代碼示例的完整列表。
深度學(xué)習(xí)推斷基準(zhǔn)
我們已經(jīng)為 GPU AGX Xavier 發(fā)布了 深度學(xué)習(xí)推斷基準(zhǔn)結(jié)果 ,這些 dnn 包括 ResNet 、 GoogleNet 和 VGG 的變體。我們?cè)?Jetson AGX Xavier 的 Jetson 和 DLA 引擎上使用 jetpack4 。 1 。 1 開發(fā)者預(yù)覽版 TensorRT 5 。 0 為 Jetson AGX Xavier 運(yùn)行這些基準(zhǔn)測試。 GPU 和兩個(gè) dla 分別以 INT8 和 FP16 精度并行運(yùn)行相同的網(wǎng)絡(luò)體系結(jié)構(gòu),并報(bào)告每個(gè)配置的總體性能。 GPU 和 dla 可以在現(xiàn)實(shí)世界的用例中同時(shí)運(yùn)行不同的網(wǎng)絡(luò)或網(wǎng)絡(luò)模型,以并行方式或在處理管道中彼此并行地提供獨(dú)特的功能。在 TensorRT 中使用 INT8 與全 FP32 精度相比,會(huì)導(dǎo)致精度損失 1% 或更少。
首先,讓我們考慮一下 ResNet-18fcn ( Fully-compolutional Network )的結(jié)果,它是一個(gè)用于語義分割的 2048 × 1024 分辨率的全高清模型。分段為自由空間檢測和占用率映射等任務(wù)提供了每像素分類,并代表了由自主機(jī)器計(jì)算的用于感知、路徑規(guī)劃和導(dǎo)航的深度學(xué)習(xí)工作負(fù)載。圖 6 顯示了在 Jetson AGX Xavier 和 Jetson TX2 上運(yùn)行 ResNet-18 FCN 的測量吞吐量。
圖 6 。 ResNet-18 FCN 推斷 Jetson AGX Xavier 和 Jetson TX2 的吞吐量
Jetson AGX Xavier 目前在 ResNet-18 FCN 推理中的性能是 Jetson TX2 的 13 倍。 NVIDIA 將繼續(xù)在 JetPack 中發(fā)布軟件優(yōu)化和功能增強(qiáng),隨著時(shí)間的推移,將進(jìn)一步提高性能和功率特性。請(qǐng)注意, 基準(zhǔn)結(jié)果 的完整列表報(bào)告了 Jetson AGX Xavier 的 ResNet-18 FCN 的性能,但在圖 7 中,我們只繪制了批量大小為 16 的 ResNet-18 FCN ,因?yàn)?Jetson TX2 能夠運(yùn)行 ResNet-18 FCN ,最大批量為 16 。
圖 7 。 ResNet-18 FCN 推斷 Jetson AGX Xavier 和 Jetson TX2 的能量效率
當(dāng)考慮使用每秒處理的每瓦特圖像的能效時(shí), Jetson AGX Xavier 目前比 ResNet-18 FCN 的 Jetson TX2 高 6 倍。我們通過使用板載 INA 電壓和電流監(jiān)測器測量總模塊功耗來計(jì)算效率,包括 CPU 、 GPU 、 DLA 、內(nèi)存、其他 SoC 功率、 I / O 和所有軌道上的調(diào)節(jié)器效率損失。兩臺(tái) Jetson 都在 15W 電源模式下運(yùn)行。 Jetson AGX Xavier 和 JetPack 飛船,具有 10W 、 15W 和 30W 的可配置預(yù)設(shè)功率配置文件,可在運(yùn)行時(shí)使用 nvpmodel 電源管理工具進(jìn)行切換。用戶還可以使用不同的時(shí)鐘和 DVFS (動(dòng)態(tài)電壓和頻率縮放)調(diào)速器設(shè)置來定義自己的自定義配置文件,這些設(shè)置已經(jīng)過定制,以實(shí)現(xiàn)單個(gè)應(yīng)用的最佳性能。
接下來,讓我們比較一下圖像識(shí)別網(wǎng)絡(luò) ResNet-50 和 VGG19 上的 Jetson AGX Xavier 基準(zhǔn)測試,這些基準(zhǔn)測試的批量大小從 1 到 128 與 Jetson TX2 。這些模型對(duì)分辨率為 224 × 224 的圖像塊進(jìn)行分類,常用作各種目標(biāo)檢測網(wǎng)絡(luò)中的編碼器主干。在較低分辨率下使用 8 或更高的批處理大小可用于近似處理較高分辨率下批大小為 1 的性能和延遲。機(jī)器人平臺(tái)和自主機(jī)器通常包含多個(gè)攝像機(jī)和傳感器,除了執(zhí)行感興趣區(qū)域( ROI )的檢測,然后分批對(duì) ROI 進(jìn)行進(jìn)一步分類,這些攝像頭和傳感器可以批量處理以提高性能。圖 8 還包括對(duì) Jetson AGX Xavier 未來性能的估計(jì),包括軟件增強(qiáng)功能,如 INT8 對(duì) DLA 的支持和 GPU 的其他優(yōu)化。
圖 8 。 INT8 支持 DLA 和其他 GPU 優(yōu)化后的估計(jì)性能
Jetson AGX Xavier 目前在 VGG19 上的 Jetson TX2 和 ResNet-50 上的吞吐量分別達(dá)到 18 倍和 14 倍,如圖 9 所示。延遲為 65 。 5 秒,或凈大小為 65 。 5 秒/秒。隨著未來軟件的改進(jìn), Jetson AGX Xavier 預(yù)計(jì)將比 Jetson TX2 快 24 倍。請(qǐng)注意,對(duì)于遺留比較,我們還提供了完整的 性能列表 中的 GoogleNet 和 AlexNet 的數(shù)據(jù)。
圖 9 。 Jetson Xavier 和 Jetson TX2 的 ResNet-50 和 VGG19 能效
Jetson AGX Xavier 目前在 VGG19 推理方面的效率比 Jetson TX2 高 7 倍多,使用 ResNet-50 的效率高 5 倍,考慮到未來的軟件優(yōu)化和增強(qiáng),效率提高了 10 倍。參考完整的 績效結(jié)果 來獲取更多的數(shù)據(jù)和關(guān)于推斷基準(zhǔn)的細(xì)節(jié)。我們還將在下一節(jié)中對(duì) CPU 的性能進(jìn)行基準(zhǔn)測試。
卡梅爾 CPU 復(fù)合體
圖 10 所示的 Jetson AGX Xavier 的 CPU 復(fù)合體由四個(gè)基于 ARMv8 。 2 的異構(gòu)雙核 NVIDIA CarmelCPU 簇組成,最大時(shí)鐘頻率為 2 。 26GHz 。每個(gè)核心包括 128KB 指令和 64KB 數(shù)據(jù)一級(jí)緩存,以及兩個(gè)內(nèi)核之間共享的 2MB 二級(jí)緩存。 CPU 集群共享一個(gè) 4MB 的 L3 緩存。
關(guān)于作者
Dustin Franklin 是 NVIDIA 的 Jetson 團(tuán)隊(duì)的開發(fā)人員布道者。 Dustin 擁有機(jī)器人和嵌入式系統(tǒng)方面的背景,他樂于在社區(qū)中提供幫助,并與 Jetson 一起參與項(xiàng)目。你可以在 NVIDIA Developer Forums 或 Github 上找到他。
審核編輯:郭婷
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28466瀏覽量
207327 -
cpu
+關(guān)注
關(guān)注
68文章
10873瀏覽量
212017 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4994瀏覽量
103164
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論