NVIDIA 發(fā)布了基于Jetson Xavier NX模塊的NVIDIA Jetson Xavier NX 開發(fā)者套件。Jetson Xavier NX 以緊湊的外形尺寸提供高達 21 TOPS 的計算,功率低于 15W,為邊緣 AI 設備和自主機器帶來服務器級性能和云原生工作流。
借助 Jetson Xavier NX 開發(fā)人員套件,您可以創(chuàng)建令人驚嘆的人工智能應用程序,并將深度神經(jīng)網(wǎng)絡 (DNN) 模型和流行的機器學習框架快速部署到該領(lǐng)域。NVIDIA JetPack 4.4 Developer Preview的初始軟件支持包括 CUDA Toolkit 10.2 和 cuDNN 8.0、TensorRT 7.1 和 DeepStream 5.0 的預覽版,以及用于機器學習和預訓練 DNN 模型的新 Docker 容器。
Jetson Xavier NX 基于 NVIDIA 開創(chuàng)性的 Xavier SoC,可以并行運行多個復雜模型和多個高清傳感器流。它包括以下功能:
具有 48 個張量核心的集成 NVIDIA Volta 384 核 Volta GPU
兩個 NVIDIA 深度學習加速器引擎
七向 VLIW 視覺加速器
六核 NVIDIA Carmel 64 位 ARMv8.2 CPU
8 GB 128 位 LPDDR4x
為了進一步簡化邊緣 AI 應用程序在生產(chǎn)環(huán)境中的部署,NVIDIA 為 Jetson 帶來了云原生技術(shù),包括基于 Docker 的容器化以及硬件直通和 Kubernetes 等編排服務,以及可從 NVIDIA NGC 注冊中心獲得的預訓練模型和容器映像。
Jetson Xavier NX 開發(fā)者套件
Jetson Xavier NX 開發(fā)套件捆綁了一個開源參考載板和預組裝的散熱器/風扇,如圖 2 所示,包括一個 19V 電源和基于 M.2 的 802.11 WLAN+BT 模塊。除了可啟動的 microSD 卡插槽外,載體底部還提供了一個 M.2 Key-M NVMe 插槽,用于擴展高速存儲。
由于 Xavier NX 模塊向后兼容 Jetson Nano (B01),它們的載板有一些共同點——還包括雙 MIPI CSI 攝像頭連接器,以及四個 USB 3.1 端口、HDMI、DisplayPort、千兆以太網(wǎng)和一個 40-引腳 GPIO 頭。
套件載板的主要特性和接口如下表 1 所示。有關(guān) Jetson Xavier NX 計算模塊的核心處理能力和規(guī)格的更多信息,請參閱介紹 Jetson Xavier NX,世界上最小的 AI 超級計算機帖子和Jetson Xavier NX 模塊數(shù)據(jù)表。
JetPack 4.4 開發(fā)者預覽版
NVIDIA JetPack SDK 包含用于在 Jetson 上構(gòu)建 AI 應用程序的庫、工具和核心操作系統(tǒng)。JetPack 4.4 開發(fā)者預覽版增加了對 Jetson Xavier NX 的支持。除了表 2 中顯示的其他組件外,它還包括 CUDA Toolkit 10.2 以及 cuDNN 8.0、TensorRT 7.1、DeepStream 5.0 和用于部署云原生服務的 NVIDIA Container Runtime 的預覽版。用于流行機器的預構(gòu)建包安裝程序除了 NGC 上的 JetPack 新框架容器外,Jetson Zoo還提供 TensorFlow 和 PyTorch 等學習框架。
NVIDIA JetPack 4.4 開發(fā)者預覽版
Linux For Tegra R32.4.2Ubuntu 18.04 LTS aarch64
CUDA 工具包10.2cuDNN 8.0 DP
張量RT 7.1 DPGStreamer 1.14.5
VisionWorks 1.6OpenCV 4.1.1
DeepStream 5.0 DPVPI 0.2 DP
OpenGL 4.6 / GLES 3.2伏爾甘 1.2
L4T 多媒體 API R32.4.2L4T阿格斯相機 API 0.97
NVIDIA Nsight 系統(tǒng)2020.2NVIDIA Nsight 顯卡2020.1
NVIDIA SDK 管理器1.1.0NVIDIA 容器運行時1.0.1
表 2. NVIDIA JetPack 4.4 Developer Preview SDK 中可用的軟件組件。
下載 適用于 Jetson Xavier NX、Jetson AGX Xavier、Jetson TX1/TX2 和 Jetson Nano 的JetPack 4.4 開發(fā)者預覽版。收到新的 Jetson Xavier NX 開發(fā)工具包后,按照入門指南中的說明,用 JetPack 映像刷寫您的 microSD 卡。
此開發(fā)者預覽版可用于啟動和運行 Jetson Xavier NX 開發(fā)者套件并開始應用程序開發(fā),而生產(chǎn)的 JetPack 4.4 SDK 計劃于今年夏天晚些時候發(fā)布。安裝 JetPack 后,您可以跟隨一些 AI 驅(qū)動的Jetson 社區(qū)項目。
深度學習推理基準
Jetson 可用于將各種流行的 DNN 模型和 ML 框架部署到具有高性能推理的邊緣,用于實時分類和對象檢測、姿勢估計、語義分割和自然語言處理 (NLP) 等任務。
JetPack SDK 和 NVIDIA CUDA-X 支持 Jetson 和 NVIDIA 獨立 GPU 通用,這意味著您可以輕松地將性能和尺寸、重量和功耗 (SWaP) 消耗降至 5W,而無需重新編寫應用程序。 圖 3 顯示了使用 JetPack 4.4 Developer Preview 和 TensorRT 7.1 在 Jetson Nano、Jetson TX2、Jetson Xavier NX 和 Jetson AGX Xavier 上流行的視覺 DNN 的推理基準。這些結(jié)果可以通過運行 GitHub 上的 open jetson_benchmarks項目來重現(xiàn)。
圖 3. Jetson 系列中使用 TensorRT 的各種基于視覺的 DNN 模型的推理性能。
在 Jetson Xavier NX 和 Jetson AGX Xavier 上,NVIDIA 深度學習加速器 (NVDLA) 引擎和 GPU 以 INT8 精度同時運行,而在 Jetson Nano 和 Jetson TX2 上,GPU 以 FP16 精度運行。Jetson Xavier NX 的性能比 Jetson TX2 高出多達 10 倍,功率相同,占用空間減少 25%。
在這些基準測試中,每個平臺都以最高性能運行(Jetson AGX Xavier 為 MAX-N 模式,Xavier NX 和 TX2 為 15W,Nano 為 10W)。這些基于視覺的任務的最大吞吐量是在批量大小不超過 15 毫秒的延遲閾值時獲得的?!?否則,對于平臺超過此延遲閾值的網(wǎng)絡,批量大小為 1。這種方法在實時應用程序的確定性低延遲要求和多流用例場景的最大性能之間提供了平衡。
我們還提供了BERT在問答方面的基準測試結(jié)果。BERT 是一種多功能架構(gòu),因其在多個 NLP 任務中的成功應用而越來越受歡迎,包括 QA、意圖分類、情感分析、翻譯、名稱/實體識別、釋義、推薦系統(tǒng)、自動完成等。
BERT 傳統(tǒng)上過于復雜,無法在本地部署板載邊緣設備,尤其是 BERT Large 變體。但是,由于 TensorRT 中包含針對 BERT 的 Tensor Core 優(yōu)化,BERT 可以輕松地在 Jetson Xavier NX 和 Jetson AGX Xavier 上運行。
將 BERT 部署到邊緣對于低延遲、智能人機交互 (HMI) 和對話式 AI 很有用,如本文后面的多容器演示的聊天機器人部分,它還在本地執(zhí)行自動語音識別 (ASR)并且不依賴于云連接。
圖 4. BERT Base 和 BERT Large 在問答時的運行時性能,對 NLP 任務使用 50 毫秒的延遲閾值。
圖 4 顯示了 BERT Base 和 BERT Large 在問答方面的運行時性能,對 NLP 任務使用 50 毫秒的延遲閾值。這些結(jié)果以每秒的序列來衡量,其中每個文本序列都是 BERT 回答的查詢或問題。Jetson 上的 BERT 性能為用戶提供近乎即時的反饋,延遲低至 5.9 毫秒。這允許 BERT 處理與其他實時處理流(例如視頻)同時執(zhí)行。
將云原生方法帶到邊緣
到目前為止,嵌入式和邊緣設備的軟件一直被編寫為單片系統(tǒng)。升級單一軟件映像的復雜性增加了出現(xiàn)錯誤的風險,并使更新的節(jié)奏難以加快。這對于具有 AI 的邊緣設備來說尤其成問題,因為它需要頻繁更新以維持快速的能力改進?,F(xiàn)代對敏捷能力和持續(xù)創(chuàng)新(零停機時間)的期望要求改變嵌入式和邊緣設備軟件的開發(fā)和部署方式。
在邊緣采用云原生范例,如微服務、容器化和容器編排是前進的方向。
微服務架構(gòu)、容器化和編排使云應用程序能夠擺脫單一工作流的約束?,F(xiàn)在,Jetson 正在將云原生轉(zhuǎn)型理念帶入 AI 邊緣設備。
Jetson 是領(lǐng)先的 AI 邊緣計算平臺,擁有近 50 萬開發(fā)人員。它由 JetPack SDK 提供支持,具有與全球數(shù)據(jù)中心和工作站相同的 CUDA-X 加速計算堆棧和 NVIDIA Container Runtime。
借助 Jetson 的多個開發(fā)和部署容器、容器化框架和托管在NVIDIA NGC上的預訓練 AI 模型,它可以作為 AI 應用程序開發(fā)的構(gòu)建塊。最新的 Jetson Xavier NX 以盡可能小的外形尺寸實現(xiàn)功能齊全的多模式 AI 應用程序。
我們歡迎云原生技術(shù),這些技術(shù)使客戶具有擴展業(yè)務所需的生命周期敏捷性??蓴U展的軟件開發(fā)加快了上市時間。為什么?因為當您不必同時更新其他應用程序組件時,更新產(chǎn)品生命周期變得不那么繁重。
多容器演示
Jetson Xavier NX的 NVIDIA多容器演示展示了使用云原生方法開發(fā)和部署服務機器人 AI 應用程序的過程。服務機器人是自主機器人,通常與零售、酒店、醫(yī)療保健或倉庫中的人員進行交互。
視頻。Jetson Xavier NX 的云原生多容器演示,并行運行七個深度學習模型。
考慮一個服務機器人,其目的是通過與購物者互動來改善零售百貨商店的客戶服務。如果機器人能夠執(zhí)行許多計算任務,包括人類識別、交互檢測、人體姿態(tài)檢測、語音檢測和自然語言處理,它只能為客戶查詢提供有用的答案。機器人必須運行支持這些功能所需的多個 AI 模型。
借助云原生方法,人工智能模型可以獨立開發(fā)、容器化并包含所有依賴項,并部署到任何 Jetson 設備上。
該演示在 Jetson Xavier NX 上同時運行四個容器,其中包含七個深度學習模型,包括姿勢估計、面部和凝視檢測、人數(shù)統(tǒng)計、語音識別和 BERT 問答。結(jié)果是,這些服務構(gòu)建塊容器可以輕松修改和重新部署而不會中斷,從而提供零停機時間和無縫更新體驗。
Jetson Xavier NX 的計算能力使您能夠一次運行所有這些容器,而不會犧牲跨多個傳感器數(shù)據(jù)流的實時性能。您可以使用托管在 NGC 上的容器從NVIDIA-AI-IOT/jetson-cloudnative-demo GitHub 存儲庫下載演示。
關(guān)于作者
Dustin 是 NVIDIA Jetson 團隊的一名開發(fā)人員推廣員。Dustin 擁有機器人技術(shù)和嵌入式系統(tǒng)方面的背景,喜歡在社區(qū)中提供幫助并與 Jetson 合作開展項目。您可以在NVIDIA 開發(fā)者論壇或GitHub 上找到他。
Suhas Sheshadri 是 NVIDIA 的產(chǎn)品經(jīng)理,專注于 Jetson 軟件。他之前曾在 NVIDIA 的自動駕駛團隊工作,為 NVIDIA Drive 平臺優(yōu)化系統(tǒng)軟件。在空閑時間,Suhas 喜歡閱讀有關(guān)量子物理學和博弈論的書籍。
Sarah Todd 是一名產(chǎn)品營銷經(jīng)理,專注于 Metropolis 解決方案的 GTM 戰(zhàn)略,促進跨行業(yè)的應用程序集成。此前,Sarah 曾在 Autonomous Machines 團隊擔任營銷傳播經(jīng)理,該團隊支持 Jetson、Isaac、DeepStream、TAO Toolkit 等 NVIDIA 產(chǎn)品。
審核編輯:郭婷
-
機器人
+關(guān)注
關(guān)注
211文章
28582瀏覽量
207814 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5063瀏覽量
103444
發(fā)布評論請先 登錄
相關(guān)推薦
評論