NVIDIA在GTC 2019上發(fā)布了Jetson Nano開發(fā)套件,這是一款售價(jià)99美元的計(jì)算機(jī),可供嵌入式設(shè)計(jì)人員、研究人員和DIY創(chuàng)客們使用,在緊湊、易用的平臺上即可實(shí)現(xiàn)現(xiàn)代AI的強(qiáng)大功能,并具有完整的軟件可編程性。本文將為您詳細(xì)剖析Jetson Nano的強(qiáng)大性能和應(yīng)用。
Jetson Nano采用四核64位ARM CPU和128核集成NVIDIA GPU,可提供472 GFLOPS的計(jì)算性能。它還包括4GB LPDDR4存儲(chǔ)器,采用高效、低功耗封裝,具有5W/10W功率模式和5V DC輸入,如圖1所示。
圖1. Jetson Nano開發(fā)套件 (80x100mm), 99美元即可獲得
Jetson Nano基于配備了圖形加速的Ubuntu18.04操作系統(tǒng),全新發(fā)布的JetPack 4.2 SDK為其提供了完整的桌面Linux環(huán)境支持,NVIDIA CUDA 工具包10.0,以及cuDNN 7.3和TensorRT等庫。該SDK還包括本機(jī)安裝的常用開源機(jī)器學(xué)習(xí)(ML)框架,如TensorFlow、PyTorch、Caffe、Keras和MXNet,以及計(jì)算機(jī)視覺和機(jī)器人開發(fā)的框架,如OpenCV和ROS。
它與這些框架和NVIDIA領(lǐng)先的AI平臺完全兼容,可以輕松地將基于AI的推理工作負(fù)載部署到Jetson。Jetson Nano能為各種復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型提供實(shí)時(shí)計(jì)算機(jī)視覺和推理。這些功能支持多傳感器自主機(jī)器人,以及具有智能邊緣分析的物聯(lián)網(wǎng)設(shè)備和先進(jìn)的AI系統(tǒng)。開發(fā)人員甚至可以通過遷移學(xué)習(xí),使用機(jī)器學(xué)習(xí)框架在Jetson Nano本地重新訓(xùn)練網(wǎng)絡(luò)。
Jetson Nano開發(fā)套件的體積僅為80x100mm,具有四個(gè)高速USB 3.0端口、MIPI CSI-2攝像頭連接器、HDMI 2.0和DisplayPort 1.3、千兆以太網(wǎng)、M.2 Key-E模塊、MicroSD卡插槽和40引腳GPIO接頭。端口和GPIO接頭開箱即用,配備各種常用的外圍設(shè)備、傳感器和即用型項(xiàng)目,例如NVIDIA在GitHub上開源的3D可打印深度學(xué)習(xí)JetBot。
該開發(fā)套件可由移動(dòng)的MicroSD卡啟動(dòng),能夠在任何具有SD卡適配器的PC上進(jìn)行格式化和成像。它可以通過Micro USB端口或5V DC桶形插孔適配器充電,方便快捷。攝像頭連接器兼容經(jīng)濟(jì)實(shí)惠的MIPI CSI傳感器,包括基于Jetson生態(tài)系統(tǒng)合作伙伴提供的8MP IMX219的模塊。它還支持Raspberry Pi Camera Module v2,其中包括JetPack中的驅(qū)動(dòng)程序支持。表1展現(xiàn)了其關(guān)鍵規(guī)格。
表1. Jetson Nano開發(fā)套件技術(shù)規(guī)格
*表示了達(dá)到聚合吞吐量的最大并發(fā)流數(shù)。支持的視頻編解碼器:H.265,H.264,VP8,VP9(僅限VP9解碼)
該套件圍繞一個(gè)260引腳的SODIMM型系統(tǒng)級模塊(SoM)構(gòu)建,如圖2所示。SoM包含處理器、內(nèi)存和電源管理電路。 Jetson Nano計(jì)算模塊尺寸為45x70mm,將于2019年6月開始發(fā)售,售價(jià)129美元(千片批量),供嵌入式設(shè)計(jì)人員集成到生產(chǎn)系統(tǒng)中。生產(chǎn)計(jì)算模塊將包括16GB eMMC板載存儲(chǔ)和增強(qiáng)I/O,以及PCIe Gen2 x4/x2/x1、MIPI DSI,附加GPIO和12個(gè)MIPI CSI-2通道,可連接多達(dá)三個(gè)x4攝像頭或最多四個(gè)攝像頭x4/x2配置中。Jetson的統(tǒng)一內(nèi)存子系統(tǒng)在CPU、GPU和多媒體引擎之間共享,提供簡化的ZeroCopy傳感器攝取和高效處理流水線。
圖2. 45x70mm Jetson Nano 計(jì)算模塊配備260引腳邊緣連接器
深度學(xué)習(xí)推理基準(zhǔn)
Jetson Nano可以運(yùn)行各種各樣的高級網(wǎng)絡(luò),包括流行的機(jī)器學(xué)習(xí)框架的完整原生版本,如TensorFlow、PyTorch、Caffe / Caffe2、Keras和MXNet等。通過實(shí)現(xiàn)圖像識別、對象檢測和定位、姿勢估計(jì)、語義分割、視頻增強(qiáng)和智能分析等強(qiáng)大功能,這些網(wǎng)絡(luò)可用于構(gòu)建自主機(jī)器和復(fù)雜AI系統(tǒng)。
圖3顯示了在線提供的常用模型的推理基準(zhǔn)測試結(jié)果。推理使用批量1和FP16精度,采用JetPack 4.2配備的NVIDIA TensorRT加速器庫。Jetson Nano在許多場景中都具有實(shí)時(shí)性能,能夠處理多個(gè)高清視頻流。
圖3. 采用Jetson Nano和TensorRT的各種深度學(xué)習(xí)推理網(wǎng)絡(luò)的性能,使用FP16精度和批量1
表2提供了完整的結(jié)果,包括其他平臺的性能,如Raspberry Pi 3、Intel Neural Compute Stick 2和Google Edge TPU Coral Dev Board:
表2. Jetson Nano、Raspberry Pi 3、Intel Neural Compute Stick 2和Google Edge TPU Coral Dev Board的推理性能結(jié)果。
由于內(nèi)存容量有限,網(wǎng)絡(luò)層不受支持或硬件/軟件限制,DNR(未運(yùn)行)結(jié)果頻繁發(fā)生。固定功能神經(jīng)網(wǎng)絡(luò)加速器通常支持相對較窄的一組用例,硬件支持專用層操作,需要網(wǎng)絡(luò)權(quán)重和激活以適應(yīng)有限的片上高速緩存,以避免重大的數(shù)據(jù)傳輸損失。它們可能會(huì)回退到主機(jī)CPU上以運(yùn)行硬件中不支持的層,并且可能依賴于支持減少的框架子集的模型編譯器(例如,TFLite)。
Jetson Nano靈活的軟件和完整的框架支持,以及內(nèi)存容量和統(tǒng)一內(nèi)存子系統(tǒng)使其能夠運(yùn)行多種不同的網(wǎng)絡(luò),達(dá)到全高清分辨率,包括同時(shí)在多個(gè)傳感器流上的可變批量大小。這些基準(zhǔn)測試代表了常用網(wǎng)絡(luò)的一些示例,但用戶可以通過加速性能為Jetson Nano部署各種模型和定制架構(gòu)。而Jetson Nano不僅限于DNN推理。其CUDA架構(gòu)可用于計(jì)算機(jī)視覺和數(shù)字信號處理(DSP),使用包括FFT、BLAS和LAPACK操作在內(nèi)的算法,以及用戶定義的CUDA內(nèi)核。
多流視頻分析
Jetson Nano可實(shí)時(shí)處理多達(dá)8個(gè)高清全動(dòng)態(tài)視頻流,并可部署在網(wǎng)絡(luò)視頻錄像機(jī)(NVR)、智能攝像頭和物聯(lián)網(wǎng)網(wǎng)關(guān)的低功耗邊緣智能視頻分析平臺中。NVIDIA的DeepStream SDK使用ZeroCopy和TensorRT來優(yōu)化端到端的推理管道,以在邊緣和本地服務(wù)器上實(shí)現(xiàn)最佳性能。
如下視頻顯示了Jetson Nano在8個(gè)1080p30流上同時(shí)執(zhí)行物體檢測,該過程基于ResNet的模型以全分辨率運(yùn)行,吞吐量為每秒500萬像素(MP/s)。
圖4顯示了使用Jetson Nano通過深度學(xué)習(xí)分析在千兆以太網(wǎng)上攝取和處理多達(dá)8個(gè)數(shù)字流的示例NVR架構(gòu)。該系統(tǒng)可解碼500 MP/s的H.264/H.265,并編碼250 MP/s的H.264/H.265視頻。
圖4. 使用Jetson Nano和8x高清攝像頭輸入的參考NVR系統(tǒng)架構(gòu)
JetBot
圖5所示的NVIDIA JetBot是一個(gè)新的開源自主機(jī)器人套件,它提供了所有軟件和硬件,計(jì)劃以低于250美元的價(jià)格構(gòu)建一個(gè)人工智能的深度學(xué)習(xí)機(jī)器人。硬件材料包括Jetson Nano、IMX219 800萬像素?cái)z像頭、3D打印機(jī)箱、電池組、電機(jī)、I2C電機(jī)驅(qū)動(dòng)器和配件。
圖5. NVIDIAJetBot是基于Jetson Nano的開源深度學(xué)習(xí)自主機(jī)器人套件,能夠以低于$250的價(jià)格構(gòu)建而成
該項(xiàng)目通過Jupyter筆記本提供簡單易學(xué)的示例,介紹通過編寫Python代碼來控制電機(jī),訓(xùn)練JetBot檢測障礙物,跟蹤人和家居用品等物體,并訓(xùn)練JetBot跟蹤地板周圍的路徑??梢酝ㄟ^擴(kuò)展代碼和使用AI框架為JetBot創(chuàng)建新功能。還有可用于JetBot的ROS節(jié)點(diǎn),為希望集成基于ROS的應(yīng)用程序,以及SLAM和高級路徑規(guī)劃等功能的用戶提供ROS Melodic支持。包含JetBot ROS節(jié)點(diǎn)的GitHub存儲(chǔ)庫還包括Gazebo 3D機(jī)器人模擬器的模型,在部署到機(jī)器人之前可在虛擬環(huán)境中開發(fā)和測試新的AI行為。 Gazebo模擬器生成合成攝像頭數(shù)據(jù),并在Jetson Nano上運(yùn)行。
Hello AI World
Hello AI World提供了一個(gè)很好的方式來開始使用Jetson并體驗(yàn)AI的強(qiáng)大功能。在短短幾個(gè)小時(shí)內(nèi),您就可以使用JetPack SDK和NVIDIA TensorRT在Jetson Nano開發(fā)套件上進(jìn)行一系列深度學(xué)習(xí)推理演示,并進(jìn)行實(shí)時(shí)圖像分類和對象檢測(使用預(yù)訓(xùn)練模型)。本教程重點(diǎn)介紹與計(jì)算機(jī)視覺相關(guān)的網(wǎng)絡(luò),并包括使用實(shí)時(shí)攝像頭。您還可以使用C++編寫自己易于理解的識別程序??捎玫纳疃葘W(xué)習(xí)ROS節(jié)點(diǎn)將這些識別、檢測和分段推理功能與ROS結(jié)合在一起,可以集成到先進(jìn)的機(jī)器人系統(tǒng)和平臺中。這些實(shí)時(shí)推理節(jié)點(diǎn)可以輕松地放入現(xiàn)有的ROS應(yīng)用程序中。圖6展示了其中一些示例。
想要嘗試訓(xùn)練自己模型的開發(fā)人員可以參照完整的“Two Days to a Demo”教程,該教程涵蓋了圖像分類、對象檢測和帶有遷移學(xué)習(xí)的語義分割模型的重新訓(xùn)練和定制。遷移學(xué)習(xí)可以精確調(diào)整特定數(shù)據(jù)集的模型權(quán)重,并避免必須從頭開始訓(xùn)練模型。遷移學(xué)習(xí)能夠在連接NVIDIA離散GPU的PC或云實(shí)例上高效執(zhí)行,因?yàn)橛?xùn)練需要比推理更多的計(jì)算資源和時(shí)間。
圖6. Hello AI World和Two Days to a Demo教程幫助用戶快速部署用于計(jì)算機(jī)視覺的深度學(xué)習(xí)
然而,由于Jetson Nano可以運(yùn)行TensorFlow、PyTorch和Caffe等完整的訓(xùn)練框架,因此它還能夠?yàn)槟切o法訪問另一臺專用訓(xùn)練機(jī)器,并且愿意為獲得結(jié)果而等待的人提供遷移學(xué)習(xí)。表3顯示了Two Days to a Demo教程的遷移學(xué)習(xí)的初步結(jié)果,該過程在Jetson Nano上使用PyTorch,在20萬圖像、22.5GB的 ImageNet子集上訓(xùn)練Alexnet和ResNet-18:
表3. 使用Jetson Nano和遷移學(xué)習(xí)在ImageNet數(shù)據(jù)集的樣本——20萬圖像/22.5GB子集上重新訓(xùn)練圖像分類網(wǎng)絡(luò)的結(jié)果
時(shí)間戳指的是完成20萬圖像訓(xùn)練數(shù)據(jù)集所需的時(shí)間。對于可用結(jié)果和生產(chǎn)模型,分類網(wǎng)絡(luò)可能需要2-5個(gè)時(shí)間戳,并且應(yīng)該在離散GPU系統(tǒng)上訓(xùn)練以獲得更多時(shí)間戳,直到它們達(dá)到最大準(zhǔn)確度。但是,Jetson Nano可以讓網(wǎng)絡(luò)在一夜之間重新訓(xùn)練,在低成本平臺上體驗(yàn)深度學(xué)習(xí)和人工智能。并非所有自定義數(shù)據(jù)集都與此處使用的22.5GB示例一樣大。因此,圖像/秒表示Jetson Nano的訓(xùn)練性能,此處還包括時(shí)間戳縮放與數(shù)據(jù)集的大小,訓(xùn)練批量大小和網(wǎng)絡(luò)復(fù)雜性。其他型號也可以在Jetson Nano上重新訓(xùn)練,同時(shí)增加訓(xùn)練時(shí)間。
所有人可用的AI
Jetson Nano的計(jì)算性能、緊湊的體積和靈活性為開發(fā)人員帶來了創(chuàng)建AI驅(qū)動(dòng)設(shè)備和嵌入式系統(tǒng)的無限可能性。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91114
原文標(biāo)題:深度剖析 | Jetson Nano讓AI計(jì)算無處不在
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論