丝瓜视频最污,亚洲综合精品一二三区在线,一道本久久欧美一区2区

工業(yè)物聯(lián)網(wǎng)架構(gòu)師花了數(shù)年時間才得出結(jié)論，邊緣需要數(shù)據(jù)中心級的性能，以實現(xiàn)高效分析、提高安全性和降低網(wǎng)絡成本。在人工智能和機器學習領(lǐng)域，傳感器設(shè)備內(nèi)部或附近對高端處理能力的需求從一開始就很明顯。

考慮到即使是簡單的自主機器（我知道這是矛盾的說法）也需要大量的計算能力來運行神經(jīng)網(wǎng)絡來執(zhí)行障礙物檢測、識別和避免等功能。例如，京東和菜鳥等公司生產(chǎn)的自動送貨車需要大約每秒 30 兆次運算（TOPS）的處理性能，而雅馬哈正在開發(fā)的自動駕駛檢查無人機需要大約 20 兆次運算（TOPS）的處理性能。

當然，這對嵌入式和工業(yè)工程師提出了一個經(jīng)典的設(shè)計挑戰(zhàn)：平衡每瓦性能。性能太低，應用程序失敗。功耗太大，自主機器必須連接到持續(xù)的電源。

隨著NVIDIA 的 Jetson AGX Xavier 模塊的發(fā)布，這種情況正在改變。

服務器級性能，嵌入式功耗

Jetson AGX Xavier 核心的 Xavier SoC 包含大量異構(gòu)處理性能，適用于人工智能驅(qū)動的機器人應用程序，包括：

512 核 Volta GPU，帶有 64 個 TensorCore

八核、64 位基于 Arm 的 Carmel CPU

雙 NVDLA（NVIDIA 深度學習加速器）引擎

雙 7 路 VLIW 視覺加速器引擎

這代表 Jetson AGX 模塊的性能高達 32 TOPS，尺寸為 87 mm x 100 mm。如上圖所示，該芯片還包括一個 256 位 LPDDR4X 接口，能夠以 137 GBps 的速度將數(shù)據(jù)傳輸?shù)侥K上的 16 GB DRAM，用于與 AI 工作負載相關(guān)的頻繁讀寫。

基本上，Jetson AGX Xavier 以嵌入式模塊形式提供服務器級性能。然而，同樣重要的是，該模塊的功耗僅為 10W，或與臺式風扇差不多。用戶可將操作模式配置為 10W、15W 或 30W，NVIDIA 報告稱每瓦性能（PPW）的最佳點在 15W 左右。即使在那個水平（大約相當于藍光播放器的功耗），Jetson AGX Xavier 在推理性能和能源效率方面也大大超過了其前身 Jetson TX2 和 Intel Core i7 + GTX 1070 顯卡。

Jetson AGX Xavier：引擎蓋下

Jetson AGX Xavier 的多項功能可實現(xiàn)這種類型的每瓦性能，從基礎(chǔ)芯片架構(gòu)開始。雖然 SoC 上的每個內(nèi)核都有自己的內(nèi)存，但內(nèi)存是離散 SoC 模塊之間的零內(nèi)存復制。雖然 AGX Xavier 模塊確實通過外部 16 GB LPDDR4X DRAM 提供共享內(nèi)存，但片上數(shù)據(jù)只是通過管道傳遞到必要的處理核心。

架構(gòu)的異構(gòu)性也提高了效率，因為工作負載可以在最適合任務的架構(gòu)上執(zhí)行。這方面的一個例子是片上加速引擎，它可以卸載 Volta GPU，以便它可以專注于更復雜或用戶定義的任務。例如，在以 8 位分辨率推斷固定功能卷積神經(jīng)網(wǎng)絡（CNN）時，NVDLA 引擎可提供高達 5 TOPS 的性能，以 16 位分辨率推斷 2.5 TFLOPS 時，功耗在 0.5W 和 1.5W 之間。

同時，Carmel CPU 內(nèi)核可以保留用于通用計算任務。

JetPack 簡化了深度學習編程的復雜性

Jetson AGX 系列運行 Linux，這在工業(yè)嵌入式系統(tǒng)中變得越來越普遍。許多希望利用 Jetson AGX Xavier 性能的工業(yè)和嵌入式開發(fā)人員可能不太熟悉的是對 GPU 和/或深度學習加速器進行編程。幸運的是，NVIDIA JetPack 4.1.1 軟件開發(fā)套件（SDK）在CUDA Toolkit中提供了一攬子 API、嵌入式庫以及與常用語言的集成，因此您無需了解如何編程 GPU對 GPU 進行編程。

最新JetPack版本中的一些軟件工具包括：

Linux For Tegra R31.0.1 （K4.9）

CUDA 工具包 10.0

cuDNN 7.3

張量RT 5.0 GA

OpenCV 3.3.1

OpenGL 4.6 / GLES 3.2

伏爾甘 1.1

多媒體 API R31.1

阿格斯 0.97 相機 API

TensorRT 5.0 包中提供的 API 也簡化了對 DLA 進行編程以執(zhí)行神經(jīng)網(wǎng)絡工作負載。例如，_setDeviceType（）和 setDefaultDeviceType（）命令可用于在 GPU 或任一 DLA 上執(zhí)行特定的神經(jīng)網(wǎng)絡層或?qū)樱?_allowGPUFallback（）這樣的命令可讓工作負載在 DLA 不支持的情況下恢復到 GPU 。

此外，DeepStream 3.0 SDK 支持 Jetson AGX Xavier，該 SDK 利用 TensorRT、CUDA、多媒體和成像 API 來加速視頻分析應用程序的開發(fā)。

當然，低級 CUDA 編程是另一種選擇。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴