眾多高計算強度的應(yīng)用正在被部署到邊緣設(shè)備上
當下,業(yè)界迫切需要一種高效率的硬件
既能高效率地執(zhí)行復(fù)雜算法
又能適應(yīng)這種技術(shù)的快速演進
在此背景下,賽靈思 Kria K26 SOM應(yīng)運而生
為 ML 邊緣應(yīng)用開發(fā)提供了更加理想的選擇
賽靈思的研究結(jié)果表明,K26 SOM 提供了比英偉達 Jetson Nano 高出大約 3 倍的性能。此外,它的單位功耗性能較之英偉達 Jetson TX2 提升了 2 倍。對于 SSD MobileNet-v1 這樣的網(wǎng)絡(luò),K26 SOM 的低時延、高性能深度學習處理單元 (DPU)提供了比 Nano 高出 4 倍甚至更高的性能。
01
與未來兼容的 Kria K26 SOM
智能應(yīng)用除了要求亞微秒級的時延,還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構(gòu)為基礎(chǔ),Kria K26 SOM 提供了業(yè)界一流的單位功耗性能和更低的總體擁有成本,使之成為邊緣設(shè)備的理想選擇。
原始計算能力
就在邊緣設(shè)備上部署解決方案而言,硬件必須擁有充足的算力,才能處理先進 ML 算法工作負載。我們可以使用各種深度學習處理單元 (DPU) 配置對 Kria K26 SOM 進行配置,還能根據(jù)性能要求,將最適用的配置集成到設(shè)計內(nèi)。
支持更低精度的數(shù)據(jù)類型
深度學習算法正在以極快的速度演進發(fā)展,各種更低精度的數(shù)據(jù)類型和定制數(shù)據(jù)正在進入使用。傳統(tǒng)的 GPU 廠商已無法滿足當前的市場需求,而 Kria K26 SOM 能夠支持全系列數(shù)據(jù)類型精度,如 PF32、INT8、二進制和其他定制數(shù)據(jù)類型。
低時延與低功耗
為了改善軟件可編程能力,GPU 架構(gòu)需要頻繁訪問外部 DDR。這種做法非常低效,有時候會對高帶寬設(shè)計要求構(gòu)成瓶頸。相反,Zynq MPSoC 架構(gòu)具有高能效,它的可重配置能
力便于開發(fā)者設(shè)計的應(yīng)用減少或不必訪問外部存儲器。這不僅有助于減少應(yīng)用的總功耗,也通過降低端到端時延改善了響應(yīng)能力。
靈活性
與數(shù)據(jù)流固定的 GPU 不同,賽靈思硬件提供了靈活性用來專門地重新配置數(shù)據(jù)路徑,從而實現(xiàn)最大吞吐量并降低時延。此外,可編程的數(shù)據(jù)路徑也降低了對批處理的需求,而批處理是 GPU 的一個重大不足,需要在降低時延或提高吞吐量之間做出權(quán)衡取舍。Kria SOM 靈活的架構(gòu)已在稀疏網(wǎng)絡(luò)中展示出巨大潛力。
02
與英偉達 Jetson 性能比較
深度學習模型性能比較
根據(jù)測試數(shù)據(jù),所有模型在 K26 SOM 上的性能數(shù)值均優(yōu)于英偉達 Jetson Nano。而且對于 SSD Mobilenet-V1 等部分模型,吞吐量則為 Jetson Nano 的四倍以上,為 Jetson Tx2 的兩倍左右,從下表可以很容易地看到顯著的吞吐量提升。
功耗測量
邊緣設(shè)備提供最佳性能這點非常重要,但同時必須降低能耗。賽靈思測量了英偉達和賽靈思 SOM 模塊在執(zhí)行具體模型時發(fā)生的峰值功率,結(jié)果很明顯,K26 SOM 優(yōu)于 Jetson Nano
3.5 倍,優(yōu)于 Jetson TX2 2.4 倍。
實際應(yīng)用性能比較
為了分析實際用例,我們選擇了一種準確檢測和識別車輛牌照的基于機器學習的應(yīng)用。將 Uncanny Vision 行業(yè)領(lǐng)先的 ANPR 算法部署在 Kria SOM 上后,與英偉達用 Deepstream-SDK 完成的“車牌識別”的公開數(shù)據(jù)進行比較,結(jié)果說明,Uncanny Vision 的 ANPR 流水線在針對 KV260 入門套件進行優(yōu)化后,實現(xiàn)了超過 33fps 的吞吐量,顯著優(yōu)于英偉達基準測試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為 ANPR 集成商和 OEM 廠商提供了優(yōu)于競爭對手的開發(fā)靈活性。
實際應(yīng)用測試顯示,K26 SOM 不僅在標準性能比較中表現(xiàn)極其優(yōu)異,并且在為開發(fā)者提供加速整體 AI 和視覺流水線所需的原始性能時,效率也更高。通過對比,在標準的基準測試領(lǐng)域之外,競爭解決方案傾向于提供較低效率水平,而且功耗較高。
編輯:jq
-
gpu
+關(guān)注
關(guān)注
28文章
4743瀏覽量
128997 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238777 -
SOM
+關(guān)注
關(guān)注
0文章
59瀏覽量
15735
原文標題:白皮書 | Kria K26:邊緣端視覺 AI 理想平臺
文章出處:【微信號:賽靈思,微信公眾號:Xilinx賽靈思官微】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論