電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))AI應(yīng)用如同燃起的野火一般,從消費(fèi)級(jí)的手機(jī)端,出現(xiàn)在了工業(yè)級(jí)的超級(jí)游輪和航空級(jí)的空間站上。然而在邊緣端,這些應(yīng)用遇上了傳統(tǒng)應(yīng)用也掙扎了數(shù)年的需求:更高的性能、更大的容量和更低的功耗。
更糟糕的是,機(jī)器學(xué)習(xí)模型正在以指數(shù)級(jí)的速度增長(zhǎng),每3到5個(gè)月就會(huì)翻一番。要想應(yīng)用這些模型的話(huà),傳統(tǒng)的計(jì)算芯片已經(jīng)難以利用有限的內(nèi)存資源和功率提供高性能,連數(shù)據(jù)中心都在AI工作負(fù)載上感到吃力了,更不用說(shuō)在邊緣側(cè)運(yùn)行的大型模型。為此,邊緣AI處理器成了不少芯片大廠和初創(chuàng)企業(yè)的發(fā)力方向。然而在處理器的選取上,并不是僅僅看算力、功耗和成本而已。
邊緣AI處理器的選擇
首先,AI芯片公司不僅要有硬件開(kāi)發(fā)實(shí)力,也要具備強(qiáng)大的AI軟件棧和工具。比如英特爾或英偉達(dá)之類(lèi)的廠商,其CPU或GPU設(shè)計(jì)早已為TensorFlow、Caffe或Pytorch等框架提供了支持,但初創(chuàng)企業(yè)自研架構(gòu)的AI處理器往往需要打造自己的編譯器來(lái)支持這些框架。
其次,是處理器支持的神經(jīng)網(wǎng)絡(luò)精度。多數(shù)邊緣AI處理器精度并不高,這是因?yàn)閷⑸窠?jīng)網(wǎng)絡(luò)轉(zhuǎn)換為低精度簡(jiǎn)化了硬件設(shè)計(jì),同時(shí)也極大地降低了功耗。要想保持高精度的話(huà),往往需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
Nvidia - Jetson Xavier NX
英偉達(dá)于2019年公布了一款名為“Jetson Xavier NX”的AI處理器,專(zhuān)門(mén)用于邊緣系統(tǒng)和嵌入式應(yīng)用。Jetson Xavier NX只有70mm x 45mm的大小,卻可以在15W的功耗下提供21 TOPS(INT8)的AI算力。
Jetson Xavier NX集成了6核CPU、384核GPU、48個(gè)Tensor核心、2個(gè)NVDLA深度學(xué)習(xí)加速器和7路VLIW視覺(jué)處理器加速器。其中CPU選用了英偉達(dá)Carmel Arm核心,GPU則是基于Volta架構(gòu)。該處理器還配備了8GB 128位的LDDR4x內(nèi)存,可提供59.7GB/s的帶寬性能。
英偉達(dá)已經(jīng)為用戶(hù)提供了開(kāi)發(fā)者套件,可以創(chuàng)建高性能的AI應(yīng)用,并快速部署深度神經(jīng)網(wǎng)絡(luò)模型和常見(jiàn)的機(jī)器學(xué)習(xí)框架,比如Tensorflow和Pytorch等,除此之外也可以用到cuDNN、TensorRT和DeepStream等一系列軟件庫(kù)和加速工具。
Jetson Xavier NX最大的優(yōu)勢(shì)在于其Jetson產(chǎn)品線全部基于同一軟件棧,所以可以直接套用更強(qiáng)大的Jetson AGX Xavier上的AI應(yīng)用,只不過(guò)算力要稍低一截而已。憑借其21TOPS的AI算力,加上加速器提供的視頻處理器性能,可以毫無(wú)壓力地完成人體識(shí)別、自研語(yǔ)言處理、姿勢(shì)檢測(cè)和注視檢測(cè)等AI應(yīng)用,適用于自動(dòng)光學(xué)檢測(cè)和智能攝像頭等一系列邊緣IoT設(shè)備。
Hailo - Hailo-8
Hailo是一家來(lái)自于以色列的AI芯片公司,不少核心開(kāi)發(fā)成員來(lái)自于以色列國(guó)防科技部門(mén),主要負(fù)責(zé)為邊緣設(shè)備開(kāi)發(fā)高性能的AI處理器。早在2019年,Hailo就公布了其自研的邊緣AI處理器Hailo-8,其算力可達(dá)26TOPS(INT8),但該處理器的典型功耗僅有2.5W。在完成了多輪融資后,Hailo也在今年開(kāi)始了Hailo-8的量產(chǎn)。
Hailo-8與Jetson產(chǎn)品的對(duì)比 / Hailo
與傳統(tǒng)的CPU、GPU、DSP或硬件加速器的架構(gòu)不同,Hailo在這款處理器上運(yùn)用了自研的結(jié)構(gòu)定義數(shù)據(jù)流架構(gòu)。在ResNet-50的神經(jīng)網(wǎng)絡(luò)測(cè)試中,Hailo-8取得了1330FPS@3.2W的成績(jī)。Hailo還在官網(wǎng)曬出出了Hailo-8與英偉達(dá)Jetson Nano與Xavier NX在ResNet和SSD_MobileNet等模型下的預(yù)期表現(xiàn)對(duì)比,我們從上圖可以看出,Hailo-8在性能上優(yōu)勢(shì)明顯,能耗比更是讓英偉達(dá)的兩款Jetson處理器望塵莫及。
Hailo還準(zhǔn)備好了開(kāi)源的Model Zoo,其中囊括了物體識(shí)別、分類(lèi)、人臉檢測(cè)識(shí)別等60多種計(jì)算機(jī)視覺(jué)任務(wù)的深度學(xué)習(xí)模型。開(kāi)發(fā)者利用這些預(yù)訓(xùn)練的Tensorflow和ONNX模型,只需用上自己的數(shù)據(jù)重新訓(xùn)練,即可在Hailo設(shè)備上迅速創(chuàng)建好原型。
Mythic - M1076
美國(guó)德州的初創(chuàng)公司Mythic推出了利用存內(nèi)計(jì)算技術(shù)的M1076模擬矩陣處理器(AMP)。單個(gè)M1076芯片的面積只有360mm2,卻可以在3W至4W的功耗下提供35 TOPS的算力,與常見(jiàn)的SoC或GPU方案相比,功耗低了10倍以上。
但這并不是M1076的最大特色,與傳統(tǒng)數(shù)字計(jì)算方式不同,Mythic在M1076上運(yùn)用了模擬計(jì)算。模擬計(jì)算雖然理論上要要與數(shù)字計(jì)算,但長(zhǎng)久以來(lái)收到尺寸的限制,在速度與擴(kuò)展性上一直提不上去。然而Mythic通過(guò)將模擬運(yùn)算與嵌入式閃存結(jié)合,選擇了存內(nèi)計(jì)算的方式。
M1076同時(shí)支持INT4、INT8和INT16三種數(shù)據(jù)類(lèi)型,非常適合作為TinyML的開(kāi)發(fā)平臺(tái)。Mythic也為客戶(hù)提供了物體識(shí)別/分類(lèi)、圖像分割和姿勢(shì)評(píng)估等模型,可用于AR/VR中的智能健身和游戲等應(yīng)用。
小結(jié)
云計(jì)算在邊緣端的弱勢(shì)使得邊緣AI處理器有了崛起的機(jī)會(huì),在工業(yè)4.0、自動(dòng)化系統(tǒng)和智能IoT的潮流下,邊緣AI還需要繼續(xù)開(kāi)拓應(yīng)用場(chǎng)景,而不僅僅是用于機(jī)器視覺(jué)任務(wù)。邊緣AI處理器廠商也必須繼續(xù)提供更多的模型,幫助開(kāi)發(fā)者加速邊緣AI應(yīng)用的落地。
聲明:本文由電子發(fā)燒友原創(chuàng),轉(zhuǎn)載請(qǐng)注明以上來(lái)源。如需入群交流,請(qǐng)?zhí)砑游⑿舉lecfans999,投稿爆料采訪需求,請(qǐng)發(fā)郵箱huangjingjing@elecfans.com。
編輯:jq
-
處理器
+關(guān)注
關(guān)注
68文章
19329瀏覽量
230132 -
芯片
+關(guān)注
關(guān)注
456文章
50908瀏覽量
424439 -
AI
+關(guān)注
關(guān)注
87文章
31025瀏覽量
269363 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132744
原文標(biāo)題:邊緣AI處理器拼的不僅是算力和功耗
文章出處:【微信號(hào):elecfans,微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論