卡通动漫日韩一三区,欧美重囗味SM群虐视频,护士毛片久久久久

在AI 芯片或神經(jīng)加速處理器(Neural Network Processing Unit, NPU或Deep Learning Accelerator, DLA)領(lǐng)域中，大家也都說自家的芯片世界最棒，對(duì)手看不到車尾燈，難道沒有一個(gè)較為公正衡量芯片運(yùn)行（推論）效能，就像手機(jī)跑分軟件一樣，讓大家比較信服的基準(zhǔn)嗎？

其實(shí)在AI芯片領(lǐng)域中所謂的「效能」，可能因關(guān)心的重點(diǎn)不同而會(huì)有不同定義和解讀。分別可從硬件每秒可執(zhí)行乘加的次數(shù)(又可細(xì)分FP32,FP16及INT8等)、對(duì)于特定模型在指定推論精度下每秒可執(zhí)行次數(shù)或推論一次所需時(shí)間（包含有無模型優(yōu)化處理）、特定模型推論功耗（推論一次耗費(fèi)焦耳數(shù)）、每瓦特可執(zhí)行乘加指令次數(shù)及其它特定規(guī)范時(shí)的表現(xiàn)，甚至有用每塊美金獲得算力來當(dāng)成基準(zhǔn)。所以常會(huì)遇到誰也不服誰，老王賣瓜自賣自夸的現(xiàn)象。

目前較被大家接受的就是ML Commons所提出的MLPerf規(guī)范，其中包含訓(xùn)練及推論兩大項(xiàng)，而推論部份又可細(xì)分為數(shù)據(jù)中心(Datacenter)、邊緣(Edge)、行動(dòng)(Mobile)及微型(Tiny,大多為MCU)。前不久(2023/6/27)才剛公布了Tiny v1.1測(cè)試結(jié)果報(bào)告，接下來就幫大家解讀一下這份報(bào)告，讓大家能更了解未來單芯片運(yùn)行AI的方向及可行性。

評(píng)測(cè)場(chǎng)景及項(xiàng)目

目前ML Commons在Tiny部份先前已經(jīng)過三輪(v0.5, v0.7, v1.0)測(cè)試，此次公布的是v1.1結(jié)果。測(cè)試時(shí)分為封閉(Closed)及開放(Open)型式，前者依官方規(guī)范測(cè)，而后者廠商可提出依自己規(guī)范測(cè)試更優(yōu)的結(jié)果，不過不是每輪評(píng)測(cè)都會(huì)有開放型式。

目前主要評(píng)測(cè)項(xiàng)目如Fig.1 所示，共有四個(gè)項(xiàng)目，包含關(guān)鍵詞偵測(cè)(Keyword Spoting, KS)、視覺喚醒字(Visual Wake Words, VW)、影像分類(Image Classification, IC)及異常偵測(cè)(Anomaly Detection, AD)。而每個(gè)項(xiàng)目都是采單串流數(shù)據(jù)(Single Stream)方式進(jìn)行，即推論完一筆再取下一筆進(jìn)行推論。依照不同項(xiàng)目，分別使用對(duì)應(yīng)的數(shù)據(jù)集和模型，并在指定的推論質(zhì)量下進(jìn)行評(píng)量。

Fig.1 MLPerf v1.1 工作場(chǎng)景及效能評(píng)量項(xiàng)目

參與評(píng)測(cè)公司、硬件及軟件

本次參與評(píng)測(cè)的項(xiàng)目共有32項(xiàng)，以下依不同項(xiàng)目分別介紹。

參與評(píng)測(cè)公司：共有10家，Krai, Nuvoton(新唐科技), STMicroelectronics(簡(jiǎn)稱STM), Skymizer(臺(tái)灣發(fā)展軟件科技), cTuning, fpgaconvnet, Plumerai, Syntiant, Robert Bosh GmbH, kai-jiang（個(gè)人）。

參與評(píng)測(cè)開發(fā)板：共有14種，規(guī)格下如下所示。

STM NUCLEO-H7A3ZI-Q, Arm Cortex-M7(DSP+FPU) @280MHz

STM NUCLEO-L4R5ZI, Arm Cortex-M4(DSP+FPU) @120MHz

STM NUCLEO-U575ZI-Q, Arm Cortex-M33(DSP+FPU) @160MHz

STM NUCLEO-G0B1RE, Arm Cortex-M0+ @64MHz

STM DISCO-F746NG, Arm Cortex-M7(DSP+FPU) @216MHz

Nordic nRF5340 DK, Arm Cortex-M33(DSP+FPU) @128MHz

Nuvoton NUMAKER-M467HJ, Arm Cortex-M4F @200MHz

DIGILENT Cora Z7, Arm Cortex-A9 @667MHz

DIGILENT ZC706, Arm Cortex-A9 @650MHz

DIGILENT ZedBoard, Arm Cortex-A9 @650MHz

DIGILENT ZyBo, Arm Cortex-A9 @650MHz

Infineon CY8CPROTO-062-4343W, Arm Cortex-M4 (DSP + FPU) @150MHz

Syntiant NDP9120, HiFi3+M0 @30.7MHz/98.7MHz

ZCU106, RISC-V @20MHz

主要CPU規(guī)格：共有7大類。只有1項(xiàng)使用RISC-V，1項(xiàng)為MCU+NPU，其余皆是Arm Based。Cortex-M為單芯片（MCU）等級(jí)，Cortex-A為微處理器（MPU）等級(jí)芯片，用于手機(jī)或單板微電腦。

Arm Cortex-M0+ (1項(xiàng))

Arm Cortex-M33 (4項(xiàng))

Arm Cortex-M4/M4F (13項(xiàng))

Arm Cortex-M7 (7項(xiàng))

Arm Cortex-A9 (4項(xiàng))

Syntiant HiFi3+M0 (2項(xiàng))

RISC-V (1項(xiàng))

主要軟件及函式庫：共有9種。

Skymizer ONNC

MicroTVM

Plumerai Inference Engine

Syntiant TDK+SDK

Bosch Hardware-Aware Lowering Engine(HALE)

STM X-CUBE-AI

fpgaConvNet(Model+Optimiser)

Arm CMSIS-5

TVM

評(píng)測(cè)結(jié)果：

由于芯片等級(jí)落差頗大，單從推論時(shí)間(毫秒ms)及能耗(微焦耳uJ 比較可能會(huì)有點(diǎn)不公平，所以這里依CPU等級(jí)及工作頻率來分會(huì)更清楚些。Fig. 2分別列出各等級(jí)中推論速度表現(xiàn)最好的。

Fig.2 MLPerf Tiny v1.1各等級(jí)CPU及不同應(yīng)用表現(xiàn)最佳清單。

另外從此次提交的項(xiàng)目亦可看出Arm Cortex-M4已成為TinyML的主流，若推論仍不夠快時(shí)，則可再提升到Cortex-M7。而新上市的Cortex-M33效能已高過Cortex-M4，略低于Cortex-M7，讓使用者有多一點(diǎn)性價(jià)比的選擇空間。

小結(jié)

在邊緣智能(Edge AI)裝置及智能物聯(lián)網(wǎng)(AIoT)應(yīng)用中使用單芯片（MCU）來運(yùn)行AI（TinyML)已是現(xiàn)在進(jìn)行式，透過此次的評(píng)比結(jié)果，可讓大家更了解各家芯片性能及模型優(yōu)化工具的進(jìn)展，未來隨著MCU+NPU的普及，相信下一次的評(píng)比結(jié)果可能就有更大躍升，就讓大家一起期待吧！

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴