0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何提升NPU的能效比?

佐思汽車研究 ? 來源:佐思汽車研究 ? 作者:Nathan J ? 2022-08-01 11:19 ? 次閱讀

現(xiàn)如今,深度神經(jīng)網(wǎng)絡(luò)正在以越來越大的規(guī)模部署,橫跨了從云端,自動駕駛IoT等平臺。比如用于圖像識別,語音識別及翻譯,癌癥檢測以及自動駕駛中對感知層海量數(shù)據(jù)的處理等。在很多領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)的精度已經(jīng)超越人類,它的優(yōu)越性來源于它對原始數(shù)據(jù)的特征提取,并通過對大量數(shù)據(jù)的學習來獲取輸入空間的有效表征,但是它的高精度是以超高計算復(fù)雜度為代價。因此很多廠商都在追逐NPU的算力來解決這些復(fù)雜問題,但是隨著算力的提高,NPU設(shè)計也越來越復(fù)雜,將伴隨著面積和功耗的增加,這對于那些面積和功耗有很大限制的設(shè)備帶來了挑戰(zhàn),因此如何提升NPU的能效比就成了亟待解決的問題。

6bdd29be-1147-11ed-ba43-dac502259ad0.png

NPU通過數(shù)據(jù)分區(qū)和有效調(diào)度,利用數(shù)據(jù)的重用以及執(zhí)行分段來提高能效比和硬件利用率,而實現(xiàn)高利用率,數(shù)據(jù)重用將直接依賴于如何調(diào)度深度神經(jīng)網(wǎng)絡(luò)的計算和如何將這些計算有效的映射到NPU的硬件單元上。以CNN為例,數(shù)據(jù)流無非包含三個方面filter(Weight),ifmap和ofmap,如下圖。

6bf2bb62-1147-11ed-ba43-dac502259ad0.png

因此在設(shè)計NPU時需要考慮如利用內(nèi)存的層次結(jié)構(gòu),決定哪些數(shù)據(jù)要讀到那一層的內(nèi)存中以及什么時候被處理,如何可以重用filter,ifmap和ofmap,將他們存放在本地內(nèi)存中,從而大大減少DRAM的訪問次數(shù),這將在很大程度上提高NPU的硬件利用率及性能,并減少由于DRAM訪問帶了的額外功耗。根據(jù)數(shù)據(jù)處理特征可以將數(shù)據(jù)流分為以下幾類:

1)、靜態(tài)weight

weight靜態(tài)數(shù)據(jù)流的設(shè)計是通過在PE的RF(Register File)中存取weight,來減少讀取weight產(chǎn)生的功耗。weight從DRAM讀取到RF并保持靜態(tài)以供進一步訪問,NPU在計算時盡可能多的利用RF中的weight以達到最大程度的重用。通常的實現(xiàn)是將ifmap廣播給所有的PE,部分和(Psum)將穿過所有的PE來完成空間上的累加。

6c0593b8-1147-11ed-ba43-dac502259ad0.png

2)、靜態(tài)輸出

輸出靜態(tài)數(shù)據(jù)流的設(shè)計是通過將accumulator產(chǎn)生的Psum存放到本地的RF中,以避免將Psum剛寫入DRAM再讀回,從而減少因Psum讀寫產(chǎn)生的功耗。通常的實現(xiàn)是流式輸入Activation,并將weight廣播給所有的PE。

6c19630c-1147-11ed-ba43-dac502259ad0.png

3)、無本地重用

如果考慮到RF會增大面積,可以將所有的數(shù)據(jù)都存放到Global Buffer中,這樣沒有任何數(shù)據(jù)會留在PE的RF,也不會增設(shè)RF單元來減小面積,但是增加了PE和Global Buffer的數(shù)據(jù)交互。具體來說是通過多廣播Activation,單廣播Weight以及Psum穿過所有的PE進行累加來實現(xiàn)的。

6c29f104-1147-11ed-ba43-dac502259ad0.png

4)、靜態(tài)行

靜態(tài)行數(shù)據(jù)流的目標是將所有的數(shù)據(jù)類型(Activation,weight, psum)的重用和計算都在RF中完成,來提升總體的能效。它區(qū)別于上面的靜態(tài)weight和靜態(tài)輸出,只是分別對weight和psum進行優(yōu)化。

6c3b85a4-1147-11ed-ba43-dac502259ad0.png

具體選用哪種數(shù)據(jù)流方式要結(jié)合NPU微架構(gòu)的設(shè)計。下面總結(jié)了來自于幾個廠家的NPU,它們分別利用了不同數(shù)據(jù)流類型來提高能效比。

6c461b0e-1147-11ed-ba43-dac502259ad0.png

參考文獻:

【1】Vivienne S. Yu-Hsin C.and etc., “Ef?cient Processing of Deep Neural Networks: A Tutorial and Survey”

關(guān)于復(fù)睿微電子

復(fù)睿微電子是世界500強企業(yè)復(fù)星集團出資設(shè)立的先進科技型企業(yè)。復(fù)睿微電子植根于創(chuàng)新驅(qū)動的文化,通過技術(shù)創(chuàng)新改變?nèi)藗兊纳睢⒐ぷ?、學習和娛樂方式。公司成立于2022年1月,目標成為世界領(lǐng)先的智能出行時代的大算力方案提供商,致力于為汽車電子、人工智能、通用計算等領(lǐng)域提供以高性能芯片為基礎(chǔ)的解決方案。

目前主要從事汽車智能座艙、ADS/ADAS芯片研發(fā),以領(lǐng)先的芯片設(shè)計能力和人工智能算法,通過底層技術(shù)賦能,推動汽車產(chǎn)業(yè)的創(chuàng)新發(fā)展,提升人們的出行體驗。在智能出行的時代,芯片是汽車的大腦。復(fù)星智能出行集團已經(jīng)構(gòu)建了完善的智能出行生態(tài),復(fù)睿微是整個生態(tài)的通用大算力和人工智能大算力的基礎(chǔ)平臺。復(fù)睿微以提升客戶體驗為使命,在后摩爾定律時代持續(xù)通過先進封裝、先進制程和解決方案提升算力,與合作伙伴共同面對汽車智能化的新時代。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    455

    文章

    50851

    瀏覽量

    423974
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4772

    瀏覽量

    100807
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    286

    瀏覽量

    18632

原文標題:ADS算力芯片NPU數(shù)據(jù)流的重用性

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    IO模塊助力PLC,全面提升中水處理設(shè)備

    隨著我國環(huán)保事業(yè)的不斷發(fā)展,中水處理技術(shù)在工業(yè)、生活等領(lǐng)域發(fā)揮著越來越重要的作用。如何提高中水處理設(shè)備的,成為行業(yè)關(guān)注的焦點。本文將為您介紹明達技術(shù)高效解決方案——利用自主研發(fā)的分布式IO模塊配合PLC,實現(xiàn)中水處理設(shè)備
    的頭像 發(fā)表于 12-16 14:57 ?100次閱讀
    IO模塊助力PLC,全面<b class='flag-5'>提升</b>中水處理設(shè)備<b class='flag-5'>能</b><b class='flag-5'>效</b>

    Erp指令

    ErP指令EC244/2009、EC245/2009、EU1194/2012和標簽指令EU874/2012已經(jīng)實行多年,歐盟委員會在近3年通過參照不斷改進的照明產(chǎn)品技術(shù)、環(huán)境和經(jīng)濟因素以及實際
    的頭像 發(fā)表于 11-20 23:57 ?184次閱讀
    Erp指令<b class='flag-5'>能</b><b class='flag-5'>效</b>

    NPU與機器學習算法的關(guān)系

    在人工智能領(lǐng)域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習等機器學習任務(wù)設(shè)計的處理器,其與機器學習算法的關(guān)系日益
    的頭像 發(fā)表于 11-15 09:19 ?471次閱讀

    NPU的工作原理解析

    神經(jīng)網(wǎng)絡(luò)的計算流程,顯著提高了處理速度和NPU通常集成在SoC(System on Chip)中,與CPU和GPU協(xié)同工作,共同完成復(fù)雜的計算任務(wù)。 NPU的架構(gòu)
    的頭像 發(fā)表于 11-15 09:17 ?704次閱讀

    NPU在邊緣計算中的優(yōu)勢

    和GPU相比,NPU在處理神經(jīng)網(wǎng)絡(luò)相關(guān)的計算任務(wù)時,能夠提供更高的和更快的處理速度。NPU通過優(yōu)化數(shù)據(jù)流和計算結(jié)構(gòu),使得神經(jīng)網(wǎng)絡(luò)的前向
    的頭像 發(fā)表于 11-15 09:13 ?393次閱讀

    NPU技術(shù)如何提升AI性能

    隨著人工智能技術(shù)的飛速發(fā)展,深度學習作為AI領(lǐng)域的核心驅(qū)動力,對計算能力的需求日益增長。NPU技術(shù)應(yīng)運而生,為AI性能的提升提供了強大的硬件支持。 NPU技術(shù)概述 NPU是一種專門為深
    的頭像 發(fā)表于 11-15 09:11 ?473次閱讀

    什么是NPU芯片及其功能

    的設(shè)計靈感來源于人腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。人腦通過神經(jīng)元和突觸的復(fù)雜網(wǎng)絡(luò)處理信息,而NPU芯片則通過模擬這種結(jié)構(gòu)來提高數(shù)據(jù)處理的效率。與傳統(tǒng)的CPU和GPU相比,NPU芯片在處理深度學習任務(wù)時具有更高的
    的頭像 發(fā)表于 11-14 15:48 ?1401次閱讀

    AcrelEMS企業(yè)微電網(wǎng)管理平臺如何輔助企業(yè)進行能源平衡優(yōu)化?

    安科瑞徐赟杰 18706165067 摘要 2022年6月29日工信部、發(fā)改委、財政部、生態(tài)環(huán)境部、國資委、市場監(jiān)管總局六部門聯(lián)合下發(fā)《關(guān)于印發(fā)工業(yè)提升行動計劃的通知》(工信部聯(lián)節(jié)〔2022
    的頭像 發(fā)表于 11-13 11:13 ?150次閱讀
    AcrelEMS企業(yè)微電網(wǎng)<b class='flag-5'>能</b><b class='flag-5'>效</b>管理平臺如何輔助企業(yè)進行能源平衡優(yōu)化?

    智慧水務(wù)綜合管理系統(tǒng)-提高污水廠

    簡婷 安科瑞電氣股份有限公司 上海嘉定 201801 AcrelEMS-SW智慧水務(wù)管理平臺 1平臺概述 安科瑞電氣具備從終端感知、邊緣計算到管理平臺的產(chǎn)品*態(tài)體系,Acrel
    的頭像 發(fā)表于 10-21 14:14 ?196次閱讀
    智慧水務(wù)綜合<b class='flag-5'>能</b><b class='flag-5'>效</b>管理系統(tǒng)-提高污水廠<b class='flag-5'>能</b><b class='flag-5'>效</b>

    利用AI和加速計算提升天氣預(yù)報效率和

    在 NVIDIA GPU 驅(qū)動的擴散模型助力下,生成式 AI 在各個領(lǐng)域?qū)崿F(xiàn)新的應(yīng)用,大大提升了效率。   當臺灣氣象員得以在一臺機器上模擬臺風的細節(jié),他們深感其對預(yù)報任務(wù)的巨大提升
    的頭像 發(fā)表于 06-07 15:06 ?557次閱讀

    重磅!英特爾發(fā)布intel3制程至強6核處理器,賦數(shù)據(jù)中心升級

    、橫向擴展工作負載帶來性能與的雙重提升,同時攜手金山云、浪潮信息、南大通用,以及記憶科技等多家生態(tài)合作伙伴,分享基于該處理器的端到端創(chuàng)新解決方案,及其在諸多領(lǐng)域的實踐成果與應(yīng)用價值。
    的頭像 發(fā)表于 06-07 10:38 ?5146次閱讀
    重磅!英特爾發(fā)布intel3制程至強6<b class='flag-5'>能</b><b class='flag-5'>效</b>核處理器,賦<b class='flag-5'>能</b>數(shù)據(jù)中心<b class='flag-5'>能</b><b class='flag-5'>效</b>升級

    AMD披露高效數(shù)據(jù)中心策略,預(yù)計至2027年提升超百倍

    會議期間,蘇姿豐談?wù)摿薃MD如何通過實施30x25戰(zhàn)略推動2025年計算節(jié)點提升30倍的目標。她進一步透露,AMD已找到2026年至2027年間將能
    的頭像 發(fā)表于 05-24 17:37 ?1025次閱讀

    天璣9300旗艦芯:全大核CPU架構(gòu),性能與提升

    “全大核”CPU 架構(gòu)設(shè)計打破常規(guī),摒棄小核,采用超大核(Arm Cortex-X)與大核(Arm Cortex-A)的組合,以更高時鐘頻率提升性能和,同時降低功耗,延長電池壽命。
    的頭像 發(fā)表于 05-06 10:22 ?632次閱讀

    智慧水務(wù)管理平臺-為污水處理的管理提供科學、精細的解決方案

    程瑜 安科瑞電氣股份有限公司 上海嘉定 201801 AcrelEMS-SW智慧水務(wù)管理平臺 1平臺概述 安科瑞電氣具備從終端感知、邊緣計算到管理平臺的產(chǎn)品*態(tài)體系,Acrel
    的頭像 發(fā)表于 04-18 15:50 ?456次閱讀
    智慧水務(wù)<b class='flag-5'>能</b><b class='flag-5'>效</b>管理平臺-為污水處理的<b class='flag-5'>能</b><b class='flag-5'>效</b>管理提供科學、精細的解決方案

    AI PC 2024年出貨占達18%,將實現(xiàn)重大轉(zhuǎn)變

    AI PC的獨特之處在于配備了神經(jīng)處理單元(NPU)等專業(yè)人工智能處理器,可提升生產(chǎn)效率、滿足個性化需求及提升,從而改變個人電腦市場格局
    的頭像 發(fā)表于 03-19 10:41 ?444次閱讀