0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用AI提高性能和降低功耗及重塑芯片的設(shè)計

OaXG_jingzhengl ? 來源:未知 ? 作者:郭婷 ? 2018-11-16 16:46 ? 次閱讀

隨著架構(gòu)師開始利用 AI 提高性能和降低功耗,并為未來芯片的開發(fā)、制造和更新奠定基礎(chǔ),人工智能也開始影響半導體設(shè)計。技術(shù)增加了芯片粒度,但隨著架構(gòu)需要處理更大數(shù)據(jù)量,設(shè)計起點也變了。

人工智能、機器學習、深度學習可以極大改善芯片某項特定功能的控制和性能。架構(gòu)師既可以基于現(xiàn)有設(shè)備進行分層設(shè)計,也可以整合到新設(shè)計中,以實現(xiàn)更多功能或某個特定功能。

人工智能技術(shù)帶來很多好處,比如:

通過稀疏算法或數(shù)據(jù)壓縮來改變特定函數(shù)精度,增加粒度,提高芯片性能和降低功耗。

識別數(shù)據(jù)模式而不是單個比特,有效提高計算的抽象性,增加軟件密度。

允許以矩陣的形式執(zhí)行處理和內(nèi)存讀/寫操作,大大加快操作速度。

但是我們也需要好好反思如何在芯片上或者在芯片之間遷移(或不遷移)數(shù)據(jù)。畢竟,無論是用于邊緣計算還是數(shù)據(jù)中心,訓練還是推斷,需要加以處理和存儲的數(shù)據(jù)量都是最大的。

新起點

從好的方面來說,通過使用更多更低精度的元素,人工智能提供了一種平衡結(jié)果精度與準度的方法。比如,語音識別對精度的要求,遠沒有自動駕駛中安全應(yīng)用與目標識別嚴苛。根據(jù)特定需要而展現(xiàn)的自適應(yīng)能力,才是人工智能的價值所在。

與其說人工智能的起點是硬件和軟件,不如說是數(shù)據(jù)的質(zhì)量、數(shù)量和遷移。這需要用一種不同的方式來看待設(shè)計,包括過去通常沒有合作的團隊之間的協(xié)作。

計算真的很便宜,壓縮/解壓數(shù)據(jù)也很便宜,但在內(nèi)存中存儲和加載數(shù)據(jù)卻一點不便宜。要構(gòu)建這些系統(tǒng),需要特定領(lǐng)域的專家、機器學習專家、優(yōu)化與性能專家,這三個領(lǐng)域的專家都需要?!?a target="_blank">Arm 研究員杰姆?戴維斯(Jem Davies)表示。

他指出,機器學習可以影響系統(tǒng)中的所有東西,其中很多東西隱藏在視線之外?!赣行┦怯脩艨床灰姷模勾骶S斯說,「它被用來延長電池壽命。相機里也有機器學習。

采用神經(jīng)形態(tài)計算和不同的內(nèi)存架構(gòu),AI 效果最好,因為在這些情況下,數(shù)據(jù)可以進行矩陣處理。為達到最優(yōu)工作狀態(tài),除了對處理器有要求外,還需要良好的系統(tǒng)架構(gòu)、超大的數(shù)據(jù)吞吐量及內(nèi)存變化過程中的數(shù)據(jù)對齊。

許多架構(gòu)改進是軟硬件的結(jié)合,雖然不一定會提高單個處理器的整體性能,但會更節(jié)能,內(nèi)存效率也更高??s小一點,內(nèi)存大小就能減半。鏗騰電子Cadence音頻和語音 IP 產(chǎn)品市場總監(jiān) Gerard Andrews 表示。

實際上,這使得軟件設(shè)計密度更高,并加速了數(shù)據(jù)在內(nèi)存中的移動。問題是,內(nèi)存不會有效地收縮,單詞識別的錯誤率正在上升,我們都在探索算法的稀疏性,以降低功耗、提高性能。Andrews 說。

這僅僅是快速變革的皮毛。

內(nèi)存子系統(tǒng)中發(fā)生的變化是不連續(xù)的、突然的。這一切與延遲和帶寬,以及如何滿足芯片內(nèi)外的龐大需求有關(guān)。由于需要大量數(shù)據(jù)管道,因此,我們開發(fā)了許多關(guān)于如何移動數(shù)據(jù)的架構(gòu)。在此之前,你要考慮的是添加多少內(nèi)存,如何高效使用內(nèi)存。但是,現(xiàn)在要建造巨大的管道,較少地使用內(nèi)存。Achronix 的系統(tǒng)架構(gòu)師 Kent Orthner 說。

嘗試減少數(shù)據(jù)流量的新方法之一是脈沖神經(jīng)網(wǎng)絡(luò)。它們不是持續(xù)發(fā)射信號,而是以類似大腦峰值的方式發(fā)射信號。

脈沖神經(jīng)網(wǎng)絡(luò)是下一代神經(jīng)網(wǎng)絡(luò)。BrainChip 營銷和業(yè)務(wù)開發(fā)高級副總裁 Bob Beachler 說,卷積使用線性代數(shù)。出現(xiàn)峰值時,數(shù)據(jù)以尖峰的形式輸入。你可以通過尖峰進行訓練,如果有很多尖峰,可以選擇加強或抑制它們。對于專用于訓練閾值的位,你可以用非常低的權(quán)重來做到這一點。

據(jù)估計,約有 70 家人工智能初創(chuàng)公司正在研究不同辦法。最重要的是,幾乎所有主要的芯片制造商、IP(知識產(chǎn)權(quán))供應(yīng)商和工具公司都有涉足 AI 的某個方面。

人工智能的風險和困惑

但是,人工智能也存在一定的風險,這取決于應(yīng)用程序和精確度。

過去,電子系統(tǒng)的設(shè)計是建立在完全可預(yù)測性的邏輯之上的,其中大部分是硬連線。人工智能用可接受行為的分布代替了計算精度,人們也在會議上討論這對芯片設(shè)計意味著什么。目前尚不清楚的是,現(xiàn)有工具或方法提供的置信度能否滿足設(shè)備需求,特別是在系統(tǒng)遭到破壞或退化的情況下,檢測任何異常行為的速度如何。

對于如何應(yīng)用人工智能,人們也有一定困惑。有專門為人工智能設(shè)計的芯片,以及一些不是專門為 AI 開發(fā)但可用于 AI 的芯片,對這些芯片進行修改和疊加后,就能更有效地利用人工智能。

總的來說,這符合人工智能的主題,全行業(yè)都在爭相以相同或更低功率來提升性能。根據(jù)摩爾定律,在 16/14 納米工藝后,每個節(jié)點的能耗和性能的提高比例都下降到 20%,因此,大家都在尋找替代或補充的新方法。

對于針對 AI 訓練或推理的芯片,或者芯片中發(fā)揮 AI 能力的處理器和加速器,人們的普遍共識是,不同量級的程序指令可能使用不同的芯片架構(gòu)。但它不適用于所有情況,還有一些變量,比如訓練數(shù)據(jù)的大小和價值,它們可能會使 AI 在某些應(yīng)用程序中失效,而在其他情況下,性能提升 100 倍甚至被認為過于保守。

這就是人們要花很長時間才能把一些新架構(gòu)推向市場的原因。隨著芯片行業(yè)初見端倪,人們也在進行大量的架構(gòu)探索和實驗。

應(yīng)用程序和算法都面臨挑戰(zhàn),處理器和內(nèi)存芯片也面臨挑戰(zhàn)。Synopsy 的戰(zhàn)略營銷經(jīng)理 Ron Lowman 說:

這使得對 AI 架構(gòu)的探索變得更加重要,這也是 CCIX(緩存一致性互聯(lián)加速器)變得如此流行的原因之一。探索新架構(gòu)的客戶越來越多。每個人都在嘗試建立人腦仿生的新架構(gòu)。

除此之外,有一些新的非易失性存儲器技術(shù)正在開發(fā)中。還有一種趨勢是,將更小的處理器置于較小的存儲器旁邊,有時,這種處理器會與針對不同數(shù)據(jù)類型、定制的新型加速器相關(guān)聯(lián)。另外,還有很多關(guān)于數(shù)據(jù)壓縮和量化的工作。

人們正在研究從 32 位浮點數(shù)到 8 位浮點數(shù),Lowman 說,現(xiàn)在的問題是,你是否能精確到單比特量化。

量化涉及到將一大組輸入值映射到一小組輸出值,最大的問題是,什么是可接受的精度損失.

理論上,有了足夠傳感器或數(shù)據(jù)輸入,就可將錯誤率的影響降到最低,但這非常依賴于應(yīng)用程序。

沿著這些思路的另一種方法涉及到源代碼同步,特別是針對數(shù)據(jù)中心的 AI 芯片,促使芯片的網(wǎng)絡(luò)拓撲結(jié)構(gòu)發(fā)生變化。網(wǎng)絡(luò)中的所有目標都是接收相同的數(shù)據(jù),較之廣播,使用多播方法能更好地針對性使用數(shù)據(jù)。

通過多播,可以向多個目的地發(fā)送一封郵件。Arteris IP 的營銷副總裁 Kurt Shuler 說,它通常被用來做權(quán)重。好處是,你可以更好地利用片上網(wǎng)絡(luò)帶寬,因此路上的車也越來越少了。

AI 芯片有一個問題:它們往往非常大。最大的問題是時鐘樹,Shuler 說,這需要同步通信,異步處理通信會占用很多空間。另外,大型芯片更容易出現(xiàn)路由堵塞。解決這個問題的方法是創(chuàng)建虛擬通道連接,減少線路數(shù)量并通過一組線路共享通信。這就需要通過仲裁來匹配數(shù)據(jù)流。

計劃性淘汰

這只是設(shè)計的一部分。另一方面,還要保持算法的時效性。

目前,深度學習算法還在定期更新,這會影響到 AI 芯片添加何種處理器。每一次變化,都可能對芯片內(nèi)部數(shù)據(jù)遷移、以及處理這些數(shù)據(jù)的處理器造成影響。

CPUGPU 具有軟件可編程性,DSPFPGA 具有固件/硬件可編程性。嵌入式 FPGA 將可編程性直接添加到 SoC 或多芯片包中。

處理器的選擇也取決于終端市場的應(yīng)用。例如,汽車或工業(yè)環(huán)境中的重要安全應(yīng)用,也需要有足夠通用性與反應(yīng)性,以便與其他車輛或設(shè)備兼容。

當我們討論未來時,問題不在于它是否有效。eSilicon 的創(chuàng)新高級主管 Carlos Macián 說,TPU(張量處理單元)是一個開拓者,它表明性能可以得到數(shù)量級提高。但是對于新的工作負載,如果沒有 ASIC 的優(yōu)化,你可能只會提高 3 倍。

前提是,假設(shè)數(shù)據(jù)是干凈、有用的,這也是情況變得復雜的地方。

AI 非常適用于處理非結(jié)構(gòu)化的數(shù)據(jù),Macián 說,「如果你給出現(xiàn)在 Facebook 上的人打標簽,你就知道這很適合人工智能。但它不是結(jié)構(gòu)化數(shù)據(jù)。所以,AI 天生就不準確,有時它還是錯的?!?/p>

并非所有事情都要面向未來。在一些市場,比如手機,消費者希望每隔幾年就更換一次手機。在其他市場,電子產(chǎn)品被寄予厚望——全部的功能能夠順暢運行二十年之久。

提高數(shù)據(jù)質(zhì)量是有幫助的,這有助于解釋算法為何變化如此之快,也有助于解釋為什么對于一些設(shè)備而言,現(xiàn)場升級的能力至關(guān)重要。但是,這些變化也會影響性能,如果不在硬件中添加一些可編程性,就無法解釋這些變化。問題是,可編程性有多高,因為可編程邏輯明顯慢于(軟件)已調(diào)優(yōu)的硬件。

結(jié)論

與其他許多成長型半導體市場不同,AI 是一種橫向技術(shù),可以應(yīng)用于各種垂直市場,也可以用來為這些市場開發(fā)芯片,還可以用來提高現(xiàn)有芯片的效率。

這只是 AI 革命的開始,但其影響已經(jīng)很大了。

隨著設(shè)計團隊越來越精通這項技術(shù),這將對如何設(shè)計芯片、以及這些芯片如何與其他芯片交互產(chǎn)生重大影響,也會給工具開發(fā)人員、硬件開發(fā)人員、軟件開發(fā)人員創(chuàng)造新的機會,也可能帶來一個全新的市場

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    455

    文章

    50813

    瀏覽量

    423604
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30891

    瀏覽量

    269083
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8418

    瀏覽量

    132630
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5503

    瀏覽量

    121162

原文標題:人工智能重塑芯片設(shè)計

文章出處:【微信號:jingzhenglizixun,微信公眾號:機器人博覽】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    國芯科技與賽昉科技合作,高性能AI MCU芯片CCR7002測試成功

    進展。 CCR7002芯片采用了先進的多芯片封裝技術(shù),集成了高性能SoC芯片子系統(tǒng)與AI芯片子系
    的頭像 發(fā)表于 12-09 15:04 ?382次閱讀

    低功耗SOC芯片的優(yōu)勢

    在現(xiàn)代電子設(shè)備中,低功耗SOC芯片扮演著越來越重要的角色。它們不僅提高了設(shè)備的能效,還為小型化、高性能和成本效益提供了可能。 1. 能效比的提升
    的頭像 發(fā)表于 10-31 14:52 ?487次閱讀

    RK3566高性能低功耗四核應(yīng)用處理器數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《RK3566高性能低功耗四核應(yīng)用處理器數(shù)據(jù)手冊.pdf》資料免費下載
    發(fā)表于 10-24 16:53 ?0次下載

    柵極驅(qū)動芯片選型低功耗原因

    ,減少能源浪費,并降低設(shè)備的運行成本。 2. 提升能效 柵極驅(qū)動芯片作為功率轉(zhuǎn)換和驅(qū)動控制的關(guān)鍵元件,其功耗直接影響整個系統(tǒng)的能效。選擇低功耗的柵極驅(qū)動
    的頭像 發(fā)表于 09-18 09:20 ?439次閱讀

    國產(chǎn)超低功耗藍牙-OW3621

    功耗超越Nordic,價格比肩國產(chǎn)芯片,主打低功耗,高性能
    的頭像 發(fā)表于 08-12 16:31 ?732次閱讀
    國產(chǎn)超<b class='flag-5'>低功耗</b>藍牙-OW3621

    躍昉科技推出全新高性能AI芯片GF5及開發(fā)套件GF5EVB

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,越來越多的電子產(chǎn)品被賦予了AI能力,特別是在智能門鎖、智能門鈴、智能貓眼和低功耗智能IPC等應(yīng)用場景中,對高性能
    的頭像 發(fā)表于 07-26 09:37 ?488次閱讀

    ADC10321低功耗、高性能CMOS模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADC10321低功耗、高性能CMOS模數(shù)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-22 09:46 ?0次下載
    ADC10321<b class='flag-5'>低功耗</b>、<b class='flag-5'>高性能</b>CMOS模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    ADC081000低功耗高性能CMOS模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADC081000低功耗、高性能CMOS模數(shù)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 10:43 ?0次下載
    ADC081000<b class='flag-5'>低功耗</b>、<b class='flag-5'>高性能</b>CMOS模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    高性能低功耗:RK3576全系智能產(chǎn)品

    瑞芯微全新一代芯片RK3576,采用先進的8nm制程設(shè)計工藝,具有高性能低功耗的特點,搭載6TOPs算力NPU,人工智能計算效率獲得顯著提升。同時提升了ISP、視頻編解碼、視頻后處理的性能
    的頭像 發(fā)表于 06-19 08:02 ?1861次閱讀
    <b class='flag-5'>高性能</b><b class='flag-5'>低功耗</b>:RK3576全系智能產(chǎn)品

    OTP低功耗語音芯片的工作原理與產(chǎn)品特性

    OTP低功耗語音芯片的工作原理:在于其獨特的電路設(shè)計以及先進的制程技術(shù)。該芯片采用了先進的低功耗設(shè)計策略,包括低漏電晶體管、動態(tài)電壓調(diào)整以及智能休眠模式等,確保在保持
    的頭像 發(fā)表于 04-30 08:06 ?624次閱讀
    OTP<b class='flag-5'>低功耗</b>語音<b class='flag-5'>芯片</b>的工作原理與產(chǎn)品特性

    risc-v多核芯片AI方面的應(yīng)用

    得RISC-V多核芯片能夠更好地適應(yīng)AI算法的不同需求,包括深度學習、神經(jīng)網(wǎng)絡(luò)等,從而提高芯片性能和效率,
    發(fā)表于 04-28 09:20

    構(gòu)建高性能計算芯片

    計算的異構(gòu)多核架構(gòu),對整個芯片行業(yè)的高性能 CPU 開發(fā)產(chǎn)生了影響。 這些芯片都不太可能進行商業(yè)銷售。它們針對特定的數(shù)據(jù)類型和工作負載進行了優(yōu)化,設(shè)計預(yù)算龐大,但可以通過提高性能
    的頭像 發(fā)表于 04-25 10:23 ?1327次閱讀
    構(gòu)建<b class='flag-5'>高性能</b>計算<b class='flag-5'>芯片</b>

    低功耗 高性能M0芯片亮點(1~3): 低功耗 寬電壓 PWM (無須擔心耗電問題!)

    低功耗、高性能M0芯片亮點(1~3): 低功耗, 寬電壓, PWM [url=https://www.bilibili.com/video/BV18K421v7Bw/][/url]
    發(fā)表于 03-15 16:53

    介紹一款高性能低功耗的SOC集成無線收發(fā)芯片—XL2409

    XL2409是一款高性能低功耗的SOC集成無線收發(fā)芯片,集成M0核MCU,工作在2.400~2.483GHz世界通用ISM頻段。
    的頭像 發(fā)表于 03-01 16:28 ?1340次閱讀
    介紹一款<b class='flag-5'>高性能</b><b class='flag-5'>低功耗</b>的SOC集成無線收發(fā)<b class='flag-5'>芯片</b>—XL2409

    低功耗高性能 2.4GHz GFSK 無線收發(fā)芯片資料

    電子發(fā)燒友網(wǎng)站提供《超低功耗高性能 2.4GHz GFSK 無線收發(fā)芯片資料》資料免費下載
    發(fā)表于 03-01 16:12 ?2次下載