0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

打破定制加速器的桎梏:在邊緣AI中擁抱靈活性

穎脈Imgtec ? 2024-07-04 08:28 ? 次閱讀

先進(jìn)計(jì)算技術(shù)如今已成為提升生產(chǎn)力和改變?nèi)粘sw驗(yàn)的普遍工具。以汽車領(lǐng)域?yàn)槔?,高級駕駛輔助系統(tǒng)(ADAS)具備處理大量計(jì)算密集型任務(wù)的能力,從攝像頭數(shù)據(jù)預(yù)處理直到傳感器融合和路徑規(guī)劃,而且這些均不影響車輛的正常行駛里程。

邊緣計(jì)算方面的最新創(chuàng)新包括Wayve的LINGO-2,這是一個(gè)基礎(chǔ)模型,將視覺、語言和行動聯(lián)系起來,用以解釋和確定駕駛行為。這類解決方案正推動汽車行業(yè)走向新的方向,其中車輛中的AI能夠提供諸如直覺、語言響應(yīng)界面、個(gè)性化駕駛風(fēng)格以及協(xié)同駕駛等功能,從而增強(qiáng)自動駕駛體驗(yàn)。

在邊緣計(jì)算的其他領(lǐng)域,AI筆記本電腦提供了諸多優(yōu)勢,從借助AI賦能的內(nèi)容創(chuàng)作工具以提高生產(chǎn)效率,到能夠在本地運(yùn)行而無需與云共享用戶數(shù)據(jù)的協(xié)同駕駛。這些筆記本電腦將需要比以往任何移動PC更強(qiáng)的AI性能;微軟新推出的Copilot+PC就采用了GPT-4模型和40+TOPS的配置,同時(shí)具備輕薄設(shè)計(jì)和全天候續(xù)航能力。


邊緣基礎(chǔ)模型

AI達(dá)到這一能力水平并非因?yàn)?a target="_blank">程序員最終成功地將人腦轉(zhuǎn)化為代碼,而是研究人員成功地將云中可用的大量加速計(jì)算應(yīng)用于通用模型,正如Rich Sutton在其《苦澀的教訓(xùn)》(The Bitter Lesson)論文中所討論的那樣。基于上述提到的GPT-4等通用基礎(chǔ)模型進(jìn)行微調(diào)的解決方案,正成為普及AI的首選方法。與其創(chuàng)建特定領(lǐng)域的算法,不如使用功能強(qiáng)大、可跨多個(gè)領(lǐng)域應(yīng)用的模型,這些模型利用云資源與大量多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,然后針對特定應(yīng)用和設(shè)備進(jìn)行微調(diào)。

為了適應(yīng)邊緣環(huán)境,這些經(jīng)過調(diào)整的模型需要在更小、功能極具受限的設(shè)備上運(yùn)行,這些設(shè)備具有嚴(yán)格的安全標(biāo)準(zhǔn)、有限的電源供應(yīng)和不穩(wěn)定的互聯(lián)網(wǎng)連接。它們不僅要提供基本的推理能力,還要支持設(shè)備上的微調(diào)和終身持續(xù)學(xué)習(xí)。此外,它們還需要與維護(hù)最佳用戶體驗(yàn)的關(guān)鍵日常功能共享系統(tǒng)級芯片(SoC),如用戶界面、圖像處理和音頻處理。

然而,盡管在可用性能、熱管理技術(shù)甚至是商業(yè)模式方面存在差異,邊緣AI仍可借鑒AI在云計(jì)算中成功的理念:即從加速器硬件到AI框架的所有方面都使用通用方法。隨著晶體管縮放和新封裝技術(shù)的進(jìn)步,計(jì)算量即便大幅增加也可輕松擴(kuò)展。是以,為支持客戶在邊緣AI取得成功,Imagination同時(shí)采用了以下兩種方案策略:

基于開放標(biāo)準(zhǔn)開發(fā)軟件

  • 提升通用計(jì)算加速器的硬件能力

基于開放標(biāo)準(zhǔn)開發(fā)軟件

Imagination在邊緣AI的交付中采取軟件優(yōu)先的方法,以最大化硬件的可編程性和靈活性。啟用優(yōu)化庫等軟件和工具包提供了一種機(jī)制,以實(shí)現(xiàn)最高效率和對調(diào)度及內(nèi)存管理的嚴(yán)格控制。目前已經(jīng)有一個(gè)不斷增長的框架和庫生態(tài)系統(tǒng),它們以O(shè)penCL后端為基礎(chǔ),加速上市時(shí)間,并提供了作為異構(gòu)計(jì)算系統(tǒng)子集進(jìn)行更高級優(yōu)化和集成的機(jī)會。它涵蓋了AI部署環(huán)境以及計(jì)算機(jī)視覺和其他通用計(jì)算庫。

合作是成功的關(guān)鍵。去年,Imagination與其他領(lǐng)先科技公司一起,作為創(chuàng)始成員加入了UXL基金會,這是一個(gè)被稱為與NVIDIA封閉CUDA語言相抗衡的開放、跨平臺、供應(yīng)商中立組織。該基金會正在開發(fā)oneAPI編程模型和DPC++ SYCL實(shí)現(xiàn)。通過使這一計(jì)劃成為Linux基金會下真正的開源項(xiàng)目,UXL基金會為像Imagination 這樣的公司提供了催化劑,將已經(jīng)在高性能計(jì)算領(lǐng)域廣泛應(yīng)用的oneAPI標(biāo)準(zhǔn)的優(yōu)勢,擴(kuò)展到邊緣計(jì)算領(lǐng)域。這將在應(yīng)對計(jì)算應(yīng)用的程序快速開發(fā)和跨平臺復(fù)用的挑戰(zhàn)中發(fā)揮重要作用。

Imagination正通過UXL基金會積極參與并影響oneAPI標(biāo)準(zhǔn)的制定,同時(shí)我們也在為邊緣平臺開發(fā)和推出下一代計(jì)算工具和軟件堆棧。我們與合作伙伴和客戶緊密合作,鼓勵更廣泛地參與并采用這一標(biāo)準(zhǔn)。我們旨在為開發(fā)過程中的所有利益相關(guān)者,提供易于訪問的適用于Imagination平臺的工具包,這些工具包將提供符合當(dāng)前邊緣計(jì)算應(yīng)用開發(fā)周期典型需求的“功能性到高性能再到最優(yōu)”的工作流程,同時(shí)也利用構(gòu)建和運(yùn)行時(shí)目標(biāo)獨(dú)立性的優(yōu)勢。


提升通用計(jì)算加速器的能力

Imagination幫助客戶在邊緣AI領(lǐng)域取得成功第二個(gè)策略,主要通過保持硬件靈活性和可編程性的同時(shí),向邊緣設(shè)備注入更強(qiáng)的計(jì)算性能。目前,邊緣計(jì)算加速通常在以下處理器類型中進(jìn)行:

中央處理器(CPUs):SoC的傳統(tǒng)控制中心和主要工作組件;CPU越來越具備AI能力,擁有一定程度的并行性(例如多核)并支持相關(guān)數(shù)據(jù)格式;它們可以根據(jù)需要卸載更專業(yè)的計(jì)算處理器。

數(shù)字信號處理器(DSPs):廣泛應(yīng)用于汽車、電信等多個(gè)市場,用于音頻、視頻、攝像頭和連接性處理,最近還通過矢量處理支持AI應(yīng)用。

圖形處理器(GPUs):GPU本質(zhì)上是可編程和通用的。雖然它們傳統(tǒng)上僅用于圖形加速,但近年來其并行性已應(yīng)用于諸如超分辨率、點(diǎn)云處理和非機(jī)器學(xué)習(xí)算法等計(jì)算應(yīng)用中,并且越來越多地采用低精度算術(shù)功能。

神經(jīng)處理單元(NPUs):高度優(yōu)化的領(lǐng)域特定加速器,專注于低精度算術(shù),以有效處理深度學(xué)習(xí)算法訓(xùn)練中常見的密集矩陣乘法代碼。

未來的問題是:這些處理器類型中哪一種為下一代邊緣AI加速器提供了最佳基礎(chǔ)?

這是Imagination擅長解決的問題。我們的工程師通過創(chuàng)造創(chuàng)新解決方案來解決技術(shù)難題,使客戶能夠成功。我們在四個(gè)市場中出貨超過130億顆芯片,產(chǎn)品范圍涵蓋GPU、CPU、AI IP以及軟件。我們的工程團(tuán)隊(duì)在設(shè)計(jì)用于計(jì)算和AI的半導(dǎo)體技術(shù)方面擁有豐富的經(jīng)驗(yàn),從針對CNN風(fēng)格工作負(fù)載優(yōu)化的NNA產(chǎn)品線開始,目前該產(chǎn)品線已運(yùn)用于多個(gè)汽車和消費(fèi)市場的SoC中,例如玄鐵TH1520 SoC。

盡管客戶在NNA上取得了許多成功,但I(xiàn)magination認(rèn)識到邊緣AI將需要開發(fā)新一代更靈活和可編程的NPU,或是新一代GPU加速器,這些加速器在保持能效的同時(shí)提供更強(qiáng)的計(jì)算性能。這與依賴通用而非過度定制化方法的原則相一致,正是這一原則使得AI在云端取得了成功,而這一目標(biāo)的實(shí)現(xiàn)將得益于半導(dǎo)體市場上幾個(gè)關(guān)鍵趨勢的推動。


打破定制加速器(ASIC)的桎梏

首先,值得更詳細(xì)地探討為什么通用加速器比高度定制化的硬件更受歡迎。當(dāng)前邊緣AI的處理方式,特別是在注重性能的設(shè)備如汽車和筆記本電腦中,聚焦于NPU:這是一種高度優(yōu)化的處理器,能在較小的面積或功耗預(yù)算內(nèi)實(shí)現(xiàn)高效率。與傳統(tǒng)的GPU張量核心相比,NPU具有更大的矩陣片規(guī)模,具有專門為神經(jīng)網(wǎng)絡(luò)加速設(shè)計(jì)的固定功能硬件,關(guān)注低精度數(shù)值格式,進(jìn)行g(shù)raph編譯和優(yōu)化以減少數(shù)據(jù)的搬運(yùn)和增強(qiáng)數(shù)據(jù)的本地性。


低精度數(shù)字格式

半導(dǎo)體計(jì)算中關(guān)鍵趨勢之一是,提升通用加速器(如GPU)計(jì)算性能的是低精度數(shù)字格式的激增。這些格式歷來是NPU領(lǐng)域的專屬,但現(xiàn)在在GPU等其他加速器中也越來越常見。像開放計(jì)算項(xiàng)目(Open ComputeProject,簡稱OCP, 這樣的組織正開始推動從FP32到FP4及微縮比例(MX)兼容格式的標(biāo)準(zhǔn)化工作,這些格式適用于CPU、GPU、NPU等多種處理器。預(yù)期這些數(shù)字格式將從數(shù)據(jù)中心領(lǐng)域擴(kuò)展到整個(gè)軟件生態(tài)系統(tǒng)中。


先進(jìn)工藝節(jié)點(diǎn)帶來的機(jī)遇與挑戰(zhàn)

此外,多年以來,半導(dǎo)體行業(yè)一直受益于摩爾定律:在相同硅片面積上每代性能的提升。英特爾、三星和臺積電等晶圓廠,對于挖掘這種邏輯電路尺寸縮小帶來的好處起到了根本性作用。先進(jìn)工藝節(jié)點(diǎn)是通用加速器提升計(jì)算性能至邊緣AI所需水平的關(guān)鍵之一。

然而,SRAM(靜態(tài)隨機(jī)存取存儲器)被證明很難縮小。隨著AI模型對性能、數(shù)據(jù)本地性和低延遲要求的提高,實(shí)際上任何給定處理器,特別是如NPU這樣的領(lǐng)域特定加速器,對SRAM的需求反而增加了。未來的疑問是,我們是否真的能承受將如此昂貴的資源專門分配給僅在其功能需要時(shí)才激活的單一處理器?

與此同時(shí),隨著晶體管密度的增加,熱管理問題比現(xiàn)在變得更加嚴(yán)峻。高度優(yōu)化且能耗大的加速器加劇了這一挑戰(zhàn),在SoC內(nèi)部形成了工作負(fù)載特定的熱點(diǎn),難以緩解。

然而,如果像CPU和GPU這樣的通用加速器在保持能效的同時(shí)增加其計(jì)算能力,那么基于少量高效、通用、可擴(kuò)展加速器的邊緣SoC,將是解決先進(jìn)工藝節(jié)點(diǎn)熱管理挑戰(zhàn)的一個(gè)有前景的方案。這種方法最小化了暗硅現(xiàn)象,為系統(tǒng)設(shè)計(jì)師提供了在整個(gè)核心中分布處理而非創(chuàng)建特定應(yīng)用熱點(diǎn)的機(jī)會,并保證了集成、系統(tǒng)和編程復(fù)雜度的可控性。

475268be-399c-11ef-a655-92fbcf53809c.png

邊緣AI的下一代技術(shù)

考慮到這些發(fā)展,基于GPU和RISC-V架構(gòu)的下一代處理器正逐步成為提供高性能、低功耗且適用于通用目的的加速器,這是邊緣AI所必需的。Imagination在邊緣圖形和計(jì)算技術(shù)領(lǐng)域處于世界領(lǐng)先地位。我們的GPU徹底改變了智能手機(jī)市場,并且從未停止開拓創(chuàng)新,比如生產(chǎn)出了首款能夠在移動設(shè)備上實(shí)現(xiàn)的實(shí)時(shí)光線追蹤的高效架構(gòu)。隨著GPU和RISC-V CPU成為實(shí)現(xiàn)邊緣AI的首選處理器,我們的工程師正在開發(fā)客戶及更廣泛技術(shù)生態(tài)系統(tǒng)取得成功所需的技術(shù)解決方案。未來幾個(gè)月將有確切內(nèi)容發(fā)布。在此期間,如果:

您是一家開發(fā)具備AI能力SoC的半導(dǎo)體公司

您是對即將改變用戶體驗(yàn)的技術(shù)感興趣的原始設(shè)備制造商(OEM)

您是一家開發(fā)基于AI應(yīng)用的軟件公司

都可以通過與我們銷售團(tuán)隊(duì)預(yù)約會議來提前了解Imagination的計(jì)算產(chǎn)品路線圖。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    806

    瀏覽量

    37999
  • 自動駕駛
    +關(guān)注

    關(guān)注

    784

    文章

    13918

    瀏覽量

    166786
  • 邊緣AI
    +關(guān)注

    關(guān)注

    0

    文章

    98

    瀏覽量

    5045
收藏 人收藏

    評論

    相關(guān)推薦

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創(chuàng)意加速器

    加速器
    龍智DevSecOps
    發(fā)布于 :2024年11月26日 13:42:47

    RISC-V,即將進(jìn)入應(yīng)用的爆發(fā)期

    RISC-V是一種開放標(biāo)準(zhǔn)指令集架構(gòu) (ISA),最初由加州大學(xué)伯克利分校的研究人員于2010年開發(fā)。業(yè)界稱,這種開源特性為芯片設(shè)計(jì)者提供了極大的靈活性,可以根據(jù)具體需求定制AI加速器
    發(fā)表于 10-31 16:06

    使用低成本MSPM0 MCU提高電池管理設(shè)計(jì)的靈活性

    電子發(fā)燒友網(wǎng)站提供《使用低成本MSPM0 MCU提高電池管理設(shè)計(jì)的靈活性.pdf》資料免費(fèi)下載
    發(fā)表于 09-07 10:53 ?0次下載
    使用低成本MSPM0 MCU提高電池管理設(shè)計(jì)的<b class='flag-5'>靈活性</b>

    使用低成本MSPM0 MCU提高電子溫度計(jì)設(shè)計(jì)的靈活性

    電子發(fā)燒友網(wǎng)站提供《使用低成本MSPM0 MCU提高電子溫度計(jì)設(shè)計(jì)的靈活性.pdf》資料免費(fèi)下載
    發(fā)表于 09-07 09:46 ?0次下載
    使用低成本MSPM0 MCU提高電子溫度計(jì)設(shè)計(jì)的<b class='flag-5'>靈活性</b>

    使用BQ27Z746實(shí)現(xiàn)反向充電保護(hù)的設(shè)計(jì)靈活性

    電子發(fā)燒友網(wǎng)站提供《使用BQ27Z746實(shí)現(xiàn)反向充電保護(hù)的設(shè)計(jì)靈活性.pdf》資料免費(fèi)下載
    發(fā)表于 08-30 11:45 ?0次下載
    使用BQ27Z746實(shí)現(xiàn)反向充電保護(hù)的設(shè)計(jì)<b class='flag-5'>靈活性</b>

    下一代高功能新一代AI加速器(DRP-AI3):10x高級AI系統(tǒng)高級AI更快的嵌入處理

    電子發(fā)燒友網(wǎng)站提供《下一代高功能新一代AI加速器(DRP-AI3):10x高級AI系統(tǒng)高級AI
    發(fā)表于 08-15 11:06 ?0次下載
    下一代高功能新一代<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>(DRP-<b class='flag-5'>AI</b>3):10x<b class='flag-5'>在</b>高級<b class='flag-5'>AI</b>系統(tǒng)高級<b class='flag-5'>AI</b><b class='flag-5'>中</b>更快的嵌入處理

    OPSL 優(yōu)勢1:波長靈活性

    與其他類型的連續(xù)激光相比,光泵半導(dǎo)體激光 (OPSL) 技術(shù)有許多優(yōu)勢,包括波長的靈活性。 特別是OPSL打破了傳統(tǒng)技術(shù)的限制,可以通過設(shè)計(jì)與應(yīng)用的波長要求相匹配。 不折不扣的波長
    的頭像 發(fā)表于 07-08 06:30 ?366次閱讀
    OPSL 優(yōu)勢1:波長<b class='flag-5'>靈活性</b>

    Imagination 引領(lǐng)邊緣計(jì)算和AI創(chuàng)新,擁抱AI未來發(fā)展

    6月25日,2024“N+”AI互動創(chuàng)新論壇南京舉辦,Imagination中國資深副總裁張曉波受邀出席。主題演講,張曉波表示,Imagination作為圖形、計(jì)算和
    的頭像 發(fā)表于 06-28 08:28 ?572次閱讀
    Imagination 引領(lǐng)<b class='flag-5'>邊緣</b>計(jì)算和<b class='flag-5'>AI</b>創(chuàng)新,<b class='flag-5'>擁抱</b><b class='flag-5'>AI</b>未來發(fā)展

    8芯M16公頭如何提升靈活性

      德索工程師說道電子設(shè)備的連接和傳輸,8芯M16公頭作為一種重要的電氣連接,其靈活性對于提高連接效率、降低故障率和增強(qiáng)用戶體驗(yàn)至關(guān)重要。因此,本文將詳細(xì)探討如何提升8芯M16公
    的頭像 發(fā)表于 05-25 17:48 ?277次閱讀
    8芯M16公頭如何提升<b class='flag-5'>靈活性</b>

    Arm推動生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構(gòu),性能提升四倍

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)嵌入式領(lǐng)域,邊緣與端側(cè)AI推理需求不斷增長,Arm既有Helium 技術(shù)使 CPU 能夠執(zhí)行更多計(jì)算密集型的 AI 推理算法,也有Ethos 系列
    的頭像 發(fā)表于 04-16 09:10 ?4689次閱讀
    Arm推動生成式<b class='flag-5'>AI</b>落地<b class='flag-5'>邊緣</b>!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架構(gòu),性能提升四倍

    AI快訊:華為助力金融行業(yè)加速擁抱AI 馬斯克xAI 展示首個(gè)多模態(tài)模型

    AI快訊:華為助力金融行業(yè)加速擁抱AI 馬斯克xAI 展示首個(gè)多模態(tài)模型 小編給大家匯總一下近期的AI資訊。 華為助力金融行業(yè)
    發(fā)表于 04-15 12:32 ?428次閱讀

    Tenstorrent將為日本LSTC新型邊緣2納米AI加速器開發(fā)芯片

    加拿大AI芯片領(lǐng)域的初創(chuàng)公司Tenstorrent與日本尖端半導(dǎo)體技術(shù)中心(LSTC)達(dá)成了一項(xiàng)多層次合作協(xié)議。根據(jù)協(xié)議內(nèi)容,LSTC將采用Tenstorrent的世界級RISC-V架構(gòu)和芯片IP來開發(fā)其新型邊緣2納米人工智能加速器
    的頭像 發(fā)表于 02-28 10:49 ?731次閱讀

    家居智能化,推動AI加速器的發(fā)展

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃山明)AI加速芯片,也稱為人工智能加速器AI Accelerator),是一種專為執(zhí)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計(jì)的ASIC或
    的頭像 發(fā)表于 02-23 00:18 ?4639次閱讀

    回旋加速器原理 回旋加速器的影響因素

    回旋加速器(Cyclotron)是一種用于加速帶電粒子的可再生粒子加速器。它的工作原理基于帶電粒子恒定強(qiáng)磁場的運(yùn)動。本文將詳細(xì)介紹回旋
    的頭像 發(fā)表于 01-30 10:02 ?4502次閱讀

    FPGA分類

    :基于靜態(tài)隨機(jī)存取存儲(SRAM)的FPGA,其配置可以每次上電時(shí)重新加載。這類FPGA具有較高的靈活性,但功耗較高。 Flash-based FPGA :基于閃存的FPGA,其配置可以
    發(fā)表于 01-26 10:09