雖然開發(fā)人員繼續(xù)開發(fā)模擬人腦的AI,但AI離真正能夠獨(dú)立思考的設(shè)備還有很長(zhǎng)的路要走。
編譯來源:semiengineering
人工智能正在許多新應(yīng)用程序中部署,從提高性能、降低各種終端設(shè)備的功耗到發(fā)現(xiàn)數(shù)據(jù)移動(dòng)中的異常情況。 雖然大多數(shù)人都熟悉使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來區(qū)分貓和狗,但新興的應(yīng)用程序展示了如何以不同的方式使用這種能力。例如,數(shù)據(jù)優(yōu)先級(jí)和分區(qū)可用于優(yōu)化芯片的功率和性能,而無需人工干預(yù)。并且可以在整個(gè)設(shè)計(jì)和制造流程中使用各種類型的人工智能來捕捉人類無法捕捉到的錯(cuò)誤或缺陷。但是所有這些新組件和功能也使設(shè)計(jì)芯片更加復(fù)雜,因?yàn)楦怕嗜〈擞邢薜拇鸢覆⑶易兞吭黾恿恕?/p>
Rambus產(chǎn)品管理高級(jí)總監(jiān) Frank Ferro 表示:“當(dāng)你將 AI 移到邊緣時(shí),邊緣開始看起來像數(shù)據(jù)中心。基帶執(zhí)行許多相同的處理功能。在內(nèi)存要求方面,我們看到很多 5G 客戶的帶寬不足,并希望在網(wǎng)絡(luò)邊緣使用 HBM。但是,網(wǎng)絡(luò)中有更多的可配置性,您可以管理工作負(fù)載,而不是去云端。平衡這些工作量非常重要?!?盡管如此,正如 AI 芯片設(shè)計(jì)師所了解的那樣,AI 世界中沒有什么是簡(jiǎn)單的?!霸?AI 設(shè)計(jì)中,有許多問題需要回答,” Synopsys戰(zhàn)略營(yíng)銷經(jīng)理 Ron Lowman 說. “在人工智能設(shè)計(jì)中,有許多問題需要回答。
你想處理什么算法?你的功率預(yù)算是多少?你想達(dá)到什么樣的精度?在圖像識(shí)別應(yīng)用程序中,你可能不需要32位浮點(diǎn)處理器。低成本的16位圖像芯片可能很好。如果你只需要92%的精度,低成本芯片可能會(huì)降低你的總體預(yù)算。如果你知道你想實(shí)現(xiàn)什么,那么采用 IP 方法將有很多優(yōu)勢(shì)。您可以選擇正確的 AI 處理器、正確類型的內(nèi)存(SRAM 或 DDR)I/O 和安全性。選擇正確的 IP 很重要,但進(jìn)行建模和基準(zhǔn)測(cè)試也將幫助開發(fā)人員優(yōu)化 AI 解決方案并減少錯(cuò)誤?!?對(duì)于任何高級(jí)芯片,設(shè)計(jì)挑戰(zhàn)都可能迅速增加,更多的變量需要更好的模型、更多的工藝步驟和更多的時(shí)間。弗勞恩霍夫 IIS設(shè)計(jì)方法負(fù)責(zé)人 Roland Jancke 說:“你從一個(gè)非常復(fù)雜的芯片將要執(zhí)行的概念開始,然后你會(huì)看到對(duì)芯片的不同部分是否有不同的要求。在過去,你只會(huì)設(shè)計(jì)一些東西,開發(fā)它,然后把它錄下來,看看它是否有效。那已經(jīng)不可行了?,F(xiàn)在需要一個(gè)集成的流程。
從一開始,就需要考慮可能的故障模式。甚至可能需要從一開始就使用有限元方法進(jìn)行仿真,這在過去通常沒有做過。過去,從非常粗糙的模型開始,并且想要集成的功能。因此如果你有一個(gè) MATLAB 模型,那并不能反映芯片不同部分之間的物理交互。你需要在開發(fā)過程的早期整合不同的模型——物理模型、功能模型——看看你的概念是否足夠?qū)嵱??!?隨著移動(dòng)部件的增多,這變得更加困難,特別是當(dāng)這些塊針對(duì)特定數(shù)據(jù)類型和用例進(jìn)行定制或半定制時(shí)。但好處是,更好的算法和計(jì)算元素還允許在更小的空間內(nèi)處理更多數(shù)據(jù),并且與過去的實(shí)現(xiàn)相比,功耗要低得多。反過來,這使得處理可以更接近數(shù)據(jù)源,在那里它可以用來確定哪些數(shù)據(jù)是重要的,在任何特定時(shí)間點(diǎn)應(yīng)該在哪里處理這些數(shù)據(jù),以及可以丟棄哪些數(shù)據(jù)。
?一個(gè)轉(zhuǎn)折點(diǎn)
大多數(shù)這些變化本身是漸進(jìn)式和漸進(jìn)式的,但總體而言,它們?cè)试S在邊緣進(jìn)行推斷和訓(xùn)練,在邊緣,一系列異構(gòu)體系結(jié)構(gòu)開始出現(xiàn)。。通過利用各種類型的神經(jīng)網(wǎng)絡(luò),可以為特定目的加快處理速度,為不同的應(yīng)用提供不同的精度和精度。
復(fù)雜的 AI 流程可以分解為 AI 堆棧?
來源:麥肯錫公司
對(duì)于任何執(zhí)行復(fù)雜算法和計(jì)算的 AI 芯片,都有幾個(gè)關(guān)鍵要求。首先,他們需要能夠并行處理數(shù)據(jù),使用多個(gè)計(jì)算元素和寬數(shù)據(jù)路徑來減少延遲。在許多情況下,這還涉及一些與計(jì)算元素非常接近的局部?jī)?nèi)存,以及高帶寬內(nèi)存。其次,這些設(shè)備需要針對(duì)尺寸、成本和功率預(yù)算進(jìn)行優(yōu)化,這通常需要根據(jù)預(yù)計(jì)工作負(fù)載調(diào)整大小的高吞吐量架構(gòu)。反過來,這需要一些權(quán)衡,需要針對(duì)特定用例進(jìn)行平衡。第三,這些架構(gòu)通常涉及混合處理器來管理復(fù)雜的數(shù)據(jù)流和電源管理方案,其中可能包括 CPU、GPU、FPGA、eFPGA、DSP、NPU、TPU 和 IPU。 “在設(shè)計(jì)中,開發(fā)人員需要考慮培訓(xùn)、推理、低功耗、連接性和安全性的要求,”英飛凌物聯(lián)網(wǎng)、無線和計(jì)算業(yè)務(wù)部首席軟件產(chǎn)品營(yíng)銷經(jīng)理 Danny Watson 說,“種方法可以實(shí)現(xiàn)需要本地快速?zèng)Q策的新用例,同時(shí)滿足當(dāng)今物聯(lián)網(wǎng)產(chǎn)品的功耗預(yù)算?!?Watson 指出,關(guān)鍵是收集正確的數(shù)據(jù),以便應(yīng)用程序可以利用這些數(shù)據(jù),從而使他們能夠利用技術(shù)改進(jìn)。
?無處不在的人工智能
對(duì)于芯片公司來說,這都是一件大事。根據(jù) Precedence Research 的最新報(bào)告,整個(gè)人工智能市場(chǎng)將從 2021 年的 870 億美元增長(zhǎng)到 2030 年的超過 1.6 萬(wàn)億美元。這包括數(shù)據(jù)中心和邊緣設(shè)備,但增長(zhǎng)速度非???。事實(shí)上,人工智能是當(dāng)今如此熱門的領(lǐng)域,幾乎所有主要科技公司都在投資或制造人工智能芯片。它們包括蘋果、AMD、Arm、百度、谷歌、Graphcore、華為、IBM、英特爾、Meta、NVIDIA、高通、三星和臺(tái)積電。 這個(gè)市場(chǎng)五年前幾乎不存在,十年前大多數(shù)公司都在考慮云計(jì)算和高速網(wǎng)關(guān)。但是隨著帶有更多傳感器的新設(shè)備的推出——無論是汽車、智能手機(jī),甚至是內(nèi)置某種程度智能的電器,正在生成如此多的數(shù)據(jù),因此需要圍繞數(shù)據(jù)的輸入、處理、移動(dòng)和存儲(chǔ)設(shè)計(jì)架構(gòu)。 “在人工智能應(yīng)用中,正在部署各種技術(shù),”Arteris IP高級(jí)技術(shù)營(yíng)銷經(jīng)理 Paul Graykowski 說。“最近的一位客戶開發(fā)了一種復(fù)雜的多通道 ADAS SoC,它可以處理四個(gè)傳感器數(shù)據(jù)通道,每個(gè)通道都有自己的專用計(jì)算和 AI 引擎來處理數(shù)據(jù)。同樣,新的 AI 芯片架構(gòu)也會(huì)不斷變化,以滿足新應(yīng)用的需求?!?/p>
?從大到小
獲得結(jié)果的時(shí)間通常與芯片間的距離成正比,更短的距離意味著更好的性能和更低的功耗。因此,盡管超大規(guī)模數(shù)據(jù)中心仍需要處理海量數(shù)據(jù)集,但芯片行業(yè)正齊心協(xié)力將更多處理轉(zhuǎn)移到下游,無論是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)還是其他人工智能變體。 Cerebras 是深度學(xué)習(xí)領(lǐng)域的典型代表,在這個(gè)領(lǐng)域,速度至關(guān)重要,結(jié)果的準(zhǔn)確性緊隨其后。Cerebras 產(chǎn)品管理總監(jiān) Natalia Vassilieva 報(bào)告說,葛蘭素史克公司通過在其表觀基因組語(yǔ)言模型中使用晶片級(jí)設(shè)備,提高了藥物發(fā)現(xiàn)效率。在一種情況下,葛蘭素史克能夠?qū)⒋笮突衔飵?kù)基于深度神經(jīng)網(wǎng)絡(luò)的虛擬篩選時(shí)間從在GPU集群上運(yùn)行的183天減少到在大腦設(shè)備上運(yùn)行的3.5天。該“芯片”擁有超過 2.6 萬(wàn)億個(gè)晶體管、85萬(wàn)?個(gè) AI 優(yōu)化內(nèi)核、40 GB 片上內(nèi)存和每秒 20 PB 的內(nèi)存帶寬(1 PB 等于 1,024 TB)。它還消耗 23 kW 的功率,并使用內(nèi)部閉環(huán)、直接對(duì)芯片的液體冷卻。 Graphcore采用了不同的方法,引入了智能處理單元(IPU)技術(shù)。通過使用多指令、多數(shù)據(jù) (MIMD) 并行性和本地分布式內(nèi)存,IPU 可以提供 22.4 PFLOPS(每秒 1 petaflop 等于每秒 1000 teraflop),而只需要空氣冷卻。此外,IPU 在單精度下的理論算術(shù)吞吐量高達(dá) 31.1 TFLOPS。它比 A100 的 624 TFLOPS 快得多。在 Twitter 進(jìn)行的一項(xiàng)測(cè)試中,IPU 的性能優(yōu)于 GPU。
人工智能也可以變小。支持人工智能的智能事物,也稱為物聯(lián)網(wǎng) (AIoT)/嵌入式人工智能,正在蓬勃發(fā)展。根據(jù)評(píng)估報(bào)告,邊緣人工智能硬件將從 2020 年的 70 億美元增長(zhǎng)到 2030 年的 390 億美元。人工智能為邊緣計(jì)算、網(wǎng)絡(luò)端點(diǎn)和移動(dòng)設(shè)備增加了智能。隨著物聯(lián)網(wǎng),越來越多的應(yīng)用程序正在使用嵌入式人工智能。其中包括可穿戴設(shè)備、智能家居和智能遙控器,其中包括一些使用語(yǔ)音識(shí)別的設(shè)備。同樣依賴嵌入式 AI 的還有 AR/VR 游戲、智能汽車面板、物體和運(yùn)動(dòng)檢測(cè)、家庭保健、抄表、智能工廠、智能城市、工業(yè)自動(dòng)化和智能建筑,包括控制和能源管理。
Cadence?Tensilica AI 產(chǎn)品的產(chǎn)品營(yíng)銷總監(jiān) Suhas Mitra 表示:“AI 能夠在本地更快地處理數(shù)據(jù),從而使物聯(lián)網(wǎng)計(jì)算更加高效。這包括提供更好的響應(yīng)時(shí)間和更小的延遲,因?yàn)樯傻臄?shù)據(jù)也在邊緣設(shè)備上即時(shí)處理。執(zhí)行人工智能邊緣處理將更加可靠,因?yàn)樗赡懿⒉豢偸悄軌蛲ㄟ^實(shí)時(shí)無線或有線連接不斷向云發(fā)送大量數(shù)據(jù)。它還減輕了存儲(chǔ)和處理大量數(shù)據(jù)的壓力云中的大量數(shù)據(jù),可能包含個(gè)人和敏感信息。關(guān)于向云發(fā)送用戶信息的隱私問題可能會(huì)導(dǎo)致不經(jīng)同意就無法上傳數(shù)據(jù)。
做更多的邊緣計(jì)算可以延長(zhǎng)電池壽命,因?yàn)楫?dāng)使用人工智能方法時(shí),一些計(jì)算在邊緣平臺(tái)上需要更少的周期。因此,消耗的能量更少,散熱也更低?!?在進(jìn)行推理之前,所有的 AI 芯片都需要經(jīng)過訓(xùn)練。雖然數(shù)據(jù)集通常非常大,需要大型數(shù)據(jù)中心進(jìn)行培訓(xùn),但可以在個(gè)人計(jì)算機(jī)或開發(fā)系統(tǒng)級(jí)別進(jìn)行進(jìn)一步培訓(xùn)。開發(fā)人員將經(jīng)歷一個(gè)艱苦的過程,以確保實(shí)現(xiàn)最佳推理算法。許多 AI 芯片制造商為其客戶提供培訓(xùn)合作伙伴名單。即使有顧問的幫助,開發(fā)人員仍然需要支付咨詢時(shí)間并完成培訓(xùn)工作。 一種更簡(jiǎn)單的方法是使用預(yù)訓(xùn)練模型來實(shí)現(xiàn),例如 Flex Logix 的 EasyVision 平臺(tái)。通過預(yù)先培訓(xùn)的X1M模塊芯片,開發(fā)人員可以繞過培訓(xùn)過程,直接進(jìn)行產(chǎn)品開發(fā)和測(cè)試。” Flex Logix推理營(yíng)銷高級(jí)總監(jiān) Sam Fuller 說。“經(jīng)過預(yù)訓(xùn)練的解決方案已經(jīng)過現(xiàn)場(chǎng)測(cè)試和驗(yàn)證,比開發(fā)人員的試錯(cuò)法效率更高。
通常,專用預(yù)訓(xùn)練芯片比常規(guī)CPU效率更高。” ?
想得更小
將 AI 包含在更小的設(shè)備中的可能性也在增加,這要?dú)w功于由 tinyML 基金會(huì)建立的微型機(jī)器學(xué)習(xí),以支持在 mW 范圍內(nèi)運(yùn)行的嵌入式設(shè)備機(jī)器學(xué)習(xí)和數(shù)據(jù)分析。其中許多設(shè)備可以在視覺、音頻、慣性測(cè)量單元(IMU)和生物醫(yī)學(xué)中執(zhí)行ML。此外,它還提供了一個(gè)名為 ScaleDown 的開源神經(jīng)網(wǎng)絡(luò)優(yōu)化框架,以簡(jiǎn)化將 ML 模型部署到 tinyML 設(shè)備的過程。 TinyML 可以在任何可編程 AI 芯片上運(yùn)行,包括 Arduino 板。Arduino 的使命是為愛好者、學(xué)生和教育工作者提供電子設(shè)備和軟件。它經(jīng)過多年的發(fā)展,基于 Arduino 的解決方案已用于當(dāng)今的許多工業(yè)領(lǐng)域。但是結(jié)合 tinyML 和 Arduino 硬件可能會(huì)提供非常低成本的嵌入式 AI 解決方案,典型的硬件成本不到 100 美元。 在這些微型設(shè)備中設(shè)計(jì)人工智能的挑戰(zhàn)之一是功率預(yù)算。Synaptics 已經(jīng)接受了開發(fā)低功耗預(yù)算 AI 和傳感器芯片的挑戰(zhàn)。
據(jù)領(lǐng)導(dǎo) Synaptics 低功耗 AI 產(chǎn)品線的高級(jí)產(chǎn)品經(jīng)理 Ananda Roy 表示該公司的Katana AI SoC能夠進(jìn)行人員檢測(cè)/計(jì)數(shù)和跌倒檢測(cè),并可以在24 MHz下以30 mW或90 MHz的更高功率運(yùn)行主動(dòng)AI視覺推斷。深度睡眠模式的功耗小于100μW。總的來說,它比其他AI芯片更節(jié)能。為了實(shí)現(xiàn)高效的電源管理,神經(jīng)處理單元 (NPU) 依賴于具有多個(gè)存儲(chǔ)體的存儲(chǔ)架構(gòu),這些存儲(chǔ)體可以在不使用時(shí)設(shè)置為超低功耗模式,以及可擴(kuò)展的工作電壓和處理器速度,就像踩在當(dāng)你需要你的車開得更快時(shí)加油。 FlexSense 是一款用于 AI 應(yīng)用的傳感器芯片,其設(shè)計(jì)結(jié)合了低功耗 RISC CPU 和模擬硬件前端,該前端經(jīng)過高度優(yōu)化,可有效轉(zhuǎn)換電感和電容傳感器輸入。與車載霍爾效應(yīng)和溫度傳感器一起,它包括四個(gè)傳感器,用于檢測(cè)觸摸、力、接近度和溫度等輸入,所有這些都在一個(gè)小封裝中(1.62 x 1.62 mm),在睡眠模式下僅使用240μW或10μW。
低功耗傳感器采用小封裝 (1.62 x 1.62 mm) 來源:Synaptics
?安全問題和改進(jìn)
在安全方面,人工智能既是一個(gè)潛在的漏洞,也是一個(gè)潛在的解決方案。隨著人工智能芯片針對(duì)特定用例進(jìn)行了優(yōu)化,算法也在不斷更新,業(yè)界的經(jīng)驗(yàn)教訓(xùn)會(huì)減少,攻擊面也會(huì)擴(kuò)大。但人工智能也可用于識(shí)別數(shù)據(jù)流量中的異常模式,發(fā)出警報(bào)或自動(dòng)關(guān)閉受影響的電路,直到可以進(jìn)行更多分析。 恩智浦產(chǎn)品經(jīng)理 Srikanth Jagannathan 指出了電池驅(qū)動(dòng)設(shè)備的功能、芯片安全性和低功耗的正確組合的重要性。i.MX AI芯片結(jié)合了Arm的低功耗Cortex-M33、Arm TrustZone和NXP的片上EdgeLock、嵌入式ML和多i/O。功耗約為2.5瓦。然而,它能夠提供1個(gè)TOPS的性能(在 1 GHz 下進(jìn)行 512 次并行乘法累加運(yùn)算)。
i.MX AI 芯片將 Arm 的低功耗 Cortex-M33 與 Arm TrustZone?和?
NXP 的片上 EdgeLock、嵌入式 ML 和多個(gè) I/O 相結(jié)合 ?來源:恩智浦 西門子 EDA 嵌入式軟件部門的高級(jí)產(chǎn)品經(jīng)理 Kathy Tufto指出需要建立軟件信任鏈,但這從硬件開始。目標(biāo)是防止任何未經(jīng)過身份驗(yàn)證和驗(yàn)證的代碼執(zhí)行。在她確定的解決方案中:
靜態(tài)數(shù)據(jù):安全的信任引導(dǎo)根和信任訪問控制的軟件鏈。
Data at Motion:安全協(xié)議和加密加速。
使用中的數(shù)據(jù):通過內(nèi)存管理單元 (MMU) 進(jìn)行硬件強(qiáng)制分離。
“設(shè)備制造商還必須記住,在部署設(shè)備后通常會(huì)出現(xiàn)安全問題,這意味著他們需要以在部署后可以更新的方式設(shè)計(jì)設(shè)備,”Tufto 說。“包括 FDA 在內(nèi)的監(jiān)管機(jī)構(gòu)堅(jiān)持在發(fā)布前和發(fā)布后管理 CVE 的策略,以滿足醫(yī)療設(shè)備的安全要求。常見漏洞和暴露 (CVE) 監(jiān)控是針對(duì)設(shè)備中的模塊評(píng)估新 CVE 的過程,允許設(shè)備制造商在發(fā)現(xiàn)新 CVE 時(shí)確定適當(dāng)?shù)牟僮鳌?/p>
雖然制造商可以自己執(zhí)行這些活動(dòng),但如果您使用包含安全漏洞監(jiān)控和補(bǔ)丁的商業(yè)軟件解決方案(例如 Sokol Flex OS、Sokol Omni OS 和 Nucleus RTOS),它會(huì)更簡(jiǎn)單、更容易?!??
結(jié)論
人工智能芯片將繼續(xù)發(fā)展和擴(kuò)展,人工智能將以多種方式在這些芯片內(nèi)部和被這些芯片使用。這將使設(shè)計(jì)這些芯片變得更加困難,并且從功能和安全的角度來看,也將更難確保它們?cè)谡麄€(gè)生命周期中都能按預(yù)期工作。需要時(shí)間才能看到哪些好處大于風(fēng)險(xiǎn)。 雖然開發(fā)人員繼續(xù)開發(fā)模擬人腦的人工智能,但他們離真正能夠獨(dú)立思考的設(shè)備還有很長(zhǎng)的路要走。然而,有許多方法可以針對(duì)特定用例和應(yīng)用優(yōu)化這些系統(tǒng),并且并非所有這些方法都需要人工干預(yù)。隨著時(shí)間的推移,這可能意味著更多的人工智能在更多的地方做更多的事情,這將帶來涉及功率、性能和安全性的設(shè)計(jì)挑戰(zhàn),這些挑戰(zhàn)都難以規(guī)劃、識(shí)別和最終解決。
編輯:黃飛
?
評(píng)論
查看更多