人工智能正在不僅僅是芯片和系統(tǒng)設(shè)計(jì)的話題,它承擔(dān)著越來(lái)越復(fù)雜的任務(wù),這些任務(wù)現(xiàn)在已成為許多市場(chǎng)的競(jìng)爭(zhēng)要求。
但是,人工智能及其機(jī)器學(xué)習(xí)和深度學(xué)習(xí)子類(lèi)別的加入也給電子產(chǎn)品的各個(gè)方面注入了廣泛的混亂和不確定性。這部分是因?yàn)樗婕霸S多不同的設(shè)備和流程,部分原因是人工智能本身在不斷變化。
人工智能涵蓋了從訓(xùn)練算法到推理的方方面面。它包括大量的訓(xùn)練計(jì)劃,以及可以適應(yīng)微型物聯(lián)網(wǎng)設(shè)備的tinyML算法。此外,它越來(lái)越多地用于芯片設(shè)計(jì)的許多方面,以及在晶圓廠中,以關(guān)聯(lián)來(lái)自這些芯片的制造、檢查、計(jì)量和測(cè)試的數(shù)據(jù)。它甚至在現(xiàn)場(chǎng)用于識(shí)別故障模式,這些模式可以反饋到未來(lái)的設(shè)計(jì)和制造過(guò)程中。
在這個(gè)廣泛的應(yīng)用程序和技術(shù)集合中,有幾個(gè)共同的目標(biāo):
- 減少 AI/ML/DL 計(jì)算所需的能量;
- 更快地獲得結(jié)果,這需要更多的并行化和吞吐量,以及硬件和軟件的基本架構(gòu)更改,以及
- 提高了這些結(jié)果的準(zhǔn)確性,這會(huì)影響功耗和性能。
- 效率更高
對(duì)于任何 AI 風(fēng)格或應(yīng)用,每瓦或每次操作的性能都是一個(gè)關(guān)鍵指標(biāo)。需要生成和存儲(chǔ)能量以執(zhí)行 AI/ML/DL 計(jì)算,并且在資源、公用事業(yè)和面積方面存在相關(guān)成本。
算法的訓(xùn)練通常涉及乘法/累加運(yùn)算的大規(guī)模并行化。效率來(lái)自超大規(guī)模數(shù)據(jù)中心中計(jì)算元素的彈性——能夠根據(jù)需要增加計(jì)算資源,并在不需要時(shí)將其轉(zhuǎn)移到其他項(xiàng)目——以及更智能地使用這些資源以及越來(lái)越精細(xì)的稀疏性模型。
谷歌首席科學(xué)家杰夫·迪恩(Jeff Dean)指出了機(jī)器學(xué)習(xí)模型的三個(gè)趨勢(shì)——稀疏性、自適應(yīng)計(jì)算和動(dòng)態(tài)變化的神經(jīng)網(wǎng)絡(luò)?!懊芗P褪侵笧槊總€(gè)輸入示例或生成的每個(gè)代幣激活整個(gè)模型的模型,”他在最近的Hot Chips會(huì)議上的演講中解釋道?!半m然它們很棒,并且已經(jīng)取得了重要成就,但稀疏計(jì)算將成為未來(lái)的趨勢(shì)。稀疏模型具有不同的路徑,可以根據(jù)需要自適應(yīng)調(diào)用。
正在改變的是人們認(rèn)識(shí)到,這些稀疏模型可以更智能地跨處理元素進(jìn)行分區(qū)?!霸诿總€(gè)示例上花費(fèi)相同數(shù)量的計(jì)算是沒(méi)有意義的,因?yàn)橛行┦纠碾y度是原來(lái)的 100 倍,”Dean 說(shuō)?!耙虼?,我們應(yīng)該將100倍的計(jì)算花在真正困難的事情上,而這些事情非常簡(jiǎn)單。
圖 1:具有粒度稀疏性的自適應(yīng)計(jì)算。資料來(lái)源:Google/Hot Chips 2023
邊緣的資源和計(jì)算模型有很大不同,但抽象、自定義和調(diào)整大小的相同基本原則仍然適用。
抽象更多的是著眼于局部和系統(tǒng)級(jí)別的權(quán)衡。例如,基本上可以硬連接處理器或加速器的某些元素,同時(shí)提供足夠的靈活性來(lái)整合未來(lái)的變化。當(dāng)一個(gè)器件可能用于多個(gè)應(yīng)用,并且芯片的預(yù)期壽命足夠長(zhǎng)以保證一定程度的可編程性時(shí),這尤其有用。這與為先進(jìn)節(jié)點(diǎn) SoC 開(kāi)發(fā)的一些模擬 IP 的方法類(lèi)似,其中大部分架構(gòu)都是數(shù)字架構(gòu)。
Flex Logix首席技術(shù)官兼聯(lián)合創(chuàng)始人Cheng Wang表示:“重要的是,從這些硬連線塊饋入和饋出的內(nèi)存或數(shù)據(jù)路徑能夠支持我們需要的排列,因?yàn)楹芏鄷r(shí)候,對(duì)于AI工作負(fù)載,訪問(wèn)模式可能有點(diǎn)不穩(wěn)定?!皩?duì)于人工智能來(lái)說(shuō),這也是很常見(jiàn)的,在將數(shù)據(jù)輸入引擎之前,你需要添加一些偏移量作為數(shù)據(jù)的一些比例因子。當(dāng)然,引擎是硬連線的,輸出必須經(jīng)過(guò)一些靈活的激活功能,并根據(jù)工作負(fù)載的需求路由到SRAM或DRAM或兩者兼而有之。因此,所有這些靈活性都是必需的,并且需要到位以保持MAC的效率。例如,如果您的內(nèi)存帶寬不足,則必須停止,在這種情況下,MAC的速度有多快都無(wú)關(guān)緊要。如果你停滯不前,你將以?xún)?nèi)存的速度運(yùn)行,而不是以計(jì)算機(jī)的速度運(yùn)行。
合理調(diào)整規(guī)模
出于類(lèi)似的原因,內(nèi)存架構(gòu)也在發(fā)生變化?!叭斯ぶ悄茉絹?lái)越多地被用于提取有意義的數(shù)據(jù)并將其貨幣化,”Rambus的研究員和杰出發(fā)明家Steven Woo在最近的一次演講中說(shuō)?!八_實(shí)需要非??斓膬?nèi)存和快速接口,不僅用于服務(wù)器,還用于加速引擎。我們看到對(duì)性能更快的內(nèi)存和互連的無(wú)情需求,我們預(yù)計(jì)這一趨勢(shì)將持續(xù)到未來(lái)很長(zhǎng)一段時(shí)間。我們看到該行業(yè)正在做出回應(yīng)。數(shù)據(jù)中心正在不斷發(fā)展,以滿足數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用程序(如人工智能和其他類(lèi)型的服務(wù)器處理)的需求。隨著我們從 DDR4 過(guò)渡到 DDR5,我們看到主內(nèi)存路線圖發(fā)生了變化,我們也看到 CXL 等新技術(shù)進(jìn)入市場(chǎng),因?yàn)閿?shù)據(jù)中心從更多的專(zhuān)屬資源演變?yōu)槌鼗Y源,可以改善我們今天所處的水平的計(jì)算。
同樣的趨勢(shì)也在重新定義邊緣。“芯片組制造商正在與芯片開(kāi)發(fā)團(tuán)隊(duì)合作,從系統(tǒng)的角度來(lái)看待它的性能和功耗,”華邦市場(chǎng)主管C.S. Lin說(shuō)?!澳敲磳?duì)于這種產(chǎn)品,你需要什么樣的帶寬呢?而SoC端需要什么樣的工藝,需要什么樣的內(nèi)存?例如,所有這些都需要配對(duì)在一起才能實(shí)現(xiàn)每秒 32 Gb 的速度(對(duì)于 NVMe PCIe Gen 3)。然后,為了做到這一點(diǎn),你需要在芯片中集成一個(gè)協(xié)議,只有最先進(jìn)的工藝才能提供這種東西。
無(wú)論是云還是邊緣,AI 應(yīng)用程序越來(lái)越需要定制和調(diào)整規(guī)模。如今,幾乎所有的算法訓(xùn)練都是在大型數(shù)據(jù)中心完成的,其中MAC功能的數(shù)量可以增加或減少,計(jì)算可以在不同的元素之間進(jìn)行分區(qū)。隨著算法變得更加成熟、稀疏和越來(lái)越個(gè)性化,這種情況可能會(huì)改變。但大多數(shù)計(jì)算世界將利用這些人工智能算法進(jìn)行推理,至少目前是這樣。
“到75年,大約2025%的數(shù)據(jù)將來(lái)自網(wǎng)絡(luò)的邊緣和端點(diǎn),”瑞薩電子執(zhí)行副總裁Sailesh Chittipeddi在SEMICON West的小組討論中表示?!澳泐A(yù)測(cè)邊緣和端點(diǎn)發(fā)生的情況的能力確實(shí)產(chǎn)生了巨大的影響。當(dāng)您想到計(jì)算時(shí),您會(huì)想到微控制器、微處理器以及 CPU 和 GPU。最新的嗡嗡聲都是關(guān)于 GPU 以及 GPT3 和 GPT4 正在發(fā)生的事情。但這些都是大型語(yǔ)言模型。對(duì)于大多數(shù)數(shù)據(jù)集,你不需要如此巨大的處理能力。
邊緣的挑戰(zhàn)之一是快速丟棄無(wú)用的數(shù)據(jù),只保留需要的數(shù)據(jù),然后更快地處理這些數(shù)據(jù)?!爱?dāng)人工智能處于邊緣時(shí),它正在與傳感器打交道,”艾伯德首席科學(xué)家兼聯(lián)合創(chuàng)始人Sharad Chole說(shuō)?!皵?shù)據(jù)是實(shí)時(shí)生成的,需要處理。因此,傳感器數(shù)據(jù)的傳入方式以及 AI NPU 處理數(shù)據(jù)的速度會(huì)改變很多事情,包括需要緩沖的數(shù)據(jù)量、需要使用多少帶寬以及整體延遲。目標(biāo)始終是盡可能低的延遲。這意味著從傳感器輸入到輸出的延遲應(yīng)該盡可能低,輸出可能會(huì)進(jìn)入應(yīng)用處理器進(jìn)行進(jìn)一步的后處理。我們需要確保我們能夠以確定性的方式提供這些數(shù)據(jù)作為保證。
準(zhǔn)確性的代價(jià)
對(duì)于任何 AI 應(yīng)用程序,性能都是衡量獲得結(jié)果時(shí)間的指標(biāo)。人工智能系統(tǒng)通常會(huì)在乘法/累加元素之間劃分計(jì)算以并行運(yùn)行,然后盡快收集和混合結(jié)果。獲得結(jié)果的時(shí)間越短,所需的能源就越多,這就是為什么圍繞加工元素和架構(gòu)的定制有如此多的嗡嗡聲。
通常,需要更多的計(jì)算元素才能在更短的時(shí)間內(nèi)生成更準(zhǔn)確的結(jié)果。這在某種程度上取決于數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量需要既好又相關(guān),并且需要針對(duì)任務(wù)對(duì)算法進(jìn)行適當(dāng)?shù)挠?xùn)練。通用處理器的效率較低,通用算法也是如此。此外,對(duì)于許多終端應(yīng)用來(lái)說(shuō),人工智能的數(shù)量(包括機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等子類(lèi)別)可能會(huì)受到整體系統(tǒng)設(shè)計(jì)的限制。
這是一個(gè)架構(gòu)改進(jìn)的成熟領(lǐng)域,一些創(chuàng)新的權(quán)衡開(kāi)始出現(xiàn)。例如,Arm 首席 CPU 架構(gòu)師兼研究員 Magnus Bruce 表示,Arm 專(zhuān)門(mén)為云、高性能計(jì)算和 AI/ML 工作負(fù)載創(chuàng)建了一個(gè)新的 Neoverse V2 平臺(tái)。在最近的 Hot Chips 會(huì)議上的一次演講中,他強(qiáng)調(diào)了分支預(yù)測(cè)與提取的分離,以提高分支預(yù)測(cè)管道中的性能,以及包括準(zhǔn)確性監(jiān)控在內(nèi)的高級(jí)預(yù)取。簡(jiǎn)而言之,目標(biāo)是更精細(xì)地預(yù)測(cè)芯片的下一步操作,并在出現(xiàn)錯(cuò)誤預(yù)測(cè)時(shí)縮短恢復(fù)時(shí)間。
圖 2:基于精度提高的架構(gòu)和微架構(gòu)效率。資料來(lái)源: Arm/Hot Chips 23
使用 AI進(jìn)行設(shè)計(jì)
除了架構(gòu)更改之外,人工智能還可能幫助改進(jìn)、加速硬件設(shè)計(jì)。
“客戶關(guān)心的基本指標(biāo)仍然是功耗、性能、面積和進(jìn)度,”Synopsys EDA 部門(mén)總經(jīng)理 Shankar Krishnamoorthy 說(shuō)。“但改變的是,由于負(fù)載復(fù)雜性、設(shè)計(jì)復(fù)雜性和驗(yàn)證復(fù)雜性,實(shí)現(xiàn)這一目標(biāo)的工程成本急劇上升。有幾位客戶告訴我們,這是必不可少的 4 倍的工作量。他們幾乎不能再增加 10% 或 20% 的工程師,那么誰(shuí)來(lái)縮小這一差距呢?這確實(shí)是人工智能介入的地方,在幫助解決這個(gè)問(wèn)題方面,它已經(jīng)成為一個(gè)很大的顛覆者。
其他人也同意。“AI/ML是一個(gè)熱門(mén)話題,但它改變了哪些市場(chǎng),并撼動(dòng)了人們以前沒(méi)有想到的市場(chǎng)?EDA就是一個(gè)很好的例子,“Quadric營(yíng)銷(xiāo)副總裁Steve Roddy說(shuō)?!敖?jīng)典合成/布局布線的核心是從一種抽象到另一種抽象的轉(zhuǎn)換。從歷史上看,這是通過(guò)啟發(fā)式方法、編譯器創(chuàng)建者和生成器完成的。突然之間,如果你能使用機(jī)器學(xué)習(xí)算法來(lái)加速或獲得更好的結(jié)果,你就完全擾亂了現(xiàn)有的行業(yè)。機(jī)器學(xué)習(xí)的出現(xiàn)是否會(huì)動(dòng)搖一些現(xiàn)有的硅平臺(tái)?我的筆記本電腦會(huì)繼續(xù)使用四核處理器,還是會(huì)突然讓機(jī)器學(xué)習(xí)處理器定期完成大量工作?圖形一直是一場(chǎng)持續(xù)的競(jìng)賽,以在手機(jī)和電視上獲得更高的圖形生成以獲得更清晰的分辨率,但人們?cè)絹?lái)越多地談?wù)摬渴饳C(jī)器學(xué)習(xí)升級(jí)。因此,您可以使用低得多的分辨率使用 GPU 渲染某些內(nèi)容,并使用機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行升級(jí)。然后,您就不再是可以將多少個(gè) GPU 集成到手機(jī)中并保持在電源包中。而是,“讓我回到五代,擁有更小、更節(jié)能的 GPU,并對(duì)其進(jìn)行升級(jí),因?yàn)橐苍S人眼看不到它?;蛘?,根據(jù)照明和一天中的時(shí)間,您可以以不同的方式對(duì)其進(jìn)行升級(jí)。這些事情會(huì)讓標(biāo)準(zhǔn)變得不合時(shí)宜。
這對(duì)于加快設(shè)計(jì)的復(fù)雜建??赡芴貏e有用,特別是當(dāng)同一芯片或同一封裝中有許多不同的計(jì)算元素時(shí)。“如果你在模型中加入太多的依賴(lài)關(guān)系,那么模擬它們需要比實(shí)際更多的時(shí)間,”Fraunhofer IIS自適應(yīng)系統(tǒng)工程部設(shè)計(jì)方法負(fù)責(zé)人Roland Jancke說(shuō)?!叭缓竽氵^(guò)度設(shè)計(jì)了模型。但是,建模始終是盡可能抽象和準(zhǔn)確的問(wèn)題。多年來(lái),我們一直建議采用多層次的方法,這樣你就有了不同層次抽象的模型,而你想真正研究的地方,你就更深入地了解更多細(xì)節(jié)。
人工智能可能會(huì)有很大幫助,因?yàn)樗軌蜿P(guān)聯(lián)數(shù)據(jù),這反過(guò)來(lái)又應(yīng)該會(huì)支持人工智能市場(chǎng),因?yàn)樵O(shè)計(jì)過(guò)程可以自動(dòng)化,用于開(kāi)發(fā)人工智能芯片和芯片本身。
Synopsys的Krishnamoorthy表示:“目前,AI芯片社區(qū)的收入約為20億至30億美元,預(yù)計(jì)到本世紀(jì)末將增長(zhǎng)到100億美元?!埃墼贓DA方面],它是關(guān)于如何優(yōu)化設(shè)計(jì)以獲得更好的PPA,并與經(jīng)驗(yàn)早期的工程師一起獲得專(zhuān)家級(jí)質(zhì)量的結(jié)果。在驗(yàn)證的情況下,它實(shí)現(xiàn)了比當(dāng)前方法更高的覆蓋率,因?yàn)槿斯ぶ悄芸梢宰灾魉阉鞲蟮目臻g。在測(cè)試的情況下,它減少了測(cè)試儀上的圖案計(jì)數(shù),這直接轉(zhuǎn)化為測(cè)試成本和測(cè)試時(shí)間。在定制設(shè)計(jì)的情況下,它會(huì)自動(dòng)將模擬電路從 5nm 遷移到 3nm,或從 8nm 遷移到 5nm。在過(guò)去,這曾經(jīng)是手動(dòng)工作。
定制價(jià)格
但是,即使在設(shè)計(jì)最好的系統(tǒng)中,也存在許多變量和意想不到的結(jié)果,它們會(huì)影響從數(shù)據(jù)路徑建模到MAC功能如何在不同處理元素之間分區(qū)的方方面面。例如,這種分區(qū)可能在晶圓廠或封裝廠中得到完美調(diào)整,但隨著加工元件的老化,它們可能會(huì)不同步,使其中一些元件在等待其他元件完成加工時(shí)閑置并燃燒電力。同樣,互連、存儲(chǔ)器和 PHY 可能會(huì)隨著時(shí)間的推移而退化,從而產(chǎn)生時(shí)序問(wèn)題。更糟糕的是,算法中幾乎不斷的變化可能會(huì)對(duì)整體系統(tǒng)性能產(chǎn)生重大影響,遠(yuǎn)遠(yuǎn)超出單個(gè)MAC元素。
在過(guò)去的十年中,其中許多問(wèn)題已經(jīng)在大型系統(tǒng)公司內(nèi)部得到解決,這些公司越來(lái)越多地設(shè)計(jì)自己的芯片供內(nèi)部使用。隨著越來(lái)越多的計(jì)算轉(zhuǎn)移到邊緣,這種情況正在發(fā)生變化,在邊緣,功耗直接影響車(chē)輛每次充電的行駛里程,或者如果可穿戴設(shè)備執(zhí)行的操作超過(guò)最基本的操作,它的實(shí)用性會(huì)有多大。
這里的關(guān)鍵是了解這些設(shè)計(jì)中要整合多少 AI,以及 AI 究竟應(yīng)該做什么。高效的 SoC 通常會(huì)根據(jù)需要使用可能較暗或“熱”的處理內(nèi)核來(lái)打開(kāi)和關(guān)閉各種組件。但是,高效的 AI 架構(gòu)可以使許多處理元素以最大速度運(yùn)行,因?yàn)樗鼘⒂?jì)算分解為并行操作,然后收集結(jié)果。如果其中任何一個(gè)元素的計(jì)算延遲,就會(huì)浪費(fèi)時(shí)間和精力。如果做得好,這可能會(huì)導(dǎo)致超快的計(jì)算速度。然而,這種速度確實(shí)是有代價(jià)的。
其中一個(gè)問(wèn)題是,學(xué)習(xí)并沒(méi)有在整個(gè)行業(yè)中得到廣泛共享,因?yàn)槠渲性S多前沿設(shè)計(jì)都是為系統(tǒng)公司的內(nèi)部使用而開(kāi)發(fā)的。這減緩了知識(shí)轉(zhuǎn)移和行業(yè)學(xué)習(xí)的速度,而這些知識(shí)轉(zhuǎn)移和行業(yè)學(xué)習(xí)通常發(fā)生在處理器系列的每個(gè)新版本或市場(chǎng)上用戶審查的消費(fèi)產(chǎn)品中。
結(jié)論
雖然圍繞 AI/ML/DL 有很多嗡嗡聲,但它不再是炒作。它正在實(shí)際應(yīng)用中使用,并且隨著設(shè)計(jì)團(tuán)隊(duì)找出最有效的方法以及如何將其應(yīng)用于他們的設(shè)計(jì),它只會(huì)在效率、性能和準(zhǔn)確性方面得到提高。幾乎可以肯定的是,會(huì)有一些小問(wèn)題和更多的不確定性,比如人工智能在適應(yīng)和優(yōu)化系統(tǒng)時(shí)如何隨著時(shí)間的推移而老化。但毫無(wú)疑問(wèn),在可預(yù)見(jiàn)的未來(lái),人工智能已經(jīng)到來(lái),只要有足夠的資源和興趣,它就會(huì)繼續(xù)變得更好。
“您今天看到的真實(shí)用例每天都在發(fā)生,甚至從語(yǔ)音處理開(kāi)始,”瑞薩電子的Chittipeddi說(shuō)。“這在10年前是不可能的。從根本上改變的是將人工智能應(yīng)用于實(shí)際用例的能力。它正在改變景觀。
審核編輯:黃飛
評(píng)論
查看更多