0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于人工智能芯片方面的一些小知識(shí)

我快閉嘴 ? 來源:半導(dǎo)體行業(yè)觀察 ? 作者:半導(dǎo)體行業(yè)觀察 ? 2020-09-25 17:03 ? 次閱讀

人工智能芯片包括圖形處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)和專門用于人工智能的特定應(yīng)用集成電路ASIC)。像中央處理器CPU)這樣的通用芯片也可以用于一些更簡單的人工智能任務(wù),但是隨著人工智能的發(fā)展,CPU的用處越來越小。

與通用CPU一樣,人工智能芯片通過集成大量越來越小的晶體管來提高速度和效率(也就是說,它們每消耗一單位能量就能完成更多的計(jì)算),這些晶體管運(yùn)行速度更快,消耗的能量也更少。但與CPU不同的是,AI芯片還有其他AI優(yōu)化的設(shè)計(jì)特性。利用這些特性可以極大地加速AI算法所需的相同的、可預(yù)測的、獨(dú)立的計(jì)算。包括并行執(zhí)行大量計(jì)算,而不是像在CPU中那樣按順序執(zhí)行;這些AI芯片在減少了相同計(jì)算所需的晶體管數(shù)量下,成功實(shí)現(xiàn)了計(jì)算精度需求較低的人工智能算法;加速內(nèi)存訪問,例如,將整個(gè)AI算法存儲(chǔ)在一個(gè)AI芯片中;以及使用專門設(shè)計(jì)的編程語言來高效地轉(zhuǎn)換AI計(jì)算機(jī)代碼,以便在AI芯片上執(zhí)行。

不同類型的人工智能芯片適用于不同的任務(wù)。GPU最常用于最初開發(fā)和改進(jìn)AI算法;這個(gè)過程被稱為“訓(xùn)練”。AI算法通常利用FPGA作為橋梁,被用于現(xiàn)實(shí)世界中的數(shù)據(jù)輸入。這通常稱為“推理”。ASIC則可以適用于訓(xùn)練或推理。

AI芯片方面的一些知識(shí)

面向AI應(yīng)用的專用芯片的趨勢(shì)是由兩個(gè)因素驅(qū)動(dòng)的。首先,半導(dǎo)體功能的關(guān)鍵改進(jìn)已從制造轉(zhuǎn)向設(shè)計(jì)和軟件;其次,對(duì)人工智能等應(yīng)用的需求不斷增長,需要高度并行化,可預(yù)測的計(jì)算,這得益于專用芯片。深神經(jīng)網(wǎng)絡(luò)(DNN)-負(fù)責(zé)最近人工智能突破的人工智能算法符合這項(xiàng)法案。

DNN通常實(shí)現(xiàn)一種稱為監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí),它涉及兩個(gè)計(jì)算步驟:基于訓(xùn)練數(shù)據(jù)“訓(xùn)練” AI算法(即構(gòu)建算法)和執(zhí)行訓(xùn)練后的AI算法(即執(zhí)行“推理”)以對(duì)新算法進(jìn)行分類與訓(xùn)練階段從數(shù)據(jù)中獲取的知識(shí)相一致的數(shù)據(jù)。

特別地,訓(xùn)練步驟通常需要執(zhí)行相同的計(jì)算數(shù)百萬次。如第IV(B)節(jié)所述,提高的晶體管密度允許在單個(gè)芯片上使用更多類型的專用電路。AI芯片將這一點(diǎn)發(fā)揮到了極致—芯片上大多數(shù)或所有晶體管的布局均針對(duì)AI算法所需的高度可并行化,專門計(jì)算進(jìn)行了優(yōu)化。

盡管分析師對(duì)全球人工智能芯片市場規(guī)模存在廣泛分歧,ru 2018年的估計(jì)值介于50億至200億美元之間,但他們一致認(rèn)為,市場增長速度將快于非人工智能專用芯片。直到最近,少數(shù)設(shè)計(jì)CPU等通用芯片的公司主導(dǎo)了邏輯芯片設(shè)計(jì)市場。他們享受著規(guī)模經(jīng)濟(jì),使他們能夠再投資于強(qiáng)大的新CPU設(shè)計(jì)。然而,摩爾定律的放緩正在損害CPU生產(chǎn)商的規(guī)模經(jīng)濟(jì);在摩爾定律驅(qū)動(dòng)的CPU效率和速度增益克服專用芯片的好處之前,現(xiàn)在專用芯片的使用壽命更長。因此,CPU設(shè)計(jì)公司再投資于新設(shè)計(jì)以保持正在下降的市場支配地位。這一趨勢(shì)降低了芯片設(shè)計(jì)初創(chuàng)公司的進(jìn)入門檻,特別是那些專注于專業(yè)芯片的公司。

人工智能芯片是一種常見的專用芯片,具有一些共同的特點(diǎn)。人工智能芯片并行執(zhí)行的計(jì)算量遠(yuǎn)遠(yuǎn)大于CPU。他們還以一種成功實(shí)現(xiàn)人工智能算法但減少晶體管數(shù)量的方式以低精度計(jì)算數(shù)字

需要相同的計(jì)算。它們還通過將整個(gè)人工智能算法存儲(chǔ)在一個(gè)人工智能芯片中來加速內(nèi)存訪問。最后,人工智能芯片使用專門的編程語言來有效地翻譯人工智能計(jì)算機(jī)代碼,以在人工智能芯片上執(zhí)行。

雖然通用芯片特別是CPU包括少量流行的設(shè)計(jì),但人工智能芯片更加多樣化。人工智能芯片在設(shè)計(jì)、適用的應(yīng)用、不同人工智能任務(wù)的效率和速度、通用性和推理時(shí)的分類精度等方面有著廣泛的差異、

由于其獨(dú)特的特性,人工智能芯片在訓(xùn)練和推理AI算法方面比CPU快幾十倍甚至幾千倍。最先進(jìn)的人工智能芯片比最先進(jìn)的CPU更劃算,因?yàn)樗鼈冊(cè)谌斯ぶ悄芩惴ㄉ系男矢摺R磺П队贑PU效率的人工智能芯片所帶來的改進(jìn)相當(dāng)于26年摩爾定律為CPU帶來的改進(jìn)。

先進(jìn)的人工智能系統(tǒng)不僅需要AI專用芯片,還需要最先進(jìn)的AI芯片。較早期的人工智能芯片——帶有更大、更慢、更耗電的晶體管——會(huì)產(chǎn)生巨大的能源消耗成本,并可以迅速飆升至這種芯片無法承受的水平。正因?yàn)槿绱耍缃袷褂幂^早期的AI芯片在成本和計(jì)算速度方面,都至少比最新的AI芯片大一個(gè)數(shù)量級(jí)。(成本增加,計(jì)算速度卻更慢)

這些成本和速度的動(dòng)態(tài)變化,推動(dòng)著先進(jìn)AI芯片的繁榮——如果沒有最先進(jìn)的AI芯片,則幾乎不可能開發(fā)和部署最先進(jìn)的AI算法。即使使用最先進(jìn)的AI芯片,訓(xùn)練AI算法也可能花費(fèi)數(shù)千萬美元,并且需要數(shù)周才能完成。實(shí)際上,在頂級(jí)AI實(shí)驗(yàn)室中,總支出中有很大一部分用于與AI相關(guān)的計(jì)算。使用CPU等通用芯片,甚至使用較舊的AI芯片,進(jìn)行這種訓(xùn)練將花費(fèi)更長的時(shí)間才能完成,并且相關(guān)的支出也會(huì)更多,這使得對(duì)AI算法的研究和部署無法進(jìn)行下去。類似地,使用較不先進(jìn)或較不專業(yè)的芯片進(jìn)行推理也可能會(huì)導(dǎo)致類似的成本超支,并且需要更長的時(shí)間。

人工智能芯片的工作原理

相對(duì)于CPU來說,人工智能芯片通過特定技術(shù)來提高效率和速度。有關(guān)通用AI芯片的自上而下視圖和這些技術(shù)的圖形表示,這些技術(shù)將在下面的小節(jié)中詳細(xì)描述。

通用人工智能芯片

(1)并行計(jì)算

與傳統(tǒng)CPU相比,人工智能芯片提供的最重要的改進(jìn)是并行計(jì)算能力,也就是說,人工智能芯片可以運(yùn)行比CPU更多的并行計(jì)算。

對(duì)于DNN的計(jì)算是高度并行的,因?yàn)樗鼈兪窍嗤?,并且不依賴于其他?jì)算的結(jié)果。DNN訓(xùn)練和推理需要大量獨(dú)立、相同的矩陣乘法運(yùn)算,這反過來又需要執(zhí)行許多乘法運(yùn)算,然后求和,即所謂的“乘積” 運(yùn)算。

人工智能芯片設(shè)計(jì)通常要在單芯片上具備大量的“乘法累加電路”(MAC),以有效地在一個(gè)大規(guī)模并行架構(gòu)上執(zhí)行矩陣乘法操作。并行計(jì)算也使AI芯片能夠比順序計(jì)算更快地完成任務(wù)。在并行架構(gòu)中連接的多個(gè)AI芯片可以進(jìn)一步提高并行程度。雖然先進(jìn)的CPU具有一定程度的并行體系結(jié)構(gòu),但AI芯片實(shí)現(xiàn)了更大的并行性。

并行處理操作使用幾種技術(shù),Data parallelism是最常見的并行形式,它將輸入數(shù)據(jù)集分為不同的“批”,以便在每個(gè)批上并行執(zhí)行計(jì)算。這些批次可以跨AI芯片的不同執(zhí)行單元或并行連接的不同AI芯片。數(shù)據(jù)并行性適用于任何類型的神經(jīng)網(wǎng)絡(luò)。在各種各樣的神經(jīng)網(wǎng)絡(luò)中,在訓(xùn)練期間使用數(shù)百到數(shù)千批的數(shù)據(jù)并行性在不增加所需計(jì)算總數(shù)的情況下實(shí)現(xiàn)了相同的模型精度。然而,更多的批次需要更多的計(jì)算來實(shí)現(xiàn)相同的模型精度。超過一定數(shù)量的批次(對(duì)于一些DNN來說,超過100萬)增加的數(shù)據(jù)并行性需要更多的計(jì)算,而不會(huì)減少訓(xùn)練模型的時(shí)間,從而限制有用的數(shù)據(jù)并行性。

Model parallelism將模型分成多個(gè)部分,在這些部分,計(jì)算在AI芯片的不同執(zhí)行單元上并行執(zhí)行,或者在并行連接的不同AI芯片上并行執(zhí)行。例如,單個(gè)DNN層包括許多神經(jīng)元,一個(gè)分區(qū)可能包括這些神經(jīng)元的子集,另一個(gè)分區(qū)包括相同神經(jīng)元的不同子集。有一種替代技術(shù)可以并行地對(duì)不同神經(jīng)網(wǎng)絡(luò)層進(jìn)行計(jì)算。

考慮到并行性的限制,通過更多的人工智能芯片并行擴(kuò)展計(jì)算量并不是人工智能進(jìn)步的可行策略,好的AI算法研究更加有意義,也是必要的,因?yàn)樗试S更大程度的數(shù)據(jù)和模型并行,包括研究結(jié)合技術(shù),以增加并行度。

(2)低精度計(jì)算

低精度計(jì)算,它犧牲了速度的數(shù)值精度和效率,特別適合人工智能算法。一個(gè)x-bit處理器由執(zhí)行單元組成,每個(gè)執(zhí)行單元都是用來操作由x-bit表示的數(shù)據(jù)的。晶體管存儲(chǔ)一個(gè)bit,其值可以為1或0;因此,x-bit值允許2 x 不同的組合。下表顯示了處理器數(shù)據(jù)類型的x的公共值。

數(shù)據(jù)類型

高位(Higher-bit)數(shù)據(jù)類型可以表示更廣泛的數(shù)字范圍(例如:一組較大的整數(shù)) 或在有限范圍內(nèi)的更高精度的數(shù)字(例如:在0到1之間的高精度十進(jìn)制數(shù))。幸運(yùn)的是,在許多人工智能算法中,訓(xùn)練或推理也會(huì)執(zhí)行,或者幾乎同樣地執(zhí)行,如果一些計(jì)算是用8位或16位數(shù)據(jù)執(zhí)行的,這些數(shù)據(jù)代表有限或低精度的數(shù)字范圍。即使模擬計(jì)算也足以滿足一些人工智能算法。這些技術(shù)工作的原因如下:

首先,經(jīng)過訓(xùn)練的DNN通常不受噪聲的影響,因此在推理計(jì)算中舍入數(shù)字不會(huì)影響結(jié)果;

第二,DNN中的某些數(shù)值參數(shù)事先已知的值僅在一個(gè)小的數(shù)值范圍內(nèi),準(zhǔn)確地說是可以用低位數(shù)存儲(chǔ)的數(shù)據(jù)類型。

低位(Lower-bit)數(shù)據(jù)計(jì)算可以用包含較少晶體管的執(zhí)行單元進(jìn)行。這產(chǎn)生了兩個(gè)好處。首先,如果每個(gè)執(zhí)行單元需要更少的晶體管,芯片可以包括更多的并行執(zhí)行單元。其次,低位計(jì)算更有效率,需要更少的操作。. 一個(gè)8位執(zhí)行單元使用比16位執(zhí)行單元少6倍的電路面積和6倍的能源。

(3)內(nèi)存優(yōu)化

如果AI算法的內(nèi)存訪問模式是可預(yù)測的,那么AI芯片可以優(yōu)化這些可預(yù)測用途的內(nèi)存數(shù)量、位置和類型。例如,一些AI芯片包括足夠的

內(nèi)存來存儲(chǔ)整個(gè)AI算法。與片外存儲(chǔ)器通信相比,片內(nèi)存儲(chǔ)器訪問提供了更好的效率和速度改進(jìn)。

當(dāng)模型變得太大而無法存儲(chǔ)在單個(gè)AI芯片上時(shí),模型并行性成為一個(gè)特別有用的工具;通過分割模型,可以在并行連接的不同AI芯片上訓(xùn)練不同的部分。

相比之下,大多數(shù)CPU都是基于“馮諾依曼”設(shè)計(jì),其中包括一個(gè)單一的中央總線——一個(gè)在CPU和存儲(chǔ)程序代碼和數(shù)據(jù)的單獨(dú)內(nèi)存芯片之間共享數(shù)據(jù)的通信系統(tǒng)??紤]到總線的帶寬有限,CPU必須順序地單獨(dú)訪問代碼和數(shù)據(jù),并經(jīng)歷一個(gè)“馮諾依曼瓶頸”,其中內(nèi)存訪問延遲阻止CPU通過高晶體管開關(guān)速度獲得更快的速度。

馮·諾依曼設(shè)計(jì)對(duì)于通用計(jì)算是有用的 ,但AI芯片不需要馮諾依曼設(shè)計(jì)或經(jīng)歷馮諾依曼瓶頸。

(4)特定領(lǐng)域的語言

特定領(lǐng)域語言(Domain-specific languages :DSL)為在專用芯片上運(yùn)行的專用應(yīng)用程序提供了效率增益。

程序員以人類理解的方式,使用計(jì)算機(jī)語言編寫計(jì)算機(jī)代碼(即計(jì)算機(jī)看得懂的指令)。計(jì)算機(jī)程序稱為編譯器(或解釋器),然后將此代碼轉(zhuǎn)換為處理器直接可讀和可執(zhí)行的表單。不同的計(jì)算機(jī)語言在不同的抽象層次上運(yùn)作。

例如,像Python這樣的高級(jí)編程語言被簡化為人類可訪問性,但是Python代碼在執(zhí)行時(shí)往往相對(duì)較慢,因?yàn)閷⑷祟惖母呒?jí)指令轉(zhuǎn)換為為特定處理器優(yōu)化的機(jī)器代碼的復(fù)雜性很高。相比之下,在較低抽象級(jí)別上操作的C類編程語言需要更復(fù)雜的代碼(以及程序員的努力),但它們的代碼執(zhí)行效率往往更高,因?yàn)楦菀邹D(zhuǎn)換成為特定處理器優(yōu)化的機(jī)器代碼。然而,這兩個(gè)例子都是通用編程語言,其代碼可以實(shí)現(xiàn)各種各樣的計(jì)算,但不是專門為特定計(jì)算有效地轉(zhuǎn)換成機(jī)器代碼的。

相比之下,DSL是專門為專用芯片高效編程和執(zhí)行的。一個(gè)值得注意的例子是谷歌的TensorFlow,它是DSL,它的代碼在AI芯片上運(yùn)行的效率比任何通用語言都高。有時(shí),DSL的優(yōu)點(diǎn)可以通過PyTorch 這樣的專門代碼庫來實(shí)現(xiàn):這些代碼庫將專門的AI處理器的知識(shí)打包在通用語言(例如Python在這種情況下)可以調(diào)用的函數(shù)中。

AI芯片類型

如上所述,人工智能芯片包括三類:圖形處理器(GPU)、現(xiàn)場可編程門陣列(FPGA)和專用集成電路(ASIC)。

GPU最初是為得益于并行計(jì)算的圖像處理應(yīng)用而設(shè)計(jì)的。2012年,GPU開始被越來越多地用于訓(xùn)練人工智能系統(tǒng),到2017年,GPU占據(jù)主導(dǎo)地位。GPU有時(shí)也用于推理。然而,盡管GPU允許可以比CPU有更大程度的并行,但它仍然是為通用計(jì)算而設(shè)計(jì)的。

最近,專用FPGA和ASIC在推理方面變得更加突出,因?yàn)榕cGPU相比,它們提高了效率。ASIC也越來越多地用于訓(xùn)練。FPGA包括邏輯模塊(即每個(gè)模塊包含一組晶體管)其互連可以在制造后由程序員重新配置以適應(yīng)特定的算法,而ASIC包括為特定算法定制的硬連線電路。領(lǐng)先的ASIC通常比FPGA提供更高的效率,而FPGA比ASIC更易于定制,并隨著人工智能算法的發(fā)展而促進(jìn)設(shè)計(jì)優(yōu)化。相比之下,隨著新的人工智能算法的開發(fā),ASIC正變得越來越過時(shí)。

考慮到每個(gè)任務(wù)對(duì)芯片的不同要求,可以使用不同的AI芯片進(jìn)行訓(xùn)練和推理。

首先,不同形式的數(shù)據(jù)和模型的并行性適合于訓(xùn)練和推理。因?yàn)橛?xùn)練需要在與推理共享的步驟之上增加計(jì)算步驟。

其次,盡管訓(xùn)練實(shí)際上總是受益于數(shù)據(jù)并行,但推理通常不會(huì)。例如,可以一次對(duì)單條數(shù)據(jù)執(zhí)行推斷。然而,對(duì)于某些應(yīng)用程序,可以并行地對(duì)許多數(shù)據(jù)執(zhí)行推理,特別是當(dāng)應(yīng)用程序需要快速推斷大量不同的數(shù)據(jù)時(shí)。

第三,根據(jù)應(yīng)用的不同,訓(xùn)練和推理的效率和速度的相對(duì)重要性可能不同。對(duì)于訓(xùn)練,效率和速度對(duì)于人工智能研究人員高效、快速地迭代研究項(xiàng)目都很重要。

對(duì)于推理,高推理速度可能是必不可少的,因?yàn)樵S多人工智能應(yīng)用部署在關(guān)鍵系統(tǒng)中(例如,自動(dòng)車輛)?;蛘卟荒蜔┑挠脩簦ɡ?,對(duì)圖像進(jìn)行分類的移動(dòng)應(yīng)用程序)需要快速、實(shí)時(shí)的數(shù)據(jù)分類。

另一方面,有效的推理速度可能存在上限。例如,推理不需要比用戶對(duì)移動(dòng)應(yīng)用程序的反應(yīng)時(shí)間更快。

推理芯片比訓(xùn)練芯片需要更少的研究突破,因?yàn)樗鼈儽扔?xùn)練芯片需要更少的計(jì)算優(yōu)化。與GPU和FPGA相比,ASIC需要的研究突破更少。由于ASIC僅針對(duì)特定算法進(jìn)行優(yōu)化,設(shè)計(jì)工程師考慮的變量要少得多。

為了設(shè)計(jì)只用于一次計(jì)算的電路,工程師可以簡單地將計(jì)算轉(zhuǎn)化為針對(duì)該計(jì)算進(jìn)行優(yōu)化的電路。但是,要設(shè)計(jì)用于多種類型計(jì)算的電路,工程師必須預(yù)測哪種電路能夠很好地完成各種任務(wù)。其中許多是事先未知的。

人工智能芯片的商業(yè)化依賴于其通用功能的程度。GPU早已廣泛商業(yè)化,F(xiàn)PGA也是如此,只是程度較低。同時(shí),由于高設(shè)計(jì)成本和專業(yè)化驅(qū)動(dòng)的低容量,ASIC更難以商業(yè)化。然而,在通用芯片改進(jìn)速度緩慢的時(shí)代,專用芯片相對(duì)更經(jīng)濟(jì)。因?yàn)樵谙乱淮鶦PU達(dá)到相同的加速比或效率之前,它具有更長的使用壽命。在當(dāng)前CPU進(jìn)步緩慢的時(shí)代,如果一個(gè)AI芯片的速度提高了10-100倍,那么只要1.5 - 8.3萬的銷量就足夠讓AI芯片變得經(jīng)濟(jì)。預(yù)計(jì)人工智能芯片市場規(guī)模的增長可能會(huì)創(chuàng)造規(guī)模經(jīng)濟(jì),這將使越來越窄的人工智能ASIC有利可圖。

人工智能芯片有不同的等級(jí),功能有強(qiáng)有弱。在高端,服務(wù)器級(jí)人工智能芯片通常用于高端應(yīng)用的數(shù)據(jù)中心,在封裝后,比其他人工智能芯片更大。中端是消費(fèi)者常用的PC級(jí)AI芯片。在低端,移動(dòng)人工智能芯片通常用于推理,并集成到系統(tǒng)級(jí)芯片中,該芯片還包括一個(gè)CPU。移動(dòng)系統(tǒng)芯片需要小型化才能適合移動(dòng)設(shè)備。在每一個(gè)級(jí)別,人工智能芯片市場份額的增長都是以犧牲非人工智能芯片為代價(jià)的。

超級(jí)計(jì)算機(jī)與人工智能的相關(guān)性有限,但正在不斷增強(qiáng)。最常見的是,服務(wù)器級(jí)芯片分布在數(shù)據(jù)中心,可以按順序執(zhí)行,也可以在稱為“網(wǎng)格計(jì)算”的設(shè)置中并行執(zhí)行。超級(jí)計(jì)算機(jī)采用服務(wù)器級(jí)芯片,將它們物理地放在一起并連接在一起,并增加了昂貴的冷卻設(shè)備以防止過熱。這種設(shè)置提高了速度,但大大降低了效率,對(duì)于許多需要快速分析的應(yīng)用程序來說,這是一種可接受的折衷方案。目前很少有人工智能應(yīng)用能證明更高速度的額外成本是合理的。但大型人工智能算法的訓(xùn)練或推理有時(shí)非常緩慢,以至于只能使用超級(jí)計(jì)算機(jī)作為最后的手段。因此,盡管CPU傳統(tǒng)上一直是超級(jí)計(jì)算芯片的首選,但人工智能芯片現(xiàn)在正在占據(jù)越來越大的份額。2018年,GPU承擔(dān)了全球新增超級(jí)計(jì)算機(jī)計(jì)算能力的大部分。

先進(jìn)AI芯片的價(jià)值

領(lǐng)先的節(jié)點(diǎn)AI芯片對(duì)于高性價(jià)比、快速訓(xùn)練和推理AI算法越來越必要。這是因?yàn)樗鼈兿鄬?duì)于最先進(jìn)的CPU表現(xiàn)出效率和速度的提升和尾隨節(jié)點(diǎn)AI芯片。而且,效率轉(zhuǎn)化為芯片成本(芯片生產(chǎn)成本的總和)的總體成本效益。(即設(shè)計(jì)、制造、組裝、測試和封裝成本)。最后,許多計(jì)算密集型AI算法的訓(xùn)練和推理的成本和速度瓶頸,使得AI開發(fā)者和用戶需要最先進(jìn)的AI芯片來保持在AI研發(fā)和部署方面的競爭力。

最先進(jìn)的AI芯片的效率轉(zhuǎn)化為成本效益。

效率轉(zhuǎn)化為整體成本效益。對(duì)于trailing nodes,芯片運(yùn)營成本(由于能耗成本)主導(dǎo)著芯片生產(chǎn)成本,并迅速膨脹到難以管理的水平。即使對(duì)于先進(jìn)節(jié)點(diǎn),運(yùn)營成本也與生產(chǎn)成本類似,這意味著需要繼續(xù)優(yōu)化以提高效率。

表2給出了一個(gè)CSET芯片生產(chǎn)和運(yùn)行成本模型的結(jié)果,該模型針對(duì)的是與Nvidia P100 GPU類似規(guī)格的服務(wù)器級(jí)5nm芯片相同數(shù)量的90 - 5nm節(jié)點(diǎn)。這意味著5納米以上的芯片需要更大的表面積。對(duì)于5nm以上的節(jié)點(diǎn),該模型可以等效地解釋為生產(chǎn)多個(gè)芯片,這些芯片的晶體管計(jì)數(shù)為一個(gè)5nm芯片。該模型采用無晶圓廠設(shè)計(jì)公司的視角,在2020年設(shè)計(jì)芯片,從臺(tái)積電代工,然后在自己的服務(wù)器上運(yùn)行芯片。這與谷歌等公司的做法類似。谷歌在內(nèi)部設(shè)計(jì)TPU,將制造外包給臺(tái)積電,然后在谷歌服務(wù)器上運(yùn)行自己的TPUs,向外部客戶提供人工智能應(yīng)用程序或云計(jì)算服務(wù)。

費(fèi)用細(xì)分如下。代工廠支付的代工銷售價(jià)格包括資金消耗(即建廠和收購中小企業(yè)的成本)、材料、人工、代工研發(fā)和利潤率。無晶圓廠的公司還會(huì)額外增加芯片設(shè)計(jì)成本。制造完成后,外包的半導(dǎo)體和測試公司對(duì)芯片進(jìn)行組裝、測試和封裝(ATP)。代工銷售價(jià)格、芯片設(shè)計(jì)成本、ATP成本之和等于每片芯片的生產(chǎn)總成本。無晶圓廠的公司在操作芯片時(shí)也會(huì)產(chǎn)生能源成本。我們根據(jù)每千瓦時(shí)0.07625美元的電力成本來估算能源成本。

首先,在不到兩年的時(shí)間內(nèi),運(yùn)營一款先進(jìn)節(jié)點(diǎn)的AI芯片(7或5nm)的成本超過生產(chǎn)所述芯片的成本,而運(yùn)行尾部節(jié)點(diǎn)AI芯片(90或65nm)的累積電力成本是生產(chǎn)這種芯片的成本的三到四倍。圖2顯示了連續(xù)使用長達(dá)三年的總芯片成本:每個(gè)芯片的總生產(chǎn)成本在第0年增加。隨后每年增加使用該芯片的年度能源成本。這些結(jié)果表明,在計(jì)算生產(chǎn)和運(yùn)營時(shí),先進(jìn)節(jié)點(diǎn)AI芯片的成本效益是落后節(jié)點(diǎn)AI芯片費(fèi)用的33倍。同樣,由于先進(jìn)節(jié)點(diǎn)AI芯片的效率比先進(jìn)節(jié)點(diǎn)CPU高出一到三個(gè)數(shù)量級(jí)(表1),我們預(yù)計(jì),在計(jì)算產(chǎn)量和OPE時(shí),先進(jìn)節(jié)點(diǎn)AI芯片的成本效益也比先進(jìn)節(jié)點(diǎn)CPU高出1到3個(gè)數(shù)量級(jí)。

其次,生產(chǎn)和運(yùn)行5nm芯片的成本需要8.8年才能達(dá)到運(yùn)行7nm芯片的成本。8.8年后,7nm和5nm芯片更便宜。因此,只有當(dāng)預(yù)期使用5nm節(jié)點(diǎn)芯片8.8年時(shí),用戶才有動(dòng)力更換現(xiàn)有的7nm節(jié)點(diǎn)芯片(假設(shè)它們不會(huì)發(fā)生故障)。圖2顯示了90 nm和5 nm之間的節(jié)點(diǎn)間比較。

我們發(fā)現(xiàn),這些成本變得相等的時(shí)間段增加了,在7nm與5nm的比較中,成本急劇增加。公司通常會(huì)在運(yùn)營三年后更換服務(wù)器級(jí)別的芯片,這與最近引入新節(jié)點(diǎn)的時(shí)間框架是一致的,依賴先進(jìn)節(jié)點(diǎn)芯片的公司在新推出的節(jié)點(diǎn)芯片一上市就立即購買。然而,如果公司開始購買5nm節(jié)點(diǎn)芯片,他們可能期望更長時(shí)間地使用這些芯片。這將構(gòu)成一個(gè)市場預(yù)測,即摩爾定律正在放緩,3nm節(jié)點(diǎn)可能在很長一段時(shí)間內(nèi)不會(huì)推出。

計(jì)算密集型人工智能算法受到芯片成本和速度的瓶頸制約。

人工智能公司在人工智能相關(guān)計(jì)算上花費(fèi)的時(shí)間和金錢已經(jīng)成為人工智能發(fā)展的瓶頸。鑒于先進(jìn)節(jié)點(diǎn)AI芯片比落后節(jié)點(diǎn)AI芯片或先進(jìn)節(jié)點(diǎn)CPU更具成本效益且速度更快,因此這些AI實(shí)驗(yàn)室需要先進(jìn)節(jié)點(diǎn)AI芯片來繼續(xù)推進(jìn)AI進(jìn)展。

第一,人工智能實(shí)驗(yàn)室DeepMind領(lǐng)先的人工智能實(shí)驗(yàn),如AlphaGo、AlphaGo Zero、AlphaZero和AlphaStar的訓(xùn)練成本。估計(jì)每項(xiàng)費(fèi)用為500萬至1億美元。一個(gè)成本模型顯示,AlphaGo Zero的訓(xùn)練成本為3500萬美元。人工智能實(shí)驗(yàn)室OpenAI報(bào)告稱,在2017年2800萬美元的總成本中,有800萬美元用于云計(jì)算。將這些計(jì)算成本乘以30,用于trailing node AI芯片,或甚至更多用于先進(jìn)節(jié)點(diǎn)CPU,會(huì)使這種實(shí)驗(yàn)在經(jīng)濟(jì)上變得不可行。一些人工智能公司的計(jì)算成本增長如此之快,可能很快就會(huì)達(dá)到成本上限。從而需要最高效的人工智能芯片。

其次,領(lǐng)先的人工智能實(shí)驗(yàn)可能需要幾天甚至一個(gè)月的時(shí)間進(jìn)行訓(xùn)練。雖然部署了關(guān)鍵的人工智能系統(tǒng),但通常需要快速或?qū)崟r(shí)推理。通過使用trailing node的AI芯片或引導(dǎo)節(jié)點(diǎn)的CPU來增加這些時(shí)間,將使得AI研發(fā)所需的迭代速度和部署的關(guān)鍵人工智能系統(tǒng)慢得令人無法接受。一家芯片速度較慢的公司可以嘗試通過并行使用大量速度較慢的芯片來支付巨大的能源成本以提高速度。但這一策略可能會(huì)失敗,原因有二。首先,正如附錄A 的A節(jié)所討論的,領(lǐng)先的實(shí)驗(yàn)需要人工智能研究人員調(diào)整人工智能算法,以支持更多的數(shù)據(jù)和模型并行性。人工智能研究人員可以在有限的程度上做到這一點(diǎn)。但如果試圖并行使用比目前領(lǐng)先的人工智能實(shí)驗(yàn)所使用的更多數(shù)量的人工智能芯片,可能會(huì)面臨困難。另一方面,即使在算法上可行,這種并行也需要互補(bǔ)的軟件和網(wǎng)絡(luò)技術(shù)來實(shí)現(xiàn)。并行擴(kuò)展數(shù)百或數(shù)千個(gè)GPU是極其困難的,如果擴(kuò)展更大數(shù)量trailing node的GPU,可能會(huì)比以及當(dāng)前的能力。

新的Cerebras晶圓級(jí)引擎芯片為網(wǎng)絡(luò)技術(shù)提供了一個(gè)有趣的潛在解決方案。它是第一個(gè)晶圓級(jí)芯片,比其他任何人工智能芯片的表面積都大得多。這意味著可以在單個(gè)芯片上實(shí)現(xiàn)很大程度的并行性,減少多個(gè)芯片之間對(duì)先進(jìn)網(wǎng)絡(luò)技術(shù)的需求。

對(duì)這一分析的警告是,最近的一些人工智能突破并不需要大量的計(jì)算能力。此外,正在進(jìn)行的研究是開發(fā)需要最少訓(xùn)練的人工智能算法(例如“幾次射擊”學(xué)習(xí)技術(shù))。對(duì)于這些人工智能算法,將小成本或速度乘以大數(shù)字仍可能產(chǎn)生小成本或速度。

美國和中國的AI芯片競爭

最先進(jìn)的AI芯片對(duì)于高級(jí)AI系統(tǒng)是必不可少的。美國及其盟國在生產(chǎn)與AI芯片相關(guān)的半導(dǎo)體領(lǐng)域中具有競爭優(yōu)勢(shì)。美國公司主導(dǎo)著AI芯片設(shè)計(jì),其中包括用于設(shè)計(jì)芯片的電子設(shè)計(jì)自動(dòng)化(EDA)軟件。中國的AI芯片設(shè)計(jì)公司落后于美國,他們需要依靠美國EDA軟件來設(shè)計(jì)其AI芯片。

美國,中國臺(tái)灣和韓國公司控制著大多數(shù)可以制造最先進(jìn)的AI芯片的晶圓代工廠(“ fabs”),盡管一家中國公司最近獲得了一小部分市場占有率。但是,中國的AI芯片設(shè)計(jì)公司大都將制造外包給了非中國大陸的fab,因?yàn)樗鼈兊漠a(chǎn)能更大,而且制造質(zhì)量更高。

領(lǐng)先的節(jié)點(diǎn)AI芯片的成本效益和速度從政策的角度來看很重要。美國公司主導(dǎo)了人工智能芯片的設(shè)計(jì),而中國公司在人工智能芯片設(shè)計(jì)上遠(yuǎn)遠(yuǎn)落后,依賴美國EDA軟件設(shè)計(jì)人工智能芯片,需要美國和盟國的中小企業(yè)和晶圓廠根據(jù)這些設(shè)計(jì)制造人工智能芯片。最先進(jìn)的人工智能芯片的價(jià)值,加上它們的供應(yīng)鏈集中在美國及其盟國,為美國及其盟國提供了一個(gè)杠桿點(diǎn),以確保人工智能技術(shù)的有益開發(fā)和采用。

美國公司NVIDIA和AMD壟斷了全球GPU設(shè)計(jì)市場,而中國最大的GPU公司景嘉微電子開發(fā)的GPU速度非常慢。同樣,美國公司Xilinx和英特爾主導(dǎo)了全球FPGA市場,但中國領(lǐng)先的FPGA公司還有很長的一段距離。

在人工智能ASIC市場,特別是推理市場,分布著較多廠商,因?yàn)锳SIC和推理芯片更容易設(shè)計(jì),進(jìn)入門檻較低。與GPU和FPGA不 同,活躍在AI領(lǐng)域的公司,如谷歌、特斯拉亞馬遜,已經(jīng)開始為自己的AI應(yīng)用設(shè)計(jì)專用的AI芯片了。谷歌的TPU是一個(gè)典型例子。英特爾也在開發(fā)性能強(qiáng)大的專用AI芯片,并聲稱這些ASIC的效率和速度分別實(shí)現(xiàn)了10,000x和1,000x的提升。

而在專用AI芯片領(lǐng)域具有競爭力的中國公司包括燧原、百度、阿里巴巴、騰訊、華為海思、寒武紀(jì)、云天勵(lì)飛和地平線等。中國研究人員還制作了用于高端研究的ASIC。然而,它們?cè)诤艽蟪潭壬蟽H限于推理,不過,華為最近宣布研發(fā)出了一款人工智能訓(xùn)練ASIC。

可以看到,美國人工智能芯片設(shè)計(jì)公司的產(chǎn)品都在臺(tái)積電(TSMC)、三星或英特爾制造,而制程都比較先進(jìn),以7nm、10 nm和16 nm為主。還有一點(diǎn)值得注意,美國GPU芯片使用的先進(jìn)制程節(jié)點(diǎn)比FPGA和ASIC的要多,之所以如此,很可能是因?yàn)镚PU的通用性強(qiáng),具有更高的銷售量,從而可以攤平更先進(jìn)制程的設(shè)計(jì)和制造成本。

專家對(duì)AI芯片使用先進(jìn)制程節(jié)點(diǎn)的必要性存在分歧。EDA公司的一位高管說:“每個(gè)想做AI的人都需要7nm及更先進(jìn)制程的性能、功率效率等因素。與此同時(shí),香港應(yīng)用科學(xué)技術(shù)研究所的一位半導(dǎo)體研究員則持不同觀點(diǎn):“對(duì)于人工智能芯片,如果使用28nm制程工藝技術(shù),而不是10nm或14nm技術(shù),則制造成本就會(huì)低得多,如果使用先進(jìn)制程,你就需要從零開始,花很多精力在數(shù)學(xué)模型、物理層和計(jì)算語言的研究上,而所有這些都需要投資,只有少數(shù)晶圓廠能夠制造接近最先進(jìn)的AI芯片,如下圖所示,全球只有大約8.5%的晶圓廠產(chǎn)能可以用來制造接近最先進(jìn)的AI芯片,目前,只有很少一部分產(chǎn)能可以制造最先進(jìn)的AI芯片(圖中藍(lán)色部分),而用于制造最先進(jìn)人工智能芯片的實(shí)際產(chǎn)能百分比很難計(jì)算,并且在逐年變化。

其次,中國AI芯片設(shè)計(jì)公司中,GPU和FPGA使用的是非先進(jìn)制程節(jié)點(diǎn),而ASIC既使用了先進(jìn)節(jié)點(diǎn),也使用了非先進(jìn)節(jié)點(diǎn)。盡管中國在這些非先進(jìn)節(jié)點(diǎn)上具有一定的本地制造能力,但中國的AI芯片設(shè)計(jì)公司仍然大多將這些制程節(jié)點(diǎn)芯片外包給了臺(tái)積電,這可能反映了臺(tái)積電的制造工藝更可靠。

這是因?yàn)橹袊箨懙南冗M(jìn)半導(dǎo)體設(shè)備生產(chǎn)水平比較有限。另外,中國的人工智能芯片設(shè)計(jì)公司也依靠美國EDA軟件。因此,中國仍然要依賴美國及其盟友才能實(shí)現(xiàn)AI芯片生產(chǎn)。

中國已經(jīng)在人工智能推理方面取得了巨大成功,因?yàn)橹袊鴵碛写罅渴苓^良好教育的工程師,他們非常適合在特定芯片上實(shí)現(xiàn)極佳性能的勞動(dòng)密集型設(shè)計(jì)任務(wù)。然而,考慮到中國相對(duì)年輕的人工智能芯片設(shè)計(jì)行業(yè),中國公司尚未掌握實(shí)現(xiàn)GPU和FPGA更大優(yōu)化空間和更高復(fù)雜性所需的隱性知識(shí)(know-how)。

中國在AI芯片供應(yīng)鏈的關(guān)鍵環(huán)節(jié)能力不足,包括芯片設(shè)計(jì)、EDA軟件、半導(dǎo)體制造設(shè)備和晶圓廠,這意味著美國及其盟國在生產(chǎn)領(lǐng)先的AI芯片方面保持競爭優(yōu)勢(shì)。正如第七節(jié)所討論的,領(lǐng)先的人工智能芯片對(duì)于開發(fā)和部署先進(jìn)的、與安全相關(guān)的人工智能系統(tǒng)來說,具有戰(zhàn)略價(jià)值。因此,保持這一優(yōu)勢(shì)對(duì)美國及其盟國至關(guān)重要。

此外,美國,荷蘭和日本公司共同控制著晶圓廠使用的半導(dǎo)體制造設(shè)備(SME)的市場。但是,這些優(yōu)勢(shì)可能會(huì)消失,尤其是在中國努力建設(shè)先進(jìn)芯片產(chǎn)業(yè)的情況下。鑒于最先進(jìn)的AI芯片對(duì)安全性的重要性,美國及其盟國必須在生產(chǎn)這些芯片時(shí)保護(hù)其競爭優(yōu)勢(shì)。
責(zé)任編輯:tzh

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    456

    文章

    51062

    瀏覽量

    425810
  • eda
    eda
    +關(guān)注

    關(guān)注

    71

    文章

    2776

    瀏覽量

    173541
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31338

    瀏覽量

    269749
  • 人工智能
    +關(guān)注

    關(guān)注

    1793

    文章

    47539

    瀏覽量

    239394
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【半導(dǎo)體存儲(chǔ)】關(guān)于NAND Flash的一些小知識(shí)

      前言   作為名電子專業(yè)的學(xué)生,半導(dǎo)體存儲(chǔ)顯然是繞不過去的個(gè)坎,今天聊關(guān)于Nand Flash的一些小
    發(fā)表于 12-17 17:34

    關(guān)于NAND Flash的一些小知識(shí)

    前言 作為名電子專業(yè)的學(xué)生,半導(dǎo)體存儲(chǔ)顯然是繞不過去的個(gè)坎,今天聊關(guān)于Nand Flash的一些小
    的頭像 發(fā)表于 12-17 17:33 ?226次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    嵌入式和人工智能究竟是什么關(guān)系? 嵌入式系統(tǒng)是種特殊的系統(tǒng),它通常被嵌入到其他設(shè)備或機(jī)器中,以實(shí)現(xiàn)特定功能。嵌入式系統(tǒng)具有非常強(qiáng)的適應(yīng)性和靈活性,能夠根據(jù)用戶需求進(jìn)行定制化設(shè)計(jì)。它廣泛應(yīng)用于各種
    發(fā)表于 11-14 16:39

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    、優(yōu)化等方面的應(yīng)用有了更清晰的認(rèn)識(shí)。特別是書中提到的基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的能源管理系統(tǒng),通過實(shí)時(shí)監(jiān)測和分析能源數(shù)據(jù),實(shí)現(xiàn)了能源的高效利用和智能化管理。 其次,第6章通過多個(gè)案例展示了人工智能在能源科學(xué)中
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我個(gè)閱讀此書的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    周末收到本新書,非常高興,也非常感謝平臺(tái)提供閱讀機(jī)會(huì)。 這是本挺好的書,包裝精美,內(nèi)容詳實(shí),干活滿滿。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》這本書的第章,作為整
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    一些未來發(fā)展趨勢(shì): 市場規(guī)模持續(xù)增長 :據(jù)多家研究機(jī)構(gòu)和公司的預(yù)測,RISC-V的市場規(guī)模將持續(xù)增長。到2030年,RISC-V處理器有望占據(jù)全球市場近四分之的份額。這將為RISC-V在人工智能
    發(fā)表于 09-28 11:00

    名單公布!【書籍評(píng)測活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    芯片設(shè)計(jì)的自動(dòng)化水平、優(yōu)化半導(dǎo)體制造和封測的工藝和水平、尋找新代半導(dǎo)體材料等方面提供幫助。 第6章介紹了人工智能在化石能源科學(xué)研究、可再生能源科學(xué)研究、能源轉(zhuǎn)型三個(gè)
    發(fā)表于 09-09 13:54

    微處理器在人工智能方面的應(yīng)用

    微處理器在人工智能(AI)方面的應(yīng)用日益廣泛且深入,成為了推動(dòng)AI技術(shù)發(fā)展的重要力量。本文將從微處理器在AI中的核心作用、具體應(yīng)用案例、技術(shù)挑戰(zhàn)與解決方案、以及未來發(fā)展趨勢(shì)等多個(gè)方面進(jìn)行探討,旨在全面展現(xiàn)微處理器在AI領(lǐng)域的廣泛
    的頭像 發(fā)表于 08-22 14:21 ?1041次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    人工智能在軍事方面的應(yīng)用

    智慧華盛恒輝人工智能在軍事方面的應(yīng)用廣泛且深入,主要包括以下幾個(gè)方面: 智慧華盛恒輝、作戰(zhàn)效能提升 自動(dòng)目標(biāo)識(shí)別與跟蹤: 人工智能系統(tǒng)能夠
    的頭像 發(fā)表于 07-16 09:52 ?712次閱讀

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2) 課程類別 課程名稱 視頻課程時(shí)長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識(shí)指引 14分50秒 https
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    課程類別 課程名稱 視頻課程時(shí)長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識(shí)指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎(chǔ)知識(shí)指引
    發(fā)表于 04-01 10:40

    fpga芯片人工智能芯片的區(qū)別

    FPGA芯片人工智能芯片(AI芯片)在設(shè)計(jì)和應(yīng)用上存在一些關(guān)鍵的區(qū)別,這些區(qū)別主要體現(xiàn)在它們的功能、優(yōu)化目標(biāo)和適用場景上。
    的頭像 發(fā)表于 03-14 17:26 ?1319次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下,眾多名企也紛紛在嵌入式人工智能
    發(fā)表于 02-26 10:17