許多在AI芯片領(lǐng)域來(lái)自學(xué)術(shù)界和來(lái)自工業(yè)界的項(xiàng)目,試圖挑戰(zhàn)CPU和GPU。這些項(xiàng)目大體可以分為兩類,一類是基于傳統(tǒng)的數(shù)字處理器模型,但是在處理器架構(gòu)上加以改良,以提高算力以及能效比;第二類則是另辟蹊徑,使用了與傳統(tǒng)處理器完全不一樣的方法來(lái)執(zhí)行計(jì)算,從而在一些領(lǐng)域中獲得遠(yuǎn)高于傳統(tǒng)處理器的性能。今天我們?yōu)榇蠹規(guī)?lái)的是第二類技術(shù)的總結(jié),我們預(yù)期在第二類技術(shù)中會(huì)有一些能經(jīng)歷時(shí)間的考驗(yàn),最終成為主流技術(shù)。
隨著大數(shù)據(jù)和深度學(xué)習(xí)得到越來(lái)越多應(yīng)用,對(duì)于底層硬件和芯片也提出了新的要求。與傳統(tǒng)的處理器強(qiáng)調(diào)“處理能力”不同,大數(shù)據(jù)和深度學(xué)習(xí)應(yīng)用強(qiáng)調(diào)的往往是“算力”以及“能效比”。由于大數(shù)據(jù)和深度學(xué)習(xí)應(yīng)用算法中的特征提取和處理使用的都往往是實(shí)打?qū)嵉挠?jì)算,因此需要高算力的芯片以期在盡可能短的時(shí)間里完成計(jì)算。另一方面,能效比也是重要指標(biāo)。能效比指的是完成計(jì)算所需要的能量,能效比越好則完成相同計(jì)算消耗的能量越小。
對(duì)于終端芯片, 越來(lái)越多的數(shù)據(jù)由于數(shù)據(jù)隱私、網(wǎng)絡(luò)傳輸帶寬和處理延遲的問(wèn)題無(wú)法傳到云端數(shù)據(jù)中心完成計(jì)算,這也就需要終端芯片能在終端完成計(jì)算;同時(shí)終端設(shè)備的電池容量往往有限,因此終端芯片在完成計(jì)算的同時(shí)不能消耗太大能量,也就是需要很好的能效比。對(duì)于云端數(shù)據(jù)中心的芯片,同樣也需要很好的能效比,因?yàn)樯岢杀臼菙?shù)據(jù)中心的重要開(kāi)銷,因此需要芯片散熱不能太大。
在大數(shù)據(jù)和深度學(xué)習(xí)應(yīng)用中,數(shù)據(jù)間往往都是獨(dú)立的,因此可以并行計(jì)算。傳統(tǒng)的CPU并行計(jì)算能力有限,因此難以實(shí)現(xiàn)算力的需求。GPU雖然有很高的算力(10TOPS數(shù)量級(jí))而且在數(shù)據(jù)中心已經(jīng)得到了應(yīng)用,但是其功耗也很大(幾百瓦),而且其架構(gòu)決定了它無(wú)法做到終端需要較低功耗(如100mW以下)的場(chǎng)景。同時(shí),即使在數(shù)據(jù)中心領(lǐng)域,因?yàn)镚PU設(shè)計(jì)的初衷是為了圖像渲染而并非大數(shù)據(jù)運(yùn)算,因此也存在很大的改善空間。
因此,我們看到了許多在AI芯片領(lǐng)域來(lái)自學(xué)術(shù)界和來(lái)自工業(yè)界的項(xiàng)目,試圖挑戰(zhàn)CPU和GPU。這些項(xiàng)目大體可以分為兩類,一類是基于傳統(tǒng)的數(shù)字處理器模型,但是在處理器架構(gòu)上加以改良,以提高算力以及能效比;第二類則是另辟蹊徑,使用了與傳統(tǒng)處理器完全不一樣的方法來(lái)執(zhí)行計(jì)算,從而在一些領(lǐng)域中獲得遠(yuǎn)高于傳統(tǒng)處理器的性能。今天我們?yōu)榇蠹規(guī)?lái)的是第二類技術(shù)的總結(jié),我們預(yù)期在第二類技術(shù)中會(huì)有一些能經(jīng)歷時(shí)間的考驗(yàn),最終成為主流技術(shù)。
神經(jīng)擬態(tài)計(jì)算
神經(jīng)擬態(tài)技術(shù)(neuromorphic)事實(shí)上源遠(yuǎn)流長(zhǎng),上世紀(jì)八九十年代就由加州理工的電路大師Carver Mead提出。當(dāng)時(shí)Mead教授注意到MOS器件中電荷流動(dòng)的現(xiàn)象和人體神經(jīng)元的放電現(xiàn)象有類似的地方,因此提出了用MOS管模擬神經(jīng)元以組成神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算,稱之為“神經(jīng)擬態(tài)”。
需要注意的是,神經(jīng)擬態(tài)中的神經(jīng)網(wǎng)絡(luò)和現(xiàn)在深度學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)略有不同。神經(jīng)擬態(tài)電路中的神經(jīng)網(wǎng)絡(luò)是對(duì)于生物神經(jīng)元和突觸的高度模擬,包括了神經(jīng)電位改變、發(fā)射脈沖等過(guò)程,該過(guò)程既可以用異步數(shù)字電路實(shí)現(xiàn),又可以用混合信號(hào)電路實(shí)現(xiàn);而深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)是對(duì)于生物學(xué)中神經(jīng)組織的抽象數(shù)學(xué)模擬,僅僅描繪了其電位變化的統(tǒng)計(jì)學(xué)特性而不會(huì)去具體描繪其充放電過(guò)程。然而,這個(gè)充放電過(guò)程卻可能是為什么人腦如此節(jié)省能量的一個(gè)關(guān)鍵。人腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)能實(shí)現(xiàn)極其復(fù)雜的推理認(rèn)知過(guò)程,然而其功耗卻遠(yuǎn)小于一個(gè)GPU。
2017年5月美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室發(fā)表了一篇重要的神經(jīng)擬態(tài)研究綜述,應(yīng)當(dāng)說(shuō)目前人們對(duì)于神經(jīng)擬態(tài)的研究還處于初步階段,許多神經(jīng)擬態(tài)架構(gòu)的潛力還沒(méi)有被人們發(fā)現(xiàn),同時(shí)如何訓(xùn)練神經(jīng)擬態(tài)電路也是一個(gè)重要的挑戰(zhàn)。從現(xiàn)在的研究來(lái)看,人們發(fā)現(xiàn)神經(jīng)擬態(tài)的神經(jīng)元在不被激活的情況下功耗較低,因此可以實(shí)現(xiàn)較低的平均功耗,這是一個(gè)重要的優(yōu)勢(shì)。
舉例來(lái)說(shuō),當(dāng)我們部署一套攝像頭加人工智能系統(tǒng)來(lái)識(shí)別是否有人進(jìn)入攝像頭視野時(shí),往往很多時(shí)間并沒(méi)有人出現(xiàn)在視野內(nèi)。在這種情況下,使用傳統(tǒng)的深度學(xué)習(xí)算法無(wú)論攝像頭事業(yè)內(nèi)情況如何都需要完成同樣的計(jì)算,因此功耗保持恒定;而如果使用神經(jīng)擬態(tài)芯片則神經(jīng)元僅僅在有人進(jìn)入攝像頭事業(yè)時(shí)被激活,而在平時(shí)沒(méi)有人進(jìn)入視野時(shí)神經(jīng)元處于待機(jī)狀態(tài)功耗很低,因此其平均功耗可以遠(yuǎn)低于傳統(tǒng)深度學(xué)習(xí)芯片。
換句話說(shuō),神經(jīng)擬態(tài)電路的能效比可以遠(yuǎn)高于傳統(tǒng)GPU/CPU芯片。除此之外,使用在終端的低功耗神經(jīng)擬態(tài)芯片還能完成在線學(xué)習(xí),而使用在終端的傳統(tǒng)深度學(xué)習(xí)推理加速芯片往往沒(méi)有在線學(xué)習(xí)的能力。這僅僅是神經(jīng)擬態(tài)電路的一些好處,神經(jīng)擬態(tài)電路的其他潛力還等待人們?nèi)ネ诰颉?/p>
神經(jīng)擬態(tài)電路芯片的潛力也是一些大公司開(kāi)始布局的原因。IBM和Intel都推出了自己的神經(jīng)擬態(tài)芯片(IBM和TrueNorth和Intel的Loihi),可以實(shí)現(xiàn)非常高的能效比。我們預(yù)期在未來(lái)看到更多的神經(jīng)擬態(tài)電路芯片發(fā)布,能更多挖掘神經(jīng)擬態(tài)的潛力。
光電計(jì)算
硅光子技術(shù)目前在數(shù)據(jù)中心和5G的高速數(shù)據(jù)傳輸中獲得了越來(lái)越多的應(yīng)用。除此之外,硅光子還可以用來(lái)以超低功耗直接加速深度學(xué)習(xí)計(jì)算。
2017年,MIT的Marin Solijacic教授和其研究組在《自然·光子學(xué)》期刊上發(fā)表了一篇使用光學(xué)器件加速深度學(xué)習(xí)計(jì)算的論文。在深度學(xué)習(xí)中,絕大部分計(jì)算都可以歸化為矩陣運(yùn)算(這也是GPU用來(lái)做深度學(xué)習(xí)的原理),而實(shí)際應(yīng)用中的矩陣都可以用SVD分解分解成幾個(gè)特征矩陣的乘積。一旦使用SVD分解,則兩個(gè)矩陣相乘可以使用光學(xué)器件(相移器,分光器,衰減器和馬赫-曾德干涉儀)來(lái)實(shí)現(xiàn)。
更重要的是,兩個(gè)矩陣相乘的過(guò)程可以轉(zhuǎn)化為兩束光的干涉,因此深度學(xué)習(xí)的計(jì)算可以以光速完成而且理論功耗為零!該論文提出的設(shè)計(jì)就是首先把深度學(xué)習(xí)的兩個(gè)輸入調(diào)制到兩束光上面,然后讓兩束光在光子芯片的器件上完成SVD分解和干涉相乘,最后再把光信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)讀出結(jié)果。最后,這些光器件都可以集成到同一塊硅光子芯片上,從而實(shí)現(xiàn)高性能光計(jì)算模組。
MIT的光模塊用于計(jì)算深度學(xué)習(xí)
如前所述,一旦使用光干涉來(lái)實(shí)現(xiàn)深度學(xué)習(xí)計(jì)算,其計(jì)算速度就變成了光速,此外矩陣計(jì)算的功耗就變成了0,因此一旦能把光調(diào)制、光信號(hào)讀出等光信號(hào)處理和接口模塊的性能和功耗做好,整體系統(tǒng)的性能和能效比就能快速提升。 MIT的光計(jì)算團(tuán)隊(duì)孵化出了 初創(chuàng)公司Lightelligence,目前已經(jīng)完成A輪融資,光電子用于深度學(xué)習(xí)的前景讓我們共同拭目以待。
內(nèi)存內(nèi)計(jì)算
傳統(tǒng)的AI加速器幾乎都是基于馮諾伊曼架構(gòu),即內(nèi)存訪問(wèn)和計(jì)算是分開(kāi)的。馮諾伊曼架構(gòu)的問(wèn)題是內(nèi)存訪問(wèn),因?yàn)閮?nèi)存訪問(wèn)的功耗和延遲等問(wèn)題都很難降下來(lái),因此內(nèi)存成為了處理器性能和功耗的瓶頸,也即所謂的“內(nèi)存墻”。
為了解決內(nèi)存墻問(wèn)題,不少學(xué)者提出了內(nèi)存內(nèi)計(jì)算的概念,這種概念在今年ISSCC上更是擁有了一個(gè)專門的session,可見(jiàn)學(xué)界對(duì)于這個(gè)方向還是很認(rèn)可的。最著名的研究當(dāng)屬M(fèi)IT Anantha Chandrakasan組。Anantha Chandrakasan在芯片領(lǐng)域可謂是鼎鼎大名,是數(shù)字電路經(jīng)典教科書(shū)《Digital Integrated Circuits: A Design Perspective》的作者之一,同時(shí)也是低功耗數(shù)字電路設(shè)計(jì)、UWB系統(tǒng)等多個(gè)領(lǐng)域的先驅(qū)者,基本每年Chandrakasan組在ISSCC都會(huì)至少有一篇論文發(fā)表。今年ISSCC上Chandrakasan組發(fā)表的內(nèi)存內(nèi)計(jì)算論文針對(duì)的是權(quán)重壓縮至1-bit的神經(jīng)網(wǎng)絡(luò),當(dāng)權(quán)重僅僅為1-bit的時(shí)候,卷積就可以約化成多個(gè)數(shù)據(jù)的平均,而求平均值使用經(jīng)典的DAC中常用的電荷平均方法可以輕易實(shí)現(xiàn)。
因此,該內(nèi)存中計(jì)算的論文實(shí)質(zhì)上是在片上SRAM上接了一個(gè)類似DAC中電荷平均的電路,在內(nèi)存內(nèi)直接實(shí)現(xiàn)模擬計(jì)算來(lái)求卷積,從而不用再需要處理器和內(nèi)存之間耗費(fèi)大量時(shí)間和能量移動(dòng)數(shù)據(jù)。計(jì)算后的結(jié)果使用ADC可以再次轉(zhuǎn)化為數(shù)字信號(hào)。
相比傳統(tǒng)的數(shù)字電路AI加速器,使用內(nèi)存內(nèi)計(jì)算加模擬計(jì)算的電路可以把能效比提高60倍以上,顯示出了極大的潛力。當(dāng)然,現(xiàn)在該電路還只能針對(duì)1-bit權(quán)重的網(wǎng)絡(luò),未來(lái)如何把內(nèi)存內(nèi)計(jì)算推廣到更多應(yīng)用場(chǎng)景,讓我們拭目以待。
量子計(jì)算
量子計(jì)算是真正顛覆性的范式——當(dāng)然前提是需要先能把量子計(jì)算機(jī)制造出來(lái)!
量子計(jì)算和經(jīng)典計(jì)算最大的不同在于,量子計(jì)算使用的是量子態(tài)。不同的量子態(tài)之間是可以互相線性疊加的,因此一個(gè)量子比特在測(cè)量前可以同時(shí)處于多個(gè)態(tài)的疊加中。而量子計(jì)算可以同時(shí)對(duì)多個(gè)疊加態(tài)進(jìn)行操作,因此相當(dāng)于做大量平行計(jì)算。
現(xiàn)在量子計(jì)算還處于非常早期研究階段,目前只有少數(shù)量子算法可以利用量子特性實(shí)現(xiàn)指數(shù)級(jí)的加速,所謂“量子霸權(quán)”就是指在某個(gè)特定算法可以制造出相應(yīng)的量子計(jì)算機(jī)使運(yùn)行速度超過(guò)經(jīng)典計(jì)算機(jī)。那么,量子計(jì)算如何加速人工智能呢?首先,目前正在積極研究量子版本的線性代數(shù)算法,有望實(shí)現(xiàn)指數(shù)級(jí)加速,而AI算法中許多計(jì)算的基礎(chǔ)正是線性代數(shù),因此一旦線性代數(shù)的量子版算法開(kāi)發(fā)完成就可以大大加速人工智能計(jì)算。另外,以D-Wave為代表的量子退火算法有望能加速最優(yōu)化問(wèn)題,而人工智能訓(xùn)練的一個(gè)最重要問(wèn)題其實(shí)就是求最優(yōu)化解。因此,量子計(jì)算有望能加速人工智能。
谷歌和UCSB聯(lián)合研發(fā)的20量子比特芯片
目前量子計(jì)算芯片有許多實(shí)現(xiàn)方式,包括工作在超低溫下的離子阱和超導(dǎo)電路以及工作在常溫的非線性光器件。應(yīng)該說(shuō)這些芯片目前還在很初期的階段,雖然有些芯片已經(jīng)能實(shí)現(xiàn)很多量子比特,但是量子退相干時(shí)間和量子門保真度仍然是性能的瓶頸。量子計(jì)算進(jìn)入實(shí)用還有很長(zhǎng)的路要走,但是一旦成功將會(huì)成為顛覆式的發(fā)展,這也是谷歌、IBM和微軟等巨頭都在積極布局量子計(jì)算的原因。
結(jié)語(yǔ)
本文介紹了一些全新的人工智能芯片技術(shù),包括神經(jīng)擬態(tài)、光電計(jì)算、內(nèi)存內(nèi)計(jì)算和量子計(jì)算。傳統(tǒng)基于馮諾伊曼架構(gòu)的人工智能加速器芯片存在內(nèi)存墻等各種限制,我們有望看到這些新技術(shù)能在幾年后正式登上舞臺(tái)得到廣泛應(yīng)用。讓我們拭目以待!
-
量子計(jì)算
+關(guān)注
關(guān)注
4文章
1104瀏覽量
34964 -
AI芯片
+關(guān)注
關(guān)注
17文章
1889瀏覽量
35095
原文標(biāo)題:AI芯片黑科技盤點(diǎn)
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論