眾所周知,人工智能的三大支柱是硬件、算法和數(shù)據(jù)。其中,硬件主要是指用于運行AI算法的芯片。本文主要對AI芯片的廠商進行歸納和整理。
目前針對AI設(shè)計的芯片主要分為用于服務(wù)器端(云端)和用于移動端(終端)兩大類。
服務(wù)器端負(fù)責(zé)AI算法的芯片走的是超級計算機的路子,一方面要支持盡可能多的網(wǎng)絡(luò)結(jié)構(gòu)以保證算法的正確率和泛化能力;另一方面必須支持高精度浮點數(shù)運算,峰值性能至少要達(dá)到Tflops(每秒執(zhí)行10^12次浮點數(shù)運算)級別,所以功耗非常大;而且為了能夠提升性能必須支持陣列式結(jié)構(gòu)(即可以把多塊芯片組成一個計算陣列以加速運算)。
移動端的AI芯片在設(shè)計思路上有著本質(zhì)的區(qū)別。首先,必須保證功耗控制在一定范圍內(nèi),換言之,必須保證很高的計算能效;為了達(dá)到這個目標(biāo),移動端AI芯片的性能必然有所損失,允許一些計算精度損失,因此可以使用一些定點數(shù)運算以及網(wǎng)絡(luò)壓縮的辦法來加速運算。
下面,將分別從服務(wù)器端芯片和移動端芯片兩個大類進行介紹。有的廠商同時具有這兩類產(chǎn)品,則不做嚴(yán)格區(qū)分。
服務(wù)器端
<img src="https://pic4.zhimg.com/v2-ed2d5da37004d8f633c484b640d6fe77_b.png" data-rawwidth="121" data-rawheight="91" class="content_image" width="121">在云端服務(wù)器這個領(lǐng)域,Nvidia的GPU已經(jīng)成為服務(wù)器不可或缺的一部分,稱其為領(lǐng)跑者毫不為過。有報告顯示,世界上目前約有3000多家AI初創(chuàng)公司,大部分都采用了Nvidia提供的硬件平臺。
資本市場對此給出了熱烈的回應(yīng):在過去的一年中,曾經(jīng)以游戲芯片見長的Nvidia股價從十幾年的穩(wěn)居30美元迅速飆升至120美元。2017年2月10日,英偉達(dá)發(fā)布2016年第四季度的財報顯示,其營收同比增長55%,凈利潤達(dá)到了6.55億美元,同比增長216%。
<img src="https://pic1.zhimg.com/v2-2e7c09381b6eea82ddebd1864adeceb0_b.png" data-rawwidth="121" data-rawheight="121" class="content_image" width="121">作為PC時代的絕對霸主,Intel已經(jīng)錯過了移動互聯(lián)網(wǎng)時代,在已經(jīng)到來的AI時代,也失掉了先機,但它并沒有放棄,而是積極布局,準(zhǔn)備逆襲。在云端,收購Altera之后推出了基于FPGA的專用深度學(xué)習(xí)加速卡,可以在云端使用;另外,收購Nervana,目標(biāo)也是在云端。在移動端,則是收購了Movidius。下面先對Nervana進行介紹,對Movidius的介紹放在后面移動端。
<img src="https://pic2.zhimg.com/v2-2007f5781521fdbe56883f150081c37d_b.png" data-rawwidth="272" data-rawheight="71" class="content_image" width="272">Nervana創(chuàng)立于2014年,位于圣地亞哥的初創(chuàng)公司Nervana Systems已經(jīng)從20家不同的投資機構(gòu)那里獲得了2440萬美元資金,而其中一家是十分受人尊敬的德豐杰風(fēng)險投資公司(Draper Fisher Jurvetson,DFJ)。
The Nervana Engine(將于2017年問世)是一個為深度學(xué)習(xí)專門定做和優(yōu)化的ASIC芯片。這個方案的實現(xiàn)得益于一項叫做High Bandwidth Memory的新型內(nèi)存技術(shù),同時擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內(nèi)存訪問速度。該公司目前提供一個人工智能服務(wù)“in the cloud”,他們聲稱這是世界上最快的且目前已被金融服務(wù)機構(gòu)、醫(yī)療保健提供者和政府機構(gòu)所使用的服務(wù),他們的新型芯片將會保證Nervana云平臺在未來的幾年內(nèi)仍保持最快的速度。
<img src="https://pic1.zhimg.com/v2-62af27a968827ec6e1db41b69c75bd00_b.png" data-rawwidth="121" data-rawheight="75" class="content_image" width="121">IBM很早以前就發(fā)布過watson,早就投入了很多的實際應(yīng)用中去。除此之外,還啟動了對類人腦芯片的研發(fā),那就是TrueNorth。
TrueNorth是IBM參與DARPA的研究項目SyNapse的最新成果。SyNapse全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng),而SyNapse正好是突觸的意思),其終極目標(biāo)是開發(fā)出打破馮?諾依曼體系的硬件。
這種芯片把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸,跟傳統(tǒng)馮諾依曼結(jié)構(gòu)不一樣,它的內(nèi)存、CPU和通信部件是完全集成在一起。因此信息的處理完全在本地進行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計算機內(nèi)存與CPU之間的瓶頸不復(fù)存在了。同時神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動作電位),這些神經(jīng)元就會同時做動作。
2011年的時候,IBM首先推出了單核含256 個神經(jīng)元,256×256 個突觸和 256 個軸突的芯片原型。當(dāng)時的原型已經(jīng)可以處理像玩Pong游戲這樣復(fù)雜的任務(wù)。不過相對來說還是比較簡單,從規(guī)模上來說,這樣的單核腦容量僅相當(dāng)于蟲腦的水平。
不過,經(jīng)過3年的努力,IBM終于在復(fù)雜性和使用性方面取得了突破。4096個內(nèi)核,100萬個“神經(jīng)元”、2.56億個“突觸”集成在直徑只有幾厘米的方寸(是2011年原型大小的1/16)之間,而且能耗只有不到70毫瓦。
這樣的芯片能夠做什么事情呢?IBM研究小組曾經(jīng)利用做過DARPA 的NeoVision2 Tower數(shù)據(jù)集做過演示。它能夠?qū)崟r識別出用30幀每秒的正常速度拍攝自斯坦福大學(xué)胡佛塔的十字路口視頻中的人、自行車、公交車、卡車等,準(zhǔn)確率達(dá)到了80%。相比之下,一臺筆記本編程完成同樣的任務(wù)用時要慢100倍,能耗卻是IBM芯片的1萬倍。
<img src="https://pic4.zhimg.com/v2-cb1ba0b2c52ec4d0564e8c8c7cdea237_b.png" data-rawwidth="120" data-rawheight="75" class="content_image" width="120">Google在2016年宣布獨立開發(fā)一種名為TPU的全新的處理系統(tǒng)。
TPU是專門為機器學(xué)習(xí)應(yīng)用而設(shè)計的專用芯片。通過降低芯片的計算精度,減少實現(xiàn)每個計算操作所需的晶體管數(shù)量,從而能讓芯片的每秒運行的操作個數(shù)更高,這樣經(jīng)過精細(xì)調(diào)優(yōu)的機器學(xué)習(xí)模型就能在芯片上運行得更快,進而更快地讓用戶得到更智能的結(jié)果。Google將TPU加速器芯片嵌入電路板中,利用已有的硬盤PCI-E接口接入數(shù)據(jù)中心服務(wù)器中。
據(jù)Google資深副總裁Urs Holzle透露,當(dāng)前Google TPU、GPU并用,這種情況仍會維持一段時間,但他表示,GPU可執(zhí)行繪圖運算工作,用途多元;TPU 屬于ASIC,也就是專為特定用途設(shè)計的特殊規(guī)格邏輯IC,由于只執(zhí)行單一工作,速度更快,但缺點是成本較高。
<img src="https://pic4.zhimg.com/v2-48e1fe07b962e795aaefca3ba59a381b_b.png" data-rawwidth="185" data-rawheight="56" class="content_image" width="185">終于有中國公司了,中文名“寒武紀(jì)”,是北京中科寒武紀(jì)科技有限公司的簡稱。這家公司有中科院背景,面向深度學(xué)習(xí)等人工智能關(guān)鍵技術(shù)進行專用芯片的研發(fā),可用于云服務(wù)器和智能終端上的圖像識別、語音識別、人臉識別等應(yīng)用。
寒武紀(jì)深度學(xué)習(xí)處理器采用的指令集DianNaoYu由中國科學(xué)院計算技術(shù)研究所陳云霽、陳天石課題組提出。模擬實驗表明,采用DianNaoYu指令集的寒武紀(jì)深度學(xué)習(xí)處理器相對于x86指令集的CPU有兩個數(shù)量級的性能提升。
目前,寒武紀(jì)系列已包含三種原型處理器結(jié)構(gòu):
-
寒武紀(jì)1號(英文名DianNao,面向神經(jīng)網(wǎng)絡(luò)的原型處理器結(jié)構(gòu));
-
寒武紀(jì)2號(英文名DaDianNao,面向大規(guī)模神經(jīng)網(wǎng)絡(luò));
-
寒武紀(jì)3號(英文名PuDianNao,面向多種機器學(xué)習(xí)算法)。
2016年推出的寒武紀(jì)1A處理器(Cambricon-1A)是世界首款商用深度學(xué)習(xí)專用處理器,面向智能手機、安防監(jiān)控、可穿戴設(shè)備、無人機和智能駕駛等各類終端設(shè)備
移動端
<img src="https://pic4.zhimg.com/v2-492022b576fafef75b0f9867841f957f_b.png" data-rawwidth="119" data-rawheight="75" class="content_image" width="119">ARM剛推出全新芯片架構(gòu)DynamIQ,通過這項技術(shù),AI的性能有望在未來三到五年內(nèi)提升50倍。
ARM的新CPU架構(gòu)將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為AI算法設(shè)計的處理器。芯片廠商將可以為新處理器配置最多8個核心。同時為了能讓主流AI在自己的處理器上更好地運行,ARM還將放出一系列軟件庫。
DynamIQ是在ARM上一代革新架構(gòu)big.LITTLE基礎(chǔ)上的一次演進,這種架構(gòu)能夠?qū)ν贿\算設(shè)備中的大小兩個核進行適當(dāng)配置,以減少電池消耗。目前big.LITTLE架構(gòu)已經(jīng)被應(yīng)用到了幾乎所有智能手機的芯片上,包括用于安卓系統(tǒng)的高通驍龍?zhí)幚砥饕约疤O果最新一代的A10芯片。
接下來ARM推出的每一款Cortex-A系列芯片都將采用這種新技術(shù)。ARM稱,與在現(xiàn)有芯片架構(gòu)上開發(fā)出的處理器(即Cortex-A73)相比,基于DynamIQ架構(gòu)開發(fā)的全新處理器有望在三到五年內(nèi)使人工智能的表現(xiàn)增強50倍。
<img src="https://pic4.zhimg.com/v2-5c6fd59d29b619778361915da2858f4f_b.png" data-rawwidth="243" data-rawheight="104" class="content_image" width="243">2016年9月,Intel發(fā)表聲明收購了Movidius。
Movidius專注于研發(fā)高性能視覺處理芯片?,F(xiàn)任CEO是原來德州儀器OMAP部門的總經(jīng)理,它的技術(shù)指導(dǎo)委員會也是實力強大,擁有半導(dǎo)體和處理器行業(yè)的元老級人物——被蘋果收購的 P.A.Semi 創(chuàng)始人丹尼爾·多伯普爾(Daniel Dobberpuhl),卡內(nèi)基梅隆大學(xué)計算機科學(xué)/計算機視覺專家金出武雄,以及前蘋果 iPhone 和 iPod 部門工程副總裁、資深工程師大衛(wèi)·圖普曼(David Tupman)三人坐鎮(zhèn)。
其最新一代的Myriad2視覺處理器主要由SPARC處理器作為主控制器,加上專門的DSP處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以DSP架構(gòu)為基礎(chǔ)的視覺處理器,在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統(tǒng)中。
該芯片已被大量應(yīng)用在Google 3D項目Tango手機、大疆無人機、FLIR智能紅外攝像機、??瞪铐盗袛z像機、華睿智能工業(yè)相機等產(chǎn)品中。
<img src="https://pic4.zhimg.com/v2-c42fd5733da26981ae9b7371cc1ec53f_b.png" data-rawwidth="160" data-rawheight="65" class="content_image" width="160">CEVA是專注于DSP的IP供應(yīng)商,擁有為數(shù)眾多的產(chǎn)品線。其中,圖像和計算機視覺 DSP 產(chǎn)品 CEVA-XM4 是第一個支持深度學(xué)習(xí)的可編程 DSP,而其發(fā)布的新一代型號 CEVA-XM6,具有更優(yōu)的性能、更強大的計算能力,以及更低的耗能。
XM6 的兩大新硬件功能,將幫助大多數(shù)圖像處理和機器學(xué)習(xí)算法。第一個是分散-聚集,或者說是閱讀一個周期中,L1 緩存到向量寄存器中的 32 地址值的能力。CDNN2 編譯工具識別串行代碼加載,并實現(xiàn)矢量化來允許這一功能,當(dāng)所需的數(shù)據(jù)通過記憶結(jié)構(gòu)分布時,分散-聚集提高了數(shù)據(jù)加載時間。由于 XM6 是可配置的 IP,L1 數(shù)據(jù)儲存的大小/相關(guān)性在硅設(shè)計水平是可調(diào)節(jié)的,CEVA 表示,這項功能對于任意尺寸的 L1 都有效。此級用于處理的向量寄存器是寬度為 8 的 VLIW 實現(xiàn)器, 這樣的配置才能滿足要求。
第二功能稱為“滑動-窗口”數(shù)據(jù)處理,這項視覺處理的特定技術(shù)已被 CEVA 申請專利。有許多方法可以處理過程或智能中的圖像,通常算法將立刻使用平臺所需一塊或大片像素。對于智能部分,這些塊的數(shù)量將重疊,導(dǎo)致不同區(qū)域的圖像被不同的計算區(qū)域重用。CEVA 的方法是保留這些數(shù)據(jù),從而使下一步分析所需信息量更少。
CEVA 指出,智能手機、汽車、安全和商業(yè)應(yīng)用,如無人機、自動化將是主要目標(biāo)。
<img src="https://pic1.zhimg.com/v2-2915b06a1fe05d4ceef37c15c5245ee8_b.png" data-rawwidth="119" data-rawheight="75" class="content_image" width="119">Eyeriss事實上是MIT的一個項目,還不是一個公司,但是因為獲得了大量的媒體報道,故把它單獨拿出來進行介紹。從長遠(yuǎn)來看,如果進展順利,很可能孵化出一個新的公司。
Eyeriss是一個高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件,該芯片內(nèi)建168 個核心,專門用來部署神經(jīng)網(wǎng)路(neural network),效能為一般行動GPU 的10 倍。其技術(shù)關(guān)鍵在于最小化GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運作過程通常會消耗大量的時間與能量):一般GPU 內(nèi)的核心通常共享單一記憶體,但Eyeriss 的每個核心擁有屬于自己的記憶體。
此外,Eyeriss 還能在將數(shù)據(jù)傳送到每一個核心之前,先進行數(shù)據(jù)壓縮,且每一個核心都能立即與鄰近的核心直接溝通,因此若需要共享數(shù)據(jù),核心們不需要透過主要記憶體就能傳遞。
目前,Eyeriss主要定位在人臉識別和語音識別,可應(yīng)用在智能手機、穿戴式設(shè)備、機器人、自動駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上。
<img src="https://pic4.zhimg.com/v2-ff73097f03a12488a665040c030cb32f_b.png" data-rawwidth="234" data-rawheight="96" class="content_image" width="234">2016年6月20日,中星微率先推出中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)芯片,這是全球首顆具備深度學(xué)習(xí)人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級芯片,取名“星光智能一號”。這款基于深度學(xué)習(xí)的芯片運用在人臉識別上,最高能達(dá)到98%的準(zhǔn)確率,超過人眼的識別率。該NPU采用了“數(shù)據(jù)驅(qū)動”并行計算的架構(gòu),單顆NPU(28nm)能耗僅為400mW,極大地提升了計算能力與功耗的比例。
研發(fā)“星光智能一號”耗時三年時間。中星微集團聚集了北京、廣東、天津、山西、江蘇、青島、硅谷的研發(fā)力量,采用了先進的過億門級集成電路設(shè)計技術(shù)及超亞微米芯片制造工藝,在TSMC成功實現(xiàn)投片量產(chǎn)。
目前“星光智能一號”出貨量主要集中在安防攝像領(lǐng)域,其中包含授權(quán)給其他安防攝像廠商部分。未來將主要向車載攝像頭、無人機航拍、機器人和工業(yè)攝像機方面進行推廣和應(yīng)用。
<img src="https://pic4.zhimg.com/v2-a82c0e747406e227080f58f3e072f9eb_b.png" data-rawwidth="157" data-rawheight="61" class="content_image" width="157">Horizon Robotics(地平線機器人)由前百度深度學(xué)習(xí)研究院負(fù)責(zé)人余凱創(chuàng)辦,致力于打造基于深度神經(jīng)網(wǎng)絡(luò)的人工智能“大腦”平臺-包括軟件和芯片,可以做到低功耗、本地化的解決環(huán)境感知、人機交互、決策控制等問題。其中,軟件方面,地平線做了一套基于神經(jīng)網(wǎng)絡(luò)的OS,已經(jīng)研發(fā)出分別面向自動駕駛的的“雨果”平臺和智能家居的“安徒生”平臺,并開始逐步落地。硬件方面,未來地平線機器人還會為這個平臺設(shè)計一個芯片——NPU(Neural Processing Unit),支撐自家的OS,到那時效能會提升2-3個數(shù)量級(100-1000倍)。
地平線的最終產(chǎn)品不止芯片,而是一個核心控制模塊,具有感知、識別、理解、控制的功能。把這個控制模塊做成產(chǎn)品去跟合作方做集成。換句話說,地平線提供的是一個帶有人工智能算法的解決方案。
商業(yè)模式上,目前會采取產(chǎn)品、技術(shù)加服務(wù)的方式,先把產(chǎn)品做出來,得到第一手的用戶體驗,將來再向更寬廣的生態(tài)去發(fā)展。地平線并沒有把自己定義為單純的技術(shù)提供商,不會單純的賣算法SDK或者單純出售芯片,而是打造技術(shù)平臺,來幫助用戶把產(chǎn)品做出來。
<img src="https://pic3.zhimg.com/v2-072301834f91f5c9c8241873680dceaa_b.png" data-rawwidth="129" data-rawheight="57" class="content_image" width="129">深鑒科技由清華團隊創(chuàng)辦,其產(chǎn)品稱作“深度學(xué)習(xí)處理單元”(Deep Processing Unit,DPU),目標(biāo)是以ASIC級別的功耗,來達(dá)到優(yōu)于GPU的性能,目前第一批產(chǎn)品基于FPGA平臺。
從官方提供的數(shù)據(jù)來看,嵌入式端的產(chǎn)品在性能超過Nvidia TK1 的同時,功耗、售價僅為后者的1/4左右。服務(wù)器端的產(chǎn)品,性能接近Nvidia K40 GPU ,但功耗只有35瓦左右,售價300美元以下,不足后者的1/10。
深鑒科技著力于打造基于DPU的端到端的深度學(xué)習(xí)硬件解決方案,除了承載在硬件模塊(訂制的PCB板)上的DPU的芯片架構(gòu)外,還打造了針對該架構(gòu)的DPU壓縮編譯工具鏈SDK。
產(chǎn)品的應(yīng)用領(lǐng)域分為終端和云端兩類。其中嵌入式端的產(chǎn)品將主要應(yīng)用在無人機、安防監(jiān)控、機器人、AR等領(lǐng)域,目前已經(jīng)與一家知名無人機廠商建立了合作。服務(wù)器端的產(chǎn)品將主要面向大型互聯(lián)網(wǎng)公司的語音處理、圖像處理等。目前也已經(jīng)與國內(nèi)知名互聯(lián)網(wǎng)公司展開合作,在兼容對方現(xiàn)有機房的情況下,功耗降低80%,語音識別的準(zhǔn)確率提升了5%-7%。
結(jié)語
人工智能時代已經(jīng)來臨,在這個史無前例的巨大浪潮面前,有哪些公司能脫穎而出,成為新一代弄潮兒?讓我們拭目以待。
-
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269130 -
人工智能
+關(guān)注
關(guān)注
1791文章
47282瀏覽量
238534
原文標(biāo)題:AI芯片這么多,你更看好哪個?
文章出處:【微信號:ic_frontend,微信公眾號:數(shù)字前端ic芯片設(shè)計】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論