房奴试爱,国内卡1卡2卡4卡

如果說 2016 年 3 月份 AlphaGo 與李世石的那場人機大戰(zhàn)只在科技界和圍棋界產(chǎn)生較大影響的話，那么 2017 年 5 月其與排名第一的世界圍棋冠軍柯潔的對戰(zhàn)則將人工智能技術(shù)推向了公眾視野。阿爾法狗（AlphaGo）是第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能程序，由谷歌（Google）旗下 DeepMind 公司戴密斯 · 哈薩比斯領(lǐng)銜的團隊開發(fā)，其主要工作原理是 “深度學(xué)習(xí)”。

其實早在 2012 年，深度學(xué)習(xí)技術(shù)就已經(jīng)在學(xué)術(shù)界引起了廣泛地討論。在這一年的 ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽 ILSVRC 中，采用 5 個卷積層和 3 個全連接層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) AlexNet，取得了 top-5（15.3%）的歷史最佳錯誤率，而第二名的成績僅為 26.2%。從此以后，就出現(xiàn)了層數(shù)更多、結(jié)構(gòu)更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如 ResNet、GoogleNet、VGGNet 和 MaskRCNN 等，還有去年比較火的生成式對抗網(wǎng)絡(luò) GAN。

不論是贏得視覺識別挑戰(zhàn)賽的 AlexNet，還是擊敗圍棋冠軍柯潔的 AlphaGo，它們的實現(xiàn)都離不開現(xiàn)代信息技術(shù)的核心——處理器，不論這個處理器是傳統(tǒng)的 CPU，還是 GPU，還是新興的專用加速部件 NNPU（NNPU 是 Neural Network Processing Unit 的簡稱）。

在計算機體系結(jié)構(gòu)國際頂級會議 ISCA2016 上有個關(guān)于體系結(jié)構(gòu) 2030 的小型研討會，名人堂成員 UCSB 的謝源教授就對 1991 年以來在 ISCA 收錄的論文進行了總結(jié)，專用加速部件相關(guān)的論文收錄是在 2008 年開始，而在 2016 年達到了頂峰，超過了處理器、存儲器以及互聯(lián)結(jié)構(gòu)等三大傳統(tǒng)領(lǐng)域。而在這一年，來自中國科學(xué)院計算技術(shù)研究所的陳云霽、陳天石研究員課題組提交的《一種神經(jīng)網(wǎng)絡(luò)指令集》論文，更是 ISCA2016 最高得分論文。

在具體介紹 AI 芯片國內(nèi)外之前，看到這里有部分讀者或許會產(chǎn)生這樣的疑惑：這不都是在說神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)嗎？那么我覺得有必要對人工智能和神經(jīng)網(wǎng)絡(luò)的概念進行闡述，特別是 2017 年工信部發(fā)布的《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃（2018-2020 年）》中，對發(fā)展目標(biāo)的描述很容易讓人覺得人工智能就是神經(jīng)網(wǎng)絡(luò)，AI 芯片就是神經(jīng)網(wǎng)絡(luò)芯片。

人工智能整體核心基礎(chǔ)能力顯著增強，智能傳感器技術(shù)產(chǎn)品實現(xiàn)突破，設(shè)計、代工、封測技術(shù)達到國際水平，神經(jīng)網(wǎng)絡(luò)芯片實現(xiàn)量產(chǎn)并在重點領(lǐng)域?qū)崿F(xiàn)規(guī)模化應(yīng)用，開源開發(fā)平臺初步具備支撐產(chǎn)業(yè)快速發(fā)展的能力。

其實則不然。人工智能是一個很老很老的概念，而神經(jīng)網(wǎng)絡(luò)只不過是人工智能范疇的一個子集。

早在1956 年，被譽為 “人工智能之父” 的圖靈獎得主約翰 · 麥卡錫就這樣定義人工智能：創(chuàng)造智能機器的科學(xué)與工程。而在 1959 年，Arthur Samuel 給出了人工智能的一個子領(lǐng)域機器學(xué)習(xí)的定義，即“計算機有能力去學(xué)習(xí)，而不是通過預(yù)先準(zhǔn)確實現(xiàn)的代碼”，這也是目前公認(rèn)的對機器學(xué)習(xí)最早最準(zhǔn)確的定義。而我們?nèi)粘Ｋ熘纳窠?jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等都屬于機器學(xué)習(xí)的范疇，都是受大腦機理啟發(fā)而發(fā)展得來的。

另外一個比較重要的研究領(lǐng)域就是脈沖神經(jīng)網(wǎng)絡(luò)，國內(nèi)具有代表的單位和企業(yè)是清華大學(xué)類腦計算研究中心和上海西井科技等。

好了，現(xiàn)在終于可以介紹 AI 芯片國內(nèi)外的發(fā)展現(xiàn)狀了，當(dāng)然這些都是我個人的一點觀察和愚見，管窺之見權(quán)當(dāng)拋磚引玉。

國外：技術(shù)寡頭，優(yōu)勢明顯

由于具有得天獨厚的技術(shù)和應(yīng)用優(yōu)勢，英偉達和谷歌幾乎占據(jù)了人工智能處理領(lǐng)域80% 的市場份額，而且在谷歌宣布其 Cloud TPU 開放服務(wù)和英偉達推出自動駕駛處理器 Xavier之后，這一份額占比在2018 年有望進一步擴大。其他廠商，如英特爾、特斯拉、ARM、IBM 以及 Cadence 等，也在人工智能處理器領(lǐng)域占有一席之地。

當(dāng)然，上述這些公司的專注領(lǐng)域卻不盡相同。比如英偉達主要專注于GPU 和無人駕駛領(lǐng)域，而谷歌則主要針對云端市場，英特爾則主要面向計算機視覺，Cadence 則以提供加速神經(jīng)網(wǎng)絡(luò)計算相關(guān) IP 為主。如果說前述這些公司還主要偏向處理器設(shè)計等硬件領(lǐng)域，那么ARM 公司則主要偏向軟件，致力于針對機器學(xué)習(xí)和人工智能提供高效算法庫。

注：上述表格中所給為截止到2017 年各研制單位公開可查的最新數(shù)據(jù)。

獨占鰲頭——英偉達

在人工智能領(lǐng)域，英偉達可以說是目前涉及面最廣、市場份額最大的公司，旗下產(chǎn)品線遍布自動駕駛汽車、高性能計算、機器人、醫(yī)療保健、云計算、游戲視頻等眾多領(lǐng)域。其針對自動駕駛汽車領(lǐng)域的全新人工智能超級計算機Xavier，用 NVIDIA 首席執(zhí)行官黃仁勛的話來說就是 “這是我所知道的 SoC 領(lǐng)域非常了不起的嘗試，我們長期以來一直致力于開發(fā)芯片?！?/span>

Xavier是一款完整的片上系統(tǒng)(SoC)，集成了被稱為 Volta 的全新 GPU 架構(gòu)、定制 8 核 CPU 架構(gòu)以及新的計算機視覺加速器。該處理器提供 20 TOPS（萬億次運算 / 秒）的高性能，而功耗僅為 20 瓦。單個 Xavier 人工智能處理器包含 70 億個晶體管，采用最前沿的 16nm FinFET 加工技術(shù)進行制造，能夠取代目前配置了兩個移動 SoC 和兩個獨立 GPU 的 DRIVE PX 2，而功耗僅僅是它的一小部分。

而在 2018 年拉斯維加斯 CES 展會上，NVIDIA 又推出了三款基于 Xavier 的人工智能處理器，包括一款專注于將增強現(xiàn)實（AR）技術(shù)應(yīng)用于汽車的產(chǎn)品、一款進一步簡化車內(nèi)人工智能助手構(gòu)建和部署的 DRIVE IX 和一款對其現(xiàn)有自主出租車大腦——Pegasus 的修改，進一步擴大自己的優(yōu)勢。

產(chǎn)學(xué)研的集大成者——谷歌

如果你只是知道谷歌的AlphaGo、無人駕駛和 TPU 等這些人工智能相關(guān)的產(chǎn)品，那么你還應(yīng)該知道這些產(chǎn)品背后的技術(shù)大牛們：谷歌傳奇芯片工程師 Jeff Dean、谷歌云計算團隊首席科學(xué)家、斯坦福大學(xué) AI 實驗室主管李飛飛、Alphabet 董事長 John Hennessy 和谷歌杰出工程師 David Patte rson。

時至今日，摩爾定律遇到了技術(shù)和經(jīng)濟上的雙重瓶頸，處理器性能的增長速度越來越慢，然而社會對于計算能力的需求增速卻并未減緩，甚至在移動應(yīng)用、大數(shù)據(jù)、人工智能等新的應(yīng)用興起后，對于計算能力、計算功耗和計算成本等提出了新的要求。

與完全依賴于通用CPU 及其編程模型的傳統(tǒng)軟件編寫模式不同，異構(gòu)計算的整個系統(tǒng)包含了多種基于特定領(lǐng)域架構(gòu)（Domain-Specific Architecture, DSA）設(shè)計的處理單元，每一個 DSA 處理單元都有負(fù)責(zé)的獨特領(lǐng)域并針對該領(lǐng)域做優(yōu)化，當(dāng)計算機系統(tǒng)遇到相關(guān)計算時便由相應(yīng)的 DSA 處理器去負(fù)責(zé)。而谷歌就是異構(gòu)計算的踐行者，TPU就是異構(gòu)計算在人工智能應(yīng)用的一個很好例子。

2017 年發(fā)布的第二代 TPU 芯片，不僅加深了人工智能在學(xué)習(xí)和推理方面的能力，而且谷歌是認(rèn)真地要將它推向市場。根據(jù)谷歌的內(nèi)部測試，第二代芯片針對機器學(xué)習(xí)的訓(xùn)練速度能比現(xiàn)在市場上的圖形芯片（GPU）節(jié)省一半時間；第二代 TPU 包括了四個芯片，每秒可處理 180 萬億次浮點運算；如果將 64 個 TPU 組合到一起，升級為所謂的 TPU Pods，則可提供大約 11500 萬億次浮點運算能力。

計算機視覺領(lǐng)域的攪局者——英特爾

英特爾作為世界上最大的計算機芯片制造商，近年來一直在尋求計算機以外的市場，其中人工智能芯片爭奪成為英特爾的核心戰(zhàn)略之一。為了加強在人工智能芯片領(lǐng)域的實力，不僅以 167 億美元收購 FPGA 生產(chǎn)商 Altera 公司，還以 153 億美元收購自動駕駛技術(shù)公司 Mobileye，以及機器視覺公司 Movidius 和為自動駕駛汽車芯片提供安全工具的公司 Yogitech，背后凸顯這家在 PC 時代處于核心位置的巨頭面向未來的積極轉(zhuǎn)型。

Myriad X就是英特爾子公司Movidius 在 2017 年推出的視覺處理器 (VPU，vision processing unit)，這是一款低功耗的系統(tǒng)芯片 (SoC)，用于在基于視覺的設(shè)備上加速深度學(xué)習(xí)和人工智能——如無人機、智能相機和 VR / AR 頭盔。

Myriad X 是全球第一個配備專用神經(jīng)網(wǎng)絡(luò)計算引擎的片上系統(tǒng)芯片（SoC），用于加速設(shè)備端的深度學(xué)習(xí)推理計算。該神經(jīng)網(wǎng)絡(luò)計算引擎是芯片上集成的硬件模塊，專為高速、低功耗且不犧牲精確度地運行基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)而設(shè)計，讓設(shè)備能夠?qū)崟r地看到、理解和響應(yīng)周圍環(huán)境。引入該神經(jīng)計算引擎之后，Myriad X 架構(gòu)能夠為基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)推理提供 1TOPS 的計算性能。

執(zhí) “能效比” 之牛耳——學(xué)術(shù)界

除了工業(yè)界和廠商在人工智能領(lǐng)域不斷推出新產(chǎn)品之外，學(xué)術(shù)界也在持續(xù)推進人工智能芯片新技術(shù)的發(fā)展。

比利時魯汶大學(xué)的Bert Moons 等在2017 年頂級會議 IEEE ISSCC 上面提出了能效比高達 10.0TOPs/W 的針對卷積神經(jīng)網(wǎng)絡(luò)加速的芯片ENVISION，該芯片采用 28nm FD-SOI 技術(shù)。該芯片包括一個 16 位的 RISC 處理器核，1D-SIMD 處理單元進行 ReLU 和 Pooling 操作，2D-SIMD MAC 陣列處理卷積層和全連接層的操作，還有 128KB 的片上存儲器。

韓國科學(xué)技術(shù)院KAIST 的Dongjoo Shin 等人在 ISSCC2017 上提出了一個針對 CNN 和 RNN 結(jié)構(gòu)可配置的加速器單元 DNPU，除了包含一個RISC 核之外，還包括了一個針對卷積層操作的計算陣列 CP 和一個針對全連接層 RNN-LSTM 操作的計算陣列 FRP，相比于魯汶大學(xué)的 Envision，DNPU 支持 CNN 和 RNN 結(jié)構(gòu)，能效比高達 8.1TOPS/W。該芯片采用了 65nm CMOS 工藝。

相比較于魯汶大學(xué)和韓國科學(xué)技術(shù)院都針對神經(jīng)網(wǎng)絡(luò)推理部分的計算操作來說，普渡大學(xué)的Venkataramani S 等人在計算機體系結(jié)構(gòu)頂級會議 ISCA2017 上提出了針對大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練的人工智能處理器SCALLDEEP。

該論文針對深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練部分進行針對性優(yōu)化，提出了一個可擴展服務(wù)器架構(gòu)，且深入分析了深度神經(jīng)網(wǎng)絡(luò)中卷積層，采樣層，全連接層等在計算密集度和訪存密集度方面的不同，設(shè)計了兩種處理器core 架構(gòu)，計算密集型的任務(wù)放在了 comHeavy 核中，包含大量的 2D 乘法器和累加器部件，而對于訪存密集型任務(wù)則放在了 memHeavy 核中，包含大量 SPM 存儲器和 tracker 同步單元，既可以作為存儲單元使用，又可以進行計算操作，包括 ReLU，tanh 等。而一個 SCALEDEEP Chip 則可以有不同配置下的兩類處理器核組成，然后再組成計算簇。

論文中所用的處理平臺包括 7032 個處理器 tile。論文作者針對深度神經(jīng)網(wǎng)絡(luò)設(shè)計了編譯器，完成網(wǎng)絡(luò)映射和代碼生成，同時設(shè)計了設(shè)計空間探索的模擬器平臺，可以進行性能和功耗的評估，性能則得益于時鐘精確級的模擬器，功耗評估則從 DC 中提取模塊的網(wǎng)表級的參數(shù)模型。該芯片僅采用了 Intel 14nm 工藝進行了綜合和性能評估，峰值能效比高達 485.7GOPS/W。

國內(nèi)：百家爭鳴，各自為政

可以說，國內(nèi)各個單位在人工智能處理器領(lǐng)域的發(fā)展和應(yīng)用與國外相比依然存在很大的差距。由于我國特殊的環(huán)境和市場，國內(nèi)人工智能處理器的發(fā)展呈現(xiàn)出百花齊放、百家爭鳴的態(tài)勢，這些單位的應(yīng)用領(lǐng)域遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領(lǐng)域，催生了大量的人工智能芯片創(chuàng)業(yè)公司，如地平線、深鑒科技、中科寒武紀(jì)等。

盡管如此，國內(nèi)起步較早的中科寒武紀(jì)卻并未如國外大廠一樣形成市場規(guī)模，與其他廠商一樣，存在著各自為政的散裂發(fā)展現(xiàn)狀。

除了新興創(chuàng)業(yè)公司，國內(nèi)研究機構(gòu)如北京大學(xué)、清華大學(xué)、中國科學(xué)院等在人工智能處理器領(lǐng)域都有深入研究；而其他公司如百度和比特大陸等，2017 年也有一些成果發(fā)布。

全球 AI 芯片界首個獨角獸——寒武紀(jì)

2017 年 8 月，國內(nèi) AI 芯片初創(chuàng)公司寒武紀(jì)宣布已經(jīng)完成 1 億美元 A 輪融資，戰(zhàn)略投資方可謂陣容豪華，阿里巴巴、聯(lián)想、科大訊飛等企業(yè)均參與投資。而其公司也成為全球 AI 芯片界首個獨角獸，受到國內(nèi)外市場廣泛關(guān)注。

寒武紀(jì)科技主要負(fù)責(zé)研發(fā)生產(chǎn)AI 芯片，公司最主要的產(chǎn)品為 2016 年發(fā)布的寒武紀(jì)1A 處理器 (Cambricon-1A)，是一款可以深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)專用處理器，面向智能手機、無人機、安防監(jiān)控、可穿戴設(shè)備以及智能駕駛等各類終端設(shè)備，在運行主流智能算法時性能功耗比全面超越傳統(tǒng)處理器。目前已經(jīng)研發(fā)出1A、1H 等多種型號。

與此同時，寒武紀(jì)也推出了面向開發(fā)者的寒武紀(jì)人工智能軟件平臺 Cambricon NeuWare，包含開發(fā)、調(diào)試和調(diào)優(yōu)三大部分。

軟硬件協(xié)同發(fā)展的典范——深鑒科技

深鑒科技的聯(lián)合創(chuàng)始人韓松在不同場合曾多次提及軟硬件協(xié)同設(shè)計對人工智能處理器的重要性，而其在FPGA 領(lǐng)域頂級會議 FPGA2017 最佳論文 ESE 硬件架構(gòu)就是最好的證明。該項工作聚焦于使用LSTM 進行語音識別的場景，結(jié)合深度壓縮（Deep Compression）、專用編譯器以及 ESE 專用處理器架構(gòu)，在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能，并將功耗降低 3.5 倍。

在 2017 年 10 月的時候，深鑒科技推出了六款 AI 產(chǎn)品，分別是人臉檢測識別模組、人臉分析解決方案、視頻結(jié)構(gòu)化解決方案、ARISTOTLE 架構(gòu)平臺，深度學(xué)習(xí) SDK DNNDK、雙目深度視覺套件。而在人工智能芯片方面，公布了最新的芯片計劃，由深鑒科技自主研發(fā)的芯片 “聽濤”、“觀?！?將于 2018 年第三季度面市，該芯片采用臺積電 28nm 工藝，亞里士多德架構(gòu)，峰值性能 3.7 TOPS/W。

對標(biāo)谷歌 TPU——比特大陸算豐

作為比特幣獨角獸的比特大陸，在2015 年開始涉足人工智能領(lǐng)域，其在 2017 年發(fā)布的面向 AI 應(yīng)用的張量處理器算豐 Sophon BM1680，是繼谷歌TPU 之后，全球又一款專門用于張量計算加速的專用芯片（ASIC），適用于 CNN / RNN / DNN 的訓(xùn)練和推理。

BM1680 單芯片能夠提供 2TFlops 單精度加速計算能力，芯片由 64 NPU 構(gòu)成，特殊設(shè)計的 NPU 調(diào)度引擎（Scheduling Engine）可以提供強大的數(shù)據(jù)吞吐能力，將數(shù)據(jù)輸入到神經(jīng)元核心（Neuron Processor Cores）。BM1680 采用改進型脈動陣列結(jié)構(gòu)。2018 年比特大陸將發(fā)布第 2 代算豐 AI 芯片 BM1682，計算力將有大幅提升。

百家爭鳴——百度、地平線及其他

在 2017 年的 HotChips 大會上，百度發(fā)布了XPU，這是一款 256 核、基于 FPGA 的云計算加速芯片，用于百度的人工智能、數(shù)據(jù)分析、云計算以及無人駕駛業(yè)務(wù)。在會上，百度研究員歐陽劍表示，百度設(shè)計的芯片架構(gòu)突出多樣性，著重于計算密集型、基于規(guī)則的任務(wù)，同時確保效率、性能和靈活性的最大化。

歐陽劍表示：“FPGA 是高效的，可以專注于特定計算任務(wù)，但缺乏可編程能力。傳統(tǒng) CPU 擅長通用計算任務(wù)，尤其是基于規(guī)則的計算任務(wù)，同時非常靈活。GPU 瞄準(zhǔn)了并行計算，因此有很強大的性能。XPU 則關(guān)注計算密集型、基于規(guī)則的多樣化計算任務(wù)，希望提高效率和性能，并帶來類似 CPU 的靈活性。

在 2018 年百度披露更多關(guān)于 XPU 的相關(guān)信息。

2017 年 12 月底，人工智能初創(chuàng)企業(yè)地平線發(fā)布了中國首款全球領(lǐng)先的嵌入式人工智能芯片——面向智能駕駛的征程（Journey）1.0 處理器和面向智能攝像頭的旭日（Sunrise）1.0 處理器，還有針對智能駕駛、智能城市和智能商業(yè)三大應(yīng)用場景的人工智能解決方案?！靶袢?1.0”和 “征程 1.0” 是完全由地平線自主研發(fā)的人工智能芯片，具有全球領(lǐng)先的性能。

為了解決應(yīng)用場景中的問題，地平線將算法與芯片做了強耦合，用算法來定義芯片，提升芯片的效率，在高性能的情況下可以保證它的低功耗、低成本。具體芯片參數(shù)尚無公開數(shù)據(jù)。

除了百度和地平線，國內(nèi)研究機構(gòu)如中國科學(xué)院、北京大學(xué)和清華大學(xué)也有人工智能處理器相關(guān)的成果發(fā)布。

北京大學(xué)聯(lián)合商湯科技等提出一種基于 FPGA 的快速 Winograd 算法，可以大幅降低算法復(fù)雜度，改善 FPGA 上的 CNN 性能。

論文中的實驗使用當(dāng)前最優(yōu)的多種 CNN 架構(gòu)（如 AlexNet 和 VGG16），從而實現(xiàn)了 FPGA 加速之下的最優(yōu)性能和能耗。在 Xilinx ZCU102 平臺上達到了卷積層平均處理速度 1006.4 GOP/s，整體 AlexNet 處理速度 854.6 GOP/s，卷積層平均處理速度 3044.7 GOP/s，整體 VGG16 的處理速度 2940.7 GOP/s。

中國科學(xué)院計算機體系結(jié)構(gòu)國家重點實驗室在頂級會議HPCA2017 上提出了一種基于數(shù)據(jù)流的神經(jīng)網(wǎng)絡(luò)處理器架構(gòu)，以便適應(yīng)特征圖、神經(jīng)元和突觸等不同層級的并行計算，為了實現(xiàn)這一目標(biāo)，該團隊對單個處理單元 PE 進行重新設(shè)計，使得操作數(shù)可以直接通過橫向或縱向的總線從片上存儲器獲取，而非傳統(tǒng) PE 只能從上至下或從左至右由相鄰單元獲取。該芯片采用了 TMSC 65nm 工藝，峰值性能為 490.7 GOPs/W。

清華大學(xué)微納電子系魏少軍等2017 年的 VLSI 國際研討會上提出了基于可重構(gòu)多模態(tài)混合的神經(jīng)計算芯片 Thinker。Thinker 芯片基于該團隊長期積累的可重構(gòu)計算芯片技術(shù)，采用可重構(gòu)架構(gòu)和電路技術(shù)，突破了神經(jīng)網(wǎng)絡(luò)計算和訪存的瓶頸，實現(xiàn)了高能效多模態(tài)混合神經(jīng)網(wǎng)絡(luò)計算。

Thinker 芯片具有高能效的突出優(yōu)點，其能量效率相比目前在深度學(xué)習(xí)中廣泛使用的 GPU 提升了三個數(shù)量級。Thinker 芯片支持電路級編程和重構(gòu)，是一個通用的神經(jīng)網(wǎng)絡(luò)計算平臺，可廣泛應(yīng)用于機器人、無人機、智能汽車、智慧家居、安防監(jiān)控和消費電子等領(lǐng)域。該芯片采用了 TSMC 65nm 工藝，片上存儲為 348KB，峰值性能為 5.09TOPS/W。

新架構(gòu)新技術(shù)——憶阻器

2017 年清華大學(xué)微電子所錢鶴、吳華強課題組在《自然通訊》（Nature Communications）在線發(fā)表了題為“運用電子突觸進行人臉分類”（“Face Classification using Electronic Synapses”）的研究成果，將氧化物憶阻器的集成規(guī)模提高了一個數(shù)量級，首次實現(xiàn)了基于 1024 個氧化物憶阻器陣列的類腦計算。

該成果在最基本的單個憶阻器上實現(xiàn)了存儲和計算的融合，采用完全不同于傳統(tǒng)“馮 · 諾依曼架構(gòu)” 的體系，可以使芯片功耗降低到原千分之一以下。憶阻器被認(rèn)為是最具潛力的電子突觸器件，通過在器件兩端施加電壓，可以靈活地改變其阻值狀態(tài)，從而實現(xiàn)突觸的可塑性。

此外，憶阻器還具有尺寸小、操作功耗低、可大規(guī)模集成等優(yōu)勢。因此，基于憶阻器所搭建的類腦計算硬件系統(tǒng)具有功耗低和速度快的優(yōu)勢，成為國際研究熱點。

在神經(jīng)形態(tài)處理器方面，最為著名的就是 IBM 在 2014 年推出的 TrueNorth 芯片，該芯片包括 4096 個核心和 540 萬個晶體管，功耗 70mW，模擬了一百萬個神經(jīng)元和 2.56 億個突觸。

而在 2017 年，英特爾也推出一款能模擬大腦工作的自主學(xué)習(xí)芯片 Loihi，Loihi 由 128 個計算核心構(gòu)成，每個核心集成了 1024 個人工神經(jīng)元，整個芯片擁有超過個 13 萬個神經(jīng)元與 1.3 億個突觸連接，與人腦超過 800 億個神經(jīng)元相比，簡直是小巫見大巫，Loihi 的運算規(guī)模僅比蝦腦復(fù)雜一點點而已。

英特爾認(rèn)為該芯片適用于無人機與汽車自動駕駛，紅綠燈自適應(yīng)路面交通狀況，用攝像頭尋找失蹤人口等任務(wù)。

而在神經(jīng)形態(tài)芯片研究領(lǐng)域，清華大學(xué)類腦計算研究中心施路平等在 2015 年就推出了首款類腦芯片—“天機芯”，該芯片世界首次將人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks, ANNs）和脈沖神經(jīng)網(wǎng)絡(luò)（Spiking Neural Networks，SNNs）進行異構(gòu)融合，同時兼顧技術(shù)成熟并被廣泛應(yīng)用的深度學(xué)習(xí)模型與未來具有巨大前景的計算神經(jīng)科學(xué)模型，可用于諸如圖像處理、語音識別、目標(biāo)跟蹤等多種應(yīng)用開發(fā)。

在類腦 “自行” 車演示平臺上，集成 32 個天機一號芯片，實現(xiàn)了面向視覺目標(biāo)探測、感知、目標(biāo)追蹤、自適應(yīng)姿態(tài)控制等任務(wù)的跨模態(tài)類腦信息處理實驗。據(jù)悉，基于 TSMC 28nm 工藝的第二代天機芯片也即將推出，性能將會得到極大提升。

從 ISSCC2018 看人工智能芯片發(fā)展趨勢

在剛剛結(jié)束的計算機體系結(jié)構(gòu)頂級會議 ISSCC2018，“Digital Systems: Digital Architectures and Systems” 分論壇主席 Byeong-Gyu Nam 對人工智能芯片，特別是深度學(xué)習(xí)芯片的發(fā)展趨勢做了概括。深度學(xué)習(xí)依然今年大會最為熱門的話題。

相比較于去年大多數(shù)論文都在討論卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)問題，今年則更加關(guān)注兩個問題：其一，如果更高效地實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)，特別是針對手持終端等設(shè)備；其二，則是關(guān)于全連接的非卷積神經(jīng)網(wǎng)絡(luò)，如 RNN 和 LSTM 等。

同時，為了獲得更高的能效比，越來越多的研究者把精力放在了低精度神經(jīng)網(wǎng)絡(luò)的設(shè)計和實現(xiàn)，如 1bit 的神經(jīng)網(wǎng)絡(luò)。這些新型技術(shù)，使得深度學(xué)習(xí)加速器的能效比從去年的幾十 TOPS/W 提升到了今年的上百 TOPS/W。有些研究者也對數(shù)字 + 模擬的混合信號處理實現(xiàn)方案進行了研究。對數(shù)據(jù)存取具有較高要求的全連接網(wǎng)絡(luò)，有些研究者則借助 3-D 封裝技術(shù)來獲得更好的性能。

總結(jié)：對國產(chǎn)人工智能芯片的一點愚見

正如前文所述，在人工智能芯片領(lǐng)域，國外芯片巨頭占據(jù)了絕大部分市場份額，不論是在人才聚集還是公司合并等方面，都具有絕對的領(lǐng)先優(yōu)勢。而國內(nèi)人工智能初創(chuàng)公司則又呈現(xiàn)百家爭鳴、各自為政的紛亂局面；特別是每個初創(chuàng)企業(yè)的人工智能芯片都具有自己獨特的體系結(jié)構(gòu)和軟件開發(fā)套件，既無法融入英偉達和谷歌建立的生態(tài)圈，又不具備與之抗衡的實力。

國產(chǎn)人工智能芯片的發(fā)展，一如早年間國產(chǎn)通用處理器和操作系統(tǒng)的發(fā)展，過份地追求完全獨立、自主可控的怪圈，勢必會如眾多國產(chǎn)芯片一樣逐漸退出歷史舞臺。借助于 X86 的完整生態(tài)，短短一年之內(nèi)，兆芯推出的國產(chǎn)自主可控 x86 處理器，以及聯(lián)想基于兆芯 CPU 設(shè)計生產(chǎn)的國產(chǎn)計算機、服務(wù)器就獲得全國各地黨政辦公人員的高度認(rèn)可，并在黨政軍辦公、信息化等國家重點系統(tǒng)和工程中已獲批量應(yīng)用。

當(dāng)然，投身于 X86 的生態(tài)圈對于通用桌面處理器和高端服務(wù)器芯片來說無可厚非，畢竟創(chuàng)造一個如 Wintel 一樣的生態(tài)鏈已絕非易事，我們也不可能遇見第二個喬布斯和蘋果公司。

而在全新的人工智能芯片領(lǐng)域，對眾多國產(chǎn)芯片廠商來說，還有很大的發(fā)展空間，針對神經(jīng)網(wǎng)絡(luò)加速器最重要的就是找到一個具有廣闊前景的應(yīng)用領(lǐng)域，如華為海思麒麟處理器之于中科寒武紀(jì)的 NPU；否則還是需要融入一個合適的生態(tài)圈。

另外，目前大多數(shù)國產(chǎn)人工智能處理器都針對于神經(jīng)網(wǎng)絡(luò)計算進行加速，而能夠提供單芯片解決方案的很少；微控制器領(lǐng)域的發(fā)展，ARM 的 Cortex-A 系列和 Cortex-M 系列占據(jù)主角，但是新興的開源指令集架構(gòu) RISC-V 也不容小覷，完全值得眾多國產(chǎn)芯片廠商關(guān)注。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4742

瀏覽量
128972
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47314

瀏覽量
238650
英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3778

瀏覽量
91157

原文標(biāo)題：國內(nèi)AI芯片百家爭鳴，何以抗衡全球技術(shù)寡頭

文章出處：【微信號：gh_211d74f707ff，微信公眾號：重慶人工智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

嵌入式和人工智能究竟是什么關(guān)系?

理這些數(shù)據(jù)，提高系統(tǒng)的響應(yīng)速度和準(zhǔn)確性。此外，嵌入式系統(tǒng)還可以為人工智能提供安全和隱私保護，避免數(shù)據(jù)泄露和攻擊?？傊?，嵌入式系統(tǒng)和人工智能是相輔相成的，它們在許多領(lǐng)域都有廣闊的應(yīng)用前景。嵌入式系統(tǒng)

發(fā)表于 11-14 16:39

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

探討了人工智能如何通過技術(shù)創(chuàng)新推動能源科學(xué)的進步，為未來的可持續(xù)發(fā)展提供了強大的支持。首先，書中通過深入淺出的語言，介紹了人工智能在能源領(lǐng)域的基本概念和技術(shù)原理。這使得我對

發(fā)表于 10-14 09:27

AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

研究的進程。從蛋白質(zhì)結(jié)構(gòu)預(yù)測到基因測序與編輯，再到藥物研發(fā)，人工智能技術(shù)在生命科學(xué)的各個層面都發(fā)揮著重要作用。特別是像AlphaFold這樣的工具，成功解決了困擾生物學(xué)界半個多世紀(jì)的蛋白質(zhì)折疊問題，將

發(fā)表于 10-14 09:21

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

人工智能在科學(xué)研究中的核心技術(shù)，包括機器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)構(gòu)成了AI for Science的基石，使得AI能夠處理和分析復(fù)雜的數(shù)據(jù)集，從而發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和規(guī)律。 2. 高性能

發(fā)表于 10-14 09:16

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

。 5. 展望未來最后，第一章讓我對人工智能驅(qū)動的科學(xué)創(chuàng)新未來充滿了期待。隨著技術(shù)的不斷進步和應(yīng)用場景的拓展，AI將在更多領(lǐng)域發(fā)揮關(guān)鍵作用，從基礎(chǔ)科學(xué)到應(yīng)用科學(xué)，從理論研究到實踐應(yīng)用

發(fā)表于 10-14 09:12

risc-v在人工智能圖像處理應(yīng)用前景分析

RISC-V和Arm內(nèi)核及其定制的機器學(xué)習(xí)和浮點運算單元，用于處理復(fù)雜的人工智能圖像處理任務(wù)。四、未來發(fā)展趨勢隨著人工智能技術(shù)的不斷發(fā)展和普及，RISC-V在人工智能圖像處理領(lǐng)域的應(yīng)用前景

發(fā)表于 09-28 11:00

人工智能ai4s試讀申請

目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題，本書對ai4s基本原理和原則，方法進行描訴，有利于總結(jié)經(jīng)驗，擬按照要求準(zhǔn)備相關(guān)體會材料?？茨芊裼兄谌腴T和提高ss

發(fā)表于 09-09 15:36

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新

大力發(fā)展AI for Science的原因。第2章從科學(xué)研究底層的理論模式與主要困境，以及人工智能三要素（數(shù)據(jù)、算法、算力）出發(fā)，對AI for Science的技術(shù)支撐進行解讀。第3章介紹了在

發(fā)表于 09-09 13:54

報名開啟！深圳（國際）通用人工智能大會將啟幕，國內(nèi)外大咖齊聚話AI

，得到了華為、騰訊、優(yōu)必選、中煤科工、中國聯(lián)通、云天勵飛、考拉悠然、智航、力維智聯(lián)等國內(nèi)人工智能企業(yè)的深度參與和大力支持。報名后即可到現(xiàn)場領(lǐng)取禮品，總計5000份，先到先選！點擊報名：https://bbs.elecfans.com/jishu_2447254_1_1.html

發(fā)表于 08-22 15:00

FPGA在人工智能中的應(yīng)用有哪些？

定制化的硬件設(shè)計，提高了硬件的靈活性和適應(yīng)性。綜上所述，F(xiàn)PGA在人工智能領(lǐng)域的應(yīng)用前景廣闊，不僅可以用于深度學(xué)習(xí)的加速和云計算的加速，還可以針對特定應(yīng)用場景進行定制化計算，為人工智能技術(shù)的發(fā)展提供有力支持。

發(fā)表于 07-29 17:05

人工智能駕駛技術(shù)包括哪些技術(shù)

人工智能駕駛技術(shù)，也稱為自動駕駛技術(shù)，是一種利用計算機視覺、機器學(xué)習(xí)、人工智能等多種先進技術(shù)，使汽車在無人干預(yù)的情況下自主行駛的

發(fā)表于 07-23 16:31 ?1255次閱讀

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)（SC171開發(fā)套件V2）

Aidlite-SDK模型推理 https://v2.docs.aidlux.com/sdk-api/aidlite-sdk/aidlite-python 人工智能 5G AIoT技術(shù)實踐入門與探索_V2 59分

發(fā)表于 05-10 16:46

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)（SC171開發(fā)套件V1）

課程類別課程名稱視頻課程時長視頻課程鏈接課件鏈接 人工智能 參賽基礎(chǔ)知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件：參賽基礎(chǔ)知識指引

發(fā)表于 04-01 10:40

國內(nèi)首個生成式人工智能安全技術(shù)文件發(fā)布，燧原科技深度參編

近日，全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會（TC260）正式發(fā)布了《生成式人工智能服務(wù)安全基本要求》（以下簡稱《基本要求》），是國內(nèi)首個面向AIGC服務(wù)安全領(lǐng)域的技術(shù)文件，將有助于提高生成式

發(fā)表于 03-12 10:35 ?705次閱讀

嵌入式人工智能的就業(yè)方向有哪些?

。 國內(nèi)外科技巨頭紛紛爭先入局，在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時，國內(nèi)的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業(yè)的方向有哪些呢

發(fā)表于 02-26 10:17

搜索歷史

從國外技術(shù)寡頭形勢入手，窺探國內(nèi)人工智能前景

評論

嵌入式和人工智能究竟是什么關(guān)系?

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

risc-v在人工智能圖像處理應(yīng)用前景分析

人工智能ai4s試讀申請

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新

報名開啟！深圳（國際）通用人工智能大會將啟幕，國內(nèi)外大咖齊聚話AI

FPGA在人工智能中的應(yīng)用有哪些？

人工智能駕駛技術(shù)包括哪些技術(shù)

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)（SC171開發(fā)套件V2）

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)（SC171開發(fā)套件V1）

國內(nèi)首個生成式人工智能安全技術(shù)文件發(fā)布，燧原科技深度參編

嵌入式人工智能的就業(yè)方向有哪些?