4月19日,有消息稱,阿里巴巴達(dá)摩院正在研發(fā)一款神經(jīng)網(wǎng)絡(luò)芯片——Ali-NPU,主要運(yùn)用于圖像視頻分析、機(jī)器學(xué)習(xí)等AI推理計(jì)算。按照設(shè)計(jì),這款芯片性能將是目前市面上主流CPU、GPU架構(gòu)AI芯片的10倍,而制造成本和功耗僅為一半,其性價(jià)比超過(guò)40倍。
事實(shí)上,隨著人工智能產(chǎn)業(yè)的發(fā)展,CPU、GPU、TPU、DPU、NPU、BPU……各種PU也開始爆發(fā)式出現(xiàn)。那么,究竟這些PU在性能和使用上有何異同,又有哪些優(yōu)劣呢?
CPU:計(jì)算力占據(jù)部分很小 擅長(zhǎng)邏輯控制
CPU是最為普遍,最為常見的中央處理器。主要包括運(yùn)算器(ALU)和控制單元(CU),除此之外還包括若干寄存器、高速緩存器和它們之間通訊的數(shù)據(jù)、控制及狀態(tài)的總線。依循馮諾依曼架構(gòu),CPU需要大量空間放置存儲(chǔ)單元和控制邏輯,計(jì)算能力只占據(jù)很小的部分,更擅長(zhǎng)邏輯控制。
CPU結(jié)構(gòu)簡(jiǎn)化圖
GPU:計(jì)算單元數(shù)量眾多 但無(wú)法單獨(dú)使用
GPU的誕生可以解決CPU在計(jì)算能力上的天然缺陷。采用數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,善于處理圖像領(lǐng)域的運(yùn)算加速。但GPU的缺陷也很明顯,即無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。
CPU、GPU微架構(gòu)對(duì)比圖
TPU:高性能低功耗 然則開發(fā)周期長(zhǎng)、轉(zhuǎn)換成本高
谷歌專門為 TensorFlow 深度學(xué)習(xí)框架定制的TPU,是一款專用于機(jī)器學(xué)習(xí)的芯片。TPU可以提供高吞吐量的低精度計(jì)算,用于模型的前向運(yùn)算而不是模型訓(xùn)練,且能效更高。但它的缺陷主要是開發(fā)周期長(zhǎng)、可配置性能有限,缺乏靈活性且轉(zhuǎn)換成本高。
DPU:可實(shí)現(xiàn)快速開發(fā)與產(chǎn)品迭代
國(guó)際上,Wave Computing最早提出DPU。在國(guó)內(nèi),DPU最早是由深鑒科技提出,是基于Xilinx可重構(gòu)特性的FPGA芯片,設(shè)計(jì)專用深度學(xué)習(xí)處理單元,且可以抽象出定制化的指令集和編譯器,從而實(shí)現(xiàn)快速的開發(fā)與產(chǎn)品迭代。
深鑒“雨燕”DPU平臺(tái)
NPU:運(yùn)行效率提升 不支持大樣本訓(xùn)練
NPU是神經(jīng)網(wǎng)絡(luò)處理器,在電路層模擬人類神經(jīng)元和突觸,并且用深度學(xué)習(xí)指令集直接處理大規(guī)模的神經(jīng)元和突觸,一條指令完成一組神經(jīng)元的處理。相比于CPU和GPU的馮諾伊曼結(jié)構(gòu),NPU通過(guò)突觸權(quán)重實(shí)現(xiàn)存儲(chǔ)和計(jì)算一體化,從而提高運(yùn)行效率。但NPU也有自身的缺陷,比如不支持對(duì)大量樣本的訓(xùn)練。
BPU:比在CPU上用軟件實(shí)現(xiàn)更為高效 不可再編程
BPU是由地平線主導(dǎo)的嵌入式處理器架構(gòu)。第一代是高斯架構(gòu),第二代是伯努利架構(gòu),第三代是貝葉斯架構(gòu)。BPU主要是用來(lái)支撐深度神經(jīng)網(wǎng)絡(luò),比在CPU上用軟件實(shí)現(xiàn)更為高效。然而,BPU一旦生產(chǎn),不可再編程,且必須在CPU控制下使用。
從CPU、GPU的市場(chǎng)來(lái)看,已經(jīng)基本被英特爾、英偉達(dá)和AMD三分天下。而在ASIC框架下的TPU,只有谷歌的體量和實(shí)力才有開發(fā)專用加速的動(dòng)力。
推出DPU的深鑒科技有清華和斯坦福雙重學(xué)術(shù)背景,公司目前的兩條發(fā)展路線是:以芯片技術(shù)為主的純技術(shù)路線,以及基于技術(shù)的產(chǎn)品路線。其處理器做深度學(xué)習(xí)應(yīng)用端,不做訓(xùn)練端。目前,其深度壓縮技術(shù)可以將神經(jīng)網(wǎng)絡(luò)壓縮數(shù)十倍而不影響精度,還可以使用芯片存儲(chǔ)深度學(xué)習(xí)算法模型,減少內(nèi)存讀取次數(shù),降低運(yùn)行功耗。
去年底,地平線在創(chuàng)辦兩年后終于發(fā)布首款芯片——“征程”與“旭日”。目前,這兩款處理器都屬于嵌入式人工智能視覺芯片,分別面向智能駕駛和智能攝像頭。2018年CES上,英特爾和地平線還發(fā)布了基于伯努利架構(gòu)的新一代征程處理器,其發(fā)展路徑圖為:2018年,感知;2019年,建模;2020年,決策。
而因?yàn)榕c英特爾的合作,地平線不禁讓市場(chǎng)聯(lián)想到英特爾早前重金收購(gòu)的Mobileye。在嵌入式人工智能領(lǐng)域,Mobileye是業(yè)界領(lǐng)頭羊。地平線在英特爾的定位版圖是否是中國(guó)版Mobileye?但其創(chuàng)始人余凱的抱負(fù)是,地平線是要做中國(guó)的英特爾。
相較而言,阿里在三家中最為熱衷芯片布局,上述包括寒武紀(jì)、深鑒科技均有阿里參投。
-
阿里巴巴
+關(guān)注
關(guān)注
7文章
1616瀏覽量
47231 -
NPU
+關(guān)注
關(guān)注
2文章
286瀏覽量
18632
原文標(biāo)題:“芯痛”之下阿里苦心研發(fā)NPU AI芯片究竟哪款PU更厲害?
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論