來源:ST社區(qū)
經(jīng)過長期的發(fā)展和探索,在近幾年人工智能不斷取得突破性的進(jìn)展,無論是人臉識(shí)別、語音識(shí)別、機(jī)器翻譯、視頻監(jiān)控,還是交通規(guī)劃、無人駕駛、智能陪伴、輿情監(jiān)控、智慧農(nóng)業(yè)等,人工智能似乎涵蓋了人類生產(chǎn)生活的方方面面。未來是人工智能的時(shí)代,作為實(shí)現(xiàn)人工智能技術(shù)的重要基石,AI智能芯片擁有巨大的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位。
AI智能芯片其實(shí)是屬于高端芯片的一類,近兩年在中美貿(mào)易爭端的背景下,我國的芯片產(chǎn)業(yè)被頻頻“點(diǎn)穴”,這也讓我們開始重視芯片的發(fā)展。別看一塊小小的芯片,內(nèi)部集成數(shù)以億計(jì)的電路, 廣泛用于電腦、手機(jī)、家電、汽車、高鐵、電網(wǎng)、醫(yī)療儀器、機(jī)器人、工業(yè)控制等各種電子產(chǎn)品和系統(tǒng),它是各國競相角逐的“國之重器”,也是一個(gè)國家高端制造能力的綜合體現(xiàn)。如果沒有芯片,中國的許多高端行業(yè)的發(fā)展均會(huì)收到限制,這也是美國要“圍堵”我們的重要原因。
縱觀芯片的歷史,雖然我國長期處于追趕態(tài)勢,但與發(fā)達(dá)國家差距仍然非常大。芯片到底是什么?又是如何一步一步發(fā)展到AI智能芯片的程度的?本文以芯片到AI智能芯片的發(fā)展歷史為軌跡,來了解下AI智能芯片的“前世今生”。
概述芯片的起源史
我們看到的小小芯片,卻演繹著這個(gè)世界尖端的科技,它遍布了消費(fèi)電子、汽車電子、工業(yè)自動(dòng)化、金融系統(tǒng)、國防軍工等各個(gè)領(lǐng)域,為各行各業(yè)實(shí)現(xiàn)信息化、 智能化奠定了基礎(chǔ),芯片的發(fā)展正在改變著這個(gè)世界。
關(guān)于芯片的發(fā)展可以追溯到晶體管的誕生。在1947年,科學(xué)家威廉·肖克利、約翰·巴頓和沃特·布拉頓三人在美國貝爾實(shí)驗(yàn)室發(fā)明了全球第一個(gè)晶體管,他們也因此共同榮獲了1956年諾貝爾物理學(xué)獎(jiǎng)。在這之前人類已經(jīng)發(fā)明了電子管,在1942使用了17468只電子管、7200只電阻、10000只電容、50萬條線,耗電量150千瓦制造了第一臺(tái)計(jì)算機(jī),這是一個(gè)占地150平方米、重達(dá)30噸的龐然大物。如果可以把這些分立器件和線路集中制作在一塊介質(zhì)基片上,可以大大縮小體積,提高可靠性,這就是初期集成電路的構(gòu)想。晶體管的出現(xiàn)使這種想法成為了可能,它替代了真空管的功能,很快為電子計(jì)算機(jī)所用,它把電子管做的計(jì)算機(jī)縮小為幾個(gè)機(jī)柜。
1958年,在德州儀器(Texas Instruments,TI)就職的杰克·基爾比以鍺(Ge)襯底,將幾個(gè)晶體管、電阻、電容連接在一起,成功研制出世界上第一塊集成電路。雖然看起來并不美觀,但事實(shí)證明,其工作效能要比使用離散的部件要高得多。時(shí)隔42年之后杰克·基爾比也因此榮獲諾貝爾物理學(xué)獎(jiǎng)。在杰克·基爾發(fā)明基于鍺的集成電路后的幾個(gè)月,羅伯特·諾伊斯相繼發(fā)明了基于硅(Si)的集成電路,當(dāng)今半導(dǎo)體大多數(shù)應(yīng)用的就是基于硅的集成電路。
集成電路的產(chǎn)生使得所有元件在結(jié)構(gòu)上已組成一個(gè)整體,使電子元件向著微小型化、低功耗、智能化和高可靠性方面邁進(jìn)了一大步。芯片即是將集成電路制作在一小塊半導(dǎo)體晶片上,然后封裝在一個(gè)管殼內(nèi),成為具有所需電路功能的微型結(jié)構(gòu)。
如今隨著工藝的不斷發(fā)展,芯片的集成度越來越高,按照戈登·摩爾1965年提出的摩爾定律的發(fā)展趨勢——一個(gè)芯片上的晶體管數(shù)量大約每18-24個(gè)月翻一倍,制程從0.5微米、0.35微米、0.25微米、0.18微米、0.15微米、0.13微米、90納米、65納米、45納米、32納米、28納米、22納米、14納米,一直發(fā)展到現(xiàn)在的10納米、7納米、5納米……近幾年,業(yè)界開始面臨著摩爾定律失效的問題,因?yàn)殡S著硅片上線路密度的增加,其復(fù)雜性和差錯(cuò)率也將呈指數(shù)增長,科學(xué)家們正在思考從其他途徑來維持摩爾定律的發(fā)展趨勢。
處理器芯片的發(fā)展史
形形色色芯片種類繁多,但不外乎模擬芯片和數(shù)字芯片。模擬芯片用于測量模擬世界的一切感知,比如圖像、聲音、觸感、溫度、濕度等都可以歸到其中。數(shù)字芯片則包含處理器(CPU、GPU、MCU、DSP等)、存儲(chǔ)器(DRAM、NAND Flash、NOR Flash)和邏輯IC(手機(jī)基帶、以太網(wǎng)芯片)等等。
在電子信息技術(shù)快速發(fā)展的今天,我們的身邊離不開PC、手機(jī)、平板、數(shù)碼相機(jī)、汽車電子、家用電器,這些電子產(chǎn)品之所以能夠與人交互,是因?yàn)樗鼈兊膬?nèi)部都使用到了一種芯片——處理器。在不同的應(yīng)用場景下誕生了各種類型的處理器,它們有不同的運(yùn)算速度、不一樣的成本、不一樣的架構(gòu)、不一樣的功能。讓我們打開時(shí)間長廊了解當(dāng)前最熱門的幾類處理器的發(fā)展歷史。
CPU(Central Processing Unit)是大家最不陌生的,我們現(xiàn)在所認(rèn)識(shí)的CPU是一塊超大規(guī)模的集成電路,在對(duì)計(jì)算性能要求較高的PC和服務(wù)器中廣泛應(yīng)用。但是CPU的發(fā)展并不是一觸而就的,簡單來說可以映射為Intel公司的發(fā)展歷史。
1968年7月,羅伯特·諾伊斯和戈登·摩爾從Fairchild Semiconductor(仙童半導(dǎo)體/飛兆半導(dǎo)體)公司辭職,在硅谷創(chuàng)辦了Intel(英特爾)公司,Intel為源自Integrated Electronics(集成電子)的縮寫,分別選取了Integrated的“Int”以及Electronics中的“el”。當(dāng)時(shí)戈登·摩爾是Fairchild的研發(fā)負(fù)責(zé)人,也正是著名的摩爾定律奠定者,而羅伯特·諾伊斯更是領(lǐng)袖級(jí)的人物,被視為“硅谷之父”。從此偉大的Intel開啟了PC市場的輝煌,在這50年的處理器發(fā)展史上,Intel啟到了至關(guān)重要的推動(dòng)作用。
Intel的第一款處理器是于1971年開發(fā)的4位微處理器4004,它片內(nèi)只集成了2250個(gè)晶體管,晶體管之間的距離是10微米,只能執(zhí)行4位運(yùn)算,組頻只有0.74MHz。當(dāng)時(shí)是一家日本計(jì)算器公司找Intel定制設(shè)計(jì)微處理器系統(tǒng)用于公司的打印式計(jì)算器產(chǎn)品上,Intel把4004作為CPU,組合RAM芯片4001、ROM芯片4002以及寄存器芯片4003,推出了MCS-4世界上首個(gè)商用微處理器系統(tǒng)。由于Intel交付延期的原因,退還了該公司部分費(fèi)用,但是達(dá)成了可以在計(jì)算器之外的市場自由出售4004芯片的協(xié)議,這是具有劃時(shí)代的意義的,自此Intel正式進(jìn)軍處理器市場,從4004開始不斷壯大。
1972年推出8008,處理能力是4004的兩倍,可處理8位數(shù)據(jù)、組頻2MHz,集成晶體管的數(shù)量達(dá)到3500個(gè)。
1974年推出8080,不但具備更復(fù)雜的指令集,還采用了40針封裝,兩項(xiàng)革新極大的改變了微處理器行業(yè)。
1978年推出8086,可處理16位數(shù)據(jù)、組頻5MHz,這就是首顆x86芯片。IBM在自己首臺(tái)PC中采用了8086的精簡版8088,而這臺(tái)PC被尊為PC之父。
之后相繼推出了80286、80386、80486,直到1993年推出Pentium處理器,從此Intel不再以數(shù)字命名處理器。Pentium是x86系列一大革新,它采用了0.60微米制造工藝技術(shù),晶體管數(shù)大幅提高到320萬個(gè),增強(qiáng)了浮點(diǎn)運(yùn)算功能、并把十年未變的工作電壓降至3.3V,性能達(dá)到了工作站處理器的水平。
隨后十年里,Intel又推出了很多代的Pentium處理器,到現(xiàn)在大家普遍使用的CPU已經(jīng)發(fā)展為core系列i3i5i7,Intel在不斷地技術(shù)創(chuàng)新中推動(dòng)著處理器的革新升級(jí),從微米到納米制程、從4位到64位處理、從幾千個(gè)晶體管到幾億個(gè)、從幾百K到幾G的組頻……為世界各地的用戶帶來更加精彩的體驗(yàn)。
如同每臺(tái)PC都有一個(gè)作為大腦的CPU在指揮一樣,在工業(yè)控制器、醫(yī)療儀器、家用電器、便攜式設(shè)備中也都有一個(gè)“大腦”在擔(dān)負(fù)著控制、運(yùn)算、信號(hào)轉(zhuǎn)換及處理、通信等工作。在PC中僅僅一個(gè)CPU是不夠的,還需要內(nèi)存、硬盤等外設(shè)的協(xié)作,這使得PC的體積很大。其中的原因是一個(gè)芯片單位面積的門電路數(shù)量是有限的,為了滿足高性能只能把芯片內(nèi)所有的晶體管都設(shè)計(jì)為CPU。當(dāng)我們?yōu)榱俗非蟾◇w積而允許犧牲性能時(shí),就可以將CPU、存儲(chǔ)器、I/O……集成在一個(gè)芯片上,這樣減小了系統(tǒng)的尺寸,降低設(shè)備的成本,這類處理器就發(fā)展成了MCU(Microcontroller Unit)。MCU正適合在消費(fèi)電子、工業(yè)控制、汽車電子、消費(fèi)電子等領(lǐng)域廣泛應(yīng)用。
MCU經(jīng)過不斷地研究和發(fā)展,歷經(jīng)了從4位、8位、16位到現(xiàn)在32位的發(fā)展歷史。不過早期的MCU發(fā)展仍然是以Intel設(shè)計(jì)的4位、8位、16位微處理器為軌跡,直到ARM處理器的橫空出現(xiàn)。
1978年,由奧地利籍物理學(xué)博士赫爾曼·豪澤(Hermann Hauser)和他的一個(gè)朋友,名叫Chris Curry的工程師,在英國劍橋創(chuàng)辦了CPU公司(Cambridge Processing Unit),主要業(yè)務(wù)是在當(dāng)?shù)厥袌鲈O(shè)計(jì)和制造電子設(shè)備,他們的第一代產(chǎn)品Acorn System 1居然是做賭博機(jī)的微控制器系統(tǒng)。
隨著公司經(jīng)營逐漸步入正軌后,在1979年,CPU公司改名為Acorn Computer Ltd(Acorn計(jì)算機(jī)公司)。Acorn公司的機(jī)遇來自于1981年的一個(gè)項(xiàng)目,當(dāng)時(shí)英國政府與英國廣播公司BBC展開了一個(gè)計(jì)劃,他們計(jì)劃在整個(gè)英國播放一套提高電腦普及水平的節(jié)目,并且政府會(huì)出資一半費(fèi)用為英國的每一間教室購置一臺(tái)電腦,他們希望Acorn公司能生產(chǎn)一款與之相配套的電腦。
這對(duì)Acorn公司是一個(gè)難得的機(jī)遇,同時(shí)也是一個(gè)巨大的挑戰(zhàn),因?yàn)樗麄冊(cè)谶x擇CPU時(shí)陷入了困境。當(dāng)時(shí),CPU的發(fā)展潮流正在從8位變成16位,起先Acorn公司打算使用美國國家半導(dǎo)體或者摩托羅拉公司的16位芯片,但是評(píng)估后發(fā)現(xiàn)芯片執(zhí)行速度太慢,售價(jià)也太貴。于是轉(zhuǎn)而向Intel尋求合作,希望對(duì)方提供關(guān)于80286處理器的設(shè)計(jì)資料和一些樣品,但是遭到了Intel的拒絕,備受打擊的Acorn公司決定自主研發(fā)芯片。
當(dāng)時(shí)來自劍橋大學(xué)的計(jì)算機(jī)科學(xué)家Sophie Wilson和Steve Furber芯片研發(fā)負(fù)責(zé)人,前者主攻指令集開發(fā),后者負(fù)責(zé)芯片設(shè)計(jì)。他們采用了美國加州大學(xué)伯克利分校的David Patterson教授在1979年提出了RISC指令集架構(gòu),這恰好可以滿足他們的需求。
RISC(reduced instruction set computer)簡化的指令集是相對(duì)于Intel在內(nèi)的處理器所采用的CISC(complex instruction set computer)復(fù)雜指令集的一個(gè)概念。隨著CISC指令集的發(fā)展,有越來越多的指令加入其中,但實(shí)際上整個(gè)程序的80%只使用了約20%的指令,剩余20%的程序卻使用了80%的指令。David Patterson教授主張硬件應(yīng)該專心加速常用的指令,較為復(fù)雜的指令則利用常用的指令去組合。這樣一來RISC精簡了CISC指令種類和格式,簡化尋址方式,達(dá)到省電高效的效果。
在1985年Acorn推出了他們自己的第一代32位、6MHz的處理器ARM1(Acorn RISC Machine),對(duì)標(biāo)的是Intel的80286處理器,不過就在同一年,Intel發(fā)布了80386使得ARM1完全處于劣勢地位。由于ARM采用了RISC精簡指令集,所以功耗小、價(jià)格便宜,特別合適移動(dòng)設(shè)備,正好可以選擇與Intel不同的設(shè)計(jì)路線——Intel持續(xù)邁向x86高效能設(shè)計(jì),ARM則專注于低成本、低功耗的研發(fā)方向。
之后Acorn陸續(xù)推出了ARM2、ARM3等幾個(gè)系列。由于適合于移動(dòng)設(shè)備,因此在1990年,Acorn與蘋果一起成立了一家ARM(Advanced RISC Machines)公司,蘋果投了150萬英鎊,芯片廠商VLSI投了25萬英鎊,Acorn本身以150萬英鎊的知識(shí)產(chǎn)權(quán)和12名工程師入股。此時(shí)ARM做出了一個(gè)改變產(chǎn)品策略的決定——不再生產(chǎn)芯片,而以授權(quán)的方式,將芯片設(shè)計(jì)方案轉(zhuǎn)讓給其他公司,收取一次性技術(shù)授權(quán)費(fèi)用和版稅提成。正是這種模式,開創(chuàng)了屬于ARM的全新時(shí)代,形成了一個(gè)以ARM為核心的生態(tài)圈。
1991年,ARM將產(chǎn)品授權(quán)給英國GEC Plessey半導(dǎo)體公司。1993年,ARM將產(chǎn)品授權(quán)給Cirrus Logic和德州儀器(Texas Instruments,TI)。此后,包括三星、夏普等公司都參與到了這種授權(quán)模式中,與ARM建立了合作關(guān)系,到目前為止ARM合作社區(qū)包含了1200多位伙伴。
ARM的真正爆發(fā)還是得益于移動(dòng)手機(jī)的爆發(fā),特別是Iphone的熱銷,于是全球移動(dòng)應(yīng)用都徹底綁定在ARM指令集上,除了蘋果應(yīng)用外,谷歌推出了Android系統(tǒng),也是基于ARM指令集,就連intel的聯(lián)盟微軟公司,也宣布Windows8平臺(tái)將支持ARM架構(gòu),這使ARM在移動(dòng)設(shè)備市場的份額超過90%。
當(dāng)前ARM處理器家族成員以Cortex命名,分別為Cortex-A、Cortex-R、Cortex-M,它們?cè)谔匦陨厢槍?duì)于不同的應(yīng)用場景。Cortex-A針對(duì)智能手機(jī)、平板電腦這類消費(fèi)娛樂產(chǎn)品,Cortex-R面向如汽車制動(dòng)系統(tǒng)、動(dòng)力傳動(dòng)這類解決方案,Cortex-M系列面向針對(duì)成本和功耗敏感的微控制器領(lǐng)域應(yīng)用。
可見ARM和是Intel截然相反的戰(zhàn)略路線,Intel一直以來堅(jiān)持全產(chǎn)業(yè)鏈商業(yè)模式,而ARM是開放的合作共贏模式,無論如何他們都是當(dāng)今處理器領(lǐng)域的巨人。
從CPU發(fā)展出來處理器除了MCU之外,另外比較熱門有DSP(Digital Signal Processing/Processor)數(shù)字信號(hào)處理和FPGA(Field-Programmable Gate Array)現(xiàn)場可編程門陣列。
DSP主要應(yīng)用于數(shù)字信號(hào)處理這門新興的學(xué)科技術(shù)。在DSP出現(xiàn)之前數(shù)字信號(hào)處理是依靠微處理器來完成的,隨著越來越龐大信息量,微處理器無法滿足快速傅立葉變換、數(shù)字濾波、矩陣運(yùn)算等需要大量乘加法運(yùn)算參與的高速信號(hào)處理,于是迫切的需要一類快速處理數(shù)字信號(hào)的處理器芯片。
1979年美國Intel公司發(fā)布的商用可編程器件2920是DSP芯片的一個(gè)主要里程碑,不過內(nèi)部并沒有現(xiàn)代DSP芯片所必須有的單周期乘法器。在1980年,日本NEC公司推出的mPD7720是第一個(gè)具有硬件乘法器的商用DSP芯片,從而被認(rèn)為是第一塊單片DSP。
隨著大規(guī)模集成電路技術(shù)和半導(dǎo)體技術(shù)的發(fā)展,DSP朝著高速度、低功耗、功能強(qiáng)大等方向快速提高,推動(dòng)著數(shù)字信號(hào)處理技術(shù)在各個(gè)研究領(lǐng)域中廣泛的應(yīng)用。美國德州儀器公司(Texas Instruments,TI)在1982年推出TMS32010及其系列產(chǎn)品,運(yùn)算速度已經(jīng)比微處理器快了幾十倍,到目前無論是運(yùn)算速度、存儲(chǔ)容量,還是系統(tǒng)集成度都已經(jīng)有了質(zhì)的飛躍,不僅在通信、計(jì)算機(jī)領(lǐng)域大顯身手,而且逐漸滲透到人們的日常生活領(lǐng)域。
FPGA主要針對(duì)于定制專用集成電路(ASIC)的應(yīng)用。早期設(shè)計(jì)師希望ASIC的設(shè)計(jì)周期盡可能短,最好是在實(shí)驗(yàn)室里設(shè)計(jì)出合適的芯片,并且立即投入實(shí)際應(yīng)用之中,于是出現(xiàn)了現(xiàn)場可編程邏輯器件(FPLD)。FPGA則是在PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。
1985年,Xilinx公司推出的全球第一款FPGA產(chǎn)品XC2064,采樣用2μm工藝,包含64個(gè)邏輯模塊和85000個(gè)晶體管,門數(shù)量不超過1000個(gè)。到了2007年,F(xiàn)PGA業(yè)界雙雄Xilinx和Altera公司推出了采用最新65nm工藝的FPGA產(chǎn)品,其門數(shù)量已經(jīng)達(dá)到千萬級(jí),晶體管個(gè)數(shù)更是超過10億個(gè)。隨后的工藝從150nm 、130nm、90nm、65nm……FPGA也在不斷地緊跟并推動(dòng)著半導(dǎo)體工藝的進(jìn)步。
FPGA相比于CPU、MCU來說,它利用門電路直接并行運(yùn)算,速度非常快,同時(shí)可以通過編程語言自由定義門電路和存儲(chǔ)器之間的布線,定制芯片方案,目前是AI芯片非常合適的方案之一。
AI智能芯片的崛起史
對(duì)于AI芯片可以理解為面向 AI應(yīng)用的處理器芯片,它屬于AI和處理器芯片兩大領(lǐng)域的結(jié)合。當(dāng)前隨著人工智能的蓬勃發(fā)展,AI芯片已經(jīng)成為了最炙手可熱的投資領(lǐng)域,除了Intel、Nvidia、ARM這些老牌的芯片廠商外,Google、Facebook、微軟這樣的互聯(lián)網(wǎng)公司也進(jìn)軍AI芯片市場。
AI應(yīng)用中通常包括基于深度神經(jīng)網(wǎng)絡(luò)的各類算法,以及圖像識(shí)別、視頻檢索、語音識(shí)別、聲紋檢測、搜索引擎優(yōu)化、自動(dòng)駕駛等任務(wù),其中最關(guān)鍵的能力是“訓(xùn)練”和“推理”,而“訓(xùn)練”是從海量的數(shù)據(jù)中完成特征的學(xué)習(xí),這需要極高的計(jì)算性能和較高的精度。為了支持AI的計(jì)算性能和精度,理想的AI芯片需要具備高度并行的處理能力,支持各種數(shù)據(jù)類型的浮點(diǎn)計(jì)算,以及用于存儲(chǔ)海量數(shù)據(jù)的存儲(chǔ)器帶寬。
目前適合AI的處理器有GPU(graphics processing unit)、FPGA(field-programmable gate array)、DSP(digital signal processing)和ASIC(application specific integrated circuits)等,業(yè)界各大廠商他們結(jié)合自身的特點(diǎn)推出了不同的方案,目前主要有兩種設(shè)計(jì)思路:利用已有的GPU、FPGA、DSP、多核處理器等芯片實(shí)現(xiàn);設(shè)計(jì)專用的ASIC芯片實(shí)現(xiàn)。這也成為了爭論的焦點(diǎn)——哪個(gè)AI芯片方案是最佳的選擇?
GPU是圖形處理器,它的核數(shù)遠(yuǎn)超過CPU,由多核組成的大規(guī)模并行計(jì)算架構(gòu)專用于同時(shí)處理多重任務(wù)。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中計(jì)算量極大,而且數(shù)據(jù)和運(yùn)算是高度并行的,GPU具備進(jìn)行海量數(shù)據(jù)并行運(yùn)算的能力并且為浮點(diǎn)矢量運(yùn)算配備了大量計(jì)算資源,與深度學(xué)習(xí)的需求不謀而合,因此最先被引入運(yùn)行深度學(xué)習(xí)算法,成為高性能計(jì)算領(lǐng)域的主力芯片之一。Intel雖然也有GPU,但主要為集成顯卡使用。Nvidia一直在獨(dú)立顯卡領(lǐng)域具有絕對(duì)優(yōu)勢,因此Nvidia的GPU是目前應(yīng)用最廣的通用AI硬件計(jì)算平臺(tái),在人工智能領(lǐng)域無疑已占據(jù)足夠的優(yōu)勢。
Nvidia依靠自己在AI領(lǐng)域建立的優(yōu)勢,開發(fā)出CUDA平臺(tái),提供了cuDNN、NCCL、cuBLAS等諸多SDK為合作伙伴提供開發(fā)工具,逐步讓眾多合作伙伴熟悉這種生態(tài),進(jìn)一步鞏固它在AI領(lǐng)域的領(lǐng)導(dǎo)地位。Nvidia的芯片應(yīng)用十分普遍,現(xiàn)在所有的AI軟件庫都支持使用CUDA加速,包括谷歌的Tensorflow,F(xiàn)acebook的Caffe,亞馬遜的MXNet等。當(dāng)然Nvidia的GPU在復(fù)雜程序邏輯控制上仍然存在劣勢,需要使用高性能CPU配合來構(gòu)成完整的AI系統(tǒng)。為了彌補(bǔ)自己在CPU方面的弱勢,在2019年宣布其用于超級(jí)計(jì)算機(jī)的加速平臺(tái)將對(duì)ARM架構(gòu)CPU支持,計(jì)劃利用其芯片與使用ARM架構(gòu)的CPU協(xié)作打造應(yīng)用人工智能的超級(jí)計(jì)算機(jī)。
ASIC是一種為專用目的而定制設(shè)計(jì)的芯片,在大規(guī)模量產(chǎn)的情況下相比于FPGA性能更強(qiáng)、體積更小、功耗更低、成本更低、可靠性更髙等優(yōu)點(diǎn)。近年來越來越多的公司開始采用ASIC芯片進(jìn)行深度學(xué)習(xí)算法加速,其中最為突出的是 Google為機(jī)器學(xué)習(xí)定制的專用處理器芯片TPU(Tensor Processor Unit),它支持256×256個(gè)矩陣乘法單元、非線性神經(jīng)元計(jì)算單元等模塊,專為Google的深度學(xué)習(xí)框架TensorFlow而設(shè)計(jì)。
TPU受到業(yè)界的關(guān)注是從Google的AlphaGo大顯神威后開始,最新一代 AlphaGo Zero已經(jīng)將CPU結(jié)合GPU搭建方案升級(jí)為了TPU。在2018年Google I/O開發(fā)者大會(huì)上正式發(fā)布了TPU3.0,其性能宣稱比去年的TUP2.0提升8倍之多,達(dá)到每秒1000萬億次浮點(diǎn)計(jì)算,比同時(shí)期的GPU或CPU平均提速15~30倍,能效比提升30~80倍。
FPGA其實(shí)也是一種定制芯片,在靈活度方面,它介于CPU、GPU等通用處理器和專用集成電路ASIC之間,它不像專用集成電路ASIC那樣由芯片廠商固化編程,而是在硬件固定的前提下,允許設(shè)計(jì)者靈活使用軟件進(jìn)行編程,因此它的開發(fā)周期比ASIC短,不過相對(duì)于批量出貨ASIC,單個(gè)FPGA的成本會(huì)更高。在性能方面,F(xiàn)PGA與 GPU相比,具備更強(qiáng)的計(jì)算能力和更低的功耗。以FPGA方案為代表的廠商主要有Intel和Xilinx。
Intel已經(jīng)錯(cuò)失了移動(dòng)設(shè)備的崛起,不想再錯(cuò)過對(duì)AI芯片領(lǐng)域的布局。為了增強(qiáng)在AI芯片領(lǐng)域的競爭力,2015年12月Intel斥資167億美元收購了Altera公司,這是Intel有史以來金額最大的一次收購,意味著Intel希望實(shí)現(xiàn)CPU和FPGA深層次結(jié)合來布局AI芯片市場。2017年Intel又收購Mobileye,希望通過整合AI算法以獲得關(guān)鍵的優(yōu)勢。2018年,Intel宣布收購芯片制造商eASIC,提高FPGA速度,降低FPGA成本和能耗需求。Intel通過霸氣的購買將自己提升到AI芯片“玩家”的前列。當(dāng)前Intel有兩套FPGA的戰(zhàn)略:打造CPU+FPGA混合器件,讓FPGA與處理器協(xié)同工作;基于Arria FPGA或Stratix FPGA打造可編程加速卡。微軟在2018年的Build大會(huì)上公布的Project Brainwave深度學(xué)習(xí)加速平臺(tái),就是基于Intel Arria FPGA和Stratix FPGA芯片所打造的。
Xilinx是FPGA芯片技術(shù)的開創(chuàng)者,從2011年起,Xilinx提出全編程的理念,作為FPGA行業(yè)長期的霸主,Xilinx擁有超過2萬家下游客戶,其中亞馬遜AWS、以及中國的BAT云服務(wù)巨頭都推出了專門的云端 FPGA 實(shí)例來支持 AI 應(yīng)用。2018年Xilinx重磅推出全新一代AI芯片架構(gòu)ACAP,重磅推出全新一代AI芯片架構(gòu)ACAP,以及采用ACAP架構(gòu)的首款代號(hào)為Everest的AI芯片,將正面 “宣戰(zhàn)”Intel和Nvidia。同年Xilinx收購國內(nèi)三大AI芯片獨(dú)角獸之一的北京深鑒科技有限公司,該公司主攻終端人工智能,所采用基于FPGA來設(shè)計(jì)深度學(xué)習(xí)的加速器架構(gòu),可以靈活擴(kuò)展用于服務(wù)器端和嵌入式端。
另外DSP芯片主要用于處理視覺系統(tǒng)如圖像、視頻等方面的任務(wù),在自動(dòng)駕駛、安防監(jiān)控、無人機(jī)和移動(dòng)終端等領(lǐng)域最為常見。眾核處理器采用將多個(gè)處理核心整合在一起的處理器架構(gòu),主要面向高性能計(jì)算領(lǐng)域,作為CPU的協(xié)處理器存在,比如IBM CELL、Kalray MPPA和Intel Xeon Phi都是典型的眾核處理器。
總結(jié)
AI智能芯片未來的發(fā)展勢不可擋,從芯片的歷史來看,目前AI智能芯片仍然處于初期階段,未來在架構(gòu)和設(shè)計(jì)理念上仍然有巨大的突破空間,這也提供給了我國“彎道超車”的機(jī)會(huì),在國家“2025中國智造”的指引下,國內(nèi)的科技巨頭阿里巴巴、騰訊、百度和華為都參與進(jìn)來,在全力發(fā)展自己AI智能芯片以突破“重圍”,讓我們一起拭目以待。
審核編輯黃昊宇
-
AI芯片
+關(guān)注
關(guān)注
17文章
1890瀏覽量
35096
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論