這兩天,IBM低調(diào)地發(fā)了一個新聞,推出了一款類腦芯片“北極”(NorthPole),對比4nm節(jié)點實現(xiàn)的Nvidia H100 GPU相比,NorthPole的能效提高了五倍,成為當(dāng)之無愧是現(xiàn)在世界最強的AI芯片。
如此逆天的性能,但在國內(nèi),關(guān)于這款芯片的新聞卻寥寥無幾。那么,它究竟是何方神圣?
把腦子裝進芯片,就行了?
首先,IBM的“北極”NorthPole是一種類腦芯片,我們需要先了解什么是類腦芯片。
所謂類腦芯片,顧名思義,就是一種高度模擬人腦計算原理的芯片,基于對現(xiàn)代神經(jīng)科學(xué)的理解,反復(fù)思考如何從晶體管到架構(gòu)設(shè)計,算法以及軟件來模仿人腦的運算。如果把類腦芯片做得更像人腦,就會被賦予一個新的名字——神經(jīng)形態(tài)計算(Neuromorphic Computing)。
人類的思考方法與現(xiàn)在傳統(tǒng)的芯片存在許多區(qū)別,比如,人沒有單獨的存儲器,沒有動態(tài)隨機存取存儲器,沒有哈希層級結(jié)構(gòu),沒有共享存儲器等等。
“存儲”和“處理器”錯綜復(fù)雜地深繞在人腦里,在人腦的結(jié)構(gòu)中有“神經(jīng)元”的存在。在電腦中,以數(shù)字化核心相互交流基于事件的信息,叫做脈沖,這點和人腦傳遞信息的方式相似。
人類便從人腦中得到靈感,從而創(chuàng)造出這樣的芯片,來提升性能,成為真正的“人工智能”,甚至無限接近人類,獲得思考能力。
當(dāng)然,人腦很復(fù)雜,而且人們所制造出來的IC器件,也存在優(yōu)勢,所以人們最終目標(biāo)就是把這二者的優(yōu)勢融合起來。
總而言之,用人話來解釋,類腦芯片,就是結(jié)合生物大腦和人造器件各自優(yōu)點而設(shè)計制造出來的一種芯片,而它也會像人一樣思考,自我學(xué)習(xí)。
想造一顆這樣的芯片,可不是光變器件結(jié)構(gòu)就行的,而是從材料、器件、電路、架構(gòu)帶動算法和應(yīng)用改變的。一言蔽之,就是集合各種最先進的技術(shù),才能造出這樣的芯片。
雖然實現(xiàn)路徑很多,但奈何這種芯片技術(shù)難度太大了,且不說好不好造,設(shè)計出來就很難了,所以目前也在開拓階段,都還無法達到商業(yè)化水平。
但筆者了解到,之所以類腦芯片還未形成大規(guī)模商業(yè)化,一是因為設(shè)計難題依存,就拿英特爾、IBM都看好的CMOS型,多塊全數(shù)字異步設(shè)計的芯片互聯(lián)、芯片連接的有效性和時效性以及軟件層互連計算、分布式計算和靈活分區(qū)等問題都難以解決;二是制造、軟件和生態(tài)都要完全推翻,雖然硅基晶體管路線部分可復(fù)用,但底層不可能完全照搬,這就進一步加劇大規(guī)模商業(yè)化難度。
那,我們?yōu)樯顿M大力氣折騰類腦芯片?
類腦芯片實在太香了,筆者了解到,某些情況下,完美的神經(jīng)形態(tài)芯片可以用比傳統(tǒng)解決方案低1000倍的能耗來解決問題,這意味著我們可以在固定的功耗預(yù)算下,打包更多的芯片來解決更大規(guī)模的問題。
類腦芯片的超高能效比足夠讓我們牟足力氣研究和突破。拿一個最典型的例子來看,AlphaGo下棋打敗了人類,但人類只用了20瓦的大腦能耗,而AlphaGo是2萬瓦。
神經(jīng)形態(tài)芯片涉及的領(lǐng)域和機會,圖源丨Nature Computational Science
結(jié)構(gòu)上,目前全世界的類腦芯片基本都一致,都是由神經(jīng)元計算、突觸權(quán)重存儲、路由通信三部分構(gòu)成,同時采用與脈沖神經(jīng)網(wǎng)絡(luò)(SNN)模型。
但依據(jù)材料、器件、電路,分為模擬電路主導(dǎo)的神經(jīng)形態(tài)系統(tǒng)(數(shù)?;旌螩MOS型)、全數(shù)字電路神經(jīng)系統(tǒng)(數(shù)字CMOS型)、基于新型器件的數(shù)?;旌仙窠?jīng)形態(tài)系統(tǒng)(憶阻器是候選技術(shù))三種流派。
全球范圍內(nèi),參與神經(jīng)形態(tài)計算芯片開發(fā)的機構(gòu)主要包括三類:英特爾、IBM、高通等為代表的科技巨頭企業(yè),斯坦福、清華為代表的高校/研究機構(gòu)以及初創(chuàng)企業(yè)。
根據(jù)筆者之前與英特爾研究院對話中獲悉,數(shù)字CMOS型是目前最易產(chǎn)業(yè)化的形式,一方面,技術(shù)和制造成熟度高,另一方面,不存在模擬電路的一些顧慮和限制。
當(dāng)然,需要強調(diào)的是,數(shù)字CMOS型還只是最初階的類腦芯片,還算不上完全模擬人腦的神經(jīng)形態(tài)器件,只能算是一種借鑒神經(jīng)形態(tài)理念的一種芯片。但光是借鑒人腦,這種芯片就能夠碾壓世界上任何一種芯片。IBM的NorthPole就是這樣的數(shù)字CMOS型的類腦芯片。
類腦芯片主要類型和研發(fā)進度,制表丨電子工程世界
IBM的芯片,什么水平?
先說結(jié)論,應(yīng)該是迄今為止,人類水平最高的類腦芯片了,對于類腦芯片研究又上了一個臺階。
2008年,IBM就開始研究類腦計算了,2011年有了第一次突破性成果:IBM的第一代神經(jīng)突觸計算機芯片。研究人員制造出兩個這樣的芯片模型:一顆包含262,144個可編程突觸,一顆則包含65,536個可學(xué)習(xí)突觸,通過測試展示其可執(zhí)行導(dǎo)航、機器視覺、模式識別、關(guān)聯(lián)記憶和分類等簡單功能。
直到2014年,IBM在《科學(xué)》雜志發(fā)表了一篇文章,向全世界展示了劃時代的技術(shù)進展:一個符合DARPA SyNAPSE項目指標(biāo)的、擁有100萬神經(jīng)元的類腦處理器,即TureNorth,在當(dāng)時掀起了類腦芯片研究熱潮。
沉寂8年,“北極”(NorthPole)問世,NorthPole就是建立在IBM最后一顆類腦芯片TrueNorth基礎(chǔ)之上,彼時TrueNorth就有這比傳統(tǒng)微處理器低四個數(shù)量級的能效比,對比一下二者,就能很直觀感受到IBM技術(shù)的變化:
單個TrueNorth芯片包含4096個計算核心,可以實現(xiàn)神經(jīng)突觸和神經(jīng)元排列的動態(tài)映射。IBM TrueNorth系統(tǒng)的一個吸引人的功能是,單個芯片由54億個晶體管組成,僅消耗70mW的功率密度,僅占傳統(tǒng)計算單元的1/10000;
NorthPole采用12nm節(jié)點工藝制造,在800平方毫米內(nèi)集成了220億個晶體管,有256個內(nèi)核,在8位精度下,每個內(nèi)核每個周期可執(zhí)行2048次運算;在4位和2位精度下,運算次數(shù)有可能分別增加一倍和四倍。運行基于人工智能驅(qū)動的圖像識別算法速度是目前市場上同類芯片的22倍,能效是同類芯片的25倍。在不使用最先進工藝的情況下,NorthPole芯片能耗是使用最先進技術(shù)的人工智能芯片的1/5??傮w而言,NorthPole的速度大約是TrueNorth的4000倍。
結(jié)構(gòu)方面,NorthPole與TrueNorth一樣,由一個大型計算單元陣列(16×16)組成,每個單元都包含本地內(nèi)存和代碼執(zhí)行能力。 計算資源方面,NorthPole每個單元都經(jīng)過優(yōu)化,可執(zhí)行精度較低的計算,精度從 2 bit到8 bit 不等。為保證執(zhí)行單元使用,它們不能根據(jù)變量值執(zhí)行條件分支,也就是說,使用者代碼不能包含if語句。這種簡單的執(zhí)行方式使每個計算單元都能進行大規(guī)模并行執(zhí)行。在2 bit精度下,每個單元可并行執(zhí)行8000多次計算。 存儲方面,所有的內(nèi)存都被封裝在一顆芯片內(nèi), 這意味著每個內(nèi)核都可以輕松地訪問芯片上的內(nèi)存。設(shè)備外部來看,NorthPole看起來像是一個主動存儲芯片,這有助于將NorthPole集成到系統(tǒng)中。不止如此,這款NorthPole目前采用的是12nm納米節(jié)點工藝制造,目前CPU最先進的技術(shù)是3nm,而IBM還在研發(fā)2nm納米節(jié)點技術(shù),如果用上2nm,可能IBM的類腦芯片性能還會再提升很大檔次。
圖/IBM NorthPole的潛在應(yīng)用主要包括圖像和視頻分析、語音識別以及Transformer神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)是為ChatGPT等聊天機器人提供支持的大型語言模型(LLM)。這些人工智能任務(wù)可能會用于自動駕駛汽車、機器人、數(shù)字助理和衛(wèi)星觀測等領(lǐng)域。 某些應(yīng)用程序需要的神經(jīng)網(wǎng)絡(luò)太大,無法安裝在單個NorthPole芯片上。在這種情況下,這些網(wǎng)絡(luò)可以分解為更小的部分,并分布在多個NorthPole芯片上。 而NorthPole的超高能效比,意味著它不需要笨重的液體冷卻系統(tǒng)來運行,風(fēng)扇和散熱器就足夠了,而它也可以部署在更小的空間中。 國內(nèi)開始研究類腦芯片了嗎? 如此強大的芯片,國內(nèi)也早已有所布局。 國內(nèi)研究則包括清華大學(xué)、浙江大學(xué)、復(fù)旦大學(xué)、中科院等頂級學(xué)府和機構(gòu),同時近兩年不斷涌現(xiàn)初創(chuàng)公司,如靈汐科技、時識科技、中科神經(jīng)形態(tài)等。其中以清華大學(xué)的天機芯和浙江大學(xué)的達爾文芯片最具代表性。
具體而言,國內(nèi)的主要成果包括: 清華大學(xué)2015年開發(fā)的第一代天機芯采用110nm工藝,2017年,第二代天機芯開始取得先進成果,基于28nm工藝制成,由156個功能核心FCore組成,包含約4萬個神經(jīng)元和1000萬個突觸。相比第一代,密度提升20%,速度提高至少10倍,帶寬提高至少100倍,此外,清華大學(xué)還自主研發(fā)了軟件工具鏈,支持從深度學(xué)習(xí)框架到天機芯的自動映射和編譯。根據(jù)清華大學(xué)的計劃,下一代天機芯將是14nm或更先進的工藝,且功能會強大更多; 浙江大學(xué)聯(lián)合之江實驗室共同研制的類腦計算機,其神經(jīng)元數(shù)量與小鼠大腦神經(jīng)元數(shù)量規(guī)模相當(dāng)。該計算機包含792顆達爾文2代芯片,支持1.2億個脈沖神經(jīng)元、720億個神經(jīng)突觸,而其典型運行功耗僅為350W~500W; 2020年10月,清華大學(xué)計算機系張悠慧團隊精儀系施路平團隊與合作者在《自然》(Nature)雜志發(fā)文首次提出“類腦計算完備性”以及軟硬件去耦合的類腦計算系統(tǒng)層次結(jié)構(gòu); 2023年9月,中國科學(xué)院計算技術(shù)研究所尤海航研究員和唐光明研究員帶領(lǐng)的研究團隊研制了超導(dǎo)神經(jīng)形態(tài)處理器原型芯片“蘇軾(SUSHI)”,它是一款基于超導(dǎo)單磁通量子(SFQ)電路的超導(dǎo)計算芯片; 2023年10月,由中科南京智能技術(shù)研究院自主研發(fā)是目前國內(nèi)規(guī)模最大、國際一流的類腦超級計算機服務(wù)正式啟用,它已實現(xiàn)5億神經(jīng)元2500億突觸智能規(guī)模,較現(xiàn)有計算系統(tǒng)能效提升10倍以上,核心芯片自主可控。 IBM的成果代表著,這項布局未來的技術(shù)離我們又近了一步,而目前一些初創(chuàng)公司逐漸形成方案,開始應(yīng)用。不難預(yù)見,在近幾年,這項技術(shù)商業(yè)化將逐步展開,而彼時研究成果也將照進現(xiàn)實。
-
IBM
+關(guān)注
關(guān)注
3文章
1758瀏覽量
74723 -
存儲器
+關(guān)注
關(guān)注
38文章
7495瀏覽量
163923 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238771
原文標(biāo)題:IBM的新AI芯片,世界最強?
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論