存算一體作為一種新型算力,有望解決傳統(tǒng)馮諾依曼架構(gòu)下的“存儲(chǔ)墻〞、“功耗墻〞 問題,已被確定為算力網(wǎng)絡(luò)十大關(guān)鍵技術(shù)之一。存算一體將存儲(chǔ)與計(jì)算有機(jī)融合,以其巨大的能效比提升潛力,有望成為數(shù)字經(jīng)濟(jì)時(shí)代的先進(jìn)生產(chǎn)力。
本白皮書全面閘釋了存算一體的核心技術(shù)、發(fā)展路線、應(yīng)用場(chǎng)景和產(chǎn)業(yè)鏈生態(tài)。希望產(chǎn)學(xué)研各界能凝聚共識(shí)、加強(qiáng)合作、協(xié)同發(fā)展,推動(dòng)存算一體技術(shù)成熟和生態(tài)繁榮,加快存算一體產(chǎn)業(yè)化進(jìn)程,助力我國(guó)在先進(jìn)計(jì)算領(lǐng)域?qū)崿F(xiàn)高水平自立自強(qiáng)。
存算一體是先進(jìn)算力的代表性技術(shù)
回顧60多年計(jì)算行業(yè)的發(fā)展史,芯片的算力提升一直按照摩爾定律的節(jié)奏推進(jìn),但主流的計(jì)算范式始終遵循馮-諾依曼架構(gòu)設(shè)計(jì)。進(jìn)入二十一世紀(jì),信息爆炸式增長(zhǎng),大規(guī)模數(shù)據(jù)處理成為挑戰(zhàn),算力的需求呈現(xiàn)指數(shù)級(jí)提升,業(yè)界需要從各種維度探索芯片算力提升的方法。
1965年,戈登-摩爾歸納了晶體管的發(fā)展規(guī)律-摩爾定律,成為了丈量半導(dǎo)體行業(yè)技術(shù)進(jìn)步、產(chǎn)品迭代和企業(yè)發(fā)展的標(biāo)尺。然市,隨著半導(dǎo)體工藝逼近物理極限,摩爾定律的節(jié)奏明顯放緩,集成電路的發(fā)展進(jìn)入后摩爾時(shí)代,業(yè)界主要從三大方向探索算力提升的技術(shù)路徑:“More Moore(深度摩爾)"、“More than Moore (超越摩爾)〞、"Beyond CMOS(新器件)〞,其中深度摩爾沿著摩爾定律的道路繼續(xù)推進(jìn),通過(guò)新型技術(shù)持續(xù)微縮晶體管提升計(jì)算密度;超越摩爾則是發(fā)展摩爾定律演進(jìn)過(guò)程中未開發(fā)的部分,如先進(jìn)封裝技術(shù)擴(kuò)展計(jì)算性能;新器件則是探素除傳統(tǒng)硅基路線之外的芯片材料在計(jì)算產(chǎn)業(yè)的應(yīng)用。三大方向?yàn)榘雽?dǎo)體行業(yè)延續(xù)高速發(fā)展的節(jié)奏提供了可能。
除了上述維度,業(yè)界也在通過(guò)變革當(dāng)前計(jì)算架構(gòu)來(lái)實(shí)現(xiàn)算力的突破。目前,主流芯片如CPU、 GPU (Graphics Processing Unit)、DPU(Data Processing Unit)均按照馮-諾依曼架構(gòu)設(shè)計(jì)。馮氏架構(gòu)以計(jì)算為中心(如圖1-1),計(jì)算和存儲(chǔ)分離,二者配合完成數(shù)據(jù)的存取與運(yùn)算。
圖1-1:馮諾依曼架構(gòu)
然而,由于處理器的設(shè)計(jì)以提升計(jì)算速度為主,存儲(chǔ)則更注重容量提升和成本優(yōu)化,“存”“算〞之間性能失配 (如圖1-2),從而導(dǎo)致了訪存帶寬低、時(shí)延長(zhǎng)、功耗高等問題,即通常所說(shuō)的“〝存儲(chǔ)墻〞和“功耗墻”。訪存愈密集,“墻”的問題愈嚴(yán)重,算力提升愈困難。隨著以人工智能計(jì)算單元為代表的訪存密集型應(yīng)用快速崛起,訪存時(shí)延和功耗開銷無(wú)法忽視,計(jì)算架構(gòu)的變革顯得尤為迫切。
圖1-2:存儲(chǔ)計(jì)算性能剪刀差
存算一體作為一種新的計(jì)算架構(gòu),被認(rèn)為是具有潛力的革命性技術(shù),受到國(guó)內(nèi)外的高度關(guān)注。核心是將存儲(chǔ)與計(jì)算完全融合,有效克服馮·諾依曼架構(gòu)瓶頸,并結(jié)合后摩爾時(shí)代先進(jìn)封裝、新型存儲(chǔ)器件等技術(shù),實(shí)現(xiàn)計(jì)算能效的數(shù)量級(jí)提升。
存算一體技術(shù)路線建議
由于“墻〞的問題存在已久,業(yè)界已形成多種解決思路,包括對(duì)計(jì)算或存儲(chǔ)部件本身的性能提是升,以及存與算的協(xié)同優(yōu)化,即存算一體技術(shù)。
目前學(xué)術(shù)界和工業(yè)界均在開展存算一體技術(shù)研究,學(xué)術(shù)界主要關(guān)注狹義的存算一體,即利用存儲(chǔ)介質(zhì)進(jìn)行計(jì)算;工業(yè)界關(guān)注商用化進(jìn)程,著重宣傳廣義存算一體概念,但分類方法尚未完全統(tǒng)一。本章節(jié)將對(duì)廣義存算一體技術(shù)進(jìn)行分類,望達(dá)成廣泛共識(shí)。
一、存算一體技術(shù)分類建議
根據(jù)存儲(chǔ)與計(jì)算的距離遠(yuǎn)近,我們將廣義存算一體的技術(shù)方案分為三大類,分別是近存計(jì)算 (Processing Near Memory, PNM)、存內(nèi)處理(Processing ln Memory.PlM) 和行內(nèi)計(jì)算 (Computing in Memory, CIM)。存內(nèi)計(jì)算即狹義的存算一體。
(1)近存計(jì)算 (PNM)
近存計(jì)算通過(guò)芯片封裝和板卡組裝等方式,將存儲(chǔ)單元和計(jì)算單元集成,增加訪存帶寬、減少數(shù)據(jù)搬移,提升整體計(jì)算效率。近存計(jì)算仍是存算分離架構(gòu),本質(zhì)上計(jì)算操作由位于存儲(chǔ)外部、獨(dú)立的計(jì)算單元完成,其技術(shù)成熟度較高,主要包括存儲(chǔ)上移、計(jì)算下移兩種方式:
圖2-1:高帶寬內(nèi)存方案
a.存儲(chǔ)上移:
采用先進(jìn)封裝技術(shù)將存儲(chǔ)器向處理器(如CPU、GPU)靠近,增加計(jì)算和存儲(chǔ)問的鏈路數(shù)量,提供更高訪存帶寬。典型的產(chǎn)品形態(tài)為高帶寬內(nèi)存 (High Bandwidth Memory.HBM),將內(nèi)存顆粒通過(guò)硅通孔 (Through Silicon Via,TSV)多層堆香實(shí)現(xiàn)存儲(chǔ)容量提升,同時(shí)基于硅中介板的高速接口與計(jì)算單元互聯(lián)提供高帶寬存儲(chǔ)服務(wù),如圖2-1。
b.計(jì)算下移:
采用板卡集成技術(shù)將數(shù)據(jù)處理能力卸載到存儲(chǔ)器,由近端處理器進(jìn)行數(shù)據(jù)處理,有效減少存儲(chǔ)器與遠(yuǎn)端處理器的數(shù)據(jù)搬移開銷。典型的方案為可計(jì)算存儲(chǔ) (ComputationalStorage Drives, CSD),通過(guò)在存儲(chǔ)設(shè)備引入計(jì)算引擎,承擔(dān)如數(shù)據(jù)壓縮、搜索、視頻文件轉(zhuǎn)碼等本地處理,減少遠(yuǎn)端處理器(如CPU) 的負(fù)載,如圖2-2。
圖2-2:可計(jì)算存儲(chǔ)方案
近存計(jì)算已應(yīng)用于人工智能、大數(shù)據(jù)、邊緣計(jì)算等場(chǎng)景,因其基本保持原有計(jì)算架構(gòu),產(chǎn)品化方案可較快投入使用。
(2)存內(nèi)處理(PIM)
存內(nèi)處理是在芯片制造的過(guò)程中,將存和算集成在同一個(gè)晶粒 (Die)中,使存儲(chǔ)器本身具備了一定算的能力。存內(nèi)處理本質(zhì)上仍是存算分離,相比于近存計(jì)算,〝存”與“算”距離更近。當(dāng)前存內(nèi)處理方案大多在內(nèi)存(DRAM)芯片中實(shí)現(xiàn)部分?jǐn)?shù)據(jù)處理,較為典型的產(chǎn)品形態(tài)為HBM-PIM和PIM-DIMM,在DRAM Die中內(nèi)置處理單元,提供大吞吐低延遲片上處理能力,可應(yīng)用于語(yǔ)音識(shí)別、數(shù)據(jù)庫(kù)索引搜索、基因匹配等場(chǎng)景,如圖2-3。
圖2-3:基于DRAM的PIM方案示例
(3)存內(nèi)計(jì)算(CIM)
存內(nèi)計(jì)算即狹義的存算一體,在芯片設(shè)計(jì)過(guò)程中,不再區(qū)分存儲(chǔ)單元和計(jì)算單元,真正實(shí)現(xiàn)存算融合,如圖2-4。存內(nèi)計(jì)算是計(jì)算新范式的研究熱點(diǎn),其本質(zhì)是利用不同存儲(chǔ)介質(zhì)的物理特性,對(duì)存儲(chǔ)電路進(jìn)行重新設(shè)計(jì)使其同時(shí)具備計(jì)算和存儲(chǔ)能力,直接消除“存〞“算〞界限,使計(jì)算能效達(dá)到數(shù)量級(jí)提升的目標(biāo)。在存儲(chǔ)原位上實(shí)現(xiàn)計(jì)算
是真正的存算一體。
圖2-4:CIM存內(nèi)計(jì)算
存內(nèi)計(jì)算最典型的場(chǎng)景是為A算法提供向量矩陣乘的算子加速,目前已經(jīng)在神經(jīng)網(wǎng)絡(luò)領(lǐng)域開展大量研究,如卷積神經(jīng)網(wǎng)絡(luò) (ConvolutionalNeural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network,RNN)等。存內(nèi)計(jì)算有望激發(fā)人工智能領(lǐng)域的下一波浪潮,是廣義存算一體技術(shù)的攻關(guān)重點(diǎn)。
二、存內(nèi)計(jì)算分析
1.存內(nèi)計(jì)算原理
存內(nèi)計(jì)算主要包含數(shù)字和模擬兩種實(shí)現(xiàn)方式,二者適用于不同應(yīng)用場(chǎng)景。模擬存內(nèi)計(jì)算能效高,但誤差較大,適用于低精度、低功耗計(jì)算場(chǎng)景,如端側(cè)可穿戴設(shè)備等。相比之下,數(shù)字存內(nèi)計(jì)算誤差低,但單位面積功耗較大,適用于高精度、功耗不敏感的計(jì)算場(chǎng)景,未來(lái)可應(yīng)用于云邊Al場(chǎng)景。一直以來(lái),主流的存內(nèi)計(jì)算大多采用模擬計(jì)算實(shí)現(xiàn),近兩年數(shù)宇存內(nèi)計(jì)算的研究熱度也在飛速提升。
a.模擬存內(nèi)計(jì)算
圖2-5:基于RRAM的模擬存內(nèi)計(jì)算陣列
模擬存內(nèi)計(jì)算主要基于物理定律(歐姆定律和基爾霍夫定律),在存算陣列上實(shí)現(xiàn)乘加運(yùn)算。我們以存內(nèi)計(jì)算介質(zhì)材料之一阻變隨機(jī)存儲(chǔ)器 (Resistive Random Access Memory, RRAM,又名憶阻器)為例,來(lái)描述存內(nèi)計(jì)算如何實(shí)現(xiàn)在數(shù)據(jù)寫入的同時(shí)完成計(jì)算。
憶阻器電路可以做成陣列結(jié)構(gòu),與矩陣形狀類似,利用其矩陣運(yùn)算能力,可以廣泛應(yīng)用于A!推理場(chǎng)景中。在Al推理過(guò)程中,通過(guò)輸入矢量與模型的參數(shù)知完成來(lái)加運(yùn)算,便可以得到推理結(jié)果。
以矩陣乘加運(yùn)算為例(如圖2-5所示),將模型的輸入數(shù)據(jù)設(shè)為矩陣M,模型的參數(shù)設(shè)為矩陣[G],運(yùn)算后的輸出數(shù)據(jù)設(shè)為矩陣1。運(yùn)算前,先將模型參數(shù)矩陣按行列位置存入憶阻器(即[G]),在輸入端給定不同電壓值來(lái)表示輸入矢量(即M),根據(jù)歐姆定律(電流=電壓/電阻),便可在輸出端得到對(duì)應(yīng)的電流矢量,再根據(jù)基爾霍夫定律將電流相加,即得到輸出結(jié)果(即[I])。多個(gè)存算陣列并行,便可完成多個(gè)矩陣乘加計(jì)算。
由于整個(gè)運(yùn)算過(guò)程無(wú)需再?gòu)拇鎯?chǔ)器中反復(fù)讀取大量模型參數(shù),繞開了馮-諾依曼架構(gòu)的瓶頸,能效比得到顯著提升。除憶阻器外,其他存儲(chǔ)介質(zhì)也可通過(guò)不同的物理機(jī)制滿足同樣的并行計(jì)算需求。
b.數(shù)字存內(nèi)計(jì)算
數(shù)字存內(nèi)計(jì)算通過(guò)在存儲(chǔ)陣列內(nèi)部加入邏輯計(jì)算電路,如與門和加法器等,使數(shù)字存內(nèi)計(jì)算陣列具備存儲(chǔ)及計(jì)算能力。我們以靜態(tài)隨機(jī)存儲(chǔ)器(Static Random-Access Memory, SRAM) 為例,來(lái)描述數(shù)字存內(nèi)計(jì)算基本原理。
圖2-6:基于SRAM的數(shù)字存內(nèi)計(jì)算加法樹
如圖2-6,輸入數(shù)據(jù)為向量[IN0IN1…INn],存儲(chǔ)單元中依次存入模型參數(shù)[W0W1…Wn],通過(guò)控制存儲(chǔ)器的讀字線 (Read Word Line, RWL),實(shí)現(xiàn)輸入數(shù)據(jù)與存儲(chǔ)單元內(nèi)模型參數(shù)的乘法操作,通過(guò)數(shù)字加法樹[Digital and tree]實(shí)現(xiàn)累加,即可完成向量乘法運(yùn)算。對(duì)多個(gè)向量重復(fù)以上過(guò)程,便可實(shí)現(xiàn)矩陣乘加計(jì)算。
數(shù)字存內(nèi)計(jì)算的存儲(chǔ)單元只能存儲(chǔ)單比特?cái)?shù)據(jù),且需增加部分傳統(tǒng)邏輯電路,一定程度上限制了面積及能效優(yōu)勢(shì)。因此,當(dāng)前業(yè)界多采用可兼容先進(jìn)工藝的SRAM來(lái)實(shí)現(xiàn)數(shù)字存內(nèi)計(jì)算。
2.存內(nèi)計(jì)算存儲(chǔ)器件分析與建議
存內(nèi)計(jì)算電路可基于易失性存儲(chǔ)器和非易失存儲(chǔ)器件實(shí)現(xiàn)。易失性存儲(chǔ)器在設(shè)備掉電之后數(shù)據(jù)丟失,如SRAM等。非易失性存儲(chǔ)器在設(shè)備掉電后數(shù)據(jù)可保持不變,如NOR Flash、陽(yáng)變隨機(jī)存儲(chǔ)器 (Resistive RandomAccess Memory, RRAM)、磁性隨機(jī)存儲(chǔ)器 (Magnetoresistive RandomAccess Memory, MRAM)、相變存儲(chǔ)器 (Phase Change Memory.PCM)等。本章主要對(duì)五種主流的存儲(chǔ)器件及其存內(nèi)計(jì)算進(jìn)行描述。
a.靜態(tài)隨機(jī)存儲(chǔ)器 (SRAM)
SRAM是應(yīng)用范圍最廣的易失性存儲(chǔ)器之一,常用于CPU中的緩存,基本存儲(chǔ)單元由晶體管搭建而成,常見有6晶體管 (6T)、8晶體管 (8T)結(jié)構(gòu)形式,圖2-7為6T SRAM基本單元結(jié)構(gòu)。SRAM通過(guò)形成互鎖結(jié)構(gòu)的兩個(gè)反相器來(lái)存儲(chǔ)數(shù)據(jù),在設(shè)備供電時(shí)可保持存儲(chǔ)數(shù)據(jù)不變,掉電后存儲(chǔ)數(shù)據(jù)丟失,呈現(xiàn)易失性。
圖2-7:6T SRAM結(jié)構(gòu)
SRAM讀寫速度快、無(wú)讀寫次數(shù)限制,且其工藝成熟,器件的一致性和穩(wěn)定性較好,基于SRAM的全數(shù)字存內(nèi)計(jì)算可以做到較高的計(jì)算精度,并且可以較快地實(shí)現(xiàn)技術(shù)落地與量產(chǎn)。但SRAM價(jià)格相對(duì)昂貴、多晶體管單元結(jié)構(gòu)下存儲(chǔ)密度較低、需要通電以保持?jǐn)?shù)據(jù),因此芯片面積較大,功耗較高,不適用于對(duì)成本和功耗敏感的場(chǎng)景。
b.NOR FLASH
NOR Flash是一種非易失閃存器件,基本存儲(chǔ)單元為浮柵晶體管(如圖2-8所示),NOR Flash通過(guò)熱電子注入/隧穿效應(yīng)控制浮柵中的電荷數(shù)量,每個(gè)單元可以存儲(chǔ)多比特信息。NOR Flash中浮柵被絕緣層分離以避免電荷泄露,供電消失后浮柵層仍能保持電荷數(shù)量不變,存儲(chǔ)信息不丟失,呈現(xiàn)非易失性。
圖2-8:Nor Flash浮柵晶體管
基于NOR Flash的存內(nèi)計(jì)算芯片具有存儲(chǔ)密度大、工藝成熟、成本低等優(yōu)點(diǎn),業(yè)界主要利用其多比特存儲(chǔ)特性進(jìn)行模擬存內(nèi)計(jì)算,相關(guān)產(chǎn)品已在智能終端與邊緣場(chǎng)景實(shí)現(xiàn)小批量商用,帶來(lái)數(shù)十倍的計(jì)算能效提升。
然而,NOR Flash工藝微縮存在一定挑戰(zhàn),為保證其性能與擴(kuò)展性,需展開NOR Flash與先進(jìn)工藝的3D/2.5D集成技術(shù)研究。
c.阻變隨機(jī)存儲(chǔ)器 (RRAM)
RRAM又被稱為憶阻器,是一種極具潛力的新型非易失存儲(chǔ)器件,基本存儲(chǔ)單元為金屬-絕緣體-金屬或者金屬-絕緣體-半導(dǎo)體的三明治結(jié)構(gòu)。
圖2-9:RRAM結(jié)構(gòu)示意圖
如圖2-9所示,上下為電極層,中間為絕緣的電阻轉(zhuǎn)變層。通過(guò)在電極層施加電壓/電流,電陽(yáng)轉(zhuǎn)變層的電阻值可以實(shí)現(xiàn)高阻態(tài)和低阻態(tài)的切換,且電阻轉(zhuǎn)變層可以實(shí)現(xiàn)多級(jí)電阻狀態(tài),使其可存儲(chǔ)多比特信息。
基于RRAM的存內(nèi)計(jì)算芯片具有制備簡(jiǎn)單、工藝成本低、時(shí)延低、支持多比特存儲(chǔ)、兼容先進(jìn)工藝、支持了3D堆疊等諸多優(yōu)點(diǎn),被普遍認(rèn)為擁有廣闊的發(fā)展前景。當(dāng)前業(yè)界主要利用RRAM的模擬多比特特性進(jìn)行模擬存內(nèi)計(jì)算,可以達(dá)到較高的計(jì)算能效。
然而,RRAM目前在器件一致性和準(zhǔn)確性等指標(biāo)方面還有繼續(xù)提高的空間。
d.磁性隨機(jī)存儲(chǔ)器(MRAM)
MRAM是一種基于自旋電子學(xué)的新型非易失存儲(chǔ)器件,以磁隧道結(jié)(Magnetic Tunneling Junction, MTJ)為核心結(jié)構(gòu),利用隧道磁阻效應(yīng)實(shí)現(xiàn)電阻狀態(tài)改變,達(dá)到存儲(chǔ)信息的目的。
2-10:磁隧道結(jié)結(jié)構(gòu)
如圖2-10所示,MTJ是自由層-隔離層-固定層三明治結(jié)構(gòu)。固定層的磁場(chǎng)方向保持不變,施加電壓可改變自由層的磁場(chǎng)方向,當(dāng)白由層和固定層磁場(chǎng)方向一致時(shí),器件呈現(xiàn)低阻態(tài),代表邏輯“0”;當(dāng)自由層和固定層磁場(chǎng)方向相反則為高阻態(tài),代表邏輯“1”。
基于MRAM的存內(nèi)計(jì)算芯片具有非易失、訪問速度快、讀/寫次數(shù)高等優(yōu)點(diǎn),目具備較高的可靠性和穩(wěn)定性,但MRAM器件成熟度較低,功耗、速度和耐久性等指標(biāo)離理論預(yù)期尚有一定差距。當(dāng)前業(yè)界基于MRAM的存內(nèi)計(jì)算研究較少,需要推動(dòng)器件成熟,同步挖掘其在存算一體領(lǐng)域的潛在場(chǎng)景。
e.相變存儲(chǔ)器 (PCM)
PCM是一種由硫族化合物材料構(gòu)成的非易失存儲(chǔ)器件。如圖2-11所示,PCM器件的典型結(jié)構(gòu)為上電極、硫族化合物、電阻加熱器、下電極,通過(guò)在兩電極間施加不同形式的脈沖,對(duì)硫族化合物加熱使其在晶態(tài)和非晶態(tài)之間轉(zhuǎn)變,來(lái)表征高低阻特性,從而實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和控制。
2-11:PCM結(jié)構(gòu)及阻態(tài)結(jié)構(gòu)原理
PCM的狀態(tài)可以是介于完全多晶態(tài)和完全非晶態(tài)之問的多種狀態(tài),并以此實(shí)現(xiàn)多值存儲(chǔ)。PCM斷電后狀態(tài)可保持不變,呈現(xiàn)非易失性。
PCM有非易失、存儲(chǔ)密度高、多比特存儲(chǔ)、支持了D堆疊等優(yōu)點(diǎn),但PCM存在寫入功耗較大、擦寫次數(shù)較少等問題尚需攻關(guān),因此當(dāng)前PCM主要還是作為大容量存儲(chǔ)器發(fā)展,基于PCM的存內(nèi)計(jì)算研究相對(duì)較少,待產(chǎn)業(yè)進(jìn)一步發(fā)展。
表1:存內(nèi)計(jì)算結(jié)構(gòu)對(duì)比分析
結(jié)合當(dāng)前研究情況,表1對(duì)五種主流存儲(chǔ)器件的主要參數(shù)特征以及其存內(nèi)計(jì)算適用場(chǎng)景進(jìn)行了對(duì)比分析。整體來(lái)看,五種主流存儲(chǔ)器件各有優(yōu)缺點(diǎn),產(chǎn)品化選擇時(shí)需綜合考慮器件的成熟度、存儲(chǔ)密度、壽命、讀寫性能、能耗等多方面指標(biāo)。當(dāng)前NOR Flash、SRAM等傳統(tǒng)器件相對(duì)成熟,可率先開展存內(nèi)計(jì)算產(chǎn)品化落地推動(dòng)。新型器件中RRAM各指標(biāo)綜合表現(xiàn)較好,MRAM壽命和讀寫性能較好,均有各自獨(dú)特優(yōu)勢(shì)與發(fā)展?jié)摿?,可持續(xù)推動(dòng)器件成熟,同步進(jìn)行存內(nèi)計(jì)算探索。PCM新器件成熟度相對(duì)較高,當(dāng)前已可應(yīng)用于近存計(jì)算研究,不過(guò)其壽命、能耗指標(biāo)較RRAM無(wú)優(yōu)勢(shì),預(yù)計(jì)存內(nèi)計(jì)算潛力稍弱,未來(lái)可能更多作為存儲(chǔ)器輔助存算一體整體技術(shù)發(fā)展。建議產(chǎn)業(yè)未來(lái)展開多路徑探索,實(shí)現(xiàn)各方案優(yōu)勢(shì)互補(bǔ),推動(dòng)整體產(chǎn)業(yè)發(fā)展。
存內(nèi)計(jì)算五大技術(shù)桃戰(zhàn)
廣義存算一體技術(shù)正由學(xué)術(shù)研究逐步走向商業(yè)應(yīng)用,其中近存計(jì)算和存內(nèi)處理在產(chǎn)品實(shí)現(xiàn)階段面臨制造和封裝技術(shù)門檻高的挑戰(zhàn),在落地階段需要解決近、遠(yuǎn)端處理器協(xié)同引起的軟件重構(gòu)問題,但整體技術(shù)成熟。存內(nèi)計(jì)算技術(shù)成熟度較弱,從器件研發(fā)及制造、電路設(shè)計(jì)、芯片架構(gòu)、EDA工具鏈到軟件算法生態(tài)等諸多方面均需加強(qiáng),對(duì)產(chǎn)業(yè)鏈各環(huán)節(jié)提出了更密切的協(xié)作需求。
一、新器件成熟度低,制造工藝難升級(jí)
存內(nèi)計(jì)算在新器件成熟度方面問題突出。采用傳統(tǒng)及新型器件是實(shí)現(xiàn)存內(nèi)計(jì)算的兩種重要方式。其中,NOR Flash、SRAM等傳統(tǒng)器件相對(duì)成熟,但RRAM、PCM、 MRAM等新型器件在器件一致性、擦寫次數(shù)、功耗、可靠性等方面存在差異化問題,影響存內(nèi)計(jì)算產(chǎn)品在計(jì)算精度、壽命、能耗等方面的表現(xiàn)。
針對(duì)新器件引入,現(xiàn)有制造產(chǎn)線無(wú)法實(shí)現(xiàn)無(wú)縫切換,且現(xiàn)有工藝水平尚有提升空間。在芯片制造階段,需要制造商在已有產(chǎn)線流程基礎(chǔ)上進(jìn)行改造,如在掩膜、設(shè)備調(diào)參等環(huán)節(jié)進(jìn)行持續(xù)優(yōu)化。此外,面向新器件的制程微縮無(wú)法完全沿用現(xiàn)有晶體管工藝路線經(jīng)驗(yàn),新器件工藝兼容先進(jìn)制程時(shí),難以全面兼顧高可靠性、高精度等要求。
二、電路設(shè)計(jì)影響芯片算效提升
電路設(shè)計(jì)是存內(nèi)計(jì)算芯片能效優(yōu)勢(shì)的核心決定因素,整體技術(shù)尚未成熟。電路設(shè)計(jì)主要分為存算計(jì)算核(Macro)以及周邊電路兩大部分。
不同計(jì)算核的存算單元、電路連接設(shè)計(jì)存在不同,諸多前沿研發(fā)成果能效水平不一,尚未完成技術(shù)沉淀。周邊電路提供輸入輸出街接處理、計(jì)算核處理結(jié)果累加計(jì)算等能力,幫助芯片實(shí)現(xiàn)完整計(jì)算能力,該部分需要結(jié)合計(jì)算核進(jìn)行適配設(shè)計(jì),并保證較低的能耗和面積消耗。此外,模擬存內(nèi)計(jì)算還涉及復(fù)雜的模數(shù)轉(zhuǎn)換器 (ADC)、數(shù)模轉(zhuǎn)專換器 (DAC)、跨阻放大器(TA) 等模塊,也為電路面積和能耗帶來(lái)技術(shù)挑戰(zhàn)。
三、芯片架構(gòu)場(chǎng)景通用性及規(guī)模擴(kuò)展能力較差
當(dāng)前少量商用存內(nèi)計(jì)算芯片產(chǎn)品的芯片算力較小,且主要面向端側(cè)特定領(lǐng)域?qū)崿F(xiàn),尚無(wú)成熟大算力芯片架構(gòu),無(wú)法為存內(nèi)計(jì)算產(chǎn)品向云邊場(chǎng)景推動(dòng)提供有效支撐。一方面,當(dāng)前存內(nèi)計(jì)算芯片支持的算子種類有限,難以滿足諸多神經(jīng)網(wǎng)絡(luò)算法豐富的計(jì)算需求,缺三場(chǎng)景通用性。
另一方面,缺三成熟多核協(xié)同機(jī)制以及統(tǒng)一的片上互聯(lián)、片間互聯(lián)協(xié)議及標(biāo)準(zhǔn),難以實(shí)現(xiàn)大算力芯片。
四、EDA工具鏈尚未健全
存內(nèi)計(jì)算芯片設(shè)計(jì)與常規(guī)芯片有較大差異,當(dāng)前EDA工具輔助設(shè)計(jì)與仿真驗(yàn)證尚未成熟。具體表現(xiàn)在:
缺乏標(biāo)準(zhǔn)單元庫(kù)與快速組裝工具。不同存儲(chǔ)器件的存內(nèi)計(jì)算芯片使用不同的存算單元結(jié)構(gòu),現(xiàn)有的EDA工具無(wú)法全面提供標(biāo)準(zhǔn)單元庫(kù)以供芯片設(shè)計(jì) 者使用,只能依賴手工繪制完成。此外,當(dāng)前存內(nèi)計(jì)算芯片產(chǎn)品化效率低,缺之自動(dòng)化工具實(shí)現(xiàn)大規(guī)模存算陣列的快速組裝。
缺乏功能與性能仿真驗(yàn)證工具。當(dāng)前沒有面向存內(nèi)計(jì)算場(chǎng)景進(jìn)行仿真效率優(yōu)化的工具,需要花費(fèi)大量時(shí)問對(duì)存內(nèi)計(jì)算的功能與性能進(jìn)行仿真驗(yàn)證,實(shí)現(xiàn)大規(guī)模存算陣列仿真時(shí)難度更高。
缺乏建模與誤差評(píng)估工具。建模與誤差評(píng)估的不準(zhǔn)確會(huì)導(dǎo)致實(shí)際計(jì)算結(jié)果與理想結(jié)果產(chǎn)生偏差,如對(duì)器件的電路噪聲的模擬可以幫助開發(fā)者在設(shè)計(jì)階段進(jìn)行方案評(píng)估并及時(shí)進(jìn)行調(diào)整。
當(dāng)前存內(nèi)計(jì)算研究缺三相關(guān)工具來(lái)模擬器件ADC/DAC/TIA相關(guān)電路噪聲,給芯片設(shè)計(jì)方案評(píng)估和芯片可用性帶來(lái)挑戰(zhàn)。
五、軟件及算法生態(tài)不完善
缺乏通用開發(fā)環(huán)境和編譯器支持。為有效發(fā)揮存內(nèi)計(jì)算芯片算力,編譯器需要將神經(jīng)網(wǎng)絡(luò)模型算子映射到底層存算單元上,當(dāng)前存內(nèi)計(jì)算編譯器多為針對(duì)專用領(lǐng)域產(chǎn)品的個(gè)性化實(shí)現(xiàn),缺少面向存內(nèi)計(jì)算的通用開發(fā)環(huán)境和編譯器,以便達(dá)到向上對(duì)接不同算法,向下屏蔽底層存內(nèi)計(jì)算硬件差異的目標(biāo)。
神經(jīng)網(wǎng)絡(luò)算法匹配問題存在桃戰(zhàn)。業(yè)界存在多種主流神經(jīng)網(wǎng)絡(luò)模型量化方案,因模型特性而異,而當(dāng)前存內(nèi)計(jì)算所支持的量化方案較為單一,需要運(yùn)用更多的訓(xùn)練樣本,更多的迭代次數(shù),更復(fù)雜的模型等途徑來(lái)彌補(bǔ)量化帶來(lái)的精度損失。
此外,存內(nèi)計(jì)算適合高并行處理場(chǎng)景,但部分神經(jīng)網(wǎng)絡(luò)應(yīng)用將矩陣下的乘累加計(jì)算變得碎片化,其算法和芯片的計(jì)算特性不匹配,會(huì)導(dǎo)致硬件利用率低等問題。
存內(nèi)計(jì)算五大發(fā)展建議
結(jié)合算力網(wǎng)絡(luò)業(yè)務(wù)發(fā)展訴求,我們提出存內(nèi)計(jì)算發(fā)展建議,與業(yè)界共進(jìn),加速產(chǎn)業(yè)化進(jìn)程。
建議一:協(xié)同先進(jìn)封裝技術(shù),實(shí)現(xiàn)不同方案相結(jié)合
各種存儲(chǔ)器件的存內(nèi)計(jì)算方案各有優(yōu)勢(shì),旦可與近存計(jì)算、存內(nèi)處理方案結(jié)合,如協(xié)同2-5D/3D/Chiplet等先進(jìn)封裝技術(shù),將不同工藝、器件的存內(nèi)計(jì)算芯片高度集成,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),兼顧成本、能效、性能、精度和通用性等方面指標(biāo),如圖所示。在此過(guò)程中,需推動(dòng)RRAM、PCMMRAM等新型器件成熟并向先進(jìn)工藝兼容,以充分發(fā)揮其能耗低、密度大等優(yōu)勢(shì)。
建議二:優(yōu)化電路與芯片架構(gòu),保障能效優(yōu)勢(shì)和演進(jìn)能力
電路設(shè)計(jì)和芯片架構(gòu)對(duì)存算一體芯片實(shí)現(xiàn)高能效和通用性至關(guān)重要。
一方面,需加強(qiáng)存算陣列以及周邊模塊的電路設(shè)計(jì)能力,保障芯片整體的高并行度、低功耗優(yōu)勢(shì),另一方面,應(yīng)構(gòu)建可持續(xù)演進(jìn)的通用存內(nèi)計(jì)算芯片架構(gòu),來(lái)支持更大規(guī)模算力需求、更多算法及應(yīng)用場(chǎng)景。
建議三:加速EDA工具孵化,縮短芯片研發(fā)周期
存內(nèi)計(jì)算工業(yè)化進(jìn)程需要EDA等產(chǎn)業(yè)鏈上游企業(yè)的廣泛支持。為保證芯片規(guī)模量產(chǎn),需要芯片設(shè)計(jì)、EDA、制造商通力協(xié)作,打造涵蓋單元仿真、可靠性設(shè)計(jì)、低功耗設(shè)計(jì)、計(jì)算模塊設(shè)計(jì)等諸多環(huán)節(jié)的配套EDA工具,為存內(nèi)計(jì)算芯片設(shè)計(jì)和仿真驗(yàn)證提供有力輔助。此外,以存算一體為契機(jī),可反哺推動(dòng)國(guó)產(chǎn)EDA產(chǎn)業(yè)發(fā)展。
建議四:構(gòu)建開發(fā)生態(tài)與編程框架,加速應(yīng)用規(guī)模發(fā)展
為推動(dòng)存內(nèi)計(jì)算規(guī)模應(yīng)用,相應(yīng)開發(fā)環(huán)境與編譯平臺(tái)的建立成為必然訴求,需要業(yè)界共同發(fā)力,推進(jìn)開源及標(biāo)準(zhǔn)生態(tài),搭建面向存內(nèi)計(jì)算的編程框架,健全自動(dòng)化算法開發(fā)、仿真和編譯工具,構(gòu)建針對(duì)存內(nèi)計(jì)算并行計(jì)算特性的算法設(shè)計(jì)與開發(fā)生態(tài)。
建議五:產(chǎn)學(xué)研緊密協(xié)同,推動(dòng)端側(cè)到云側(cè)演進(jìn)
隨著存內(nèi)計(jì)算應(yīng)用范圍由邊側(cè)向云側(cè)逐步演進(jìn),需要推動(dòng)產(chǎn)學(xué)研緊密協(xié)同,建立端到端技術(shù)棧。存內(nèi)計(jì)算適用于音頻、 視頻、自動(dòng)駕駛 決策分析等諸多應(yīng)用場(chǎng)景,目前商用的NOR Flash、SRAM存內(nèi)計(jì)算芯片主要用于中小算力需求的端側(cè)語(yǔ)音和視頻場(chǎng)景,未來(lái)可進(jìn)一步實(shí)現(xiàn)通用大算力芯片,為云邊提供通信、自然語(yǔ)言理解、自動(dòng)駕駛等場(chǎng)景高效算力服務(wù)。因此需要產(chǎn)學(xué)研緊密協(xié)同工作,構(gòu)建鏈?zhǔn)胶献髌脚_(tái),拉通器件與芯片研發(fā)、工具鏈構(gòu)建、軟件生態(tài)構(gòu)建、產(chǎn)業(yè)發(fā)展、方案測(cè)試與應(yīng)用的全鏈接。
產(chǎn)業(yè)發(fā)展倡議
針對(duì)狹義存算—體發(fā)展面臨的挑戰(zhàn)和問題,中國(guó)移動(dòng)作為算力網(wǎng)絡(luò)新發(fā)發(fā)展理念的引領(lǐng)者和實(shí)踐者,希望與合作伙伴通力合作,圍繞技術(shù)、產(chǎn)業(yè)、生態(tài)三個(gè)方面開展工作,打通存算一體各環(huán)節(jié)產(chǎn)業(yè)鏈條,推動(dòng)生態(tài)發(fā)展,加速產(chǎn)業(yè)化進(jìn)程,真正釋放存算一體技術(shù)在性能與成本方面的巨大潛力,助力國(guó)家實(shí)現(xiàn)計(jì)算領(lǐng)域的原創(chuàng)科技創(chuàng)新和引領(lǐng)。
共同玫關(guān)存算一體核心技術(shù)。共同攻關(guān)新型材料、芯片架構(gòu)、編譯器等領(lǐng)域的關(guān)鍵技術(shù),共同挖掘存算一體應(yīng)用場(chǎng)景,支撐國(guó)家新型算力基礎(chǔ)設(shè)施全新發(fā)展路徑,助力網(wǎng)絡(luò)強(qiáng)國(guó)、數(shù)宇中國(guó)、智慧社會(huì)發(fā)展戰(zhàn)略落地。
共同加快存算一體產(chǎn)業(yè)成熟。協(xié)同攻關(guān)存算一體產(chǎn)業(yè)鏈共性問題,推動(dòng)產(chǎn)業(yè)鏈上下游、產(chǎn)供銷有效街接,提升產(chǎn)業(yè)鏈韌性,加強(qiáng)新技術(shù)對(duì)產(chǎn)業(yè)滲透的深度和廣度,探索存算一體試驗(yàn)示范,協(xié)同推動(dòng)加強(qiáng)產(chǎn)業(yè)鏈創(chuàng)新、健康發(fā)展。
編輯:黃飛
?
評(píng)論
查看更多