算力是數(shù)字經(jīng)濟(jì)時(shí)代的核心生產(chǎn)力,并且近年來(lái)需求劇增。而我國(guó)當(dāng)前的算力供給上仍面臨巨大的挑戰(zhàn),一方面,國(guó)外的高端算力芯片被美國(guó)禁售,另一方面,國(guó)內(nèi)的芯片產(chǎn)業(yè)仍處于發(fā)展階段[1]。如何獲取算力提升,成為當(dāng)前時(shí)代芯片研究的重要命題。
一.算力突破
研究如何獲取算力提升,要從算力的來(lái)源上考慮。芯片算力可大致總結(jié)為以下計(jì)算公式:
因此,獲取算力提升的主要切入點(diǎn)是晶體管密度、芯片面積、單位晶體管的算力,這三個(gè)方面分別主要涉及制作工藝、光刻口徑、計(jì)算架構(gòu)。
(1)晶體管密度:
晶體管密度的主要影響因素是制造工藝、基板材料,同樣的面積內(nèi),封裝的可用晶體管越多,就能提供越強(qiáng)的算力。
制造工藝方面,受限于美國(guó)的無(wú)理封鎖,當(dāng)前國(guó)內(nèi)量產(chǎn)芯片的最先進(jìn)制造工藝為14nm,國(guó)際上量產(chǎn)芯片最先進(jìn)的制造工藝為3nm。清華大學(xué)尹首一教授認(rèn)為,國(guó)內(nèi)芯片制造工藝將長(zhǎng)期處于在14nm,國(guó)內(nèi)芯片產(chǎn)業(yè)與研究不能指望通過(guò)制造工藝獲得性能提升。在國(guó)際領(lǐng)域,雖然芯片制造商仍能享受到制程工藝帶來(lái)的升級(jí),但從蘋果A17Pro芯片的性能表現(xiàn)、高通仍然采用基于4nm的升級(jí)工藝制造今年旗艦芯片的市場(chǎng)行為來(lái)看,產(chǎn)業(yè)界最先進(jìn)的工藝制程已經(jīng)不及預(yù)期。
基板材料方面,隨著制造工藝步入埃米級(jí)別,芯片制造工藝受到硅原子性質(zhì)的影響越來(lái)越大,產(chǎn)業(yè)界和學(xué)界也在探索新的材料用于制造芯片,通過(guò)“彎道超車”的方式提升晶體管密度,比如英特爾等廠商正在研發(fā)的玻璃基芯片[3]、北京大學(xué)彭練矛教授團(tuán)隊(duì)正在研發(fā)的碳基芯片[4]。
(2)芯片面積
芯片面積和晶體管密度考慮的是類似的問(wèn)題,在一顆芯片內(nèi)提供更多的可用晶體管,就意味著能提供更多的算力。但是在當(dāng)前,GPU的單芯片面積基本已經(jīng)達(dá)到上限,想通過(guò)面積獲得進(jìn)一步的算力提升,可以從拓展角度考慮,有兩個(gè)探索的方向:平面拓展和垂直拓展。
平面拓展就是在光刻時(shí)使用光照拼接技術(shù),實(shí)現(xiàn)兩個(gè)曝光區(qū)域的物理連接,來(lái)把芯片做大,通過(guò)計(jì)算架構(gòu)的優(yōu)化設(shè)計(jì),保證晶圓中晶體管的可用性,Cerebras公司和Tesla公司已經(jīng)實(shí)現(xiàn)了晶圓級(jí)芯片。垂直拓展就是把芯片或其中的部分器件三維堆疊起來(lái),如AMD的3D緩存技術(shù)。
(3)單位晶體管提供的算力:
單位晶體管提供的算力和計(jì)算架構(gòu)息息相關(guān),計(jì)算架構(gòu)的優(yōu)化改進(jìn)或使用新的計(jì)算架構(gòu),能夠?qū)π酒懔Ξa(chǎn)生更根本的影響。計(jì)算架構(gòu)上面臨的主要問(wèn)題有:基本器件的設(shè)計(jì)架構(gòu)不同導(dǎo)致的晶體管數(shù)量不同,需要探索更優(yōu)的基本器件結(jié)構(gòu)設(shè)計(jì);馮諾依曼架構(gòu)的“存儲(chǔ)墻”導(dǎo)致的訪存瓶頸,限制了算力的發(fā)揮,需要降低帶寬對(duì)算力的限制;功耗限制導(dǎo)致的darkselect問(wèn)題,即為了保證芯片功耗,不能同時(shí)點(diǎn)亮芯片上的所有晶體管,需要優(yōu)化設(shè)計(jì)來(lái)避免。
面對(duì)以上的部分問(wèn)題,產(chǎn)業(yè)界和學(xué)界已經(jīng)給出了相應(yīng)的解決方案。在計(jì)算架構(gòu)的優(yōu)化方面,有數(shù)據(jù)流、可重構(gòu)、存算一體三條路徑。首先,數(shù)據(jù)流芯片嘗試不使用指令而是直接通過(guò)數(shù)據(jù)驅(qū)動(dòng)計(jì)算,避免外部存儲(chǔ)訪問(wèn),來(lái)解決晶體管利用率低的問(wèn)題。Google的TPU芯片已經(jīng)證明了,這種方式雖然在單芯片性能上遜于GPU,但能在系統(tǒng)級(jí)算力上實(shí)現(xiàn)超越[1]。具體來(lái)講,單核TPU v4的性能是低于A100 GPU的,只有它的88%,但1024顆TPU v4的集群性能,超過(guò)了A100 GPU的集群性能,最高達(dá)到了1.96倍。4096顆TPUv4芯片示意圖如下圖3所示。
圖 34096顆TPUv4芯片集成[6]
可重構(gòu)芯片嘗試在芯片內(nèi)布設(shè)可編程的計(jì)算資源,根據(jù)計(jì)算任務(wù)的數(shù)據(jù)流特點(diǎn),動(dòng)態(tài)構(gòu)造出最適合的計(jì)算架構(gòu),國(guó)內(nèi)團(tuán)隊(duì)設(shè)計(jì)并在12nm工藝下制造的CGRA芯片,已經(jīng)在標(biāo)準(zhǔn)測(cè)試集上實(shí)現(xiàn)了和7nm的GPU基本相當(dāng)?shù)男阅堋4嫠阋惑w嘗試通過(guò)集成存儲(chǔ)和計(jì)算在一個(gè)芯片甚至一個(gè)容器內(nèi),來(lái)突破訪存限制,發(fā)揮芯片的最大算力。下面我們將重點(diǎn)介紹存算一體技術(shù)。
二.存算一體
存算一體是一種新型計(jì)算架構(gòu),直接利用存儲(chǔ)器本身進(jìn)行數(shù)據(jù)處理,從根本上消除數(shù)據(jù)搬運(yùn),實(shí)現(xiàn)存儲(chǔ)與計(jì)算融合一體化,成為后摩爾時(shí)代集成電路領(lǐng)域的重點(diǎn)研究方向之一。
(1)存算一體技術(shù)優(yōu)勢(shì):
存算一體技術(shù)具有很大的優(yōu)勢(shì),存算融合的特點(diǎn)使其天然具備較大算力、低延遲、高帶寬等優(yōu)勢(shì)。相比傳統(tǒng)架構(gòu),存算一體大算力芯片不僅僅是能效比有數(shù)量級(jí)的提升,更重要的是將大大緩解存儲(chǔ)墻問(wèn)題,簡(jiǎn)化AI服務(wù)器集群的互聯(lián)網(wǎng)絡(luò)及其管理和各類成本,包括高速互聯(lián)、DPU和能耗等。因此,存算一體技術(shù)是實(shí)現(xiàn)芯片算力突破的重要途徑,可助力實(shí)現(xiàn)28nm等效7nm功效。
(2)傳統(tǒng)工藝芯片算力提升實(shí)例:
目前已有一些企業(yè)和高校,通過(guò)存算一體技術(shù),實(shí)現(xiàn)28nm制程芯片的能效算力提升。
憶鑄科技于2021年10月于上海成立,是一家基于ReRAM設(shè)計(jì)和落地?cái)?shù)字存算一體芯片的企業(yè)。在公司的技術(shù)暢想中,他們嘗試將新型憶阻器、存算一體架構(gòu)、Chiplet技術(shù)、3D封裝等技術(shù)結(jié)合,實(shí)現(xiàn)大算力、高能效比的芯片。據(jù)其官網(wǎng)信息,億鑄第一代算力芯片采用的工藝為28nm,其能效比可以實(shí)現(xiàn)目前主流算力板卡的10倍以上[7]。
2023年8月29日,華為的麒麟9000s芯片隨著Mate 60 Pro成功發(fā)布,該款芯片一經(jīng)發(fā)出,就引發(fā)業(yè)界討論:“麒麟9000s的工藝制程究竟是多少?”在2023年中國(guó)集成電路設(shè)計(jì)業(yè)(ICCAD)年會(huì)上,清華大學(xué)魏少軍教授在演講中提出:“能夠用14nm,甚至28nm做成7nm的產(chǎn)品性能才是真正的高手”。據(jù)悉,華為并未公布麒麟9000s真正的工藝制程,知名科技解析機(jī)構(gòu)TechInsights對(duì)麒麟9000s深入解析結(jié)果顯示,該芯片確實(shí)擁有7nm工藝制程的特性。
圖 4 華為麒麟9000s芯片
知存科技的WTM2101量產(chǎn)芯片采用40nm制程,將神經(jīng)網(wǎng)絡(luò)部署在芯片中,已經(jīng)實(shí)現(xiàn)了滿足端側(cè)算力需求的語(yǔ)音識(shí)別等功能。即將量產(chǎn)的WTM8芯片,采用28nm制程,作為新一代存內(nèi)AI計(jì)算視覺(jué)芯片,能夠?qū)崿F(xiàn)圖像的AI超分、插幀、HDR識(shí)別和檢測(cè)這樣復(fù)雜的功能[8],現(xiàn)有的一些研究也已經(jīng)證明存算一體可以實(shí)現(xiàn)16bit、32bit的浮點(diǎn)計(jì)算,具備進(jìn)入高算力芯片的能力。
圖 5知存科技WTM-8系列芯片示意圖
三.未來(lái)展望
隨著工藝的進(jìn)步,先進(jìn)工藝制程已從28nm發(fā)展至3nm,蘋果新發(fā)布的A17Pro已采用了tsmc 3nm工藝。據(jù)悉,tsmc也將投資近萬(wàn)億新臺(tái)幣建造1nm晶圓廠。在未來(lái),有沒(méi)有一種全新的方案解決算力不足、工藝制程發(fā)展空間受限的局面?存算一體便是答案之一。
綜上所述,存算一體技術(shù)因?yàn)槠涮厥鈨?yōu)勢(shì),可以大大提升芯片算力,從而使得成熟28nm制程芯片能夠?qū)崿F(xiàn)等效于7nm制程芯片的性能。當(dāng)然這其中還有很多難點(diǎn)需要突破,需要科研工作著的不斷努力,期待未來(lái)基于存算一體技術(shù)的芯片可以更好地突破芯片制程的限制。
[1] 尹首一教授報(bào)告:以“架構(gòu)”創(chuàng)新,突破算力卡脖子問(wèn)題.
[2] 極客灣 space.bilibili.com/25876945.
[3] 第八屆未來(lái)芯片論壇中英特爾中國(guó)研究院的報(bào)告.
[4] 北京大學(xué)新聞網(wǎng):專訪北大碳基芯片團(tuán)隊(duì):我們換道走了20年,覺(jué)得能走下去 (news.pku.edu.cn).
[5] AMD官網(wǎng) amd.com.
[6] Jouppi N, Kurian G, Li S, et al. Tpu v4: An optically reconfigurable supercomputer for machine learning with hardware support for embeddings[C]//Proceedings of the 50th Annual International Symposium on Computer Architecture. 2023: 1-14.
[7] 憶鑄科技官網(wǎng) (yizhu-tech.com).
[8] 知存科技官網(wǎng)(witintech.com).
[9] 從7nm到5nm,半導(dǎo)體制程 - 吳建明wujianming - 知乎(zhuanlan.zhihu.com/).
審核編輯 黃宇
-
芯片
+關(guān)注
關(guān)注
455文章
50816瀏覽量
423613 -
AI
+關(guān)注
關(guān)注
87文章
30894瀏覽量
269085 -
芯片制程
+關(guān)注
關(guān)注
0文章
51瀏覽量
4694 -
算力
+關(guān)注
關(guān)注
1文章
977瀏覽量
14810 -
存內(nèi)計(jì)算
+關(guān)注
關(guān)注
0文章
30瀏覽量
1380
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論