要說造芯這件事,不僅手機(jī)和汽車廠商熱衷于此,如今服務(wù)器廠商也紛紛投入自研大軍中來,無論是國內(nèi)的阿里云,還是國外的亞馬遜,在收購一大批芯片設(shè)計(jì)廠商網(wǎng)羅了一眾芯片設(shè)計(jì)精銳后,也開始推出基于自己芯片的服務(wù)器,所用工藝也已經(jīng)升級(jí)到了7nm和5nm。
此外,第三方服務(wù)器芯片廠商也順勢(shì)發(fā)力,打算為這些云服務(wù)廠商提供更高的吸引力,而不是讓他們整天想著節(jié)省成本用自研方案替換掉自己的產(chǎn)品。好在大部分云服務(wù)廠商自研的芯片主要還是集中在AI加速芯片和網(wǎng)絡(luò)芯片這一塊,CPU很大一部分仍是第三方的地盤。而在第三方的CPU設(shè)計(jì)中,我們可以看到多核已經(jīng)成了當(dāng)下的主流方案。
多核云端更吃香?
首先我們來看最常見也最直接的一種提升性能方式,堆核心。這種操作我們已經(jīng)在消費(fèi)芯片或是各個(gè)電子產(chǎn)品的宣傳術(shù)語中聽得耳朵生繭了,且向來都是一種相當(dāng)有效的性能提升方式。盡管則對(duì)芯片的面積限制較大,但不可否認(rèn)的是,在對(duì)面積沒那么看重的服務(wù)器市場(chǎng)上,走多核路線的芯片廠商越來越多。
AmpereComputing的AmpereAltra應(yīng)該是國內(nèi)出貨量最高的Arm服務(wù)器CPU系列了,這款最高128核的處理器已經(jīng)在不少云服務(wù)的實(shí)例上亮相。AmpereComputing與微軟Azure和OracleCloud達(dá)成了合作,在中國不僅擁有阿里云、騰訊云、京東云和UCloud這些公有云客戶,百度、美團(tuán)和字節(jié)跳動(dòng)等公司也在使用其產(chǎn)品。
AmpereAltraMax封裝 / AmpereComputing
再來看看英偉達(dá)的ArmCPU Grace,雖然采用了Arm的Neoverse參考設(shè)計(jì),但英偉達(dá)同樣選了144核的多核心設(shè)計(jì),那么為何多核在服務(wù)器上如此吃香呢?我們上面也提到了AmpereAltra在中國收獲了不小的市場(chǎng),其實(shí)歸根結(jié)底就是其多核心數(shù)的功勞。
國內(nèi)使用公有云的用戶數(shù)遠(yuǎn)超國外,對(duì)于云服務(wù)廠商來說,這種多核處理器意味著可以將單服務(wù)器切分為更多的vCPU,也就意味著更多的可用實(shí)例。這還沒完,以AmpereAltra為例,每個(gè)核心上只運(yùn)行單個(gè)線程,這樣即便多用戶同時(shí)使用下,依然能夠維持穩(wěn)定的性能。
Ampere處理器路線圖 / AmpereComputing
值得一提的是,Ampere近期發(fā)布了自研5nm處理器,AmpereOne,一個(gè)基于自研Arm核心的服務(wù)器處理器。這對(duì)于其他廠商來說或許無法實(shí)現(xiàn),但Ampere作為Arm架構(gòu)的授權(quán)商,是可以像高通、華為和蘋果等廠商一樣,開發(fā)定制自己的Arm核心的。
也或許是因?yàn)檫@次終于沒有繼續(xù)沿用ArmNeoverseN1或N2這樣的參考設(shè)計(jì),Ampere才將這一產(chǎn)品命名為AmpereOne。Ampere并沒有公布這一產(chǎn)品的核心數(shù),但從現(xiàn)有產(chǎn)品最小核心數(shù)也有32核的設(shè)計(jì),以及AmpereOne實(shí)物圖與AmpereAltraMax近似的封裝來推斷,這一新品追求的必然是更高性能的云原生應(yīng)用,而不是面向只需較低核心數(shù)就能滿足需求的邊緣計(jì)算市場(chǎng)。
服務(wù)器AI芯片靠數(shù)量和能耗制勝
與處理器芯片處理通用計(jì)算的多核策略不同,AI芯片的多核主要還是提高AI計(jì)算效率,而且單核能效比和單位面積效率往往高于傳統(tǒng)的處理器架構(gòu),導(dǎo)致核心數(shù)更多。以打造千核RISC-V AI芯片的Esperanto為例,其ET-SoC-1芯片基于臺(tái)積電7nm打造,集成了1092個(gè)RISC-V核心。
ET-SoC-1芯片 / Esperanto
但就是這樣一個(gè)千核芯片,卻可以做到20W以內(nèi)的功耗和570mm2的diesize。正因如此,即便單個(gè)ET-SoC-1的算力不及英偉達(dá)A100這類GPU,也可以憑借多塊芯片組成的AI加速器板卡來實(shí)現(xiàn)同等的性能,甚至低上一大截的功耗。
對(duì)于依賴陣列乘法器這類專用硬件和少量CPU核心的芯片,一旦問題不能完全由專用硬件解決,就會(huì)把任務(wù)交給有限的通用CPU核心。而Esperanto的ET-SoC-1方案中,上千顆通用RISC-V核心帶來的完全并行可以顯著加快執(zhí)行速度。何況哪怕相較于5nm而言,7nm的能效比也還是非常優(yōu)異的,所以更適合這類超多核心數(shù)的設(shè)計(jì),也更符合數(shù)字中心的低碳設(shè)計(jì)理念。
結(jié)語
有的讀者可能會(huì)有疑惑,既然多核能給服務(wù)器芯片帶來顯著的提升,為何英特爾或AMD這些x86服務(wù)器芯片廠商不設(shè)計(jì)百核以上的架構(gòu)呢?這就與CISC與RISC架構(gòu)的差異有關(guān)了,哪怕在同等工藝和同等核心數(shù)下,x86芯片的diesize也絕對(duì)要大于Arm和RISC-V芯片,而隨著diesize的增加,芯片的良率也會(huì)一并減少。再者就是多核下的并行問題了,一些通用計(jì)算任務(wù)在多核下的并行執(zhí)行效率并不高,而且會(huì)大幅提升復(fù)雜性。
-
芯片
+關(guān)注
關(guān)注
456文章
51019瀏覽量
425339 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9253瀏覽量
85743 -
服務(wù)器芯片
+關(guān)注
關(guān)注
2文章
123瀏覽量
19266
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論